Дискриминанатный анализ

diskriminant

С помощью дискриминантного анализа на основании некоторых признаков (любых независимых переменных) индивидуум может быть причислен к одной из двух (или к одной из нескольких) заданных заранее (номинальной переменной) групп.

Другими словами, у нас есть две (или несколько) группы (номинальная переменная) на которые делятся наши объекты, а также у нас есть много переменных (любых), от результатов которых зависит поподание человека в ту или иную  группу. Выводы дискриминатного анализа:
           прогноз каждого обэкта относительно его принадлежности к одной из групп (там, где прогноз не совподает с фактической принадлежностью к одной из групп – стоит обратить внимание, если % вероятности правдивости прогноза больше 60%);
           прогноз попадания объектов в ту или иную группу без заранее заданой фактической принадлежности, к какой либо из груп;
           процент вероятности правдивого прогноза.

Ø       в список «групирующая переменная» вносим номинальную переменную; с помощью кнопки «определить область» указываем область групп, которые будут принимать участие в дискриминантном анализе. В список «выделение переменной» мы можем также внести нужную нам номинальную переменную и задать в ней лиш одну группу, которая будет принимать участие в дискриминантном анализе;

Ø       в список «независимые» вносим любые переменные, которые могут характеризовать поподание наших объектов в ту или иную группу;

Ø       под списком «независимые» ставим галочку: использовать шаговый метод. По умолчанию стоит галочка: «ввести независимые вместе», это означает включение в дискриминантный анализ всех независимых переменных. Галочка: «использовать шаговый метод» дает возможность программе автоматически включать и исключать из анализа нужные и не нужные  переменные. По умолчанию параметры исключения и включения независимых переменных, которые можно изменять в меню «метод»,  сильно требовательны. По этой причине мы в праве немного изменить заданые по умолчанию параметры «использования шагового метода»:

Ø       галочки в меню «метод»: использовать значение F; задаем значение в графе «вход»: 1,125; задаем значение в графе «удаление»: 1;

Ø       галочки в меню «статистика»: средние, одномерный ANOVA, boxs М, нестандартизированые;

Ø       галочки в меню «класификация»: случайные результаты, итоговая таблица.

Сводка результатов обработки наблюдений

1.        Валидные – количество респондентов ответивших на все вопросы;
2.        Исключенные – количество респондентов не ответивших на все вопросы:
2.1.       Пропущенные или лежащие вне диапазона коды группирующей переменной – респонденты, не имеющие фактической принадлежности ни к одной из заданых групп дискриминантного анализа (отсутствие ответа в групирующей номинальной переменной); 
2.2.       По крайней мере, одна пропущенная дискриминантная переменная – респонденты, не ответившие на все вопросы независимых переменных;
2.3.       Оба групповых кода пропущены или лежат вне диапазона, и отсутствует, по крайней мере, одна дискриминантная переменная – респонденты, не ответившие на все вопросы независимых переменных и не имеющие фактической принадлежности ни к одной из заданых групп дискриминантного анализа (отсутствие ответа в групирующей номинальной переменной);
2.4.       Итого искл. – общее количество респондентов не ответивших на все вопросы:
3.        Всего наблюдений – общее количество респондентов.

Групповые статистики

1.        Среднее (арифметическое) – сумма всех значений деленное на их количество;
2.        Стд. отклонение – величина, характеризующая изменчивость (равняется квадратному корню из дисперсии);
3.        Кол-во валидных (искл.целиком):
2.1.    Невзвешенные – количество респондентов ответивших на все вопросы в данногй группе;
2.2.    Взвешенные – взвешенное количество респондентов ответивших на все вопросы в данной группе.

Критерий равенства групповых средних

1.        Лямбда Уилкса – отношение внутригрупповой суммы квадратов к общей сумме квадратов. Данный коэффициент характеризует долю дисперсии оценок дискриминантной функции, которая не обусловлена различиями между группами, принимает значение 1 в случае, если средние значения для всех груп оказываются равными, и уменьшается с ростом разностей средних значений. Уровень значимости характеризует вероятность того, что различия между группами являются случайными.
2.        F – разность средних значений данной переменной в заданных группах (чем больше значение, тем больше разность средних). Так мы выясняем, для каких переменных различие груп является значимым. Обязательно нужно учитывать статистическую значимость.
3.        ст.св.1 – вспомогательная величина.
4.        ст.св.2 – вспомогательная величина.
5.        р – статистическая значимость (не больше 0,05 считается значимым).

Критерий Бокса равенства ковариационных матриц Лог. определители

1.        Ранг – размер ковариационной матрици. Число в этом столбике (например, 5) соответствует числу переменных в дискриминантном уровнении и говорит о том, что матрица имеет размер 5*5;
2.        Лог. определитель – в этом столбце перечислены натуральные логарифмы определителей каждой из ковариационных матриц;
3.        Объединенные внутри групп – матрица, состоящая из средних значений ковариационных матриц, построеных для каждого уровня зависимой переменной.

Результаты теста

1.       M Бокса – критерий многомерной нормальности, основаный на близости значений определителей ковариационных матриц.
2.       F – близость значений определителей ковариационных матриц:
2.1.    Приблизительно – величина, характеризующая близость значений определителей ковариационных матриц
2.2.    ст.св.1 – вспомогательная величина;
2.3.    ст.св.2 – вспомогательная величина;
2.4.    р – статистическая значимость (не больше 0,05 считается значимым).
Если значимость превышает 0,05, данные характеризуются многомерной нормальностью. Если значимость равна или меньше 0,05, многомерная нормальность считается нарушеной, однако это не означает что дискриминантный анализ не приминим к данным; более того, включение в уравнение переменной, чье распределение отличаеться от нормального, иногда может улучшить результаты анализа. Отсутствие многомерной нормальности указывает лиш на то, что не все используемые переменные имеют нормальное распределение.

Введенные/исключенные переменные

1.       Лямбда Уилкса – отношение внутригрупповой суммы квадратов к общей сумме квадратов. Данный коэффициент характеризует долю дисперсии оценок дискриминантной функции, которая не обусловлена различиями между группами, принимает значение 1 в случае, если средние значения для всех груп оказываются равными, и уменьшается с ростом разностей средних значений. Уровень значимости характеризует вероятность того, что различия между группами являются случайными.
1.1.    Статистика – собствено значение Лямбды Уилкса;
1.2.    ст.св1 – вспомогательная величина.
1.3.    ст.св2 – вспомогательная величина.
1.4.    ст.св3 – вспомогательная величина.
1.5.    Точное значение F – разность средних значений данной переменной в заданных группах (чем больше значение, тем больше разность средних). Так мы выясняем, для каких переменных различие груп является значимым. Обязательно нужно учитывать статистическую значимость.
1.5.1. Статистика – собствено значение критерия F
1.5.2. ст.св1 – вспомогательная величина.
1.5.3. ст.св2 – вспомогательная величина.
1.5.4. р – статистическая значимость (не больше 0,05 считается значимым).

Переменные в анализе

1.       Толерантность – мера линейной зависимости между одной независимой переменной и всеми остальными. Значение выше 0,1 указывает на достоточный уровень толерантности. Если величина толерантности окажется меньше 0,001, SPSS воспримит такой результат как наличие значительной линейной зависимости и не включит соответствующую независимую переменную в дискриминатное уравнение.
2.       F исключения – максимальное значение F, при котором независимые переменные исключаются из дискриминантного уравнения.
3.       Лямбда Уилкса – отношение внутригрупповой суммы квадратов к общей сумме квадратов. Данный коэффициент характеризует долю дисперсии оценок дискриминантной функции, которая не обусловлена различиями между группами, принимает значение 1 в случае, если средние значения для всех груп оказываются равными, и уменьшается с ростом разностей средних значений.
После последнего шага показываются все переменные, которые имеют достаточный уровень толерантности и значение F-критерия, превышающие пороговое значение 1,125. Эти переменные будут принимать участие в дискриминантном уравнении. 

Переменные, не включенные в анализ

1.       Толерантность – мера линейной зависимости между одной независимой переменной и всеми остальными. Значение выше 0,1 указывает на достоточный уровень толерантности. Если величина толерантности окажется меньше 0,001, SPSS воспримит такой результат как наличие значительной линейной зависимости и не включит соответствующую независимую переменную в дискриминатное уравнение.
2.       Минимальная толерантность – минимальная мера линейной зависимости между одной независимой переменной и всеми остальными.
3.       F исключения – минимальное значение F, при котором независимые переменные включаються в дискриминантное уравнение.
4.       Лямбда Уилкса – отношение внутригрупповой суммы квадратов к общей сумме квадратов. Данный коэффициент характеризует долю дисперсии оценок дискриминантной функции, которая не обусловлена различиями между группами, принимает значение 1 в случае, если средние значения для всех груп оказываются равными, и уменьшается с ростом разностей средних значений.
После последнего шага показываются все переменные, которые могут иметь достаточный уровень толерантности и значение F-критерия, не превышающие пороговое значение 1,125. Эти переменные не будут принимать участие в дискриминантном уравнении. 

Лямбда Уилкса

1.       Число переменных – поочередное введение тех независимых переменных, которые будут принимать участие в дискриминантном уравнении. Они соответствуют тем переменным, которые были отображены на последнем шаге в таблице «переменные в анализе».
2.       Лямбда (Уилкса) – отношение внутригрупповой суммы квадратов к общей сумме квадратов. Данный коэффициент характеризует долю дисперсии оценок дискриминантной функции, которая не обусловлена различиями между группами, принимает значение 1 в случае, если средние значения для всех груп оказываются равными, и уменьшается с ростом разностей средних значений. Уровень значимости характеризует вероятность того, что различия между группами являются случайными.
3.       ст.св1 – вспомогательная величина.
4.       ст.св2 – вспомогательная величина.
5.       ст.св3 – вспомогательная величина.
6.       Точное значение F – разность средних значений данной переменной в заданных группах (чем больше значение, тем больше разность средних). Так мы выясняем, для каких переменных различие груп является значимым. Обязательно нужно учитывать статистическую значимость.
6.1.  Статистика – собствено значение критерия F
6.2.  ст.св1 – вспомогательная величина.
6.3.  ст.св2 – вспомогательная величина.
6.4.  р – статистическая значимость (не больше 0,05 считается значимым).
В списке включеных независимых переменных в дискриминантный анализ мы не редко можем найти переменные имеющие статистически не достоверное различие средних по заданым группам.Это связано с тем, что при включении переменных в дискриминантное уравнение учитывается не только дискриминативная способность каждой переменной в отдельности, но и ее уникальный вклад в совокупности с остольными переменными. 

Канонические дискриминантные функции Собственные значения

1.       Функция – число дискриминантных функций зависит от чила груп зависимой переменной принимаемых участие в нашем исследовании. Например, если группы 2 то функция 1, если групп 3 то функций 2;
2.       Собственное значение – отношение междугрупповой сумы квадратов к внутригрупповой суме квадратов. Чем больше данное значение, тем предпочтительнее для дискриминантного анлиза составленная функция;
3.       % объясненной дисперсии – дискриминантная функция всегда вычисляется для равной 100% дисперсии зависимой переменной;
4.       Кумулятивный % – дискриминантная функция всегда вычисляется для равной 100% дисперсии зависимой переменной
5.       Каноническая корреляция – кореляция между значениями дискриминантной функции.

Лямбда Уилкса (проверка дискриминантной функции)

1.       Лямбда Уилкса – отношение внутригрупповой суммы квадратов к общей сумме квадратов. Данный коэффициент характеризует долю дисперсии оценок дискриминантной функции, которая не обусловлена различиями между группами, принимает значение 1 в случае, если средние значения для всех груп оказываются равными, и уменьшается с ростом разностей средних значений;
2.       Хи-квадрат – мера статистического отличия друг от друга двух уровней дискриминанта. Чем больше данное значение, тем сильнее отличие и тем лучше дискриминантная функция соответствует своему назначению;
3.       ст.св. – количество переменных, входящих в состав дискриминантного уравнения;
4.       р – статистическая значимость (не больше 0,05 считается значимым).

Нормированные коэффициенты канонической дискриминантной функции

1.       Функция – список стандартизованых коэффициентов дискриминантного уравнения.

Структурная матрица

1.       Функция – корреляция между значениями дискриминантной функции и каждой из переменных. Переменные упорядочены по абсолютной величине корреляции.

Коэффициенты канонической дискриминантрой функции

1.       Функция – список не стандартизованых коэффициентов и константа дискриминантного уравнения. Это уравнение подобно линейному уравнению множественной регресии. Значение функции для каждого объекта подсчитывается по этому уравнению.

Функции в центроидах групп

1.        Функция – средние значения дискриминантной функции для двух групп. Более точно, центроид представляет собой значение финкции, получаемое при подстановке в дискриминатное уравнение средних значений предикторов. Обратите внимание, что центроиды равны по абсолютной величине, но имеют разные знаки. Граничным значением для двух групп является ноль.

Сводка классификации

1.       Обработано количество объектов принимавших участие в исследовании;
2.       Исключенные 2 – количество объектов исключенных из исследования:
2.1.       Пропущенные или лежащие вне диапазона коды групп 2 – респонденты, не имеющие фактической принадлежности ни к одной из заданых групп дискриминантного анализа (отсутствие ответа в групирующей номинальной переменной); 
2.2.       По крайней мере, одна пропущенная дискриминантная переменная – респонденты, не ответившие на все вопросы независимых переменных;
3.       Используется в выводе – количество объектов, результаты которых учитываются  в исследовании.

Априорные вероятности для групп

1.       Априорные – вероятность, характеризующая предпологаемое соотношение численности групп. Для каждой из двух груп она равна 0,5, если предпологается, что их численность одинакова.
2.       Наблюдения, использованные в анализе:
2.1.       Невзвешенные – количество респондентов ответивших на все вопросы в данногй группе;
2.2.       Взвешенные – взвешенное количество респондентов ответивших на все вопросы в данной группе.

Поточечные статистики

1.       Фактическая группа – фактической принадлежности к одной из заданых групп дискриминантного анализа (ответ в групирующей номинальной переменной);
2.       Наивероятнейшая группа – наивероятнейшее предсказание программы по принадлежности объекта к одной из заданых групп:
2.1.    Предсказанная группа – предсказаная программой пренадлежность объекта к одной из заданых групп дискриминантного анализа;
2.2.    P(D>d | G=g) – вероятность принадлежности объекта к группе (G) при данной величине дискриминантной функции (D);
2.2.1. р – собствено, вероятность принадлежности объекта к группе.
2.2.2. ст.св. – количество групп, входящих в состав дискриминантного уравнения;
2.3.    P(G=g | D=d) – вероятность наблюдаемого значения дискриминантной функции (D), если задана принадлежность объекта к группе (G);
2.4.    Квадрат расстояния Махалонобиса до центра – вспомогательная величина;
3.       Вторая вероятнейшая группа – второе наивероятнейшее предсказание программы по принадлежности объекта к одной из заданых групп:
3.1.    Группа – предсказаная программой пренадлежность объекта к одной из заданых групп дискриминантного анализа;
3.2.    P(G=g | D=d) – вероятность наблюдаемого значения дискриминантной функции (D), если задана принадлежность объекта к группе (G);
3.3.    Квадрат расстояния Махалонобиса до центра – вспомогательная величина;
4.       Дискриминантные баллы – величины, получаемые при подстановке значений переменных объекта в уравнение дискриминантной функции:
4.1.    Функция – значения дискриминантных баллов для данной функции.
Для объектов отмеченых двумя звездочками (**), фактическая и прогнозируемая группы не совпали. Эти не совпадения отображаеться в следующей таблице в процентах (%) вероятности прогнозируемого прогноза.

Результаты классификации

1.       Предсказанная принадлежность к группе – процент (%) вероятности прогнозируемого прогноза для каждой из груп.
Ниже под таблицей указывается общий процент вероятности прогнозируемого прогноза, на который мы ссылаемся при прогнозировании принадлежности объектов, не имеющие фактической принадлежности ни к одной из заданых групп дискриминантного анализа (отсутствие ответа в групирующей номинальной переменной).
 
С помощью меню «сохранить» мы можем сохранять в виде переменных в окне обзора данных SPSS for widous:
×            Предсказаную принадлежность к группе;
×            Дискриминантное множество;
×            Вероятности принадлежности к группе.


Экскурс в мир терминологии

ВНЯТЬ – отнестись со вниманием к чужим доводам, принять их врасчет при планировании своих действий, поступков.