Перекрестные табличные данные

perekrestnie_dannie

Создаются таблицы сопряженности, в которых отображаются частоты номинальной переменной (в редких случаях, порядковой или метрической, но исключительно для частотной таблицы) разбитые на подгруппы, которые задаются другой номинальной переменной. На основе полученных данных определяется сила связи между номинативными переменными.

Ø        в список «ряды» вносим номинальную переменную (в целях лишь частотного анализа можно внести любую переменную;

Ø        в список «колонки» вносим номинальную либо порядковую переменную (разбивает переменные в списке «ряды» на подгруппы);

Ø        добавляем номинальные переменные в список  «слой» (с помощью кнопки далее их можно добавлять бесконечно) таким образом мы еще больше разбиваем таблицу частот на подгруппы;

Ø        галочки в меню «статистика»: отмечаем все;

Ø        галочки в меню «ячейки»: отмечаем все.

Сводка обработки наблюдений

1.        N – количество респондентов.

2.        N валидные – количество (правильных) ответов.

3.        N пропущенные – количество неправильных или пропущенных ответов на данный вопрос.

4.        Процент.

Таблица сопряженности

1.        Частота – частота встречаемости всех ответов номинальных или метрических переменных разбитых на подгруппы заданные номинальными переменными.

2.        Ожидаемая частота.

3.        % по категории переменной (по строкам) – количество наблюдений в каждой ячейке, отнесенное к сумме по строке.

4.        % по категории переменной (по столбцам) - количество наблюдений в каждой ячейке в отношении к сумме столбца.

5.        % по категории переменной (по слою) – количество наблюдений в каждой ячейке, отнесенное к общей сумме наблюдений.

6.        Остаток – разность наблюдаемых и ожидаемых частот.

7.        Стандартиз. остаток – ненормированные остатки делятся на квадратный корень из ожидаемой частоты.

8.        Скоррект. остаток – нормированные остатки вычисляются с учетом сумм по строкам и столбцам.

Критерии хи-квадрат

1.        Хи-квадрат сила связи между номинативными переменными (показатели одной номинальной переменной зависят от показателей другой номинальной переменной – если результат статистически значим). Необходимые условия: 1) ожидаемые частоты < 5 должны встречаться не более чем в 20 % полей таблицы; 2) суммы по строкам и столбцам всегда должны быть больше нуля.

2.        Поправка на непрерывность – выполняется только как поправка для таблиц 2*2 (функции такие же как и у хи-квадрат).

3.        Отношение правдоподобия – альтернатива формулы Пирсона хи-квадрат, при большом объеме выборки формула дает очень близкие результаты с формулой Пирсона.

4.        Точный критерий Фишера – выполняется в том случае если в 25,0% ячейках ожидаемая частота меньше 5 (при наличии прописывается под таблицей) и показывает точную статистическую значимость двух сторон для хи-квадрат.

5.        Линейно-линейная связь – коэффициент корреляции (нужно понимать, что корреляция имеет значение для упорядоченных значений переменной, а не просто несвязанные номинальные значения).

6.        Критерий МакНемара – применяется исключительно при наличии дихотомических переменных и определяется по своей статистической значимости.

Направленные меры

1.       Номинальная по номинальной – строго для определения зависимости номинальных переменных.

1.1. Лямбда – относительное сокращение ошибки, где ошибка это выбор не в пользу наиболее часто встречаемому ответу: Лямбда = (ошибка при первом прогнозе — ошибка при втором прогнозе)/ошибка при первом. Чем ближе ее значение к 0, тем меньше вторая переменная помогает в уточнении предсказания первой и тем меньше соответственно их зависимость друг от друга.

·    Симметричная – если ни одну из выбранных переменных нельзя объявить зависимой;

·    Зависимая первая переменная – значения с учетом того, что первая переменная зависимая;

·    Зависимая вторая переменная – значения с учетом того, что вторая переменная зависимая.

1.2. Тау Гудмена и Краскала – так же сокращение ошибки, но в отличии от лямбды вначале той же самой формулы наблюдаемые частоты взвешиваются с учетом своих процентов и складываются. Чем ближе ее значение к 0, тем меньше вторая переменная помогает в уточнении предсказания первой и тем меньше соответственно их зависимость друг от друга.

·    Зависимая первая переменная – значения с учетом того, что первая переменная зависимая;

·    Зависимая вторая переменная – значения с учетом того, что вторая переменная зависимая.

1.3. Коэффициент неопределенности – степень неточности предсказаний (в диапазоне от 0 до 1). Значение 1 говорит о том, что одну переменную можно точно предсказать по значениям другой.

·    Симметричная – если ни одну из выбранных переменных нельзя объявить зависимой;

·    Зависимая первая переменная – значения с учетом того, что первая переменная зависимая;

·    Зависимая вторая переменная – значения с учетом того, что вторая переменная зависимая.

2.        Порядковая по порядковой – строго для определения зависимости порядковых переменных.

2.1. d Сомерса – на основе инверсий (число нарушений порядка расположения второй переменной по отношению к первой и есть инверсии) определяется степень зависимости значений первой переменной от второй. 1 говорит про полную зависимость, -1 говорит про разнонаправленную зависимость, 0 говорит про отсутствие зависимости.

·    Симметричная – если ни одну из выбранных переменных нельзя объявить зависимой;

·    Зависимая первая переменная – значения с учетом того, что первая переменная зависимая;

·    Зависимая вторая переменная – значения с учетом того, что вторая переменная зависимая.

3.       Номинальная по интервальной – для определения зависимости любых переменных.

3.1.    Эта – применяется, если зависимая переменная принадлежит к интервальной шкале, а независимая — к порядковой или шкале наименований. Представляет собой долю общей дисперсии, которую можно объяснить влиянием независимой переменной.

Симметричные меры

1.        Номинальная по номинальной – строго для определения зависимости номинальных переменных.

1.1. Фи – сила связи между номинативными переменными в виде коэффициента (лежит в пределах от 0 до 1), может использоваться только для таблиц 2*2.

1.2. V Крамера – сила связи между номинативными переменными в виде коэффициента (лежит в пределах от 0 до 1), является модификацией Фи и может использоваться для таблиц с любым количеством полей.

1.3. Коэффициент сопряженности – сила связи между номинативными переменными в виде коэффициента (лежит в пределах от 0 до 1), строго зависит от общего количества полей таблицы, и для двух таблиц с разным количеством полей несопоставим.

1.4. р – статистическая значимость (не больше 0,05 считается значимым).

1.       Порядковая по порядковой – строго для определения зависимости порядковых переменных.

2.1. Тау-b Кендалла коэффициент одновременно учитывает связи как зависимых, так и независимых переменных. может приобретать значения -1 и +1 только для квадратных таблиц сопряженности.

2.2. Тау-c Кендалла – этот критерий может достигать значений -1 и +1 в любых таблицах

2.3. Гамма – на основе инверсий (число нарушений порядка расположения второй переменной по отношению к первой и есть инверсии) определяется степень зависимости значений первой переменной от второй. 1 говорит про полную зависимость, -1 говорит про разнонаправленную зависимость, 0 говорит про отсутствие зависимости.

2.4. Корреляция Спирмена – от -1 до 1 с учетом р.

3.        Номинальная по интервальной – для определения зависимости любых переменных.

3.1   R Пирсона – от -1 до 1 с учетом р.

3.2   Капа – только для квадратных таблиц 2*2, в которых применяются одинаковые числовые кодировки.

Оценка риска

исключительно для таблиц 2*2

1.        Отношение шансов для … – общие шансы попасть в категорию наименьших ответов.

2.        Для когорты (да) – шансы одной подгруппы (логически определить у какой подгруппы больше шансов попасть в эту клетку) попасть в клетку ответов да.

3.        Для когорты (нет) – шансы одной подгруппы (логически определить у какой подгруппы больше шансов попасть в эту клетку) попасть в клетку ответов нет.

Графическое представление

1.       Столбиковые диаграммы – показывает частоту распределения.



Экскурс в мир терминологии

МОРФЕМА (от греч. morphe — форма) — минимальная значимая часть слова, простейший языковой знак, а именно корень и аффиксы (приставки, суффиксы, окончание). Термин и понятие ввел в 1881 г. рос. и польский лингвист Бодуэн де Куртенэ (1845-1929).