Как сделать таблицу сопряженности

Добавил пользователь Алексей Ф.
Обновлено: 05.10.2024

При статистическом анализе данных очень важным является поиск зависимостей между переменными. Построение таблиц сопряженности – метод изучения взаимосвязи между категориальными переменными. Таблица сопряженности в простейшем виде представляют собой таблицу двумерного распределения категориальных переменных: строки таблицы задаются категориями одной переменной, а столбцы таблицы задаются категориями другой переменной. Таблицы сопряженности могут иметь многомерный характер. На практике таблицы размерностью более трех измерений редко анализируются по следующим причинам:

интерпретация таких таблиц достаточно затруднительна;
для анализа таких таблиц существуют специальные методы, такие как логлинейный анализ и деревья решений.

При анализе таблиц сопряженности важным является не только установить наличие связи между переменными. Для этого, как правило, используется тест независимости хи-квадрат или его модификации. Оценить силу и направление связи между переменными помогают различные тесты и критерии, основа расчета которых частоты из таблицы сопряженности:

В первый раз, когда я видел тест хи-квадрат таблицы непредвиденных расходов, когда читал книгу позавчера, я обнаружил, что это легко и относительно легко реализовать. Данные я реализовал на спайдер.

Это фрагмент данных мобильной игры, который содержит данные для входа в систему и базу данных пользователей для определенной мобильной игры с августа по сентябрь 2013 года. Это чтобы увидеть, какие факторы вызвали внезапное падение числа логинов с августа по сентябрь. Чтобы увидеть, какие факторы будут влиять на дно, прежде всего подумайте об анализе дисперсии, матрице корреляции и тесте хи-квадрат.

Во-первых, критерий хи-квадрат предназначен как для независимых, так и для зависимых переменных.Категориальные данныеТо есть данные с атрибутами, а однофакторный дисперсионный анализ состоит в том, что независимой переменной являются категориальные данные, а зависимой переменнойНепрерывные данные。Еще один момент: ANOVA - это тест параметров, а критерий хи-квадрат - непараметрический тест.

Как сделать хи-квадрат таблицы сопряженности?

Тест хи-квадрат очень универсаленПроверка гипотезМетод, его применение в статистическом выводе секретных данных, в том числе: критерий хи-квадрат для сравнения двух скоростей или двухкомпонентных соотношений, критерий хи-квадрат для сравнения множественных скоростей или множественных соотношений иКорреляционный анализИ так далее.
Критерий хи-квадрат представляет собой степень отклонения между фактическим значением наблюдения статистической выборки и теоретическим выведенным значением, а степень отклонения между фактическим значением наблюдения и теоретическим выведенным значением определяет размер значения хи-квадрат. Чем меньше значение хи-квадрат, тем меньше отклонение и тем больше оно имеет тенденцию совпадать. Если два значения полностью равны, значение хи-квадрат равно 0, что указывает на то, что теоретическое значение полностью соответствует. Примечание: критерий хи-квадрат предназначен для категориальных переменных

Конечно, необходимо провести проверку гипотез:

Согласно картине Ду Ньянга:

1. В скобках указаны теоретические значения или ожидаемые значения, рассчитанные в соответствии с вероятностью наблюдаемого значения.

2. Внизу и справа - суммирование по разным классификационным данным. Каким образом сумма в правом столбце и в нижней части равна 200?

3. Как рассчитать вероятность и теоретическое значение:

4. Положим теоретические значения прямо в таблицу, формула для хи-квадрат:Где А - фактическое значение, а Т - теоретическое значение.

5. Наконец, посмотрите таблицу на основе полученного значения хи-квадрат, чтобы получить результат.

Вернуться к этому вопросу:

Реализовано в Spyder

Выше это нормальная работа

Здесь первое слияние, потому что это два файла, использующих форму левого соединения и SQL. Затем проанализируйте на основе изображения.

Общая тенденция пошла вниз и внезапно немного обострилась в начале сентября.

Дальнейший анализ, почему это так

Месяц сначала извлекается здесь, потому что тест хи-квадрат должен классифицировать данные

Здесь я написал 3 пользовательских функции для вывода отчета

Общая идея состоит в том, чтобы сначала извлечь атрибуты, а затем выполнить цикл по соответствующим данным, чтобы вычислить общую сумму, и, наконец, преобразовать в формат numpy.array, в соответствии с методом chi2_contingency в scipy stats для теста на корреляцию, есть параметр, называемый коррекцией , Корректировка непрерывности. По умолчанию True. Это потому, что коррекция используется, когда все теоретические значения меньше 5, а размер выборки меньше 40 или размер выборки больше 40, а теоретическое значение меньше 5 или одна сетка.

Оба набора факторов здесь возвращали значения р менее 0,05 при уровне значимости 0,05

Поэтому, чтобы дополнительно взглянуть на соответствующие данные, здесь приведена перекрестная таблица с использованием панд, конечно же, поворотная таблица также возможна.

Первоначально основными игроками мобильной игры являются игроки 20-го и 30-го поколений, в это время сравниваются различия между каждой возрастной группой в августе и сентябре и пропорцией в каждом месяце, то есть сравнивается разрыв между группами. Внутригрупповой разрыв

По сравнению с этим одним, доля каждой возрастной группы в каждом месяце фактически одинакова. Глядя на разрыв между группами, вы можете обнаружить, что за исключением 40 поколений, другая поддерживается на уровне примерно 20%, как выброс, Вы можете попытаться выбрать данные 40-го поколения, а затем проверить их.

Вернуться к отчету

Значение р больше 0,05. Я лично считаю, что, хотя оно больше 0,05, все еще существуют некоторые факторы возраста, которые слишком слабы по сравнению со следующими факторами.

Видно, что Android внезапно рухнул, а IOS в основном сохранил свой должный уровень, похоже, ответ вышел.

Предварительные суждения показывают, что у пользователей Android есть проблемы с оптимизацией.

Выше приведен тест хи-квадрат с использованием Python. Вы также можете рассмотреть возможность использования корреляционной матрицы

Для кросс-таблицы, которая объединяется путем суммирования, усреднения и т. Д. (А не только путем подсчета), см. Сводную таблицу .

Важнейшей проблемой многомерной статистики является поиск структуры (прямой) зависимости, лежащей в основе переменных, содержащихся в многомерных таблицах непредвиденных обстоятельств. Если обнаружится некоторая условная независимость , то даже хранение данных может быть выполнено более разумным способом (см. Lauritzen (2002)). Для этого можно использовать концепции теории информации , которые получают информацию только из распределения вероятностей, которое можно легко выразить из таблицы непредвиденных обстоятельств с помощью относительных частот.

Сводная таблица является способом создания таблицы сопряженности с использованием программного обеспечения с электронными таблицами.

Содержание

Предположим, есть две переменные: пол (мужской или женский) и праворукость (правша или левша). Далее предположим, что 100 человек были случайным образом выбраны из очень большой популяции в рамках исследования половых различий в руке. Таблица непредвиденных обстоятельств может быть создана для отображения количества людей, которые являются мужчинами-правшами и левшами, женщинами-правшами и левшами. Такая таблица непредвиденных обстоятельств показана ниже.

Количество самцов, самок, правшей и левшей называется предельным итогом . Общий итог (общее количество людей, представленных в таблице непредвиденных обстоятельств) - это число в правом нижнем углу.

Таблица позволяет пользователям сразу увидеть, что доля правшей мужчин примерно такая же, как и доля правшей женщин, хотя пропорции не идентичны. Сила ассоциации может быть измерена отношением шансов , а отношение шансов популяции оценивается отношением шансов выборки . Значение разности между двумя пропорциями могут быть оценены с различными статистическими тестов , включая хи-квадрат тест Пирсона , тем G -test , точный критерий Фишера , тест Boschloo в и тест Барнарда, при условии, что записи в таблице представляют людей, случайно выбранных из совокупности, о которых следует сделать выводы. Если пропорции людей в разных столбцах значительно различаются между строками (или наоборот), говорят, что между двумя переменными существует непредвиденное обстоятельство . Другими словами, две переменные не независимы. Если нет непредвиденных обстоятельств, говорят, что две переменные независимы .

Приведенный выше пример представляет собой простейший вид таблицы непредвиденных обстоятельств, таблицы, в которой каждая переменная имеет только два уровня; это называется таблицей непредвиденных обстоятельств 2 × 2. В принципе, можно использовать любое количество строк и столбцов. Также может быть более двух переменных, но таблицы непредвиденных обстоятельств более высокого порядка трудно представить визуально. Связь между порядковыми переменными или между порядковыми и категориальными переменными также может быть представлена в таблицах непредвиденных обстоятельств, хотя такая практика встречается редко. Для получения дополнительной информации об использовании таблицы непредвиденных обстоятельств для связи между двумя порядковыми переменными см. Гамму Гудмана и Крускала .

Несколько столбцов (исторически они были предназначены для использования всего белого пространства печатной страницы). Если каждая строка относится к определенной подгруппе населения (в данном случае мужчинам или женщинам), столбцы иногда называют точками заголовка или сокращениями (а строки иногда называют заглушками ).
Тесты значимости. Как правило, это либо сравнения столбцов , которые проверяют различия между столбцами и отображают эти результаты с помощью букв, либо сравнения ячеек , которые используют цвет или стрелки для идентификации ячейки в таблице, которая каким-либо образом выделяется.
Сети или нетты, являющиеся промежуточными итогами.
Один или несколько из следующих значений: проценты, проценты строк, проценты столбцов, индексы или средние значения.
Невзвешенные размеры выборки (количество).

Степень связи между двумя переменными можно оценить с помощью ряда коэффициентов. В следующих подразделах описаны некоторые из них. Для более полного обсуждения их использования см. Основные статьи, ссылки на которые есть под заголовком каждого подраздела.

Простейшей мерой ассоциации для таблицы непредвиденных обстоятельств 2 × 2 является отношение шансов . Для двух событий, A и B, отношение шансов определяется как отношение шансов A в присутствии B и шансов A в отсутствие B или, что эквивалентно (из-за симметрии), отношения шансов из B при наличии A и шансов B при отсутствии A. Два события независимы тогда и только тогда, когда отношение шансов равно 1; если отношение шансов больше 1, события положительно связаны; если отношение шансов меньше 1, события связаны отрицательно.

Отношение шансов имеет простое выражение в терминах вероятностей; учитывая совместное распределение вероятностей:

Простая мера, применимая только в случае таблиц непредвиденных обстоятельств 2 × 2, - это коэффициент phi (φ), определяемый формулой

где χ 2 вычисляется, как в критерии хи-квадрат Пирсона , а N - общая сумма наблюдений. φ изменяется от 0 (что соответствует отсутствию связи между переменными) до 1 или -1 (полная ассоциация или полная обратная ассоциация), при условии, что он основан на частотных данных, представленных в таблицах 2 × 2. Тогда его знак равен знаку произведения главных диагональных элементов таблицы минус произведение недиагональных элементов. φ принимает минимальное значение -1,0 или максимальное значение +1,0 тогда и только тогда, когда каждая предельная пропорция равна 0,5 (и две диагональные ячейки пусты). [2]

Две альтернативы являются коэффициент сопряженности C , а V Крамера .

Формулы для коэффициентов C и V :

k - количество строк или количество столбцов, в зависимости от того, что меньше.

Недостатком C является то, что он не достигает максимального значения 1.0, в частности, максимальное значение, которое он может достичь в таблице 2 × 2, составляет 0,707. Он может достигать значений, близких к 1,0 в таблицах непредвиденных обстоятельств с большим количеством категорий; например, он может достигать максимум 0,870 в таблице 4 × 4. Поэтому его не следует использовать для сравнения ассоциаций в разных таблицах, если они имеют разное количество категорий. [3]

C можно настроить так, чтобы он достигал максимума 1,0, когда в таблице есть полная ассоциация с любым количеством строк и столбцов, путем деления C на, где k - количество строк или столбцов, когда таблица имеет квадратную форму [ необходима ссылка ] , или где r - количество строк, а c - количество столбцов. [4] k - 1 k >>> r − 1 r × c − 1 c 4 ]\times >>>

Другой вариант - коэффициент тетрахорической корреляции, но он применим только к таблицам 2 × 2. Полихорическая корреляция - это расширение тетрахорической корреляции на таблицы, включающие переменные с более чем двумя уровнями.

Коэффициент тетрахорической корреляции не следует путать с коэффициентом корреляции Пирсона, вычисляемым путем присвоения, скажем, значений 0,0 и 1,0 для представления двух уровней каждой переменной (что математически эквивалентно коэффициенту φ).

Коэффициент лямбда является мерой прочности ассоциации поперечных таблиц , когда переменные измеряются на номинальном уровне . Значения варьируются от 0,0 (нет ассоциации) до 1,0 (максимально возможная ассоциация).

Асимметричная лямбда измеряет процентное улучшение прогнозирования зависимой переменной. Симметричная лямбда измеряет процентное улучшение, когда прогнозирование выполняется в обоих направлениях.

Коэффициент неопределенности или U Тейла - еще одна мера для переменных на номинальном уровне. Его значения варьируются от -1,0 (100% отрицательная ассоциация или идеальная инверсия) до +1,0 (100% положительная ассоциация или полное совпадение). Значение 0,0 указывает на отсутствие ассоциации.

Кроме того, коэффициент неопределенности является условной и асимметричной мерой ассоциации, которая может быть выражена как

Это свойство асимметричности может привести к пониманию, которое не так очевидно при симметричных показателях ассоциации. [7]

Таблица сопряженности - средство представления совместного распределения двух переменных, предназначенное для исследования связи между ними. Таблица сопряженности является наиболее универсальным средством изучения статистических связей, так как в ней могут быть представлены переменные с любым уровнем измерения.

Строки таблицы сопряженности соответствуют значениям одной переменной, столбцы - значениям другой переменной (количественные шкалы предварительно должны быть сгруппированы в интервалы). На пересечении строки и столбца указывается частота совместного появления f_ij соответствующих значений двух признаков x_i и y_j. Сумма частот по строке f_i называется маргинальной частотой строки; сумма частот по столбцу f_j - маргинальной частотой столбца. Сумма маргинальных частот равна объему выборки n; их распределение представляет собой одномерное распределение переменной, образующей строки или столбцы таблицы.

В таблицах сопряженности могут быть представлены как абсолютные, так и относительные частоты (в долях или процентах). Относительные частоты могут рассчитываться по отношению:

к маргинальной частоте по строке
к маргинальной частоте по столбцу
к объему выборки

Таблицы сопряженности используются для проверки гипотезы о наличии связи между двумя признаками ( Статистическая связь, Критерий "хи-квадрат" ), а также для измерения тесноты связи ( Коэффициент фи, Коэффициент контингенции, Коэффициент Крамера)

Критерий "хи-квадрат" для анализа таблиц сопряженности

Гипотеза H₀: переменные x и y независимы. Пусть имеется таблица сопряженности KxL, построенная для переменных x и y:

1	.	j	.	L
1
.
i	n_ij
.
K

Введем следующие обозначения:

- наблюдаемая частота (i,j)
- ожидаемая частота при H₀
Статистика

Для создания таблиц сопряженности и вычисления меры связанности на их основе используются команды меню Analyze (Анализ) - Descriptive Statistics (Дескриптивные статистики) - Crosstabs. (Таблицы сопряженности).

Используем пример исследования психического состояния студентов, социального положения и успеваемости (файл studium.sav).

• Загрузите файл studium.sav и выберите команды меню Analyze (Анализ) - Descriptive Statistics (Дескриптивные статистики) - Crosstabs. (Таблицы сопряженности). Откроется диалоговое окно Crosstabs (рис. 49).

Рис. 49. Диалоговое окно Crosstabs (Таблицы сопряженности)

Список исходных переменных содержит переменные открытого файла данных. Здесь можно выбрать переменные для строк и столбцов таблицы сопряженности. Для каждого сочетания двух переменных будет создана таблица сопряженности. Например, если в списке строк (Rows) находится три переменных, а в списке столбцов (Columns) — две, то получим 3*2 = 6 таблиц сопряженности.

Построим таблицу сопряженности из переменных sex (пол) и psyche (психологическое состояние). Выполните следующие действия:

• Перенесите переменную sex в список строк, а переменную psyche — в список столбцов.
• Щелкните на ОК, и будет создана таблица сопряженности в стандартном формате. В окне просмотра будут показаны следующие таблицы (рис.50,51).

Рис. 50. Фрагмент 1 экрана результатов построения таблицы сопряженности: Таблица информации о числе наблюдений

Рис. 51. Фрагмент 2 экрана результатов построения таблицы сопряженности

Первая таблица (рис. 50) содержит информацию о числе самих наблюдений; два наблюдения содержат пропущенные значения по крайней мере в одной из двух участвующих переменных. Вторая таблица — это собственно таблица сопряженности.

Если для таблицы сопряженности приняты параметры по умолчанию, в каждой ячейке отображается только абсолютная частота. Метки переменных и значений в таблице соответствуют определениям переменных в файле данных SPSS. Числа в последней строке и в последнем столбце (Всего) показывают суммы значений соответственно по строкам и столбцам.

В данном примере суммы по строкам указывают, что 44 (16+18+9+1) опрошенных — лица женского пола, а 62 — мужского. Суммы по столбцам показывают, что 19 опрошенных (16 + 3) оценивают свое психологическое состояние как крайне неустойчивое, 40 как неустойчивое, 41 как устойчивое и 6 как очень устойчивое. При анализе принимались в расчет 106 допустимых наблюдений. Полученные результаты можно интерпретировать следующим образом:

Даже первое впечатление, которое возникает при анализе таблицы сопряженности, свидетельствует о том, что зависимость между переменными Пол и Психическое состояние существует. Женщины считают свое психическое состояние более неустойчивым, чем мужчины. Исследуем эту зависимость более детально; для этого нам понадобится точно ответить на следующие вопросы:

? Существует ли зависимость вообще?
? Что можно сказать об интенсивности этой зависимости?
? Что можно сказать о направлении и характере этой зависимости?

Более тщательно исследовать существование зависимости позволяет вычисление значений ожидаемых частот. Чтобы определить эти значения, необходимо произвести следующие действия.

• Выполните команды Analyze (Анализ) - Descriptive Statistics (Дескриптивные статистики) - Crosstabs. (Таблицы сопряженности).

В списке строк должна стоять переменная sex, а в списке столбцов — переменная psyche.

• Щелкните на кнопке Cells. (Ячейки). Откроется диалоговое окно Crosstabs: Cell Display (Таблицы сопряженности: Отображение ячеек) (рис. 52).

Рис. 52. Диалоговое окно Crosstabs: Cell Display (Таблицы сопряженности: Отображение ячеек)

По умолчанию в ячейках таблицы сопряженности отображаются только наблюдаемые значения. В группе Counts (Частоты) можно выбрать один или более следующих вариантов отображения:

? Observed (наблюдаемые): Будут отображаться наблюдаемые частоты. Это настройка по умолчанию.
? Expected (Ожидаемые): Если установить этот флажок, будут отображаться ожидаемые частоты. Они вычисляются как произведение сумм соответствующей, строки и столбца, деленное на общую сумму частот.
• Установите флажок Expected.
• Щелкните на кнопке Continue, а затем на ОК. Вы получите следующую таблицу сопряженности (рис. 53).

Рис. 53. Фрагмент экрана результатов построения таблицы сопряженности

Теперь под наблюдаемыми частотами (Count) появились ожидаемые значения (Expected Count). Эти данные мы можем интерпретировать следующим образом.

Таблица результатов сравнения абсолютных и ожидаемых частот для значений переменной

крайне неустойчивое; неустойчивое

очень устойчивое; устойчивое

абс. частота > ожидаемой частоты

абс. частота ожидаемой частоты

Таким образом, наше первоначальное впечатление, что женщины считают свое психическое состояние менее устойчивым, чем мужчины, подтверждается.

Еще одну возможность выявления существования зависимости между переменными дает вычисление остатков. Эти остатки являются показателем того, насколько сильно наблюдаемые и ожидаемые частоты отклоняются друг от друга.

Чтобы получить остатки частот, выполните следующие действия:

• Выберите в меню команды Analyze (Анализ.) - Descriptive Statistics (Дескриптивные статистики) - Crosstabs. (Таблицы сопряженности).

В списке переменных строк у нас должна стоять переменная sex, а в списке переменных, столбцов — переменная psyche.

• Щелкните на кнопке Cells. Флажки Observed и Expected следует осВ группе Residuals (Остатки) можно выбрать один или более следующих вариантов отображения:
? Unstandardized (Ненормированные): Отображаются ненормированные остатки, то есть разность наблюдаемых (f₀) и ожидаемых (/.) частот.
? Standardized (Нормированные): Отображаются нормированные остатки. Для этого ненормированные остатки делятся на квадратный корень из ожидаемой частоты:

Нормированные остатки полезны при последующем проведении анали за тестов по критерию х 7 -

• Adj. standardized (Уточненные нормированные): Нормированные остатки вычисляются с учетом сумм по строкам и столбцам:

Здесь z — сумма по текущей строке, s — сумма по текущему столбцу; N — общая сумма частот.

• Установите флажок Unstandardized.
• Щелкните на кнопке Continue, а в главном диалоговом окне — на ОК. Вы получите следующую таблицу сопряженности (рис. 54).

Можно заметить, что каждый остаток равен разности наблюдаемой и теоретически ожидаемой частот в данной ячейке (например, в первой ячейке 16 - 7,9 = 8,1). Остатки делают еще более заметной противоположную тенденцию самооценки у мужчин и женщин.

Таблицы сопряженности, которые мы рассмотрели выше, имеют тот недостаток, что в них приводятся только абсолютные значения. Чтобы узнать, насколько эти значения важны по отношению к общему количеству, надо определить их процентную долю.

Рис. 54. Фрагмент экрана результатов построения таблицы сопряженности

Для вычисления процентных значений произведите следующие действия:

• Выполните команды Analyze (Анализ) - Descriptive Statistics (Дескриптивные статистики) - Crosstabs. (Таблицы сопряженности)
• Не изменяя прежних настроек, щелкните на кнопке Cells. Откроется диалоговое окно Crosstabs: Cell Display (Таблицы сопряженности: Отображение ячеек). В группе Percentages (Проценты) можно выбрать один или более из нижеследующих вариантов отображения:

Row (По строкам): Вычисляются процентные значения по строкам: количество наблюдений в каждой ячейке, отнесенное к сумме по строке.

Column (По столбцам): Вычисляются процентные значения по столбцам: количество наблюдений в каждой ячейке в отношении к сумме столбца.

Total (Полные): Вычисляются полные процентные значения: количество

во наблюдений в каждой ячейке, отнесенное к обшей сумме наблюдений.

• Установите флажки Row, Column и Total.
• Щелкните на кнопке Continue, а в главном диалоговом окне — на ОК. В окне просмотра результатов будет получена таблица сопряженности (рис. 55).

Рис. 55. Фрагмент экрана результатов построения таблицы сопряженности (с

процентными значениями)

? 16 из 44 женщин-респонденток или 36,4% от общего числа опраши-

Можно также сделать следующие общие выводы:

На вопрос, существует ли зависимость между переменными пол и психологическое состояние, наиболее ясный ответ в данном примере дают процентные частоты по столбцам. Эти частоты сведены в следующую таблицу:

Читайте также: