Как сделать корреляцию по спирмену

Добавил пользователь Алексей Ф.
Обновлено: 04.10.2024

В статье раскрывается связь математической науки и социологических исследований. Приводятся методы исследования зависимости между различными величинами, описывающими некоторые признаки объекта.

Похожие темы научных работ по математике , автор научной работы — Кошелева Н. Н.

Исследование параметрических и непараметрических методов определения коэффициента корреляции данных с анормальными законами распределения

КОРРЕЛЯЦИОННЫЙ АНАЛИЗ И ЕГО ПРИМЕНЕНИЕ ДЛЯ ПОДСЧЕТА РАНГОВОЙ КОРРЕЛЯЦИИ СПИРМЕНА

В статье раскрывается связь математической науки и социологических исследований. Приводятся методы исследования зависимости между различными величинами, описывающими некоторые признаки объекта.

Ключевые слова: корреляция, корреляционный анализ, коэффициенты корреляции, ранговая корреляция Спирмена.

Keywords: correlation,correlation analysis, factors of correlation, Spirmen'srangovy correlation.

Корреляция изучается на основании экспериментальных данных, представляющих собой измеренные значения (xi, yi) двух признаков. Если экспериментальных данных немного, то двумерное эмпирическое распределение представляется в виде двойного ряда значений xi и yi. При этом корреляционную зависимость между признаками можно описывать разными способами. Соответствие между аргументом и функцией может быть задано таблицей, формулой, графиком и так далее.

Корреляционный анализ - раздел математической статистики, объединяющий практические методы исследования корреляционной связи между двумя и более случайными признаками или факторами.

Цель корреляционного анализа — обеспечить получение некоторой информации об одной переменной с помощью другой переменной. В случаях, когда возможно достижение цели, говорят, что переменные коррелируют. В самом общем виде принятие гипотезы о наличии корреляции означает, что изменение значения переменной X произойдет одновременно с пропорциональным изменением значения Y [2].

Корреляционная связь не предполагает причинной зависимости между переменными. Корреляционный анализ может использоваться для определения тесноты и направления связи и в причинных моделях. Инструментами корреляционного анализа являются разнообразные меры связи. Выбор мер (коэффициентов) связи зависит от способов измерения переменных и характера связи между ними.

Корреляционный анализ, как и другие статистические методы, основан на использовании вероятностных моделей, описывающих поведение исследуемых признаков в некоторой генеральной совокупности, из которой получены экспериментальные значения x^ yi.

Когда исследуется корреляция между количественными признаками, значения которых можно точно измерить в единицах метрических шкал (метры, секунды, килограммы и так далее), то очень часто принимается модель двумерной нормально распределенной генеральной совокупности. Такая модель отображает зависимость между переменными величинами xi и yi графически в виде геометрического места точек в системе прямоугольных координат. Эту графическую зависимость называют также диаграммой рассеивания или корреляционным полем.

Данная модель двумерного нормального распределения позволяет дать наглядную графическую интерпретацию коэффициента корреляции, так как распределение в совокупности зависит от пяти параметров: mx, my - средние значения (математические

© Кошелева Н.Н., 2012 г.

ожидания); sx,sy - стандартные отклонения случайных величин Х и Y и р - коэффициент корреляции, который является мерой связи между случайными величинами Х и Y.

Если р = 0, то значения, хъ у;, полученные из двумерной нормальной совокупности, располагаются на графике в координатах х, у в пределах области, ограниченной окружностью. В этом случае между случайными величинами Х и Y отсутствует корреляция, и они называются некоррелированными. Для двумерного нормального распределения некоррелированность означает одновременно и независимость случайных величин Х и Y.

Если р = 1 или р = -1, то между случайными величинами Х и Y существует линейная функциональная зависимость ^ = с + dX). В этом случае говорят о полной корреляции. При р = 1 значения хъ у; определяют точки, лежащие на прямой линии, имеющей положительный наклон (с увеличением х; значения уоакже увеличиваются), при р = -1 прямая имеет отрицательный наклон.

В промежуточных случаях (- 1 0 имеет место положительная корреляция (с увеличением хдаачения у; имеют тенденцию к возрастанию), при р Надоели баннеры? Вы всегда можете отключить рекламу.

Составлено по материалам книги: Сидоренко Е. В. "Методы математической обработки в психологии". СПб.: ООО "Речь", 2007 г.

Назначение рангового коэффициента корреляции

Метод ранговой корреляции Спирмена позволяет определить тесноту (силу) и направление корреляционной связи между двумя признаками или двумя профилями (иерархиями) признаков.

Описание метода

Для подсчета ранговой корреляции Спирмена необходимо располагать двумя рядами значений, которые могут быть проранжированы. Такими рядами значений могут быть:

1) два признака, измеренные в одной и той же группе испытуемых;

2) две индивидуальные иерархии признаков, выявленные у двух испытуемых по одному и тому же набору признаков (например, личностные профили по 16-факторному опроснику Р. Б. Кеттелла, иерархии ценностей по методике Р. Рокича, последовательности предпочтений в выборе из нескольких альтернатив и др.);

3) две групповые иерархии признаков;

4) индивидуальная и групповая иерархии признаков.

Вначале показатели ранжируются отдельно по каждому из признаков. Как правило, меньшему значению признака начисляется меньший ранг.

Ограничения коэффициента ранговой корреляции

1) по каждой переменной должно быть представлено не менее 5 наблюдений;

2) коэффициент ранговой корреляции Спирмена при большом количестве одинаковых рангов по одной или обеим сопоставляемым переменным дает огрубленные значения. В идеале оба коррелируемых ряда должны представлять собой две последовательности несовпадающих значений.

Расчет коэффициента ранговой корреляции Спирмена

Чтобы произвести автоматический расчет коэффициента ранговой корреляции Спирмена, необходимо выполнить действия в два шага:

Шаг 1. Ввести данные двух признаков А и В;

Шаг 2. Получить ответ.

Шаг 1

Методы математической обработки в психологии

Книга представляет собой практическое руководство для исследователей, поставивших целью статистически обосновать свои научные и практические выводы. Принцип отбора методов — ясность и простота. Методы рассматриваются на реальных примерах и сопровождаются алгоритмами и графическими иллюстрациями. Все они могут быть использованы для быстрой обработки данных. Руководство предназначено для психологов и специалистов в области социологии, педагогики, медицины, биологии, экономики.


Вся трагедия и ощущение замкнутого круга возникает в результате того, что человек, которого обидели, хочет, чтобы к нему по-другому относились: с большим вниманием, заботой, любили и ценили. Он ждет, что обидчик изменится.


Многие мужчины испытывают существенные трудности в общении и отношениях с противоположным полом. Эти трудности становятся для них непреодолимой проблемой, мешающей дружеским, романтическим, любовным, семейным отношениям с женщинами.

Метод ранговой корреляции Спирмена позволяет определить тес­ноту (силу) и направление корреляционной связи между двумя призна­ками или двумя профилями (иерархиями) признаков.

Для подсчета ранговой корреляции необходимо располагать двумя рядами значений, которые могут быть проранжированы. Такими рядами значений могут быть:

1) Два признака, измеренные в одной и той же группе испытуемых.

Здесь ранжируются ин­дивидуальные значения по первому признаку, полученные разными ис­пытуемыми, а затем индивидуальные значения по второму признаку.

В случае отрицательной корреляции низким рангам испытуемых по одному признаку будут соответствовать высокие ранги по другому признаку, и наоборот.

2) Две индивидуальные иерархии признаков, выявленные у двух испы­туемых по одному и тому же набору признаков (например, личност­ные профили по 16-факторному опроснику Р. Б. Кеттелла, иерархии ценностей по методике Р. Рокича, последовательности предпочтений в выборе из нескольких альтернатив и др.).

Здесь ранжируются индивидуальные значения, полученные каждым из 2-х испытуемых по определенному (одинаковому для них обоих) набору признаков. Первый ранг получит признак с самым низким значением; второй ранг – признак с более высоким значением и т.д. Очевидно, что все признаки должны быть измерены в одних и тех же единицах, иначе ранжирование невозможно.

3) Две групповые иерархии признаков.

Здесь ранжи­руются среднегрупповые значения, полученные в 2-х группах испытуе­мых по определенному, одинаковому для двух групп, набору признаков. В дальнейшем линия рассуждений такая же, как и в предыдущих двух случаях.

4) Индивидуальная и групповая иерархии признаков.

Здесь ранжируются отдельно индивидуальные значения испытуемого и среднегрупповые значения по тому же набору признаков, которые полу­чены, как правило, при исключении этого отдельного испытуемого, – он не участвует в среднегрупповом профиле, с которым будет сопоставляться его индивидуальный профиль. Ранговая корреляция позволит проверить, насколько согласованы индивидуальный и групповой профили.

Во всех четырех случаях значимость полученного коэффициента корреляции определяется по количеству ранжированных значений N.

Возможны два варианта гипотез. Первый относится к первому случаю, второй – к трем остальным случаям.

Первый вариант гипотез

Н0: Корреляция между переменными А и B не отличается от нуля.

Н1: Корреляция между переменными А и B достоверно отличается от нуля.

Второй вариант гипотез

Н0: Корреляция между иерархиями А и B не отличается от нуля.

Н1: Корреляция между иерархиями А и B достоверно отличается от нуля.

(Курсивом в гипотезах выделены и подчеркнуты слова, которые меняются при формулировке гипотез к конкретной задаче.)

Ограничения коэффициента ранговой корреляции Спирмена

1) Сравниваемые переменные должны быть получены в порядковой, интервальной шкалах или в шкале отношений.

2) Характер распределения коррелируемых величин не имеет значения.

3) Число варьирующих признаков должно быть одинаковым и находиться в пределах от 5 до 40, т.к. верхняя граница выборки определяется имеющимися таб­лицами критических значений (Табл.ХVI Приложения 1), а именно N 2 . Эти значения занести в четвертый столбец таблицы.

6. Подсчитать сумму квадратов ∑d 2 ,

7. При наличии одинаковых рангов рассчитать поправки:

Та =∑(а 3 – а)/12

Тb =∑(b 3 – b)/12

где а- объем каждой группы одинаковых рангов в ранговом ряду А;

b - объем каждой группы одинаковых рангов в ранговом ряду В.

8. Рассчитать коэффициент ранговой корреляции rs по формуле:

а) при отсутствии одинаковых рангов

(Ф1)

б) при наличии одинаковых рангов

(Ф2)

где ∑d 2 - сумма квадратов разностей между рангами;

Таи Тb - поправки на одинаковые ранги;

N - количество испытуемых или признаков, участвовавших в ранжировании,

9. Определить по Табл. XVI Приложения 1 критические значения rs для данного N. Если rs превышает критическое значение или по крайней мере равен ему, корреляция достоверно отличается от 0.

Психолог выясняет, как связаны между собой индивидуальные показатели готовности к школе, полученные до начала обучения в школе, у 11 первоклассников по 100-бальной шкале и их средняя успеваемость в конце учебного года по 5-бальной шкале.

Для решения задачи были проранжированы показатели готовности к школе и средняя успеваемость первоклассников. Данные и результаты решения занесены в таблицу 3.1.

Гипотезы к задаче

Н0: Корреляция между показателем готовности к школе и средней успеваемостью в конце учебного года не отличается от нуля.

Н1: Корреляция между показателем готовности к школе и средней успеваемостью в конце учебного года статистически значимо отличается от нуля.

Таблица 3.1.

Показатели готовности к школе

Средняя успеваемость в конце учебного года

Значение эмпирического критерия находим по формуле (Ф1):

r s эмп = 1 - 6 * 52 / 11 * (11 2 - 1) = 312/1320=0,76

Определим критические значения rs при n = 11 по Табл. XVI Приложения 1:

Подчеркнем, что в таблице критических значений все величины коэффициентов корреляции даны по абсолютной величине. Знак коэффициента учитывается только при его интерпретации.


Ответ:

rs эмп =0,76, Н0 - нулевая гипотеза отклоняется и принимается альтернативная гипотеза (a=0,01). Корреляция между показателем готовности к школе и средней успеваемостью в конце учебного года отличается от нуля. Можно утверждать, что показатели школьной готовности и итоговые оценки первоклассников связаны положительной корреляционной зависимостью – чем выше показатель школьной готовности, тем лучше учится первоклассник.

Пример 1.2:

Выборке петербуржцев (31 мужчина, 46 женщин, всего n=77), предлагалось ответить на вопрос: "Какой уровень развития каждого из перечисленных ниже качеств необходим для депутата Городского собрания Санкт-Петербурга?" Оценка производилась по 10-балльной шкале. Параллельно с этим обследовалась выборка из Городского собрания Санкт-Петербурга (n=14). Индивидуальная диагностика политических деятелей производилась по тому же набору личностных качеств, который предъявлялся выборке избирателей.

В Табл. 3.2. представлены средние значения, полученные для ка­ждого из качеств в выборке избирателей ("эталонный ряд") и индиви­дуальные значения одного из депутатов Городского собрания.

Попытаемся определить, насколько индивидуальный профиль де­путата К-ва коррелирует с эталонным профилем.

Таблица 3.2.

Усредненные эталонные оценки избирателей (n=77) и индивидуальные показатели депутата К-ва по 18 личностным качествам

Наименование качества Усредненные эталонные оценки избирателей Индивидуальные показатели депутата К-ва
1. Общий уровень культуры 8,64 15
2. Обучаемость 7,89 7
3. Логика 8.38 12
4. Способность к творчеству нового 6,97 5
5. Самокритичность 8,28 14
6. Ответственность 9,56 18
7. Самостоятельность 8,12 13
8. Энергия, активность 8,41 17
9. Целеустремленность 8,00 19
10. Выдержка, самообладание 8,71 9
11. Стойкость 7,74 16
12. Личностная зрелость 8,10 11
13. Порядочность 9,02 12
14.Гуманизм 7.89 10
15.Умение общаться с людьми 8.74 8
16. Терпимость к чужому мнению 7,84 6
17. Гибкость поведение 7,67 4
18.Способность производить благоприятное впечатление 7,23 8

Таблица 3.3.

Расчет d 2 для рангового коэффициента корреляции Спирмена между эталонным и индивидуальным профилями личностных качеств депутата

Наименование качества Ряд А: ранг качества в эталонном профиле Ряд В: ранг качества в индивидуальном профиле d d 2
1 Ответственность 1 2 -1 1
2 Порядочность 2 8,5 -6.5 42.25
3 Умение общаться с людьми 3 13,5 -10.5 110,25
4 Выдержка, самообладание 4 12 -8 64
5 Общий уровень культуры 5 5 0 0
6 Энергия, активность 6 3 3 9
7 Логика 7 8,5 -1.5 2.25
8 Самокритичность 8 6 2 4
9 Самостоятельность 9 7 2 4
10 Личностная зрелость 10 10 0 0
11 Целеустремленность 11 1 10 100
12 Обучаемость 12,5 15 -2,5 6,25
13 Гуманизм 12,5 11 1,5 2,25
14 Терпимость к чужому мнению 14 16 -2 4
15 Стойкость 15 4 11 121
16 Гибкость поведения 16 18 -2 4
17 Способность производить благоприятное впечатление 17 13,5 3.5 12,25
13 Способность к творчеству нового 18 17 1 1
Суммы 171 171 0 487,5

Как видно из Табл. 3.2, оценки избирателей и индивидуальные показатели депутата варьируют в разных диапазонах. Отметим, что оценки избирателей были получены по 10-балльной шкале, а индивиду­альные показатели депутата по 20-балльной шкале. Ранжирование позволит нам перевести обе шкалы измерения в единую шкалу, где единицей измерения будет 1 ранг, а максимальное значение составит 18 рангов.

Ранжирование проводим отдельно по каждому ряду значений. В данном случае начисляем большему значению меньший ранг, чтобы сразу можно было увидеть, на каком месте по значимости (для избирателей и для депутата) находится то или иное качество.

Результаты ранжирования представлены в Табл. 3.3. Качества перечислены в последовательности, отражающей эталонный профиль.

Коэффициент корреляции Спирмена (Spearman rank correlation coefficient) — мера линейной связи между случайными величинами. Корреляция Спирмена является ранговой, то есть для оценки силы связи используются не численные значения, а соответствующие им ранги. Коэффициент инвариантен по отношению к любому монотонному преобразованию шкалы измерения.

Определение

Заданы две выборки .

Вычисление корреляции Спирмена:

Коэффициент корреляции Спирмена вычисляется по формуле:

, [1] где - ранг наблюдения в ряду , - ранг наблюдения в ряду .

Коэффициент принимает значения из отрезка . Равенство указывает на строгую прямую линейную зависимость, на обратную.

Случай совпадающих наблюдений:

При наличии связок коэффициент корреляции Спирмена следует вычислять следующим образом:

[1] где . Здесь и — количество связок в выборках и , , — их размеры. Для элементов связок вычисляется средний ранг.

Обоснование критерия Спирмена:

Статистикой критерия Спирмена служит коэффициент корреляции Пирсона ранговых наборов и . Он определяется следующей формулой:

Воспользовавшись тем, что , получим:

Переставив пары в порядке возрастания первой компоненты, получим набор . Тогда перепишем коэффициент корреляции Спирмена в виде:

Таким образом, - линейная функция от рангов . Правую часть равенства можно представить в следующем виде: [1]

который наиболее удобен для вычислений.

Статистическая проверка наличия корреляции

Нулевая гипотеза : Выборки и не коррелируют ().

Статистика критерия:

если больше табличного значения критерия Спирмена [1] с уровнем значимости , то нулевая гипотеза отвергается.

Асимптотический критерий:


Рассмотрим центрированную и нормированную статистику Спирмена:

Нулевая гипотеза отвергается (против альтернативы — ), если:

, [1] [1] где есть -квантиль стандартного нормального распределения.

Аппроксимация удовлетворительно работает, начиная с . [1]

В 1978 году Р. Иман и У. Коновер предложили следующую поправку, значительно повышающую точность аппроксимации. Она использует линейную комбинацию нормальной и стьюдентовской квантилей. Положим:

Гипотеза отвергается в пользу альтернативы , если , где обозначают соответственно квантили уровня стандартного нормального распределения и распределения Стьюдента с степенями свободы.

Примеры

Ниже приведены примеры вычисления корреляций Кенделла и Спирмена. Значения коэффициентов указаны над каждым изображением в виде , где - корреляция Кенделла, - Спирмена. Заметно, что в большинстве случаев . Объяснение этого эффекта приводится ниже.

Направление линейной зависимости

Корреляции Кенделла и Спирмена. Нормальные сгущения.

Коэффициенты корреляции реагируют на изменение направления и зашумлённость линейной зависимости между переменными.

Наклон линейного тренда

Корреляции Кенделла и Спирмена. Вращающаяся полоса.

Коэффициенты корреляции реагируют на изменение направления, но не реагируют на изменение наклона тренда. На первом, четвёртом и седьмом рисунках дисперсия одной из переменных близка к нулю, поэтому не удаётся зафиксировать факт линейной зависимости.

Нелинейная зависимость

Корреляции Кенделла и Спирмена. Нелинейная зависимость.

Корреляции Кенделла и Спирмена не отражают меры нелинейной зависимости между переменными.

Линейная и нелинейная зависимости

На каждой из приведённых ниже иллюстраций осуществляется переход от линейной зависимости к нелинейной. Коэффициенты корреляции Кенделла и Спирмена реагируют на это одинаковым образом.

Корреляции Кенделла и Спирмена. Перекрещенные полосы.

Корреляции Кенделла и Спирмена. Расширяющаяся полоса.

Корреляции Кенделла и Спирмена. Синусоида с переменной амплитудой.

По мере смены линейной зависимости нелинейной значения коэффициентов корреляции падают.

Связь коэффициентов корреляции Спирмена и Пирсона

В случае выборок из нормального распределения коэффициент корреляции Спирмена может быть использован для оценки коэффициента корреляции Пирсона по формуле:

Связь коэффициентов корреляции Спирмена и Кенделла

Выборкам и соответствуют последовательности рангов:

, где — ранг -го объекта в вариационном ряду выборки ; , где — ранг -го объекта в вариационном ряду выборки .

Проведем операцию упорядочивания рангов.

Расположим ряд значений в порядке возрастания величины: . Тогда последовательность рангов упорядоченной выборки будет представлять собой последовательность натуральных чисел . Значения , соответствующие значениям , образуют в этом случае некоторую последовательность рангов :

Коэффициент корреляции Кенделла и коэффициент корреляции Спирмена выражаются через ранги следующим образом:

Заметно, что в случае инверсиям придаются дополнительные веса , таким образом сильнее реагирует на несогласие ранжировок, чем . Этот эффект проявляется в приведённых выше примерах: в большинстве из них .

Утверждение. [1] Если выборки и не коррелируют (выполняется гипотеза ), то величины и сильно закоррелированы. Коэффициент корреляции между ними можно вычислить по формуле:

История

Критерий был предложен британским психологом Чарльзом Эдвардом Спирменом в 1904 году.

Читайте также: