Реферат Курсовая Конспект
Lt; о) < а] . - раздел Психология, Математические методы психологического исследования. Анализ и интерпретация данных. Учебное пособие По Сути, Дисперсия Оценок Зависимой Переменной У— Это Та Часть Ее Пол...
|
По сути, дисперсия оценок зависимой переменной У— это та часть ее полной дисперсии, которая обусловлена влиянием независимой переменной X.
Неизвестную дисперсию оценок У можно выразить через другие, известные статистики, зная рассмотренные ранее свойства дисперсии:
так как прибавление константы а к каждому значению переменной не меняет дисперсию, а умножение на константу b — увеличивает дисперсию в />2раз. Подставляя в формулу выражение для b из (6.2) получаем:
(6.4)
Иначе говоря, отношение дисперсии оценок зависимой переменной к ее истинной дисперсии равно квадрату коэффициента корреляции.
Выражение (6.4) дает еще один вариант интерпретации корреляции. Квадрат коэффициента корреляции (R Square) зависимой и независимой переменных представляет долю дисперсии зависимой переменной, обусловленной влиянием независимой переменной, и называется коэффициентом детерминации. Коэффициент детерминации гху, таким образом, показывает, в какой степени изменчивость одной переменной обусловлена (детерминирована) влиянием другой переменной.
ГЛАВА 6. КОЭФФИЦИЕНТЫ КОРРЕЛЯЦИИ
ПРИМЕР______________________________________________________________
В большинстве исследований взаимосвязи IQ и успеваемости в школе корреляции этих показателей не превышают 0,5—0,7, т. е. коэффициент детерминации достигает величин 0,25—0,49. Иными словами, индивидуальная изменчивость (дисперсия) среднего балла успеваемости может быть предсказана по результатам тестирования IQ не более чем на 25—49%. Означает ли это, что успешность обучения не более чем на 25—49% зависит от интеллекта? Ответ зависит от того, в какой мере средний балл отметок отражает успешность обучения, а тест IQ — интеллектуальные способности учащегося. Во всяком случае, этот пример демонстрирует явно не высокую эффективность двумерной регрессии в деле практического предсказания1.
Коэффициент детерминации обладает важным преимуществом по сравнению с коэффициентом корреляции. Корреляция не является линейной функцией связи между двумя переменными. Поэтому, в частности, среднее арифметическое коэффициентов корреляции для нескольких выборок не совпадает с корреляцией, вычисленной сразу для всех испытуемых из этих выборок (т. е. коэффициент корреляции не аддитивен). Напротив, коэффициент детерминации отражает связь линейно и поэтому является аддитивным: допускается его усреднение для нескольких выборок.
Дополнительную информацию о силе связи дает значение коэффициента корреляции в квадрате — коэффициент детерминации г2: это часть дисперсии одной переменной, которая может быть объяснена влиянием другой переменной. В отличие от коэффициента корреляции г2 линейно возрастает с увеличением силы связи. На этом основании можно ввести три градации величин корреляции по силе связи:
г < 0,3 — слабая связь (менее 10% от общей доли дисперсии);
0,3 < г < 0,7 — умеренная связь (от 10 до 50% от общей доли дисперсии);
г > 0,7 — сильная связь (50% и более от общей доли дисперсии).
ЧАСТНАЯ КОРРЕЛЯЦИЯ
Очень часто две переменные коррелируют друг с другом только за счет того, что обе они согласованно меняются под влиянием некоторой третьей переменной. Иными словами, на самом деле связь между соответствующими свойствами отсутствует, но проявляется в статистической взаимосвязи (корреляции) под влиянием общей причины.
ПРИМЕР______________________________________________________
Общей причиной изменчивости двух переменных («третьей переменной») может являться возраст при изучении взаимосвязи различных психологических особенностей в группе детей разного возраста. Предположим, что изучается взаимосвязь между зрелостью моральных суждений — Хп скоростью чтения — К Но в распоряжении
1 С более совершенными методами предсказания книга знакомит вас в части 3: «Многомерные методы...»
ЧАСТЬ I. ОСНОВЫ ИЗМЕРЕНИЯ И КОЛИЧЕСТВЕННОГО ОПИСАНИЯ ДАННЫХ
исследователя имеется лишь выборка из 45 детей разного возраста — от 8 до 14 лет (переменная Z— возраст). Если будет получена существенная положительная корреляция между Хи Y, например гху = 0,54, то о чем это будет свидетельствовать? Осторожный исследователь вряд ли сделает однозначный вывод о том, что зрелость моральных суждений непосредственно связана со скоростью чтения. Скорее всего, дело втом, что и зрелость моральных суждений, и скорость чтения повышаются с возрастом. Иными словами, возраст является причиной согласованной (прямо пропорциональной) изменчивости и зрелости моральных суждений, и скорости чтения.
Для численного определения степени взаимосвязи двух переменных при условии исключения влияния третьей применяют коэффициент частной корреляции{Partial Correlation). Для вычисления частной корреляции достаточно знать три коэффициента корреляции г-Пирсона между переменными X, Yu Zfr^, rxz и ryz):
(6.5)
где rxy^z — частная корреляция Хи Упри постоянном Z(kiih с учетом Z).
Частная корреляция rxy_z равна гху при любом фиксированном значении Z (в том случае, если Zлинeйнo коррелирует с Хтл У). Например, если значение частной корреляции скорости чтения Хи зрелости моральных суждений К с учетом возраста ZpaBHO 0,2 {rxy__z = 0,2) и возраст линейно коррелирует и с Хи с У, то с любой группе детей одного и того же возраста гху будет тоже равно 0,2.
ПРИМЕР 6.3
Один исследователь решил сопоставить антропометрические и психологические данные исследования довольно большой группы детей. Каково же было его изумление, когда обнаружилась существенная положительная корреляция между скоростью решения арифметических задач и размером стопы: гху = 0,42. Оказалось, однако, что дети были разного возраста. Корреляция размера стопы с возрастом составила rxy = QJ, а корреляция скорости решения арифметических задач с возрастом гу, = 0,6. Эти данные позволяют выяснить, взаимосвязаны ли размер стопы и скорость решения арифметических задач с учетом возраста (при условии, что возраст остается неизменным). Для этого необходимо вычислить частный коэффициент корреляции между размером стопы Хи скоростью решения арифметических задач К(при фиксированном возрасте Z):
0,42-0,7-0,6
rxy-z = I = "
V(l-0,72)(l-0,62)
Таким образом, размер стопы и скорость решения арифметических задач коррелируют исключительно за счет согласованности возрастной изменчивости этих показателей: частная корреляция между ними (с учетом возраста) равна нулю. И если мы возьмем группу детей одного и того же возраста, то корреляция размера стопы и скорости решения арифметических задач будет равна нулю.
ГЛАВА 6. КОЭФФИЦИЕНТЫ КОРРЕЛЯЦИИ
Следует быть особенно осторожным, пытаясь дать интерпретацию частной корреляции с позиций причинности. Например, если Zкоррелирует и с 1и с Y, а частная корреляция rxy_z близка к нулю, из этого не обязательно следует, что именно Zявляeтcя общей причиной для Хн Y.
РАНГОВЫЕ КОРРЕЛЯЦИИ
Если обе переменные, между которыми изучается связь, представлены в порядковой шкале, или одна из них — в порядковой, а другая — в метрической, то применяются ранговые коэффициенты корреляции: r-Спирмена или т-Кенделла. И тот, и другой коэффициент требует для своего применения предварительного ранжирования обеих переменных.
Коэффициент корреляции г-Спирмена
Если члены группы численностью /Убыли ранжированы сначала по переменной X, затем — по переменной Y, то корреляцию между переменными Хм Кможно получить, просто вычислив коэффициент r-Пирсона для двух рядов рангов. При условии отсутствия связей в рангах (т. е. отсутствия повторяющихся рангов) по той и другой переменной, формула для r-Пирсона может быть существенно упрощена в вычислительном отношении и преобразована в формулу, известную как г-Спирмена:
(6.6)
где с/, — разность рангов для испытуемого с номером /.
Коэффициент корреляции r-Спирмена (Spearman's rho) равен коэффициенту корреляции /--Пирсона, вычисленному для двух предварительно ранжированных переменных.
ПРИМЕР 6.4___________________________________________________________
Предположим, для каждого из 12 учащихся одного класса известно время решения тестовой арифметической задачи в секундах (X) и средний балл отметок по математике за последнюю четверть (Y).
№ | X | Y | Ранги X | Ранги Y | d, | d] |
4,7 | 2 | |||||
4,5 | ||||||
4,4 | ||||||
3,8 | -4 |
ЧАСТЬ I. ОСНОВЫ ИЗМЕРЕНИЯ И КОЛИЧЕСТВЕННОГО ОПИСАНИЯ ДАННЫХ
№ | X | Y | Ранги X | Ранги У | d, | d] |
3,7 | _4 | |||||
4,6 | ||||||
4,0 | -5 | |||||
4,2 | -5 | |||||
4,1 | ||||||
3,6 | _7 | |||||
3,5 | -10 | |||||
4,8 | ||||||
S | - | - |
Для расчета корреляции г-Спирмена сначала необходимо ранжировать учащихся по той и другой переменной. После ранжирования можно проверить его правильность: сумма рангов должна быть равна N(N+ l)/2. Затем для каждого испытуемого надо вычислить разность рангов (сумма разностей рангов должна быть равна 0). После этого для каждого испытуемого вычисляется квадрат разности рангов — результат приведен в последнем столбце таблицы. Сумма квадратов разностей рангов равна 474. Подставляем известные значения в формулу 6.6:
12(144-1)
Получена умеренная отрицательная связь между успеваемостью по математике и временем решения арифметической задачи.
Отметим: то же значение корреляции было бы получено при использовании формулы r-Пирсона непосредственно к рангам Хи Y. Применяя же формулу г-Пирсо-на к исходным значениям Хи Y, мы получим гху = —0,692.
Коэффициент корреляции т-Кендалла
Альтернативу корреляции Спирмена для рангов представляет корреляция т-Кендалла. В основе корреляции, предложенной М. Кендаллом, лежит идея о том, что о направлении связи можно судить, попарно сравнивая между собой испытуемых: если у пары испытуемых изменение по Xсовпадает по направлению с изменением по У, то это свидетельствует о положительной связи, если не совпадает — то об отрицательной связи.
В примере 6.3 данные испытуемых 1 и 2 свидетельствуют об отрицательной связи — мы видим инверсию: по переменной Ху второго испытуемого ранг больше, а по переменной У— меньше. Данные испытуемых 2 и 3, напротив, демонстрируют совпадение направления изменения переменных.
Корреляция т-Кендаллаесть разность относительных частот совпадений и инверсий при переборе всех пар испытуемых в выборке:
x = P(p)-P(q),
ГЛАВА 6. КОЭФФИЦИЕНТЫ КОРРЕЛЯЦИИ
где Р(р) и P(q) — относительные частоты, соответственно, совпадений и инверсий. Всего в выборке численностью УУ существует N(N— l)/2 всех возможных пар испытуемых. Следовательно,
P-Q
(6.7)
где Р — число совпадений, Q — число инверсий, а (Р+ Q) = N(N— l)/2. Формулу 6.7 можно представить и в ином виде:
т = ^-^- = 1---- I^_ = _Zi----- 1. (6,8)
P + Q N(N-l) N(N-l)
При подсчете т-Кендалла «вручную» данные сначала упорядочиваются по переменной X. Затем для каждого испытуемого подсчитывается, сколько раз его ранг по доказывается меньше, чем ранг испытуемых, находящихся ниже. Результат записывается в столбец «Совпадения». Сумма всех значений столбца «Совпадения» и есть Р — общее число совпадений, подставляется в формулу 6.8. для вычисления т-Кендалла.
ПРИМЕР 6.5___________________________________________________________
Вычислим т-Кендалла для данных из примера 6.4. Сначала предварительно упорядочиваем испытуемых по переменной X. Затем подсчитываем число совпадений и инверсий для каждого испытуемого, сравнивая по Y его ранг с рангами испытуемых, находящихся под ним. Так, для первого испытуемого ранг по Кравен6,и 6 испытуемых, находящихся ниже него, имеют по Y более высокий ранг: в столбец «Совпадения» записываем 6. Для третьего по счету испытуемого ранг по Y равен 8, трое испытуемых ниже него имеют более высокий ранг, значит, в столбец «Совпадения» записываем 3, и т. д.
№ | Ранги X | Ранги Y | Совпадения | Инверсии |
Р= 18 | 0 = 48 |
ЧАСТЬ I. ОСНОВЫ ИЗМЕРЕНИЯ И КОЛИЧЕСТВЕННОГО ОПИСАНИЯ ДАННЫХ
Для более полной интерпретации полезны соотношения между величиной х-Кендалла и вероятностью отдельно совпадений и инверсий:
Так, т = 0,5 значит, что вероятность совпадений равна 0,75, а вероятность инверсий — 0,25, то есть при сравнении объектов друг с другом прямо пропорциональное соотношение (например, роста и веса) встречается в 3 раза чаще, чем обратно пропорциональное соотношение. Такая интерпретация кажется более понятной, чем, например, интерпретация корреляции Пирсона г= 0,5: «25% изменчивости в весе могут быть объяснены различиями в росте».
т-Кендалла кажется более простым в вычислительном отношении. Однако при возрастании численности выборки, в отличие от л-Спирмена, объем вычислений х-Кендалла возрастает не пропорционально, а в геометрической прогрессии. Так, при N=12 необходимо перебрать 66 пар испытуемых, а при N = 48 — уже 1128 пар, т. е. объем вычислений вбзрастает более, чем в 17 раз.
Отметим важную особенность ранговых коэффициентов корреляции. Для метрической корреляции r-Пирсона значениям +1 или —1 соответствует прямая или обратная пропорция между переменными, что графически представляет собой прямую линию. Максимальным по модулю ранговым корреляциям (+1, —1) вовсе не обязательно соответствуют строгие прямо или обратно пропорциональные связи между исходными переменными Хи Y: достаточна лишь монотонная функциональная связь между ними. Иными словами, ранговые корреляции достигают своего максимального по модулю значения, если большему значению одной переменной всегда соответствует большее значение другой переменной (+1) или большему значению одной переменной всегда соответствует меньшее значение другой переменной и наоборот (—1).
Проблема связанных (одинаковых) рангов
В измерениях часто встречаются одинаковые значения. При их ранжировании возникает проблема связанных рангов (Tied Ranks). В этом случае действует особое правило ранжирования: объектам с одинаковыми значениями
приписывается один и тот же, средний ранг. Например, когда эксперт не может установить различие между двумя лучшими образцами товара, им приписывается одинаковый ранг: (1 + 2)/2 = 1,5. Это сохраняет неизменной сумму рангов для выборки объемом N: N(N + l)/2.
При наличии одинаковых (связанных) рангов формулы ранговой корре-
ГЛАВА 6. КОЭФФИЦИЕНТЫ КОРРЕЛЯЦИИ
ляции Спирмена (6.6) и Кендама (6.7и 6.8) не подходят. Хотя сумма рангов и не меняется, но изменчивость данных становится меньше. Соответственно, уменьшается возможность оценить степень связи между измеренными свойствами. При использовании корреляции Спирмена в случае связанных рангов возможны два подхода:
□ если связей немного (менее 10% для каждой переменной), то вычис
лить r-Спирмена приближенно по формуле 6.6;
□ при большем количестве связей применить к ранжированным данным
классическую формулу /"-Пирсона 6.1 — это всегда позволит опреде
лить ранговую корреляцию независимо от наличия связей в рангах.
При использовании корреляции х-Кендалла в случае наличия связанных рангов в формулу вносятся поправки, и тогда получается общая формула для вычисления т. коэффициента корреляции хь-Кендалла (Kendall's tau-b) независимо от наличия или отсутствия связей в рангах:
P-Q
'-l)/2]-Kxyj[N(N-l)/2]-Ky ' (6'9)
где х = (1/2)У/■(/■-1) (' — количество групп связей по X,ft — численность каждой группы); х = (1/2)У/(/)-1) (/ — количество групп связей по У,/ — численность каждой группы).
ПРИМЕР 6.6______________________________________________________________________
Супруги X и Y ранжировали 8 жизненных ценностей по степени предпочтения. Данные представлены в таблице:
Ценности | Ранги X | Ранги Y | Р (совпадения) | Q(инверсии) |
Здоровье | ||||
Любовь | ||||
Богатство | ||||
Свобода | ||||
Мудрость | ||||
Познание | ||||
Развитие | ||||
Творчество | ||||
2 = 20 |
В качестве меры согласованности предпочтений супругов вычислим корреляцию т4-Кендалла, так как наблюдаются связи в рангах: одна группа из трех рангов по Хи две группы по три ранга по Y.
Обратите внимание на подсчет совпадений для объектов, попадающих в «связки». Например, для объекта «Богатство» пропускаются два ниже находящихся объекта, как имеющие одинаковые с ним ранги по X.
КОРРЕЛЯЦИЯ БИНАРНЫХ ДАННЫХ
Как отмечалось ранее, если одна из двух переменных представлена в номинативной шкале, а другая — в числовой (ранговой или метрической), то связь между этими переменными лучше изучать путем сравнения групп по уровню выраженности числовой переменной.
ПРИМЕР _________________________________________________
Предположим, исследуется связь количества пропущенных лекций студентами и курса обучения (с 1-го по 5-й). Первая переменная — метрическая, а вторая — номинативная. Связь между этими переменными может быть изучена путем сравнения разных курсов по количеству пропущенных лекций (по средним значениям). Если будут обнаружены различия между курсами, то посещаемость лекций связана с курсом обучения, в противном случае — связи нет.
То же касается проблемы изучения связи между двумя номинативными переменными. Хотя и для этого случая существуют коэффициенты корреляции (К— Чупрова, С — Пирсона), но возможность их интерпретации весьма ограничена, в частности потому, что они отражают лишь силу связи, но не ее направление. Поэтому и в этом случае проблему связи между двумя номинативными переменными лучше изучать путем сравнения градаций одной переменной по распределению другой переменной.
ПРИМЕР
Предположим, исследуется связь агрессивности учащихся (три градации: низкая, средняя, высокая) и образования их родителей (среднее, высшее техническое, высшее гуманитарное). Результаты исследования связей двух номинативных переменных обычно представляются в виде таблицы сопряженности:
Агрессивность | Образование родителей | ||
Среднее | Высш. технич. | Высш. гуманит. | |
Низкая | |||
Средняя | |||
Высокая |
ГЛАВА 6. КОЭФФИЦИЕНТЫ КОРРЕЛЯЦИИ
Связь между этими переменными может быть изучена путем сравнения распределений учащихся по степени агрессивности для разных градаций образования родителей (или, что то же самое, путем сравнения распределения образования родителей для разных градаций степени агрессивности учащихся).
Исключением можно считать случай изучения связи двух бинарных переменных. Бинарная переменная имеет только две градации, обычно обозначаемые как О и 1. Примеры таких переменных: пол (мужской, женский), образование (среднее, высшее), тревожность (низкая, высокая), успешность (низкая, высокая) и т. д. При изучении связей между бинарными переменными обычно строят че-тырехклеточные таблицы сопряженности:
Таблица 6.1 Таблица сопряженности 2x2
Признак X | Итог | |||
Признак Y | а | Ъ | а+ b | |
с | d | с + d | ||
Итог | а + с | b + d | N |
Вэтом случае допустимо применение г-Пирсона (формула 6.1) непосредственно к исходным данным — двум бинарным переменным, принимающим значение 0 или 1, измеренным для каждого члена выборки численностью Л'. Результат применения r-Пирсона к двум бинарным переменным называется «фи-коэффициентом сопряженности» (Phi). Если данные представлены в четырех-клеточной таблице сопряженности, то применяется формула, существенно упрощающая расчеты, но дающая аналогичный результат:
ad-bc c
ср = ■ , (6.10)
J(a + b)(c + d)(a + c)(b + d) где а, Ь, с, d соответствуют обозначениям в четырехклеточной таблице 6.1.
ПРИМЕР 6.7___________________________________________________________
Исследовалась связь семейного положения студенток (X: 0 — холостая, 1 — замужем) и их академической успеваемости (Y: 0 — закончила вуз, 1 — отчислена). В распоряжении исследователя есть данные для 12 студенток:
№ | ||||||||||||
X | ||||||||||||
Y |
Таблица сопряженности для этих данных:
X | Итог | |||
Y | ||||
Итог |
ЧАСТЬ I. ОСНОВЫ ИЗМЕРЕНИЯ И КОЛИЧЕСТВЕННОГО ОПИСАНИЯ ДАННЫХ
Вычислим ф-коэффициент сопряженности:
Получена умеренная положительная взаимосвязь: холостые студентки чаше заканчивают вуз, а замужние — чаще отчисляются. Отметим, что тот же самый результат был бы получен при применении формулы /'-Пирсона непосредственно к исходным данным.
Итак, ф-коэффициент есть просто /"-Пирсона, вычисленный для бинарных данных, а формула 6.10 алгебраически эквивалентна формуле 6.1. Следовательно, интерпретация ф-коэффициента подобна интерпретации /--Пирсона. Но использование ф-коэффициента существенно ограничено. Чем больше асимметрия распределения 0 и 1 по каждой переменной, тем менее точно ф-коэффициент отражает связь между бинарными переменными. Иначе говоря, применение q-коэффициента требует приблизительного равенства количества 0 и 1 по каждой переменной.
ВЕЛИЧИНА КОРРЕЛЯЦИИ И СИЛА СВЯЗИ
Коэффициенты корреляции были специально разработаны для численного определения силы и направления связи между двумя свойствами, измеренными в числовых шкалах (метрических или ранговых). Как уже упоминалось, максимальной силе связи соответствуют значения корреляции +1 (строгая прямая или прямо пропорциональная связь) и —1 (строгая обратная или обратно пропорциональная связь), отсутствию связи соответствует корреляция, равная нулю. Дополнительную информацию о силе связи дает значение коэффициента детерминации г2: это часть дисперсии одной переменной, которая может быть объяснена влиянием другой переменной.
Однако в ряде случаев разные коэффициенты корреляции имеют различную эффективность, а иногда все они оказываются нечувствительными к связям.
Выбросы и отклонения распределений от нормальности
Выбросы— это экстремально большие или малые значения признака. В наиболее существенной степени выбросы влияют на корреляцию г-Пирсона, так как величина этого коэффициента прямо пропорциональна отклонению значения переменной от среднего.
ГЛАВА 6. КОЭФФИЦИЕНТЫ КОРРЕЛЯЦИИ
ПРИМЕР 6.8
Воспользуемся данными из примера 6.1 с показателями вербального и невербального интеллекта, измеренного у 20 учащихся 8-го класса (г- 0,517). Добавим еще одно наблюдение: x21 = 3,y2i = 16 (см. рис. 6.5). Новое значение г-Пирсона для всех N= 21 теперь будет равно г— —0,124.
о.
– Конец работы –
Эта тема принадлежит разделу:
Рецензенты В М А иахвердов доктор психологических наук профессор кафедры... общей психологии СПбГУ... В М Буре кандидат физико математических наук доцент факультета приклаnдной математики процессов управления...
Если Вам нужно дополнительный материал на эту тему, или Вы не нашли то, что искали, рекомендуем воспользоваться поиском по нашей базе работ: Lt; о) < а] .
Если этот материал оказался полезным ля Вас, Вы можете сохранить его на свою страничку в социальных сетях:
Твитнуть |
Новости и инфо для студентов