Реферат Курсовая Конспект
Лекция 3. Корреляционный анализ - раздел Образование, Лекция 3. Корреляционный Анализ...
|
Поле корреляции. Корреляционная таблица
Рассмотрим простейший случай корреляционного анализа – двумерную модель. Пусть и случайные переменные, Пару случайных чисел
можно изобразить графически в виде точки с координатами . Аналогично можно изобразить всю выборку.
Декартова плоскость с нанесенными на нее точками с координатами называется корреляционным полем .
По виду корреляционного поля иногда можно судить о виде зависимости между случайными величинами и , если она существует.
В данном случае представлено корреляционное поле для дискретного случайного вектора. При большом объеме выборки построение поля корреляции становится очень громоздкой задачей. Задача упрощается, если выборку упорядочить, т.е. переменные сгруппировать. В результате получится сгруппированный статистический ряд. Сгруппированный ряд может быть дискретным или интервальным. Сгруппированному ряду соответствует корреляционная таблица. Пусть, например - объем выполненных работ, – накладные расходы. Для случайного вектора () получена выборка, которую можно представить с помощью корреляционной таблицы
1-2 1.5 | 2-3 2.5 | 3-4 3.5 | 4-5 4.5 | 5-6 5.5 | 6-7 6.5 | 7-8 7.5 | 8-9 8.5 | ||
10-20 | |||||||||
20-30 | |||||||||
30-40 | |||||||||
40-50 | |||||||||
50-60 | |||||||||
60-70 | |||||||||
70-80 | |||||||||
Эта таблица построена на основе интервального ряда. В первой строке и первом столбце таблицы помещают интервалы изменения и и значения середин интервалов. В ячейки, образованные пересечением строк и столбцов помещают частоты попадания пар значений в соответствующие интервалы. В последней строке и последнем столбце находятся значения и - суммы по соответствующим столбцу и строке , где – суммарная частота наблюдаемого значения признака при всех значениях , – суммарная частота наблюдаемого значения признака при всех значениях , –частота появления пары значений признаков .При этом выполняются равенства
, (1)
где - объем выборки.
Вычислим статистические оценки параметров распределения случайного вектора. Статистической оценкой математического ожидания является среднее арифметическое, а статистической оценкой дисперсии является статистическая дисперсия. Вычисление этих величин в данном случае проводится по формулам
, , (2)
, . (3)
Оценкой коэффициента корреляции является выборочный коэффициент корреляции, который определяется равенством
(4)
В данном примере
,
,
.
Величина выборочного коэффициента корреляции не зависит от порядка следования переменных, т.е. , поэтому выборочный коэффициент корреляции обозначают просто .
Если генеральная совокупность имеет нормальное распределение, т. е. совместная функция распределения и подчиняется нормальному закону,
то функция регрессии линейны. Функция регрессии на имеет вид
, (5)
а функция регрессии на имеет вид
. (6)
Выражения и называются коэффициентами регрессии.
Уравнения регрессии на и на имеют вид
, (7)
В данном примере уравнение регрессии на
,
уравнение регрессиина
.
Полученные уравнения регрессии показывают, как в среднем изменяется
(или ) в зависимости от изменения аргумента (или ).
Проверка гипотезы о значимости коэффициента корреляции.
Выборочный коэффициент корреляции является точечной оценкой коэффициента корреляции. Он служит для оценки силы линейной связи между и . Равенство нулю выборочного коэффициента корреляции еще не свидетельствует о равенстве нулю самого коэффициента корреляции, а, следовательно, о некоррелированности случайных величин и . Чтобы выяснить, находятся ли случайные величины в корреляционной зависимости, нужно проверить значимость выборочного коэффициента корреляции , т.е. установить, достаточна ли его величина для обоснованного вывода о наличии корреляционной связи. Для этого проверяют нулевую гипотезу , т.е. случайные величины в генеральной совокупности не коррелированы. Альтернативная гипотеза . Предполагая, что имеется двумерное нормальное распределение случайных переменных, вычисляют статистику
, (8)
которая имеет распределение Стьюдента с степенями свободы. Для проверки нулевой гипотезы по уровню значимости и числу степеней свободы находят по таблицам распределения Стьюдента критическое значение , удовлетворяющее условию . Если , то нулевую гипотезу об отсутствии корреляционной связи между переменными и следует отвергнуть. В этом случае переменные являются зависимыми. Если , то нет оснований отвергать нулевую гипотезу.
В нашем примере зададим . По формуле (8) найдем статистику . Из таблиц распределения критических точек Стьюдента по заданному уровню значимости и числу степеней свободы найдем критическую точку . Так как , то нулевая гипотеза отвергается. Рассматриваемые случайные величины являются коррелированными и , следовательно, зависимыми.
В случае значимого выборочного коэффициента корреляции можно построить доверительный интервал для коэффициента корреляции.
Плотность вероятности выборочного коэффициента корреляции имеет сложный вид. Поэтому прибегают к специально подобранным функциям от выборочного коэффициента корреляции, которые сводятся хорошо изученным распределениям, например, к нормальному или Стьюдента.
Чаще всего используют преобразование Фишера.
По выборочному коэффициенту корреляции вычисляют статистику . Отсюда .
Распределение статистики хорошо аппроксимируется нормальным распределением с параметрами и .
В этом случае доверительный интервал для имеет вид . Величины и находят по таблицам
где – нормированная функция Лапласа для % доверительного интервала.
Если коэффициент корреляции значим, то коэффициенты регрессии значимо отличаются от нуля. Интервальные оценки для них имеют вид
Где имеет распределение Стьюдента с степенями свободы.Регрессионный анализ
Основная задача регрессионного анализа– изучение зависимости между результативным признаком и наблюдавшимся признаком , оценка функции регрессии. Рассмотрим вначале линейный регрессионный анализ в котором условное математическое ожидание можно представить в виде линейной функции от оцениваемых параметров
. (9)
Это выражение называется функцией регрессии или модельным уравнением регрессии. Параметры называются коэффициентами регрессии. Оценки этих параметров обозначим и . Подставляя эти оценки в формулу (9) вместо параметров, получим линейное уравнение регрессии
, (10)
коэффициенты которого найдем методом наименьших квадратов из условия минимума суммы квадратов отклонений измеренных значений результативного признака от вычисленных по уравнению регрессии , т. е. условия минимума величины
(11)
Подставляя в (11) выражение (10), получим
(12)
В соответствии с необходимым условием минимума функции приравняем нулю частные производные функции по переменным и . В результате получим систему нормальных уравнений
(13)
После упрощения система уравнений (13) приводится к виду
(14)
Оценки, полученные по методу наименьших квадратов, обладают наименьшей дисперсией в классе линейных оценок. В случае, когда наблюдавшиеся данные представлены корреляционной таблицей, нужно произвести следующие замены в уравнениях (14)
, , ,
. (15)
где , , соответствующие частоты:
(16)
Решая уравнения (16), найдем значения параметров и и уравнение регрессии.
В примере 1 , . Уравнение регрессии имеет вид
.
– Конец работы –
Используемые теги: Лекция, Корреляционный, анализ0.059
Если Вам нужно дополнительный материал на эту тему, или Вы не нашли то, что искали, рекомендуем воспользоваться поиском по нашей базе работ: Лекция 3. Корреляционный анализ
Если этот материал оказался полезным для Вас, Вы можете сохранить его на свою страничку в социальных сетях:
Твитнуть |
Новости и инфо для студентов