рефераты конспекты курсовые дипломные лекции шпоры

Реферат Курсовая Конспект

Парная регрессия и корреляция

Парная регрессия и корреляция - раздел Экономика, Эконометрика 1.1.понятие О Функциональной, Статистической И Корреляционной Зависим...

1.1.Понятие о функциональной, статистической и корреляционной зависимостях.Поведение и значение любого экономического показателя зависит от множества факторов, хотя только их ограниченное количество существенно воздействует на исследуемый экономический показатель. Выделение и учет в модели лишь ограниченного числа факторов оказывающих существенное влияние на развитие моделируемого экономического процесса, определение их взаимосвязи, являются ключевыми для принятия решений.

Остановимся вначале на изучении взаимосвязей между двумя переменными и , составляющими двумерной случайной величины . Если каждому значению одной случайной величины по некоторому правилу относится одно значение другой случайной величины, то говорят о функциональной зависимости. В подавляющем большинстве случаев между экономическими переменными таких зависимостей нет. Это связано с целым рядом причин, поскольку при анализе влияния одной переменной на другую не учитывается ряд других факторов, влияющих на нее, и это влияние может быть не прямым, а косвенным и, кроме того, это влияние может носить случайный характер.

Зависимость между случайными величинами, имеющими общие случайные факторы, которые влияют как на одну, так и на другую случайную величину наряду с другими неодинаковыми для обеих случайных величин факторами, называется стохастической (вероятностной).

Так как при построении эконометрических моделей используются значения случайных величин (эмпирические значения), то стохастическую зависимость называют статистической.

Зависимость между исследуемыми случайными величинами называется статистической, если каждому эмпирическому значению одной случайной величины () соответствует условное распределение эмпирических данных другой случайной величины ().

На практике при обработке эмпирических данных двумерной случайной величины находят оценку регрессионной связи, т.е. оценку функции регрессии или . Для этого используются эмпирические функции регрессии, содержащие случайную составляющую: или . Таким образом, регрессия – это односторонняя стохастическая зависимость между значениями одной случайной величины и условными математическими значениями другой случайной величины. Случайная составляющая подчеркивает факт не совпадения реальных значений с условными математическими ожиданиями этих значений.

В зависимости от числа случайных величин, описывающих изучаемый экономический процесс, различают простую регрессию и множественную. Простая регрессия может быть положительной или отрицательной. При положительной регрессии с увеличением (уменьшением) независимой случайной величины увеличивается (уменьшается) зависимая случайная величина. При отрицательной регрессии – при увеличении (уменьшении) независимой случайной величины уменьшается (увеличивается) зависимая случайная величина.

По форме различают линейную регрессию и нелинейную, т.е. регрессию, выражаемую линейной и нелинейной функциями. В зависимости от типа соответствия между случайными величинами рассматривают непосредственную регрессию и косвенную. При непосредственной регрессии случайные величины связаны непосредственно друг с другом; при косвенной регрессии они детерминируются общей для них причиной.

Понятие регрессии тесно переплетается с понятием корреляции. Если в регрессионном анализе исследуется форма стохастической связи, то в корреляционном анализе оценивается интенсивность этой связи. Оба вида анализа служат для установления причинных соотношений между признаками изучаемых явлений и определения наличия или отсутствия связи между ними.

В зависимости от числа переменных величин, корреляция, может быть, простой (парной), или множественной. Корреляция между двумя случайными величинами называется простой, а между более чем двумя переменными – множественной. Корреляция между двумя переменными при фиксированном значении остальных переменных для случая множественной корреляции называется частной. Простая корреляция может быть положительной или отрицательной. Корреляция может быть линейной или нелинейной; непосредственной или косвенной.

1.2. Основные задачи прикладного корреляционно-регрессионного анализа.Построение качественного уравнения регрессии, наилучшим образом описывающего изучаемую зависимость, соответствующего эмпирическим данным и целям исследования, определяется следующими задачами:

- выбор формулы уравнения регрессии;

- определение параметров выбранного уравнения;

- нахождение точечных и интервальных оценок параметров функции регрессии;

- проверка адекватности построенной эмпирической функции регрессии эмпирическим данным.

Таким образом, основной задачей регрессионного анализа является подбор такой функции, которая бы наилучшим образом отражала экономическую закономерность, при помощи которой можно было бы решать задачи обоснованного прогноза.

Наряду с задачами регрессионного анализа решаются задачи корреляционного анализа:

- измерение интенсивности (силы, степени, тесноты) связи между факторами, описывающими изучаемый экономический процесс;

- отбор факторов, оказывающих наиболее существенное влияние на результативный признак, на основании измерения степени связности между явлениями;

- обнаружение неизвестных причинных связей. Корреляция непосредственно не выявляет причинных связей между явлениями, но устанавливает степень необходимости этих связей и достоверность суждения об их наличии.

1.3. Выбор формы однофакторной регрессионной модели. Для более углубленного исследования связей и взаимозависимости экономических явлений математические методы, изученные в высшей математике, дополняются функциями регрессии, которые выражают количественное соотношение между факторным и результативным признаками. Форма связи между экономическими явлениями выражается аналитическим уравнением. При этом нужно определить такое математическое уравнение, которое наилучшим образом описывало бы характер исследуемого экономического процесса. Форму этой связи можно определить из расположения точек на корреляционном поле или из корреляционной таблицы, в которой вычисляются средние результативного признака для каждой группы факторного признака:

 

,

 

где – значения середины интервалов ряда распределения Y; – частоты парных значений и .

Для определения вида функции регрессии, используется также метод дисперсионного анализа, который позволяет оценивать линейность регрессии. Реализуем метод дисперсионного анализа для случая линейной формы связи: .

Сгруппируем всю совокупность наблюдений в виде таблицы:

 

,

 

где каждая строка соответствует определенному значению фактора X.

Для определения параметров и нужно минимизировать сумму

 

 

которую представим в виде

 

 

где – эмпирическая линия регрессии. Это разложение приводит к дисперсиям:

 

 

Дисперсии – это вариации значений признака соответственно в пределах групп наблюдений и около линии регрессии; – вариации эмпирических коэффициентов по отношению к теоретическим коэффициентам.

Для проверки гипотезы о линейности связи между исследуемыми признаками составляется F -отношение:

 

,

 

которое подчиняется распределению Фишера – Снедокора с и степенями свободы. Если вычисленное F-отношение меньше табличного для заданного уровня значимости , то гипотеза о линейности связи подтверждается. Этот вывод следует из того, что если регрессия прямолинейная, то отклонения от нее следует считать случайными. Случайной при такой зависимости будет и та часть отклонений, которая приходится на различия между теоретической и эмпирической линиями регрессии. Теоретическая регрессия представляет то предельное положение, к которому стремится эмпирическая регрессия при увеличении числа наблюдений. Расхождение между ними обусловливается тем, что в эмпирической линии регрессии оказывается непогашенной некоторая часть случайных колебаний. Но это верно лишь тогда, когда теоретическая регрессия в виде прямой действительно правильно выражает форму связи. Если же это не так, то и отклонения эмпирической линии регрессии от теоретической прямой регрессии должны уже рассматриваться не как случайные, а как закономерное отражение кривизны регрессии. Сравнение этих отклонений с чисто случайной их величиной и должно дать ответ на поставленный вопрос о линейной регрессии.

1.4. Основные предпосылки применения метода наименьших квадратов в аппроксимации связей признаков социально-экономических явлений (условия Гаусса – Маркова). Так как при построении регрессионной модели мы не можем охватить весь комплекс причин и учесть случайность, присущую в той или иной степени причинному действию и определяемому им следствию, то в выражение функции регрессии необходимо ввести аддитивную составляющую – возмущающую переменную U, дающую суммарный эффект от воздействия всех неучтенных факторов и случайностей. Эмпирические значения Y можно вследствие этого представить в виде . Для нахождения параметров расчетных значений Y должны выполняться некоторые предпосылки (предположения). Эти предпосылки имеют общий характер, т.е. они не определяются объемом выборки и числом включенных в анализ переменных.

Наиболее существенными предположениями являются следующие.

1. Полагаем, что для фиксированных значений переменных математическое ожидание возмущающей переменной равно нулю: . Следовательно, средний уровень значений переменной Y определяется только функцией регрессии и возмущающая переменная не коррелирует со значениями регрессии:

 

.

 

2. Дисперсия случайной переменной U должна быть для всех значений одинакова и постоянна: . Так как , то данную предпосылку можно переписать в виде: . Это свойство возмущающей переменной U называется гомоскедастичностью. Невыполнение данной предпосылки называется гетероскедастичностью (непостоянством дисперсий отклонений).

3. Значения случайной переменной U попарно независимы в вероятностном смысле: для . Выполнимость данной предпосылки означает отсутствие систематической связи между любыми случайными отклонениями, т.е. об отсутствии автокорреляции.

4. Число наблюдений должно превышать число параметров (n > m), иначе невозможна оценка этих параметров. Между факторными переменными не должно существовать строгой линейной зависимости, т.е. должна отсутствовать мультиколлинеарность между факторными переменными. При простой линейной регрессии это предположение сводится к условию .

5. Переменные факторы не должны коррелировать с возмущающей переменной U. Данное условие предполагает выполнимость соотношения

.

Это значит, что рассматривается односторонняя зависимость переменной Y от переменных .

6. Возмущающая переменная распределена нормально. Предполагается, что переменная U не оказывает существенного влияния на переменную Y и представляет собой суммарный эффект от некоторого числа незначительных некоррелированных влияющих факторов.

Метод наименьших квадратов – один из наиболее распространенных методов оценивания неизвестных параметров регрессии по эмпирическим данным, хотя существуют и другие методы оценивания. Отметим, что при одних и тех же предположениях и одной и тои же функции регрессии различные способы оценивания приводят к разным оценкам параметров регрессии.

Задача регрессионного анализа состоит в нахождении истинных значений параметров, т.е. в определении соотношения между и Y в генеральной совокупности. С помощью регрессионного анализа находят оценки параметров регрессии, наиболее хорошо согласующиеся с опытными данными. Разность между значениями параметров регрессии и их оценками возникающая за счет оценивания на основе имеющихся в распоряжении данных, называется ошибкой оценки. При выборе метода оценивания регрессии пытаются найти такие оценки параметров регрессии, относительно которых с достаточно большей вероятностью можно утверждать, что они незначительно отличаются от истинного значения параметра или что они являются несмещенными, состоятельными и эффективными.

Состоятельность – важнейшее и минимально необходимое требование, предъявляемое к оценкам.

Если выполняются предпосылки 1 – 6, то оценки параметров регрессии, полученные методом наименьших квадратов, являются состоятельными, несмещенными и эффективными. Оценки, полученные методом наименьших квадратов, обладают наименьшей дисперсией. В этом смысле они представляют собой наилучшие линейные несмещенные оценки параметров теоретической регрессии. При нарушении предпосылок 2 и 3 нарушается свойство эффективности оценок, а свойства несмещенности и состоятельности сохраняется.

1.5. Построение регрессионной прямой методом наименьших квадратов. Если, исходя из профессионально-теоретических соображений в сочетании с исследованием расположения точек на корреляционном поле или других соображений, предполагают линейный характер зависимости усредненных значений результативного признака, то эту зависимость выражают с помощью функции линейной регрессии. Эта функция, называемая эмпирической регрессией, служит оценкой линейной функциональной связи между результативным и факторным признаками.

На результативный признак оказывает влияние и ряд других факторов. Чтобы элиминировать (сгладить) влияние этих факторов, нужно произвести выравнивание фактических величин Y на основании предположения, что между X и Y существует функциональная зависимость вида: . При этом фактические значения Y заменяются значениями, вычисленными па формуле

, (1.1)

где - оценка условного математического ожидания , и -

оценки неизвестных параметров и , называемые эмпирическими коэффициентами регрессии. В конкретном случае

, (1.2)

где отклонение - оценка теоретического отклонения. Оценки и практически всегда отличаются от истинных значений коэффициентов и , что приводит к несовпадению эмпирической и теоретической линий регрессий.

Так как все факторы, кроме фактора X, рассматриваются как постоянные средние величины и выражены параметрами и , то и сглаженные величины Y представляют собой средние . Неизвестные параметры и входящие в уравнение (1.1), определяются методом наименьших квадратов:

 

.

 

Величина S является функцией параметров и . Тогда, в силу необходимого условия экстремума, частные производные S по и должны быть равны нулю:

 

.

 

Выполнив преобразования и решив систему нормальных уравнений:

 

,

 

 

получим:

 

 

,

 

 

где

, .

 

Оценки МНК являются: а) функциями от выборки (эмпирических данных); б) точечными оценками теоретических коэффициентов регрессии. Эмпирическая прямая регрессии проходит через точку и среднее значений отклонений равно нулю . Случайные отклонения не коррелированны с наблюдаемыми значениями зависимой переменной .

Параметр называется коэффициентом регрессии. Он характеризует угол наклона эмпирической регрессии к оси Ox: (рис. 1.1).

Рис.1.1

 

Коэффициент регрессии является мерой зависимости переменной Y от переменной X, т.е. указывает, как в среднем изменяется значение переменной Y при изменении переменной X на одну единицу. Знак коэффициента регрессии определяет направление этого изменения.

Отыскание значений коэффициента регрессии представляет большей практический интерес, если ставится вопрос о прогнозе изменений какого-либо показателя в связи с изменением того или иного условия. В частности, коэффициент регрессии используется для определения эластичности спроса и потребления.

В общем случае коэффициент эластичности представляет собой процентное изменение результативного признака при изменении факторного признака на один процент. Он вычисляется по формуле

,

 

где – коэффициент регрессии; – средние значения соответственно факторного и результативного признаков.

Например, коэффициент эластичности потребления выражает процентное изменение потребления или спроса на данный товар при изменении известных условий (дохода, цены и т.д.) на один процент.

Параметры и прямой регрессии – не безразмерные величины. Постоянная регрессии имеет размерность признака Y. Размерность коэффициента регрессии представляет собой отношение размерности результативного признака к размерности факторного признака.

После вычисления оценок параметров регрессии и , а также средних значений по формуле вычисляем остатки

 

 

которые используются в качестве характеристики точности оценки регрессии или степени согласованности расчетных значений регрессии и наблюдаемых значений переменной Y. Для характеристики меры разброса фактических данных вокруг значений регрессии вычисляют дисперсию остатков:

 

.

 

Геометрический смысл параметров прямой регрессии следует из рис. 1.1.

Используя дисперсию остатков, можно указать среднюю квадратичную ошибку коэффициента регрессии:

.

 

Кроме уравнения регрессии на для тех же эмпирических данных может быть найдено уравнение регрессии на : . Коэффициенты и находятся по аналогичным формулам:

Как уже отмечалось, функция регрессии указывает, в какой степени изменяются значения результативного признака в соответствии с изменением факторного признака. Однако этого недостаточно для глубокого изучения их взаимосвязи. Нужно измерить еще интенсивность между изучаемыми факторами. Оценки, полученные с помощью уравнения регрессии, имеют точность тем большую, чем интенсивнее корреляция.

1.6. Измерение интенсивности линейной корреляционной связи. Мы рассмотрели, как определяется форма связи между факторным и результативным признаками. Изучим теперь показатели интенсивности этой связи.

При прямолинейной связи общим показателем интенсивности является линейный коэффициент корреляции (просто коэффициент корреляции)

 

.

 

Коэффициент корреляции является безразмерной величиной, так как сравниваются не индивидуальные отклонения, а нормированные отклонения и . Среднее произведение нормированных отклонений и дает коэффициент корреляции. Коэффициент корреляции удовлетворяет свойствам:

· Величина коэффициента корреляции не зависит от выбора единиц измерения случайных величин и ;

· Коэффициент корреляции не превосходит по абсолютной величине единицы, т.е. ;

· Коэффициент корреляции тогда и только тогда, когда между случайными величинами и существует линейная функциональная зависимость;

· Если между случайными величинами и отсутствует хотя бы одна из корреляционных связей, то коэффициент корреляции равен нулю;

· Условие является необходимым и достаточным условием для совпадения регрессий на и на .

Степень интенсивности корреляционной связи можно определить из табл. 1.1.

 

Т а б л и ц а 1.1

 

Корреляционная зависимость Значение коэффициента корреляции
Слабая Умеренная Заметная Тесная Весьма тесная 0,1 < r < 0,3, -0,3 < r < -0,1 0,3 < r < 0,5, -0,5 < r < -0,3 0,5 < r < 0,7, -0,7 < r < -0,5 0,7 < r < 0,9, -0,9 < r < -0,7 0,9 < r < 0,99, -0,99 < r < -0,9

 

Отметим, что коэффициент корреляции не отражает направление зависимости, т.е. он является функцией, симметричной относительно X и Y.

Средняя квадратичная ошибка коэффициента корреляции определяется по формуле

.

 

Наряду с коэффициентом корреляции и корреляционным отношением в эконометрике применяется коэффициент детерминации, отражающий, в какой мере функция регрессии определяется факторными признаками, содержащимися в ней.

Для определения коэффициента детерминации дисперсию, характеризующую рассеяние наблюдаемых значений переменной около ее среднего, разложим на две составляющие:

 

где , так как прямая регрессии проходит через среднюю точку корреляционного поля.

Дисперсия представляет собой ту часть общей дисперсии , которая обусловлена случайностью и изменчивостью прочих неучтенных факторов и не объясняется функцией регрессии. Из равенства

 

 

видно, что чем меньше , тем меньше эмпирические значения отклоняются от значений регрессии . Вторая составляющая общей дисперсии является дисперсией значений регрессии . Рассеяние значений регрессии определяется значением коэффициента регрессии, следовательно, дисперсия обусловлена влиянием факторного признака. Поэтому чем больше по сравнению с , тем больше общая дисперсия формируется за счет влияния факторного признака и, следовательно, связь между двумя переменными и X более интенсивная. Тогда в качестве показателя интенсивности связи (или оценки доли влияния переменной X на ) используется отношение

 

,

 

которое указывает, какая часть общего рассеяния значений Y обусловлена изменчивостью переменной X, и называется коэффициентом детерминации. Чем большую долю в общей дисперсии составляет , тем лучше выбранная функция регрессии соответствует эмпирическим данным.

Коэффициент детерминации изменяется в пределах от 0 до 1 . Если , то все эмпирические значения лежат на регрессионной прямой, т.е. , и . Следовательно, переменные X и Y связаны линейной функциональной зависимостью. Если , то , а «остаточная» дисперсия равна общей дисперсии , т.е. . В этом случае линия регрессии параллельна оси абсцисс и, следовательно, ни о какой статистической линейной зависимости не может быть речи.

Таким образом, чем больше коэффициент детерминации приближается к единице, тем лучше определена регрессия.

Коэффициент детерминации – величина безразмерная. Он не зависит от единиц измерения признаков X и Y и не изменяется при преобразовании переменных.

Подставляя выражения

 

 

в формулу , получаем:

 

,

 

откуда, так как

 

,

 

выводим формулу коэффициента детерминации, удобную для вычисления:

 

.

 

Укажем соотношения между коэффициентами корреляции, регрессии и детерминации при однофакторной линейной регрессии:

 

 

,

 

или

(перед корнем ставится знак коэффициента регрессии).

 

1.7. Нелинейная регрессия и корреляция. Подбор функции регрессии должен производиться с применением теории конкретной науки, на базе которой формулируется задача измерения связи между явлениями. При этом следует использовать методы выявления наличия связи. Односторонняя стохастическая зависимость может быть выражена и при помощи нелинейных функций. Различают два класса нелинейных регрессий. К первому классу относятся функции, нелинейные относительно факторного признака, но линейные относительно параметров, входящих в данные функции. Для оценок параметров таких функций применяется метод наименьших квадратов, следовательно, остаются в силе все исходные предпосылки линейного регрессионного анализа. Второй класс регрессий характеризуется нелинейностью факторного признака, входящего в уравнение регрессии.

 

 

Т а б л и ц а 1.2

Функция Нормальные уравнения
1.
2.
3.
4.
5. Такие же, как и для функции 2 при замене
6.
7. Такие же, как для функции 1 при замене
8. Такие же, как для функции 2 при замене
9.
10.
11. Такие же, как для функции 1 при замене

 

Функции, наиболее часто встречающиеся в однофакторных регрессионных моделях, представлены в табл. 1.2 (квазилинейные функции) и 1.3 (нелинейные функции второго класса), где даны также нормальные уравнения для определения входящих в них параметров и преобразованные функции (для нелинейных функций второго класса).

Т а б л и ц а 1.3

Название функции Аналитическое выражение Преобразование
Степенная
Показательная
Показательно-степенная
Экологическая
Логистическая
Частный случаи логической функции
Гомперца
Иррациональная
Гиперболическая
Обратная квадратному трехчлену
Дробно-рациональная
Джонсона
Модифицированная экспоненциальная
Торнквиста: 1-го типа
2-го типа
3-го типа

 

 

В табл. 1.2 и 1.3 указаны классы регрессий, характеризующихся нелинейностью относительно переменной X или относительно оцениваемых параметров. Квазилинейные функции (см. табл. 1.2) линейны относительно искомых параметров, т.е. их можно представить в виде

 

, (1.3)

 

где , – функции переменной X. Они не содержат параметров. Например, или и т.д. Поэтому к функции (1.3) можно применить метод наименьших квадратов. Получим систему нормальных уравнений:

 

 

Правило составления нормальных уравнений системы состоит в следующем: первое уравнение системы получается суммированием функций по из уравнения (1.3), остальные уравнения – последовательным умножением функции регрессии (1.3) соответственно на и последующим суммированием полученных результатов по .

Для получения оценок параметров функций из табл. 1.3 их предварительно подвергают преобразованиям, главное назначение которых – линеаризация рассматриваемых зависимостей по оцениваемым параметрам. Параметры регрессии исходных функций находят путем обратных преобразований. Например, путем логарифмического преобразования можно перейти от зависимости показательного типа к линейной .

Применяя метод наименьших квадратов к функции , где , получаем значения и . Потенцируя полученные значения, находим оценки параметров исходной функции.

Вычислив дисперсию результативного признака и воспользовавшись отклонениями величины от средней величины , получим показатель общей дисперсии , характеризующей вариацию признака Y. Вычислив дисперсию для каждого отдельного значения признака и воспользовавшись отклонениями данных значений от значений, рассчитанных по уравнению линии регрессии, получим условную дисперсию . Она меньше дисперсии . В качестве показателя интенсивности связи примем нормированное выражение разности этих дисперсий и получим корреляционное отношение, которое применяется для оценки интенсивности нелинейной связи:

.

 

Корреляционное отношение удовлетворяет свойствам:

· Величина корреляционного отношения не зависит от выбора единиц измерения случайных величин и ;

· Корреляционное отношение не превосходит единицы, т.е. ;

· Корреляционное отношение тогда и только тогда, когда между случайными величинами и существует функциональная зависимость;

· Если между случайными величинами и отсутствует хотя бы одна из корреляционных связей, то корреляционное отношение равно нулю;

· Условие является необходимым и достаточным условием линейной регрессионной связи;

· Корреляционное отношение не меньше коэффициента корреляции .

Из свойств корреляционного отношения следует, что чем больше значение корреляционного отношения приближается к единице (т. е. чем ближе нормированная разность к единице), тем сильнее наблюдаемая связь, а если , то связь ослабевает. При функциональной зависимости все значения Y лежали бы на линии регрессии.

Для оценки интенсивности нелинейной связи используется также индекс корреляции , который вычисляется по формуле:

 

.

 

Индекс корреляции принимает значения в интервале . Если , т.е. для всех , то мы располагаем функциональной зависимостью. Если же , т.е. для всех , , то связь в этом случае отсутствует. Чем больше значение индекса корреляции приближается к единице, тем сильнее наблюдаемая связь.

Средняя квадратичная ошибка корреляционного отношения

 

.

 

Различные уравнения регрессии, служащие для оценки уровня величин исследуемых зависимых переменных, представляют большей практический интерес, например в планировании. Оценки, полученные в уравнении регрессии, достаточно точно воспроизводят линию реальной эволюции явлений, если не слишком отдаляться от эмпирических данных. Экстраполяция допускается только тогда, когда доказана полная аналогия условий, места, времени и однородности явлений, к которым относятся оценки.

1.8. Проверка существенности оценок параметров регрессии, коэффициентов корреляции и детерминации. Мы отмечали, что оценки параметров регрессии являются случайными величинами с определенными распределениями вероятностей. При выполнении предположений 1 – 6, указанных выше, оценки параметров регрессии и распределены нормально с математическим ожиданием (), и дисперсией . Отсюда следует, что величина имеет стандартное нормальное распределение. Значения распределений оценок параметров регрессии позволяют производить оценку значимости соответствующих статистических характеристик. При практических исследованиях проверка значимости основывается на выборочных наблюдениях. Как всякая статистическая характеристика, параметры уравнения регрессии являются величинами случайными, т.е. их значения случайно рассеиваются вокруг одноименных параметров генеральной совокупности (истинных значений параметров теоретической регрессии). Если значения оценок параметров эмпирической регрессии попадают в зону рассеяния, обусловленную случайным характером самих показателей, это не является доказательством отсутствия регрессионной связи. Можно только утверждать, что исходные данные не отрицают отсутствия связи между переменными. Но если значения оценок параметров регрессии будут лежать вне этой зоны рассеяния, то можно считать, что между переменными существует статистически значимая связь. Используемый для решения этой задачи критерий значимости основан на распределении различных статистик.

Практически проверка значимости начинается с формулировки нулевой гипотезы состоящей в том, что между параметром выборки и параметром генеральной совокупности имеется существенное различие. Альтернативная гипотеза утверждает, что между этими параметрами не имеется существенного различия. Затем устанавливается уровень значимости , выражающий вероятность того, что нулевая гипотеза отвергается в то время, когда она в действительности верна. При проверке существенности параметров корреляционно-регрессионной связи выборочную характеристику, вычисленную по результатам наблюдений, сравнивают с соответствующим критическим значением. При этом следует различать одностороннюю и двустороннюю критические области. Форма задания критической области зависит от постановки задачи. Если требуется оценить абсолютную величину расхождения между параметрами выборки и генеральной совокупности, то используется двусторонняя критическая область. Если же требуется установить, что один из параметров строго больше или меньше другого, то используется односторонняя критическая область. Уровень значимости, при использовании односторонней критической области меньше, чем при использовании двусторонней. В случае симметричного распределения выборочной характеристики уровень значимости двусторонней критической области равен , а односторонней . Затем задается статистическая характеристика (статистика) для проверки гипотезы . Более подробное теоретическое обоснование проверки статистических гипотез можно найти в учебном пособии (2, § 8.1).

Рассмотрим проверку значимости параметров корреляционно-регрессионного анализа. Для оценки значимости каждого параметра регрессии выдвинем следующие гипотезы:

0 – переменная X не оказывает существенного влияния на зависимую переменную Y;

– переменная X оказывает существенное влияние на зависимую переменную Y.

При такой альтернативной гипотезе используется двусторонняя критическая область. Если же альтернативная гипотеза формулируется в виде : , т.е. имеется значимая положительная (отрицательная) зависимость переменной Y от переменной X, то используется односторонняя критическая область. Ясно, что при такой формулировке альтернативной гипотезы на основании экономических соображений должен быть априори известен знак параметра регрессии.

Для проверки гипотезы используется статистика

, (1.4)

 

а гипотезы – статистика

 

, (1.5)

 

подчиняющиеся распределению Стьюдента с степенями свободы; а - стандартная ошибка регрессии.

 

Проверяя значимость коэффициента парной корреляции, устанавливают наличие или отсутствие корреляционной связи между исследуемыми экономическими явлениями. При этом выдвигаются следующие гипотезы:

– между переменными X и Y отсутствует значимая корреляционная связь;

– между переменными Y и X имеется существенная корреляционная связь.

Из альтернативной гипотезы следует, что нужно воспользоваться двусторонней критической областью.

Для проверки гипотезы по результатам выборки используется статистика

 

, (1.6)

 

распределенная по закону Стьюдента с степенями свободы.

Вычисленные по результатам выборки статистики (1.4) – (1.6) сравниваются с критическим значением, определенным по таблице распределения Стьюдента при заданном уровне значимости и степенях свободы. Если , то нулевая гипотеза отвергается, т.е. корреляционно-регрессионная связь между переменными Y и X значима; если же , то гипотеза об отсутствии связи не вызывает возражений, т.е. принимается гипотеза .

Значимость коэффициента корреляции можно определить, если воспользоваться критическими значениями коэффициента корреляции

 

.

 

Существуют подробные таблицы критических значений коэффициента корреляции. При этом, если , то можно утверждать, что связь между переменными существенная; если же , то нет причин на основании выборки отклонить нулевую гипотезу об отсутствии связи.

В случае, если при формулировке гипотезы нельзя предположить, что коэффициент корреляции генеральной совокупности и, следовательно, нельзя положить , применяют zпреобразование Фишера

 

 

к статистике t и получают статистику

 

,

 

которая имеет t-распределение с степенями свободы. Процедура проверки значимости проводится далее аналогично предыдущей.

Иногда возникает необходимость проверки гипотезы об отличии друг от друга двух коэффициентов корреляции. При этом предполагается, что рассматриваются одни и те же признаки однородных совокупностей: данные представляют собой результаты независимых испытаний и применяются коэффициенты корреляции одного типа (коэффициенты парной или частной корреляции при исключении одинакового количества переменных). Объемы двух выборок могут быть различны. Нулевая гипотеза формируется в виде (коэффициенты корреляции двух рассматриваемых совокупностей равны). Альтернативная гипотеза состоит в том, что . Для проверки нулевой гипотезы используется статистика

 

,

 

где – значения z - преобразования Фишера коэффициентов корреляции и ; – объемы выборок.

Если (= 0,05 или = 0,01), то гипотеза отвергается. В противном случае, т.е. при , гипотеза принимается. В случае принятия гипотезы величина

 

 

после преобразования

 

tank

 

может служить оценкой коэффициента корреляции . Затем проверяется гипотеза состоящая в том, что , с помощью статистики

 

 

имеющей нормальное распределение.

Для проверки значимости коэффициента детерминации выдвигаются следующие гипотезы:

– переменная X, включенная в регрессию, не оказывает существенного влияния на зависимую переменную ;

– переменная X, включенная в регрессию, оказывает существенное влияние на зависимую переменную ;

В этом случае для проверки гипотезы следует использовать одностороннюю критическую область. Для оценки значимости парного коэффициента детерминации используется статистика

 

,

 

имеющая F-распределение Фишера с и степенями свободы.

Значение статистики, вычисленное по результатам выборки, сравнивается с критическим значением , найденным по таблице F-распределения Фишера при заданном уровне значимости и соответствующем числе степеней свободы. Если , то вычисленный коэффициент парной детерминации значимо (с вероятностью ) отличается от нуля и, следовательно, переменная оказывает существенное влияние на переменную .

1.9. Оценка адекватности регрессионной модели.После проверкизначимости коэффициентов регрессии проверяется общее качество уравнения регрессии, т.е. проверяется, насколько хорошо эмпирическое уравнение регрессии согласуется со статистическими данными. Для подтверждения факта непротиворечивости формы зависимости опытным данным либо опровержения предложенного вида зависимости как не соответствующей этим данным разработаны различные статистические критерии.

Линейность регрессии проверяется, используя следующий прием.

Пусть – групповое среднее, соответствующее -му значению переменной X, вычисляемое по формуле

 

,

 

где – число значений переменной Y, относящихся к .

Как отмечалось, сумму

 

 

можно представить в виде четырех слагаемых: . Тогда если в генеральной совокупности существует линейная регрессия и условные распределения переменной Y хотя бы приблизительно нормальны, то отношение средних квадратов отклонений

 

(1.7)

 

имеет F-распределение с и степенями свободы. Расчетное значение = сравнивается с квантилем , найденным по таблице распределения при заданном уровне значимости и степенях свободы. Если , то линейная регрессионная зависимость не противоречит опытным данным. В противном случае, т.е. если , гипотеза о линейной зависимости между переменными несостоятельна.

Для проверки статистической адекватности уравнения регрессии (общего качества уравнения регрессии) обычно используют три критерия:

1) проводят анализ дисперсии зависимой переменной Y;

2) определяют стандартную ошибку по формуле

 

;

 

3) вычисляют среднюю абсолютную процентную ошибку аппроксимации:

 

.

 

1) Анализ дисперсии зависимой переменной состоит в том, что сумма представляется в виде суммы двух слагаемых:

 

.

 

Затем составляется отношение средних значений этих сумм:

 

,

 

которое используется в качестве статистики для проверки гипотезы , состоящей в том, что . Эта выборочная статистика характеризуется F-распределением с и степенями свободы. По таблице F-распределения для заданного уровня значимости и числа степеней свободы и находим квантиль , с которым сравниваем . Если , то уравнение регрессии признается значимым, т.е. доля вариации, отнесенная за счет уравнения регрессии, больше, чем за счет случайных неучтенных факторов. Считается, что уравнение регрессии адекватно изучаемому экономическому процессу, если в 4 раза больше квантиля F-распределения.

Построенное уравнение регрессии можно использовать для прогнозирования значений зависимой переменной по значениям переменной X. Для этого конкретное значение подставляем в эмпирическое уравнение регрессии и находим значение

– Конец работы –

Эта тема принадлежит разделу:

Эконометрика

Г М Булдык.. Эконометрика..

Если Вам нужно дополнительный материал на эту тему, или Вы не нашли то, что искали, рекомендуем воспользоваться поиском по нашей базе работ: Парная регрессия и корреляция

Что будем делать с полученным материалом:

Если этот материал оказался полезным ля Вас, Вы можете сохранить его на свою страничку в социальных сетях:

Все темы данного раздела:

Булдык Г.М.
Б 90 Эконометрика: Учебное пособие. Часть I. – Мн.: ИПП,2010. - 108с.: ил.   Дается методическое обоснование моделирования, рассматриваются статистические методы выявления ко

В.3. Этапы построения математических моделей
  П е р в ы й этап состоит в проведении качественного анализа экономической системы: вскрытие и обоснование причинно-следственных связей, оценка основных составляющих экономической си

Явлений на основе факторных регрессионных моделей
  После построения регрессионной модели, оценки существенности ее параметров и проверки адекватности, модель используется для предсказания значений зависимой переменной

Модели с дихотомическими (фиктивными) переменными
5.1. Необходимость использования фиктивных переменных.В регрессионных моделях в качестве факторных признаков часто приходится использовать не только количественные признаки, но и к

Системы эконометрических уравнений
6.1. Системы уравнений используемых в эконометрике.В предыдущих параграфах рассмотрено моделирование экономических взаимосвязей одним уравнением. Однако, некоторые экономические пр

Хотите получать на электронную почту самые свежие новости?
Education Insider Sample
Подпишитесь на Нашу рассылку
Наша политика приватности обеспечивает 100% безопасность и анонимность Ваших E-Mail
Реклама
Соответствующий теме материал
  • Похожее
  • Популярное
  • Облако тегов
  • Здесь
  • Временно
  • Пусто
Теги