рефераты конспекты курсовые дипломные лекции шпоры

Реферат Курсовая Конспект

Парная регрессия и корреляция

Парная регрессия и корреляция - раздел Экономика, ЭКОНОМЕТРИКА 1.1 Методические Указания  ...

1.1 Методические указания

 

В экономике широко используются методы статистики. Ставя цель дать количественное описание взаимосвязей между экономическими переменными, эконометрика, прежде всего, связана с методами регрессии и корреляции.

В зависимости от количества факторов, включенных в уравнение регрессии, принято различать простую (парную) и множественную регрессии.

Парная регрессия – уравнение связи двух переменных y и x:

где y – зависимая переменная (результативный признак),

х – независимая, объясняющая переменная (признак-фактор).

 

Различают линейные и нелинейные регрессии.

Линейная регрессия:

Нелинейные регрессии делятся на два класса:

· регрессии, нелинейные относительно включенных в анализ объясняющих переменных, но линейные по оцениваемым параметрам,

· регрессии, нелинейные по оцениваемым параметрам.

 

Регрессии, нелинейные по объясняющим переменным:

· Полиномы разных степеней

· Равносторонняя гипербола

Регрессии, нелинейные по оцениваемым параметрам:

· Степенная

· Показательная

· Экспоненциальная

Построение уравнения регрессии сводится к оценке ее параметров. Для оценки параметров регрессий, линейных по параметрам, используют метод наименьших квадратов (МНК). МНК позволяет получить такие оценки параметров a и b, при которых сумма квадратов отклонений фактических значений результативного признака y от теоретических минимальна:

Знак «^» означает, что между переменными x и y нет строгой функциональной зависимости, поэтому практически в каждом отдельном случае величина y складывается из двух слагаемых:

где y – фактическое значение результативного признака; – теоретическое значение результативного признака, найденное исходя из уравнения регрессии; e – случайная величина, характеризующая отклонения реального значения результативного признака от теоретического, найденного по уравнению регрессии.

Случайная величина e называется также возмущением. Она включает влияние не учтенных в модели факторов, случайных ошибок и особенностей измерения. Ее присутствие в модели порождено тремя источниками: спецификацией модели, выборочным характером исходных данных, особенностями измерения переменных.

От правильно выбранной спецификации модели зависит величина случайных ошибок: они тем меньше, чем в большей мере теоретические значения результативного признака , подходят к фактическим данным y.

К ошибкам спецификации относятся неправильный выбор той или иной математической функции для и недоучет в уравнении регрессии какого-либо существенного фактора, т. е. использование парной регрессии вместо множественной.

Для линейных и нелинейных уравнений, приводимых к линейным, решается следующая система относительно a и b:

 

 

Можно воспользоваться готовыми формулами, которые вытекают из этой системы:

 

Тесноту связи изучаемых явлений оценивает линейный коэффициент парной корреляции rxy и индекс корреляции rxy. Для линейной регрессии (), причем, если коэффициент регрессии то и, наоборот, при

 

Оценку качества построенной модели дает коэффициент детерминации, а также средняя ошибка аппроксимации.

Коэффициент детерминации (квадрат линейного коэффициента корреляции ) характеризует долю дисперсии результативного признака y, объясняемую регрессией, в общей дисперсии результативного признака:

 

Средняя ошибка аппроксимации – среднее отклонение расчетных значений от фактических.

Фактические значения результативного признака отличаются от теоретических, рассчитанных по уравнению регрессии, т.е. y и . Чем меньше это отличие, тем ближе теоретические значения подходят к эмпирическим данным, лучше качество модели. Величина отклонений фактических и расчетных значений результативного признака по каждому наблюдению представляет собой ошибку аппроксимации. Чтобы иметь общее суждение о качестве модели из относительных отклонений по каждому наблюдению, определяют среднюю ошибку аппроксимации как среднюю арифметическую простую:

Допустимый предел значений - не более 8-10% (это свидетельствует о хорошем подборе модели к исходным данным).

Средний коэффициент эластичности показывает, на сколько процентов в среднем по совокупности изменится результат у от своей средней величины при изменении фактора х на 1% от своего среднего значения:

Оценка значимости уравнения регрессии в целом дается с помощью F‑критерия Фишера. При этом выдвигается нулевая гипотеза, что коэффициент регрессии равен нулю, т.е. b=0, и, следовательно, фактор x не оказывает влияния на результат y.

Непосредственному расчету F‑критерия предшествует анализ дисперсии. Центральное место в нем занимает разложение общей суммы квадратов отклонений переменной y от среднего значения на две части: «объясненную» и «необъясненную»:

 

где – общая сумма квадратов отклонений;

- сумма квадратов отклонений, обусловленная регрессией (объясненная или факторная);

- остаточная сумма квадратов отклонений (необъясненная).

Если сумма квадратов отклонений, обусловленная регрессией, будет больше остаточной суммы квадратов, то уравнение регрессии статистически значимо и фактор x оказывает существенное влияния на результат y. Это равносильно тому, что коэффициент будет приближаться к единице.

При расчете объясненной суммы квадратов используются теоретические (расчетные) результативного признака , найденные по линии регрессии:

Сумма квадратов отклонений, обусловленных линейной регрессией, составляет:

Поскольку при заданном объеме наблюдений по x и y факторная сумма квадратов при линейной регрессии зависит только от одной константы коэффициента регрессии b, то данная сумма квадратов имеет одну степень свободы. Число степеней свободы – это число свободы независимого варьирования признака; оно связано с числом единиц совокупности n и с числом определяемых по ней констант. Существует равенство между числом степеней свободы общей, факторной и остаточной суммы квадратов. Число степеней свободы остаточной суммы квадратов при линейной регрессии составляет n-2. Число степеней для общей суммы квадратов составляет n-1, так как для требуется n-1 независимых отклонений (из n единиц после расчета среднего уровня свободно варьируются лишь n-1, число отклонений).

Следовательно, имеем два равенства:

Разделив каждую сумму квадратов на соответствующее ей число степеней свободы, получим средний квадрат отклонений, или, что то же самое, дисперсию на одну степень свободы D.

Определение дисперсии на одну степень свободы приводит дисперсии к сравнимому виду. Сопоставляя факторную и остаточную дисперсии в расчете на одну степень свободы, получим величину F‑критерия для проверки нулевой гипотезы :

.

Если нулевая гипотеза справедлива, то факторная и остаточная дисперсии не отличаются друг от друга. Фактическое значение F-критерия Фишера сравнивается с табличным значением при уровне значимости a и степенях свободы k1=m и k2=n-m-1.

Табличное значение F‑критерия – это максимальная величина отношения дисперсий, которая может иметь место при случайном их расхождении для данного уровня вероятности наличия нулевой гипотезы. Вычисленное значение F‑критерия признается достоверным (отличным от единицы), если оно больше табличного. В этом случае нулевая гипотеза об отсутствии связи признаков отклоняется и делается вывод о существенности этой связи: . H0отклоняется.

Если же величина окажется меньше табличной , то вероятность нулевой гипотезы выше заданного уровня (например, 0.05) и она не может быть отклонена без серьезного риска сделать неправильный вывод о наличии связи. В этом случае уравнение регрессии считается статистически незначимым, H0 не отклоняется.

где n – число единиц совокупности;

m – число параметров при переменных x.


1.2 Решение типовых задач

 

Задача 1.1 По территориям региона приводятся данные (таблица 1.1.1).

Таблица 1.1.1.

Номер региона Среднедушевой прожиточный минимум в день одного трудоспособного, у.е. Среднедневная заработная плата, у.е.
17,82 13,75
18,59 15,29
15,29 8,69
15,51 9,02
18,15 14,41
20,13 18,37
15,07 8,14
15,62 9,35
17,49 12,98
17,16 12,43

 

Требуется:

¾ построить линейное уравнение парной регрессии у от х;

¾ рассчитать линейный коэффициент парной корреляции и среднюю ошибку аппроксимации;

¾ оценить модель через ошибку аппроксимации и F-критерий.

Решение. Для расчета параметров уравнения линейной регрессии строим расчетную таблицу (таблица 1.1.2).

Таблица 1.1.2

  y x yx x2 y2 y - Ai
17,82 13,75 245,03 189,06 317,55 17,84 -0,02 0,084175
18,59 15,29 284,24 233,78 345,59 18,61 -0,02 0,080689
15,29 8,69 132,87 75,52 233,78 15,31 -0,02 0,098103
15,51 9,02 139,90 81,36 240,56 15,47 0,04 0,257898
18,15 14,41 261,54 207,65 329,42 18,17 -0,01 0,082645
20,13 18,37 369,79 337,46 405,22 20,15 -0,02 0,074516
15,07 8,14 122,67 66,26 227,10 15,03 0,04 0,265428
15,62 9,35 146,05 87,42 243,98 15,64 -0,02 0,096031
17,49 12,98 227,02 168,48 305,90 17,45 0,04 0,228702
17,16 12,43 213,30 154,50 294,47 17,18 -0,02 0,087413
Итого 170,83 122,43 2142,40 1601,50 2943,58 170,82 - 1,36
Ср.знач. 17,08 12,24 214,24 160,15 294,36 17,08 - 0,14

Получено уравнение регрессии:

С увеличением среднедушевого прожиточного минимума на одну у.е. среднедневная заработная плата возрастет в среднем на 0,50 у.е.

Подставляя в уравнение регрессии фактические значения х, определим теоретические (расчетные) значения .

Тесноту линейной связи оценит коэффициент корреляции:

Это означает, взаимосвязь между параметрами прямая и тесная, и что 99% вариации заработной платы (у) объясняется вариацией фактора х – среднедушевого прожиточного минимума.

Качество модели определяет средняя ошибка аппроксимации:

Качество построенной модели хорошее, так как не превышает 8-10%.

Рассчитаем F-критерий:

Полученное значение указывает на необходимость применять гипотезу H1 о неслучайной природе выявленной зависимости, т. к. (табличные значения F-критерия приведены в приложении).

 

Задача 1.2 По группе предприятий, производящих однородную продукцию известно, как зависит себестоимость единицы продукции у от факторов, приведенных в таблице 1.2.1.

 

Таблица 1.2.1

Признак-фактор Уравнение парной регрессии Среднее значение фактора
Объем производства, млн. руб., x1
Трудоемкость единицы продукции, чел.-час., x2
Оптовая цена за 1т энергоносителя, млн. руб, x3
Доля прибыли, изымаемой государством, %, x4

 

Требуется:

¾ определить с помощью коэффициентов эластичности силу влияния каждого фактора на результат;

¾ ранжировать факторы по силе влияния.

Решение:

Для уравнения равносторонней гиперболы

Для уравнения прямой

Для уравнения степенной зависимости

Для уравнения показательной зависимости

Сравнивая значения , ранжируем xi по силе их влияния на себестоимость единицы продукции:

а)

б)

в)

г)

Для формирования уровня себестоимости продукции группы предприятий первоочередное значение имеют цены на энергоносители; в гораздо меньшей степени влияют трудоемкость продукции и отчисляемая часть прибыли. Фактором снижения себестоимости выступает размер производства: с ростом его на 1% себестоимость единицы продукции снижается на 0,973%.

 


 

1.3 Решение с помощью ППП Excel

 

Задача 1.3 По территориям региона приводятся данные (таблица 1.3.1).

Таблица 1.3.1.

Номер региона Среднедушевой прожиточный минимум в день одного трудоспособного, у.е. Среднедневная заработная плата, у.е.

 

1) Встроенная статистическая функция ЛИНЕЙН определяет параметры линейной регрессии Порядок вычисления следующий:

1. Введите исходные данные или откройте существующий файл, содержащий анализируемые данные;

2. Выделите область пустых ячеек 5х2 (5 строк, 2 столбца) для вывода результатов регрессионной статистики или область 1х2 получения только оценок коэффициентов регрессии;

3. Активизируйте Мастер функций любым из способов:

а) в главном меню выберите Вставка/Функция;

б) на панели инструментов Стандартная щелкните по кнопке Вставка Функции;

4. В окне категория (рис. 1.1) выберите Статистические, в окне функция – ЛИНЕЙН. Щелкните по кнопке ОК;

Рис. 1.1 Диалоговое окно «Мастер функции»

5. заполните аргументы функции (рис.1.2):

Известные_значения_y – диапазон, содержащий данные результативного признака;

Известные_значения_x – диапазон, содержащий данные факторов независимого признака;

Константа – логическое значение, которое указывает на наличие или отсутствие свободного члена в уравнении; если Константа=1, то свободный член рассчитывается обычным образом, Константа=0, то свободный член равен 0;

Статистика – логическое значение, которое указывает, выводить дополнительную информацию по регрессионному анализу или нет. Если Статистика=1, то дополнительная информация выводится, если Статистика=0, то выводятся только оценки параметров уравнения. Щелкните по кнопке ОК;

Рис. 1.2 Диалоговое окно ввода аргументов функции ЛИНЕЙН

6. В левой верхней ячейке выделенной области появится первый элемент итоговой таблицы. Чтобы раскрыть всю таблицу, нажмите на клавишу <F2>, а затем – на комбинацию клавиш <CTRL>+<SHIFT>+<ENTER>.

Дополнительная регрессионная статистика будет выводиться в порядке, указанном в следующей схеме:

Значение коэффициента b Значение коэффициента a
Среднеквадратическое отклонение b Среднеквадратическое отклонение a
Коэффициент детерминации Среднеквадратическое отклонение y
F-статистика Число степеней свободы
Регрессионная сумма квадратов Остаточная сумма квадратов

 

Для данных из задачи 1.4 результат вычисления функции ЛИНЕЙН представлен на рис.1.3.

Рис. 1.3 Результат вычисления функции ЛИНЕЙН

2) С помощью инструмента анализа данных Регрессия,помимо результатов регрессионной статистики, можно получить остатки и графики подбора линии регрессии и остатков. Порядок действий следующий:

1. Проверьте доступ к пакету анализа. В главном меню последовательно выберите Сервис/Настройки.Установите флажок Пакет анализа(рис.1.4);

2. В главном меню выберите Сервис/Анализ данных/Регрессия. Щелкните по кнопке ОК;

 

Рис.1.4 Подключение надстройки Пакет анализа

3. Заполните диалоговое окно ввода данных и параметров вывода (рис. 1.5):

Входной интервал Y – диапазон, содержащий данные результативного признака;

Входной интервал X – диапазон, содержащий данные факторов независимого признака;

Метки – флажок, который указывает, содержит ли первая строка названия столбцов или нет;

Константаноль - флажок, указывающий на наличие или отсутствие свободного члена в уравнении;

Выходной интервал – достаточно указать левую верхнюю ячейку будущего диапазона;

Новый рабочий лист – можно задать произвольное имя нового листа.

Если необходимо получить информацию и графики остатков, установите соответствующие флажки в диалоговом окне. Щелкните по кнопке ОК.

Рис. 1.5 Диалоговое окно ввода параметров инструмента Регрессия

 

Результаты регрессионного анализа для данных из задачи 1.3 представлены на рис. 1.6.

Рис. 1.6 Результат применения инструмента Регрессия.

 

 


1.4 Контрольные вопросы

 

1) Что такое коэффициент регрессии? Каковы способы его оценивания?

2) В чем смысл коэффициента детерминации?

3) Для чего применяется критерий Фишера? В чем его суть?

4) Для чего применяется анализ дисперсии в критерии Фишера?

5) Для чего необходим расчет дисперсии на одну степень свободы?

6) Перечислите виды нелинейных моделей.

7) Как определяются коэффициенты эластичности по различным видам регрессионных моделей?

8) Как определяется средняя ошибка аппроксимации? В чем ее смысл?

9) Как определяется коэффициент корреляции? В чем его смысл?

10) Какие виды регрессий существуют? В каких случаях они применяются?


1.5 Пример варианта промежуточного тестирования

 

1. Вариация уровня заработной платы на 56% объясняет вариацию расходов на продукты питания в общих расходах. Это означает, что:

а) линейный коэффициент парной регрессии равен 56%;

б) коэффициент детерминации равен 44%;

в) линейный коэффициент парной регрессии равен 44%;

г) коэффициент детерминации равен 56%;

д) средняя ошибка аппроксимации равна 56%.

 

 

2. После получения уравнения парной линейной регрессии выяснилось, что в среднем расчетные значения отклоняются от фактических на 1,5%. Это означает, что:

а) коэффициент детерминации равен 1,5%;

б) средняя ошибка аппроксимации равна 0,015;

в) линейный коэффициент парной регрессии равен 0,015;

г) значение Fрасч равно 1,5

д) с вероятностью 1,5% уравнение регрессии статистически значимо.

 

 

3. Fрасч=4,5 Fтабл=4,3 Какой вывод можно сделать из анализа предложенных значений:

а) уравнение регрессии статистически незначимо;

б) необходим переход в расчетах от линейной регрессии к нелинейной;

в) уравнение регрессии статистически значимо;

г) в расчетах необходимо использовать множественную, а не парную регрессию.

д) получено неверное значение Fрасч.

4. Каково соотношение между числом степеней свободы общей, факторной и остаточной сумм квадратов:

а) их сумма больше единицы;

б) сумма числа степеней свободы факторной и остаточной равна числу степеней свободы общей суммы квадратов;

в) их сумма равна нулю;

г) сумма числа степеней свободы факторной и остаточной больше числа степеней свободы общей суммы квадратов;

д) сумма числа степеней свободы факторной и остаточной меньше числа степеней свободы общей суммы квадратов.

5. Если при анализе дисперсии сумма квадратов отклонений, обусловленная регрессией, будет больше остаточной суммы квадратов, то уравнение регрессии:

а) статистически незначимо;

б) не рекомендуется использовать в дальнейших расчетах;

в) неверно вследствие неточного расчета коэффициентов;

г) статистически значимо;

д) отклоняется с доверительной вероятностью 95%.

 

6. Величина F‑критерия для проверки гипотезы это:

а) отношение факторной дисперсии к остаточной;

б) произведение факторной и остаточной дисперсий;

в) отношение общей дисперсии к остаточной;

г) произведение общей и остаточной дисперсий;

д) отношение общей дисперсии к произведению факторной и остаточной.

– Конец работы –

Эта тема принадлежит разделу:

ЭКОНОМЕТРИКА

САНКТ ПЕТЕРБУРГСКИЙ... ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ АЭРОКОСМИЧЕСКОГО ПРИБОРОСТРОЕНИЯ... ЭКОНОМЕТРИКА Санкт Петербург...

Если Вам нужно дополнительный материал на эту тему, или Вы не нашли то, что искали, рекомендуем воспользоваться поиском по нашей базе работ: Парная регрессия и корреляция

Что будем делать с полученным материалом:

Если этот материал оказался полезным ля Вас, Вы можете сохранить его на свою страничку в социальных сетях:

Все темы данного раздела:

ЭКОНОМЕТРИКА
Учебное пособие     Санкт-Петербург     Составитель: Е. Г. Семенова М. С. Смирнова А.В. Фомина

Множественная регрессия и корреляция
2.1 Методические указания   Множественная регрессия – уравнение связи с несколькими независимыми переменными:

Временные ряды в экономических исследованиях
3.1 Методические указания   Модели, построенные по данным, характеризующим один объект за ряд последовательных моментов (периодов) времени,

Система экономических уравнений
4.1 Методические указания   Сложные экономические процессы описываются с помощью системы взаимосвязанных (одновременных) уравнений.

Хотите получать на электронную почту самые свежие новости?
Education Insider Sample
Подпишитесь на Нашу рассылку
Наша политика приватности обеспечивает 100% безопасность и анонимность Ваших E-Mail
Реклама
Соответствующий теме материал
  • Похожее
  • Популярное
  • Облако тегов
  • Здесь
  • Временно
  • Пусто
Теги