Регрессионный анализ - раздел Математика, Глава 1. ПРЕДМЕТ И МЕТОД СТАТИСТИКИ 12.5.1. Общее Представление О Регрессионном Анализе
...
12.5.1. Общее представление о регрессионном анализе
После установления с помощью корреляционного анализа направления и тесноты связи между переменными величинами следует определить вид ее математической функции. Такая задача решается с помощью регрессионного анализа, который находит эту функцию с некоторой вероятностью по данным статистического наблюдения.
Вид функции определяется путем построения и анализа так называемого "уравнения регрессии" , показывающего зависимость среднего значения переменной y от переменных , вектора и вектора параметров (коэффициентов) , где - свободный член уравнения, , - параметры (коэффициенты) факторов .
Если уравнение регрессии имеет один фактор, то оно называется "парным", а если более одного - "множественным".
Уравнение регрессии сначала задается аналитически или же подбирается графически по расположению фактических данных у. После расчета своих коэффициентов и решения других вопросов оно проверяется по определенным критериям достоверности и при необходимости пересматривается до получения статистически значимого результата.
12.5.2. Определение коэффициентов уравнения регрессии методом наименьших квадратов
Если математический вид уравнения регрессии выбран, то далее определяются его коэффициенты . Существует несколько методов их определения. Самый распространенный - метод наименьших квадратов (МНК), который состоит в сведении к минимуму общей суммы квадратов отклонений фактических наблюдений от теоретических значений путем минимизации функционала:
. (17)
Этот функционал следует продифференцировать по искомым параметрам , приравнять к нулю полученные выражения, упростить их и решить полученную систему дифференциальных уравнений, проверив ее, кроме того, на свою "минимальность" (во избежание "максимальности") по знаку второй производной от функционала F. Решение этой системы не всегда существует и сопряжено со значительными сложностями. Наиболее надежный вариант, когда берется линейная функция
. (18)
Тогда после всех математических преобразований по МНК образуется линейная "система нормальных уравнений" (СНУ), содержащая исходные наблюдения переменных и и искомые коэффициенты регрессии :
. (19)
Суммирование переменных x и y производится по наблюдениям , индекс которых под знаками сумм снят ради упрощения. Решение СНУ в (19) можно получить по-разному, используя метод подстановки неизвестных, метод определителей Крамера, итерационный метод Гаусса-Зейделя, метод обратной матрицы и другие методы, а в случае парной регрессии ее решение при получается сразу по методу прямого счета
. (20)
Для многомерного случая факторов наилучшим методом решения СНУ является метод обратной матрицы, который позволяет получить не только наименее трудоемкое решение, но и оценить его на статистическую значимость. Матричная форма СНУ в (19) имеет вид:
, (21)
где - краткие обозначения соответствующих результатов.
Матрица исходных факторов , ее расширенная на первый (нулевой) единичный столбец матрица и транспонированная по отношению к матрица имеют вид
.
Единичные элементы и при в двух последних матрицах необходимы для получения первого столбца и первой строки СНУ в (19), представляя собой зарезервированные места для расчета коэффициента .
Размерность исходной факторной матрицы X равна , ее расширенной матрицы - , транспонированной матрицы - , матрицы C - , матрицы - , матриц и - .
Так как квадратная матрица C в левой части СНУ является симметричной относительно положительных элементов главной диагонали (с левого верхнего угла в правый нижний угол) и ввиду этого невырожденной, то СНУ в (19) имеет единственное решение
. (22)
Это решение дает минимум, а не максимум функционала F в (17), так как его вторые производные, в случае линейной регрессии, - положительные величины, составляя для свободного члена величину и для факторных коэффициентов - удвоенную величину положительных диагональных элементов в матрице С.
12.5.3. Линеаризация нелинейных функций
Наличие единственности решения (21) и относительная легкость его получения обусловливают использование линейного МНК для нелинейных функций. Поэтому до МНК нелинейную функцию стремятся по возможности привести к линейному виду относительно коэффициентов . Для этого используются разные способы - условная замена переменных, тейлоровское разложение сложных функций в полиномный многочлен, логарифмирование и другие приемы линеаризации. Например, мультипликативная степенная функция линеаризируется относительно параметров , путем своего логарифмирования:
а) ;
б) . (23)
Далее в (19) образуется "скорректированная" СНУ, где все исходные данные х и у будут прологарифмированы. Аналогичные "скорректированные" СНУ свойственны некоторым другим функциям. Так, для гиперболической и параболической функций
, (24)
с помощью замены переменных из (19) получают скорректированные СНУ
а) ;
б) . (25)
Все соотношения (19) - (25) основывались на исходных несгруппированных наблюдениях. При наличии аналитической группировки или корреляционной таблицы в случае линейной регрессии можно также скорректировать все ее СНУ путем умножения переменных х и у на частоты и . Образуется "частотная" СНУ. Так, при для парной линейной регрессии и гиперболической регрессии их частотные СНУ имеют вид:
а) ;
б) . (26)
Для многомерного случая наличия более разных факторов частотная СНУ уже непригодна. Надо переходить от двумерной аналитической группировки и двумерной корреляционной таблицы к многомерным группировкам. Однако они себя практически не оправдывают, будучи громоздкими и трудоемкими. Поэтому лучше ограничиться несгруппированной СНУ (19) и действовать по общему алгоритму МНК.
12.5.4. Сравнительные показатели факторного воздействия
Основополагающей в регрессионном анализе является нестандартизованное (натуральное) уравнение регрессии с найденными по МНК коэффициентами , т. е. гиперплоскость
. (27)
Коэффициент (свободный член) - это расстояние гиперплоскости от начала координат. Для парной регрессии при таким расстоянием является линия среднего уровня , когда при образуется .
Коэффициенты , при факторах (факторные коэффициенты) - это первые производные уравнения регрессии по переменному фактору . Они показывают, как в среднем изменится переменная y, если изменится на одну единицу своего измерения при постоянстве других регрессионных факторов.
Свободный член измеряется в одинаковых с результативной переменной y единицах. Факторные коэффициенты , имеют смешанные единицы, измеряясь в относительных единицах переменной y к фактору . Поэтому сравнивать их между собой нельзя, как и сопоставлять по ним воздействие на у разных факторов. Для этого надо перейти от различных коэффициентов , к безразмерным "стандартизованным" коэффициентам , путем построения "стандартизованного (нормированного)" уравнения регрессии, которое выражает связь между нормированными отклонениями и , переменных y и ,
. (28)
Это уравнение связано с переносом начала координат в точку пересечения средних величин .
Безразмерные стандартизованные коэффициенты показывают, на сколько своих нормированных отклонений изменится в среднем переменная y, если фактор изменится на одно свое нормированное отклонение , при постоянстве других регрессионных факторов. Чем больше , тем сильнее это воздействие, и наоборот.
Наряду с коэффициентами для факторного сравнения рассчитываются другие показатели - коэффициенты эластичности вариационные коэффициенты , коэффициенты раздельной детерминации , коэффициенты долевого вклада и некоторые другие. В случае линейной регрессии эти коэффициенты равны
, (29)
где - коэффициент вариации фактора , выраженный в долях единицы (а не в процентах). Интерпретация коэффициентов (29) дана далее в 12.5.7 на условном примере.
Статистическая адекватность уравнения регрессии (его достоверность) проверяется по F-критерию Фишера-Снедекора путем расчета фактического значения этого критерия как соотношения факторной и остаточной вариаций и в расчете на одну степень их свободы и , или же, как соотношение теоретических коэффициентов множественной детерминации и недетерминации в расчете на те же степени свободы и :
;
, (30)
где - общая, факторная и остаточная дисперсии.
Преобразования в (30) основаны на правиле сложения дисперсий, которое применительно к регрессионному анализу означает, что
,
и
при .
Теоретический коэффициент детерминации показывает долю факторной вариации в общей вариации . Его следует отличать от эмпирического коэффициента детерминации , который применяется в дисперсионном анализе и показывает долю межгрупповой дисперсии в общей дисперсии , когда
;
, (31)
где: - объем группы i и групповая средняя;
- внутригрупповая дисперсия.
Корни квадратные из эмпирического и теоретического коэффициентов детерминации дают их соответственно эмпирическое и теоретическое корреляционное отношения
. (32)
Все четыре коэффициента, изменяются от 0 до 1. Показатель служит в дисперсионном анализе мерой влияния на вариацию переменной у группировочного признака х, взятого за основание аналитической группировки, а показатель является в регрессионном анализе мерой определенности (причинности) той части вариации переменной у, которая описывается уравнением регрессии. Чем адекватнее уравнение регрессии, тем больше (ближе к единице), и наоборот: чем неадекватнее уравнение, тем ближе к нулю.
Если уравнение регрессии - линейное, то теоретический коэффициент множественной детерминации превращается в совокупный коэффициент линейной детерминации . Тогда (30) принимает вид (7).
При уравнение регрессии считается статистически значимым (адекватным), а при - статистически незначимым (неадекватным).
В последнем случае вид уравнения регрессии должен быть заменен на другой с повторением всей процедуры нового МНК. Образуется "многошаговый" МНК. На этом основан "метод перебора функций ", продолжающийся до получения значимого критерия и далее - до максимума .
Вместе с тем анализ будет усилен, если вместо и использовать их корректирующие коэффициенты, применяемые в том случае, когда соотношение числа степеней свободы и числа факторов т меньше своего порогового значения . Тогда имеем
; (33.а)
. (33.6)
Подставив (33.а) в (30) и (33.6) в (7), получим и . Если теперь окажется, что , то уже есть полное основание считать, что замена линейной регрессии на криволинейную была эффективной.
Выяснив вопрос об адекватности уравнения регрессии, надо определить далее значимость (достоверность) его коэффициентов, которая проверяется по t-критерию Стьюдента путем расчета его фактических значений как модульных отношений оцениваемых показателей , к их несмещенным ошибкам :
Если , то коэффициент считается статистически значимым с уровнем значимости и степенями свободы , а если - то статистически незначимым.
Незначимость коэффициента означает необходимость исключения из уравнения регрессии фактора , или замены его на другой, ранее не рассматриваемый. Если незначимых коэффициентов несколько, то в первую очередь исключается тот, который имеет минимальный долевой вклад или минимальный средний ранг по разным показателям факторной эффективности. Исключение фактора сказывается на коэффициентах и F. Если они от этого увеличились, то отсев факторов был эффективен, а если не увеличились, то неэффективен.
Процедура исключения-включения факторов продолжается в многошаговом МНК до тех пор, пока все , не будут значимыми. Это не всегда возможно. Тогда надо менять исходные условия: снизить уровень значимости ; уменьшить число факторов т; увеличить число наблюдений п.
Если ни одно из этих условий или их комплекс не дает нужных результатов, то следует отказаться от данного вида регрессии и перейти к другому ее виду, который допускает значимость своих коэффициентов при существующих условиях.
12.5.7. Условный пример регрессионного анализа
По исходным данным табл. 12.2 об объеме розничного товарооборота у (условные денежные единицы), численности работников (тыс. человек) и размере торговой площади (100 кв. м) в пяти магазинах проведем регрессионный анализ с помощью линейного МНК. Необходимые для двухфакторной модели подготовительные расчеты проведены в табл. 12.9.
Этап Формирование первичной статистической информационной базы по выбранному комплексу показателей... Проведение статистических наблюдений... Использование официальных государственных и корпоративных фирменных источников...
Если Вам нужно дополнительный материал на эту тему, или Вы не нашли то, что искали, рекомендуем воспользоваться поиском по нашей базе работ:
Регрессионный анализ
Что будем делать с полученным материалом:
Если этот материал оказался полезным ля Вас, Вы можете сохранить его на свою страничку в социальных сетях:
Понятие статистики и краткие сведения из ее истории
Слово «статистика» латинского происхождения (от status – состояние). В средние века оно означало политическое состояние государства. В науку этот термин введен в 18 веке немецким ученым Готфридом А
Предмет статистики
Статистика, как и всякая наука, имеет свой предмет исследования. Различают статистику, занимающуюся изучением социально-экономических явлений, которая относится к циклу общественных наук, и
Метод статистики
Для изучения предмета статистики разработаны и применяются методы и приемы, совокупность которых образует методологию статистики.
Статистическая методология пре
Основные категории статистики
Изучение статистики основывается на системе категорий и понятий, отражающих наиболее общие и существенные свойства, признаки, связи и отношения предметов и явлений объективного мира.
Об
Органы государственной статистики Российской Федерации
Изучением экономического и социального развития страны, отдельных ее регионов, отраслей, объединений, фирм, предприятий занимаются специально созданные для этого органы, совокупност
Статистическая информация и ее распространение
Государственная статистика выполняет важную роль в механизме управления экономикой, ориентированную на реализацию интересов государства в области информации.
Информация в п
Основные этапы статистического исследования
Количественная характеристика социально-экономических процессов в непосредственной связи с их качественной сущностью невозможна без глубокого статистического исследования. Использование различных с
Понятие и отличительные черты статистического наблюдения
Наблюдение как начальный этап исследования связано со сбором исходных данных об изучаемом явлении. Оно свойственно многим наукам. Однако каждая наука имеет свою специфику, отличаясь
Программно-методологические вопросы статистического наблюдения
Общественные явления и процессы обладают множеством различных признаков – явных и неявных. Собрать все данные по ним практически невозможно. Надо суметь отделить главное от второстепенного и возмож
Организационно-практическое обеспечение статистического наблюдения
Организационно-практическое обеспечение СН – это комплекс мероприятий, с помощью которых реализуются на практике программно-методологические положения по наблюдению в конкретных условиях его провед
Ошибки статистического наблюдения
Собранные данные могут содержать различные ошибки, которые подразделяются по следующим признакам:
а) по содержанию – на ошибки репрезентативности (представительности) и рег
Понятие о статистической сводке. Программа и план сводки
Статистическая сводка – это второй этап статистического исследования. В результате проведения статистического наблюдения получают первичную информацию, характеризующую отдельные единицы изучаемой с
Группировка как основа сводки. Задачи и виды группировок
Изучаемые статистикой массовые явления и процессы протекают на множествах элементов (единиц) некоторого вида, или совокупностях. Определить совокупность - означает определить
Определение количества выделяемых групп
Важнейшим вопросом группировки является определение количества выделяемых групп.
Если в основании группировки лежит атрибутивный признак, то количество выделяемых групп опр
Ряды распределения
Статистический ряд распределения представляет собой упорядоченное распределение единиц изучаемой совокупности на группы по определенному варьирующему признаку. В зависимости от при
Вторичная группировка
Вторичная группировка - это образование новых групп на основе ранее произведенной группировки. Применяют два способа образования новых групп на основе ранее произведенной группиро
Результаты долевой перегруппировки
№• группы
Размер зарплаты, руб. в мес.
Кредитное число управления работников
Валютное число управления работников
Абсолютные величины
Результаты статистического наблюдения, как уже отмечалось, регистрируются, прежде всего в форме абсолютных величин.
Абсолютные статистические величины - это величины
Относительные величины
Относительные статистические величины - это показатели, которые дают числовую меру соотношения двух сопоставляемых между собой величин.
Основное условие правильного
Виды статистических таблиц
Вид статистической таблицы определяется характером разработки показателей ее подлежащего. Различают три вида статистических таблиц: простые, групповые и комбинационные.
Основные элементы графиков
Графическое изображение статистических данных является одним из информационных и аналитических средств статистики Графический метод - это метод условных изображений при помощи линий
Диаграммы
Наиболее распространенным способом графического изображения статистической информации являются диаграммы. Среди их большого многообразия выделяют линейные, радиальные, точеч
Статистические карты
Статистические карты представляют собой вид графических изображений на схематической (контурной) карте статистических данных, характеризующих уровень или степень распростране
Сущность и значение средних величин
Средней величиной называется статистический показатель, который дает обобщенную характеристику варьирующего признака однородных единиц совокупности в конкретных условиях места и вре
Виды средних величин. Обобщенная (степенная) средняя
Средние величины делятся на два больших класса: степенные средние и структурные средние.
К степенным средним относятся: гармоническая, геометрическая, арифметическая, квад
Средняя арифметическая и ее свойства
Самым распространенным видом средней является средняя арифметическая. Если вариант (индивидуальное значение признака) встречается один раз, т. е. осреднение производится по не сгруп
Структурные средние
Кроме степенных средних в статистике для относительной характеристики величины варьирующего признака и внутреннего строения рядов распределения пользуются структурными средними, ко
Измерение вариации
Вариация - это различия индивидуальных значений признака у единиц изучаемой совокупности. Исследование вариации имеет большое практическое значение и является необходимым зве
Правило сложения дисперсий
Для оценки влияния факторов, определяющих вариацию, используют прием группировки: совокупность разбивают на группы, выбрав в качестве группировочного признака один из определяющих ф
Характеристики формы распределения
Для получения представления о форме распределения используются показатели среднего уровня (средняя арифметическая, мода медиана), показатели вариации, асимметрии и эксцесса.
Генеральная совокупность и выборка из нее
Основу статистического исследования составляет множество данных, полученных в результате измерения одного или нескольку признаков. Реально наблюдаемая совокупность объектов, статист
Основные способы организации выборки
Достоверность статистических выводов и содержательная интерпретация результатов зависит от репрезентативности выборки, т.е. полноты и адекватности представления свойств генер
Ошибки выборки
При любом статистическом наблюдении (сплошном и выборочном) могут встретиться ошибки двух видов: регистрации и репрезентативности. Ошибки регистрации могут иметь случайный
Необходимый объем выборки
При планировании выборочного наблюдения с заранее заданным значением допустимой ошибки выборки необходимо правильно оценить требуемый объем выборки. Этот объем может быть определен
Выборочного наблюдения
Вид выборки
Отбор
повторный
бесповторный
Количественный признак
Собственн
Многофакторные модели индексов
Рассмотренные нами двухфакторные системы экономических индексов позволяют построить и многофакторные модели индексов.
Назначение многофакторных моделей индексов - изучение
Средние индексы
Средние индексы применяются в том случае, когда в исходной информации нет данных для расчета индексов в агрегатной форме. Получают средний индекс путем замены в исходном агрегатном
Анализ сезонных колебаний
Изучение сезонных колебаний проводится с целью выявления закономерно повторяющихся различий в уровне рядов динамики в зависимости от времени года. Так, например, реализация сахара н
В сельскохозяйственных предприятиях за 3 года
В приведенном примере годовые объемы расхода горючего различаются незначительно. Если же в ряду динамики наряду с сезонными колебаниями имеется ярко выраженная тенденция роста (сни
Приведение рядов динамики к одинаковому основанию
В экономической практике часто возникает необходимость сравнения между собой нескольких рядов динамики (например, показатели динамики производства электроэнергии, производства зерн
Методы выравнивания рядов динамики
Для исследования закономерности (тенденции) развития изучаемого явления необходимы данные за длительный период времени. Тенденцию развития конкретного явления определяет основной ф
Общее представление о корреляционно-регрессионном анализе
Существующие между явлениями формы и виды связей весьма разнообразны по своей классификации. Предметом статистики являются только такие из них, которые имеют количественный характ
Линейная корреляция
Данная корреляция характеризует линейную взаимосвязь в вариациях переменных. Она может быть парной (две коррелирующие переменные) или множественной (более двух переме
Ранговая корреляция
Коэффициенты линейной корреляции Пирсона имеют своей теоретической предпосылкой нормальное или близкое к нему распределение переменных и их количественное выражение. При других Усл
Корреляция качественных признаков
Наряду с рассмотренными ранговыми коэффициентами корреляции Ч. Спирмена и М. Кендэла, для измерения корреляции качественных признаков применяются также коэффициенты контингенции (
Основной
1. Гусаров В. М. Теория статистики: Учеб. пособие для вузов. М: Аудит, ЮНИТИ, 1998.
2. Елисеева И. И., Юзбашев М. М. Общая теория статистики: Учебник, / Под ред. И. И. Елисеевой. М. :Фина
Дополнительный
17. Айвазян С. А., Енюк6в И. С, Мешалкин Л. Д. Прикладная статистика. М.: Финансы и статистика, 1983.
18. Алгоритмы и программы восстановления зависимостей / Вапник В. Н., Глазкова Т. Г.,
Хотите получать на электронную почту самые свежие новости?
Подпишитесь на Нашу рассылку
Наша политика приватности обеспечивает 100% безопасность и анонимность Ваших E-Mail
Новости и инфо для студентов