рефераты конспекты курсовые дипломные лекции шпоры

Реферат Курсовая Конспект

Способы оценки полученных моделей регрессии

Способы оценки полученных моделей регрессии - раздел Философия, Общая теория статистики Регрессионный Анализ Раздел Математической Статистики, Объединяющий Практичес...

Регрессионный анализ раздел математической статистики, объединяющий практические методы исследования регрессионной зависимости между величинами по статистическим данным. Цель Р. а. состоит в определении общего вида уравнения регрессии, построении оценок неизвестных параметров, входящих в уравнение регрессии, и проверке статистических гипотез о регрессии. При изучении связи между двумя величинами по результатам наблюдений (x1, y1), ..., (xn, yn) в соответствии с теорией регрессии предполагается, что одна из них Y имеет некоторое распределение вероятностей при фиксированном значении х другой, так что

Е(Y | х) = g(x, β) и D(Y | х) = σ2h2(x),

где β обозначает совокупность неизвестных параметров, определяющих функцию g(х), a h(x) есть известная функция х (в частности, тождественно равная 1). Выбор модели регрессии определяется предположениями о форме зависимости g(х, β) от х и β. Наиболее естественной с точки зрения единого метода оценки неизвестных параметров β является модель регрессии, линейная относительно β:

g(x, β) = β0g0(x) + ... + βkgk(x).

Относительно значений переменной х возможны различные предположения в зависимости от характера наблюдений и целей анализа. Для установления связи между величинами в эксперименте используется модель, основанная на упрощённых, но правдоподобных допущениях: величина х является контролируемой величиной, значения которой заранее задаются при планировании эксперимента, а наблюдаемые значения у представимы в виде

yi = g(xi, β) + εi, i = 1, ..., k,

где величины εi характеризуют ошибки, независимые при различных измерениях и одинаково распределённые с нулевым средним и постоянной дисперсией σ2. Случай неконтролируемой переменной х отличается тем, что результаты наблюдений (xi, yi), ..., (xn, yn) представляют собой выборку из некоторой двумерной совокупности. И в том, и в другом случае Р. а. производится одним и тем же способом, однако интерпретация результатов существенно различается (если обе исследуемые величины случайны, то связь между ними изучается методами корреляционного анализа).

Предварительное представление о форме графика зависимости g(x) от х можно получить по расположению на диаграмме рассеяния (называемой также корреляционным полем, если обе переменные случайные) точек (xi,(xi)), где (xi) средние арифметические тех значений у, которые соответствуют фиксированному значению xi. Например, если расположение этих точек близко к прямолинейному, то допустимо использовать в качестве приближения линейную регрессию. Стандартный метод оценки линии регрессии основан на использовании полиномиальной модели (m ≥ 1)

y(x, β) = β0 + β1x + ... + βmxm

(этот выбор отчасти объясняется тем, что всякую непрерывную на некотором отрезке функцию можно приблизить полиномом с любой наперёд заданной степенью точности). Оценка неизвестных коэффициентов регрессии β0, ..., βm и неизвестной дисперсии σ2 осуществляется Наименьших квадратов методом. Оценки 0, ..., βm, полученные этим методом, называются выборочными коэффициентами регрессии, а уравнение

 

определяет т. н. эмпирическую линию регрессии. Этот метод в предположении нормальной распределённости результатов наблюдений приводит к оценкам для β0, ..., βm и σ2, совпадающим с оценками наибольшего правдоподобия .Оценки, полученные этим методом, оказываются в некотором смысле наилучшими и в случае отклонения от нормальности. Так, если проверяется гипотеза о линейной регрессии, то

 

где xi и yi, и оценка g(х), а её дисперсия будет меньше, чемдисперсия любой другой линейной оценки. При допущении, что величины yi нормально распределены, наиболее эффективно осуществляется проверка точности построенной эмпирической регрессионной зависимости и проверка гипотез о параметрах регрессионной модели. В этом случае построение доверительных интервалов для истинных коэффициентов регрессии β0, ..., βm и проверка гипотезы об отсутствии регрессионной связи βi = 0, i = 1, ..., m) производится с помощью Стьюдента распределения.

В более общей ситуации результаты наблюдений y1, ..., yn рассматриваются как независимые случайные величины с одинаковыми дисперсиями и математическими ожиданиями

Eyi, = β1 x1i + ... + βkxki, i = 1, ..., n,

где значения xji, j = 1, ..., k предполагаются известными. Эта форма линейной модели регрессии является общей в том смысле, что к ней сводятся модели более высоких порядков по переменным x1, ..., xk. Кроме того, некоторые нелинейные относительно параметров βi; модели подходящим преобразованием также сводятся к указанной линейной форме.

 

 

61. Мультиколлинеарность и способы ее устранения

Мультиколлинеарность - тесная корреляционная взаимосвязь между отбираемыми для анализа факторами, совместно воздействующими на общий результат, которая затрудняет оценивание регрессионных параметров.Существует два основных подхода к решению этой задачи.

§ Метод дополнительных регрессий

§ Строятся уравнения регрессии, которые связывают каждый из регрессоров со всеми остальными

§ Вычисляются коэффициенты детерминации для каждого уравнения регрессии

§ Проверяется статистическая гипотеза с помощью F-теста

Вывод: если гипотеза не отвергается, то данный регрессор не приводит к мультиколлинеарности.

§ Метод последовательного присоединения

§ Строится регрессионная модель с учетом всех предполагаемых регрессоров. По признакам делается вывод о возможном присутствии мультиколлинеарности

§ Расчитывается матрица корреляций и выбирается регрессор, имеющий наибольшую корреляцию с выходной переменной

§ К выбранному регрессору последовательно добавляются каждый из оставшихся регрессоров и вычисляются скорректированные коэффициенты детерминации для каждой из моделей. К модели присоединяется тот регрессор, который обеспечивает наибольшее значение скорректированного

Процесс присоединения регрессоров прекращается, когда значение скорректированного становится меньше достигнутого на предыдущем шаге.

Каким бы образом не осуществлялся отбор факторов, уменьшение их числа приводит к улучшению обусловленности матрицы , а, следовательно, и к повышению качества оценок параметров модели.

Помимо перечисленных методов существует ещё один, более простой, дающий достаточно хорошие результаты — это метод предварительного центрирования. Суть метода сводится к тому, что перед нахождением параметров математической модели проводится центрирование исходных данных: из каждого значения в ряде данных вычитается среднее по ряду: . Эта процедура позволяет так развести гиперплоскости условий МНК, чтобы углы между ними были перпендикулярны. В результате этого оценки модели становятся устойчивыми

 

– Конец работы –

Эта тема принадлежит разделу:

Общая теория статистики

A R n... N lg N... Установление перечня показателей которыми должны характеризоваться...

Если Вам нужно дополнительный материал на эту тему, или Вы не нашли то, что искали, рекомендуем воспользоваться поиском по нашей базе работ: Способы оценки полученных моделей регрессии

Что будем делать с полученным материалом:

Если этот материал оказался полезным ля Вас, Вы можете сохранить его на свою страничку в социальных сетях:

Все темы данного раздела:

Происхождение и значение термина статистика.
Статистика - общественная наука, которая изучает количественную сторону качественно определенных массовых социально-экономических явлений и процессов, их структуру и распределение, размещение в про

Любому наблюдению присущи ошибки
Ошибки наблюдения – погрешности, появляющиеся в процессе наблюдения: 1) Ошибки регистрации – все погрешности, возникающие при сплошном наблюдении.

В зависимости от структуры подлежащего различают статистические таблицы
ü простые, в подлежащем которых дается простой перечень единиц совокупности (перечневые) или только одна какая-либо из них единица, выделенная поопределенному

Виды средних величин
Средние величины делятся на два больших класса: степенные средние и структурные средние Степенные средние: Средняя арифметическая

Показатели вариации.
Абсолютные: 1. Размах вариации (R), показывает насколько велико различие между единицами совокупности, имеющими самое маленькое и самое большое значение п

Виды рядов динамики.
Ряд динамики - хронологический ряд, ряд последовательно расположенных в хронологическом порядке значений показателя, который в своих изменениях отражает ход развития изучаемого явл

Понятие динамического ряда и его элементы.
Динамические ряды – ряды чисел, характеризующих изменение величины общественного явления во времени. Динамические ряды являются материалом, исходной базой для анализа развития соци

Моментные и интервальные ряды динамики и их отличительные особенности.
Ряд динамики - хронологический ряд, ряд последовательно расположенных в хронологическом порядке значений показателя, который в своих изменениях отражает ход развития изучаемого явл

Средние характеристики ряда динамики.
Средний уровень ряда определяет обобщенную величину абсолютных уровней. Он определяется по средней, исчисленной из значений, меняющихся во времени Средний уровень из абсол

Выявление и характеристика основной тенденции временного ряда.
Под тенденцией понимается общее направление к росту, снижению или стабилизации уровня явления с течением времени. Если уровень непрерывно растет или непрерывно снижается, то тенденция к рост

Статистическое изучение сезонности
Под сезонными колебаниями понимается более или менее устойчивые внутригодовые колебания уровней динамического рода, обусловленные спецификами развития данного явления. Цель изучен

Понятие ошибки выборки. Виды отбора
Выборочное наблюдение применяется, когда применение сплошного наблюдения физически невозможно из-за большого массива данных или экономически нецелесообразно. Физическ

Ошибки выборки
Выборочную совокупность можно сформировать по количественному признаку статистических величин, а также по альтернативному или атрибутивному. В первом случае обобщающей характеристикой выборки служи

Агрегатные индексы
Слово «индекс» в переводе с латинского (index) означает «указатель», «показатель». Этот статистический показатель используется для целей сопоставительного анализа

Индекс Пааше
Индекс Пааше — один из индексов цен, исчисляемых для характеристики изменения цен товаров. Определяется путём взвешивания цен двух временных периодов по объёмам потребления текущег

Построение модели парной регрессии
Если функция регрессии линейна, то говорят о линейной регрессии. Модель линейной регрессии (линейное уравнение) является наиболее распространенным (и простым) видом зависимости между экономическими

Построение модели множественной регрессии
Обобщением линейной регрессионной модели с двумя переменными является многомерная регрессионная модель (или модель множественной регрессии). Пусть n раз измерены значения факторов x

Хотите получать на электронную почту самые свежие новости?
Education Insider Sample
Подпишитесь на Нашу рассылку
Наша политика приватности обеспечивает 100% безопасность и анонимность Ваших E-Mail
Реклама
Соответствующий теме материал
  • Похожее
  • Популярное
  • Облако тегов
  • Здесь
  • Временно
  • Пусто
Теги