рефераты конспекты курсовые дипломные лекции шпоры

Раздел Философия
/
Способы оценки полученных моделей регрессии

Реферат Курсовая Конспект

Выберите учебное заведение

Способы оценки полученных моделей регрессии

Способы оценки полученных моделей регрессии - раздел Философия, Общая теория статистики Регрессионный Анализ Раздел Математической Статистики, Объединяющий Практичес...

Регрессионный анализ раздел математической статистики, объединяющий практические методы исследования регрессионной зависимости между величинами по статистическим данным. Цель Р. а. состоит в определении общего вида уравнения регрессии, построении оценок неизвестных параметров, входящих в уравнение регрессии, и проверке статистических гипотез о регрессии. При изучении связи между двумя величинами по результатам наблюдений (x₁, y₁), ..., (x_n, y_n) в соответствии с теорией регрессии предполагается, что одна из них Y имеет некоторое распределение вероятностей при фиксированном значении х другой, так что

Е(Y | х) = g(x, β) и D(Y | х) = σ²h²(x),

где β обозначает совокупность неизвестных параметров, определяющих функцию g(х), a h(x) есть известная функция х (в частности, тождественно равная 1). Выбор модели регрессии определяется предположениями о форме зависимости g(х, β) от х и β. Наиболее естественной с точки зрения единого метода оценки неизвестных параметров β является модель регрессии, линейная относительно β:

g(x, β) = β₀g₀(x) + ... + β_kg_k(x).

Относительно значений переменной х возможны различные предположения в зависимости от характера наблюдений и целей анализа. Для установления связи между величинами в эксперименте используется модель, основанная на упрощённых, но правдоподобных допущениях: величина х является контролируемой величиной, значения которой заранее задаются при планировании эксперимента, а наблюдаемые значения у представимы в виде

y_i = g(x_i, β) + ε_i, i = 1, ..., k,

где величины ε_iхарактеризуют ошибки, независимые при различных измерениях и одинаково распределённые с нулевым средним и постоянной дисперсией σ². Случай неконтролируемой переменной х отличается тем, что результаты наблюдений (x_i, y_i), ..., (x_n, y_n) представляют собой выборку из некоторой двумерной совокупности. И в том, и в другом случае Р. а. производится одним и тем же способом, однако интерпретация результатов существенно различается (если обе исследуемые величины случайны, то связь между ними изучается методами корреляционного анализа).

Предварительное представление о форме графика зависимости g(x) от х можно получить по расположению на диаграмме рассеяния (называемой также корреляционным полем, если обе переменные случайные) точек (x_i, y̅(x_i)), где y̅(x_i) — средние арифметические тех значений у, которые соответствуют фиксированному значению x_i. Например, если расположение этих точек близко к прямолинейному, то допустимо использовать в качестве приближения линейную регрессию. Стандартный метод оценки линии регрессии основан на использовании полиномиальной модели (m ≥ 1)

y(x, β) = β₀ + β₁x + ... + β_mx^m

(этот выбор отчасти объясняется тем, что всякую непрерывную на некотором отрезке функцию можно приблизить полиномом с любой наперёд заданной степенью точности). Оценка неизвестных коэффициентов регрессии β₀, ..., β_m и неизвестной дисперсии σ² осуществляется Наименьших квадратов методом. Оценки 0, ..., β_m, полученные этим методом, называются выборочными коэффициентами регрессии, а уравнение

определяет т. н. эмпирическую линию регрессии. Этот метод в предположении нормальной распределённости результатов наблюдений приводит к оценкам для β₀, ..., β_m и σ², совпадающим с оценками наибольшего правдоподобия .Оценки, полученные этим методом, оказываются в некотором смысле наилучшими и в случае отклонения от нормальности. Так, если проверяется гипотеза о линейной регрессии, то

где x_i и y_i, и оценка g(х), а её дисперсия будет меньше, чемдисперсия любой другой линейной оценки. При допущении, что величины y_i нормально распределены, наиболее эффективно осуществляется проверка точности построенной эмпирической регрессионной зависимости и проверка гипотез о параметрах регрессионной модели. В этом случае построение доверительных интервалов для истинных коэффициентов регрессии β₀, ..., β_m и проверка гипотезы об отсутствии регрессионной связи β_i = 0, i = 1, ..., m) производится с помощью Стьюдента распределения.

В более общей ситуации результаты наблюдений y₁, ..., y_n рассматриваются как независимые случайные величины с одинаковыми дисперсиями и математическими ожиданиями

Ey_i, = β₁ x_1i+ ... + β_kx_ki, i = 1, ..., n,

где значения x_ji, j = 1, ..., k предполагаются известными. Эта форма линейной модели регрессии является общей в том смысле, что к ней сводятся модели более высоких порядков по переменным x₁, ..., x_k. Кроме того, некоторые нелинейные относительно параметров β_i; модели подходящим преобразованием также сводятся к указанной линейной форме.

61. Мультиколлинеарность и способы ее устранения

Мультиколлинеарность - тесная корреляционная взаимосвязь между отбираемыми для анализа факторами, совместно воздействующими на общий результат, которая затрудняет оценивание регрессионных параметров.Существует два основных подхода к решению этой задачи.

§ Метод дополнительных регрессий

§ Строятся уравнения регрессии, которые связывают каждый из регрессоров со всеми остальными

§ Вычисляются коэффициенты детерминации для каждого уравнения регрессии

§ Проверяется статистическая гипотеза с помощью F-теста

Вывод: если гипотеза не отвергается, то данный регрессор не приводит к мультиколлинеарности.

§ Метод последовательного присоединения

§ Строится регрессионная модель с учетом всех предполагаемых регрессоров. По признакам делается вывод о возможном присутствии мультиколлинеарности

§ Расчитывается матрица корреляций и выбирается регрессор, имеющий наибольшую корреляцию с выходной переменной

§ К выбранному регрессору последовательно добавляются каждый из оставшихся регрессоров и вычисляются скорректированные коэффициенты детерминации для каждой из моделей. К модели присоединяется тот регрессор, который обеспечивает наибольшее значение скорректированного

Процесс присоединения регрессоров прекращается, когда значение скорректированного становится меньше достигнутого на предыдущем шаге.

Каким бы образом не осуществлялся отбор факторов, уменьшение их числа приводит к улучшению обусловленности матрицы , а, следовательно, и к повышению качества оценок параметров модели.

Помимо перечисленных методов существует ещё один, более простой, дающий достаточно хорошие результаты — это метод предварительного центрирования. Суть метода сводится к тому, что перед нахождением параметров математической модели проводится центрирование исходных данных: из каждого значения в ряде данных вычитается среднее по ряду: . Эта процедура позволяет так развести гиперплоскости условий МНК, чтобы углы между ними были перпендикулярны. В результате этого оценки модели становятся устойчивыми

Развернуть

Открыть в широком формате

– Конец работы –

Эта тема принадлежит разделу:

Общая теория статистики

A R n... N lg N... Установление перечня показателей которыми должны характеризоваться...

Если Вам нужно дополнительный материал на эту тему, или Вы не нашли то, что искали, рекомендуем воспользоваться поиском по нашей базе работ: Способы оценки полученных моделей регрессии

Что будем делать с полученным материалом:

Если этот материал оказался полезным ля Вас, Вы можете сохранить его на свою страничку в социальных сетях:

Все темы данного раздела:

Происхождение и значение термина статистика.
Статистика - общественная наука, которая изучает количественную сторону качественно определенных массовых социально-экономических явлений и процессов, их структуру и распределение, размещение в про

Любому наблюдению присущи ошибки
Ошибки наблюдения – погрешности, появляющиеся в процессе наблюдения: 1) Ошибки регистрации – все погрешности, возникающие при сплошном наблюдении.

В зависимости от структуры подлежащего различают статистические таблицы
ü простые, в подлежащем которых дается простой перечень единиц совокупности (перечневые) или только одна какая-либо из них единица, выделенная поопределенному

Виды средних величин
Средние величины делятся на два больших класса: степенные средние и структурные средние Степенные средние: Средняя арифметическая

Показатели вариации.
Абсолютные: 1. Размах вариации (R), показывает насколько велико различие между единицами совокупности, имеющими самое маленькое и самое большое значение п

Виды рядов динамики.
Ряд динамики - хронологический ряд, ряд последовательно расположенных в хронологическом порядке значений показателя, который в своих изменениях отражает ход развития изучаемого явл

Понятие динамического ряда и его элементы.
Динамические ряды – ряды чисел, характеризующих изменение величины общественного явления во времени. Динамические ряды являются материалом, исходной базой для анализа развития соци

Моментные и интервальные ряды динамики и их отличительные особенности.
Ряд динамики - хронологический ряд, ряд последовательно расположенных в хронологическом порядке значений показателя, который в своих изменениях отражает ход развития изучаемого явл

Средние характеристики ряда динамики.
Средний уровень ряда определяет обобщенную величину абсолютных уровней. Он определяется по средней, исчисленной из значений, меняющихся во времени Средний уровень из абсол

Выявление и характеристика основной тенденции временного ряда.
Под тенденцией понимается общее направление к росту, снижению или стабилизации уровня явления с течением времени. Если уровень непрерывно растет или непрерывно снижается, то тенденция к рост

Статистическое изучение сезонности
Под сезонными колебаниями понимается более или менее устойчивые внутригодовые колебания уровней динамического рода, обусловленные спецификами развития данного явления. Цель изучен

Понятие ошибки выборки. Виды отбора
Выборочное наблюдение применяется, когда применение сплошного наблюдения физически невозможно из-за большого массива данных или экономически нецелесообразно. Физическ

Ошибки выборки
Выборочную совокупность можно сформировать по количественному признаку статистических величин, а также по альтернативному или атрибутивному. В первом случае обобщающей характеристикой выборки служи

Агрегатные индексы
Слово «индекс» в переводе с латинского (index) означает «указатель», «показатель». Этот статистический показатель используется для целей сопоставительного анализа

Индекс Пааше
Индекс Пааше — один из индексов цен, исчисляемых для характеристики изменения цен товаров. Определяется путём взвешивания цен двух временных периодов по объёмам потребления текущег

Построение модели парной регрессии
Если функция регрессии линейна, то говорят о линейной регрессии. Модель линейной регрессии (линейное уравнение) является наиболее распространенным (и простым) видом зависимости между экономическими

Построение модели множественной регрессии
Обобщением линейной регрессионной модели с двумя переменными является многомерная регрессионная модель (или модель множественной регрессии). Пусть n раз измерены значения факторов x