рефераты конспекты курсовые дипломные лекции шпоры

Раздел Математика
/
Линейная регрессия

Реферат Курсовая Конспект

Выберите учебное заведение

Линейная регрессия

Линейная регрессия - раздел Математика, Доклады по дисциплине Дополнительные главы математической статистики . Регрессионный анализ. 4 Регрессионный Анализ - Раздел Математической Статистики, Объ...

Регрессионный анализ - раздел математической статистики, объединяющий практические методы исследования регрессионной зависимости между величинами по статистическим данным. Проблема регрессии в математической статистике характерна тем, что распределениях изучаемых величин нет достаточной информации.

Цель РА состоит в определении общего вида уравнения регрессии, построении оценок неизвестных параметров, входящих в уравнение регрессии и проверке статистических гипотез о регрессии. При изучении связи между двумя величинами по результатам наблюдений (х₁, у₁),…, (х_n,y_n) в соответствии с теорией регрессии предполагается, что одна из них У имеет некоторое распределение вероятностей при фиксированном значении х другой, так что

Е(У|х) =g(х,b) и D(У|х)=s²h²(x),

где b обозначает совокупность неизвестных параметров, определяющих функцию g(х), а h(х) есть известная функция х (в частности, тождественно равная 1) и нужно по результатам наблюдений определить значения параметров. Выбор модели регрессии определяется предположениями о форме зависимости g(x,b) от х и b. Наиболее естественной с точки зрения единого метода оценки неизвестных параметров b является модель регрессии, линейная относительно b:

g(x,b)=b₀g₀(x)+…+b_kg_k(x).

Относительно значений переменной х возможны различные предположения в зависимости от характера наблюдений и целей анализа. Для установления связи между величинами в эксперименте используется модель, основанная на упрощённых, но правдоподобных допущениях: величина х является контролируемой величиной, значения которой заранее задаются при

планировании эксперимента, а наблюдаемые значения у представимы в виде

У_i =g(x_i,b)+е_i, i = 1,…,k,

где величины е_i характеризуют ошибки, независимые при различных измерениях и одинаково распределенные с нулевым средним и постоянной дисперсией s².

Случай неконтролируемой переменной х отличается тем, что результаты наблюдений (х_i, у_i),…,(x_n, у_n) представляют собой выборку из некоторой двумерной совокупности. И в том, и в другом случае РA производится одним и тем же способом, однако интерпретация результатов существенно различается (если обе исследуемые величины случайны, то связь между ними изучается методами корреляционного анализа).

Предварительное представление о форме графика зависимости g(х) от х можно получить по расположению на диаграмме рассеяния (называемой также корреляционным полем, если обе переменные случайные) точек (х_i,y(x_i)), где у(x_i) - средние арифметические тех значений у, которые соответствуют фиксированному значению х_i. Например, если расположение этих точек близко к прямолинейному, то допустимо использовать в качестве приближения линейную регрессию. Стандартный метод оценки линии регрессии основан на использовании полиномиальной модели

у(х,b)=b₀+b₁x+…+b_mx^m

(этот выбор отчасти объясняется тем, что всякую непрерывную на некотором отрезке функцию можно приблизить полиномом с любой на заданной степенью точности). Оценка неизвестных коэффициентов регрессии b₀…b_m и неизвестной дисперсии s² осуществляется методом наименьших квадратов.

Оценки ,…,параметров b₀…b_m , полученные этим методом, называются выборочными коэффициентами регрессии, а уравнение

определяет т.н. эмпирическую линию регрессии. Этот метод в предположении нормальной распределенности результатов наблюдений приводит к оценкам для b₀…b_m и s² ,совпадающим с оценками наибольшего правдоподобия. Оценки, полученные этим методом, оказываются в некотором смысле наилучшими и в случае отклонения от нормальности. Так, если проверяется гипотеза о линейной регрессии, то

, , , ,

где x и у - средние арифметические значений х_i и у_i, и оценка g(x)=- будет несмещенной для g(x), а её дисперсия будет меньше, чем дисперсия любой другой линейной оценки:

Случайные величины ,…,называются выборочными коэффициентами регрессии. Многочлен , построенный методами наименьших квадратов, называется эмпирической линией регрессии.

Если дисперсия зависит от x, то метод наименьших квадратов применим с некоторыми видоизменениями.

Если изучается зависимость случайной величины y от нескольких переменных x₁,…,x_k, то общую линейную модель регрессии удобнее записывать в матричной форме: вектор наблюдений y с независимыми компонентами y₁,…,y_n имеет среднее значение и ковариационную матрицу

E(y| x₁,…,x_k)=xb, D(y| x₁,…,x_k)=I (*), где b=(b₁,…,b_k) – вектор коэффициентов регрессии, X=||x_ij||, i=1,…,n, j=1…k,- матрица известных величин, связанных друг с другом, вообще говоря, произвольным образом, I – единичная матрица n-го порядка; при этом n>k и |X^TX|0. В более общем случае допускается корреляция между наблюдениями y_i:

E(y| x₁,…,x_k)=xb, D(y| x₁,…,x_k)=А, где матрица А известна, но эта схема сводится к модели (*). Несмещенной оценкой b по методу наименьших квадратов является величина , а смещенной оценкой для служит

Модель (*) является наиболее общей линейной моделью, поскольку она применима к различным регрессионным ситуациям и включает в себя все виды параболической регрессииy по x₁,…,x_k. При таком линейном понимании РА задача оценки b и вычисления ковариационной матрицы оценок Db=(X^TX)^-1 cводится к задаче обращения матрицы X^TX.

Указанный метод построения эмпирической регрессии в предположении нормального распределения результатов наблюдений приводит к оценкам для b и , совпадающим с оценками наибольшего правдоподобия. Однако оценки, полученные этим методом, являются в некотором смысле наилучшими и в случае отклонения от нормальности, если только объем выборки достаточно велик.

Задачи РА не ограничиваются построением точечных оценок параметров b и общей линейной модели (*). Проблема точности построенной эмпирической зависимости наиболее эффективно разрешается при допущении, что вектор наблюдений y распределен нормально.

При допущении, что величины y_iнормально распределены, наиболее эффективно осуществляется проверка точности построенной эмпирической регрессионной зависимости и проверка гипотез о параметрах регрессионной модели. В этом случае построение доверительных интервалов для истинных коэффициентов регрессии b₀…b_m и проверка гипотезы об отсутствии регрессионной связи b_i,=0, i = 1,…,m производится с помощью распределения Стьюдента.

В более общей ситуации результаты наблюдений у_1…y_n рассматриваются как независимые случайные величины с одинаковыми дисперсиями и математическими ожиданиями

Еу_i = b₁x₁+…+b_ix_ki, i = 1,...,n,

где значения х_jj, j‚ = 1,...,k предполагаются известными. Эта форма линейной модели регрессии является общей в том смысле, что к ней сводятся модели более высоких порядков по переменным x_1…x_k,. Кроме того, некоторые нелинейные относительно параметров b_i модели подходящим преобразованием также сводятся к указанной линейной форме.

РA является одним из наиболее распространённых методов обработки результатов наблюдений при изучении зависимостей в физике, биологии, экономике, технике и др. областях. На моделях РA. основаны такие разделы математической статистики, как дисперсионный анализ и планирование эксперимента; модели РА широко используются в многомерном статистическом анализе.

Развернуть

Открыть в широком формате

– Конец работы –

Эта тема принадлежит разделу:

Доклады по дисциплине Дополнительные главы математической статистики . Регрессионный анализ. 4

Содержание... Регрессионный анализ Теоретическая часть работы...

Если Вам нужно дополнительный материал на эту тему, или Вы не нашли то, что искали, рекомендуем воспользоваться поиском по нашей базе работ: Линейная регрессия

Что будем делать с полученным материалом:

Если этот материал оказался полезным ля Вас, Вы можете сохранить его на свою страничку в социальных сетях:

Все темы данного раздела:

Виды регрессионного анализа
Многошаговая регрессия (ШРА) — последовательность шагов РА, выполняемая в направлении увеличения или уменьшения количества учитываемых коэффициентов линейной модели регрессии.

Исследование линейной зависимости между ЧСС и мощностью выполняемой работы на основе РА
Рассчитать и построить график уравнения линейной регрессии для относительных значений PWC170 (1) и времени челночного бега 3х10 м у 13 исследуемых и сделать вывод о точности расчета урав

Описание объекта
В нашем случае объектом исследования является совокупность наблюдений за посещаемостью WEB сайта Комитета по делам семъи и молодежи Правительства г. Москвы www.telekurs.ru/ismm. Тематика сайта – эт

Факторы формирующие моделируемое явление
Отбор факторов для модели осуществляется в два этапа. На первом идет анализ, по результатам которого исследователь делает вывод о необходимости рассмотрения тех или иных явлений в качестве переменн

Построение уравнения регрессии
Используя программное обеспечение «ОЛИМП» (которое в свою очередь использует для расчетов указанные выше принципы и формулы чем значительно облегчает нам жизнь), найдем искомое урав

Смысл модели
При увеличении количества вакансий в день, количество посетивших сайт людей будет увеличиваться . Это означает что в настоящий момент сайт не полностью удовлетворяет запросы пользователей, что необ

Общее назначение
Любой закон природы или общественного развития может быть выражен в конечном счете в виде описания характера или структуры взаимосвязей (зависимостей), существующих между изучаемыми явлениями или

Оценивание линейных и нелинейных моделей
Формально говоря, Нелинейное оценивание является универсальной аппроксимирующей процедурой, оценивающей любой вид зависимости между переменной отклика и набором независимых переменных. В общ

Регрессионные модели с линейной структурой
Полиномиальная регрессия. Распространенной “нелинейной” моделью является модель полиномиальной регрессии. Термин нелинейная заключен в кавычки, поскольку эта модель линейна

Существенно нелинейные регрессионные модели
Для некоторых регрессионных моделей, которые не могут быть сведены к линейным, единственным способом для исследования остается Нелинейное оценивание. В приведенном выше примере для скорости

Регрессионные модели с точками разрыва
Кусочно - линейная регрессия. Нередко вид зависимости между предикторами и переменной отклика различается в разных областях значений независимых переменных. Например,

Методы нелинейного оценивания
Метод наименьших квадратов Функция потерь Метод взвешенных наименьших квадратов Метод максимума правдоподобия Максимум правдоподобия и логит/пробит мод

Начальные значения, размеры шагов и критерии сходимости.
Общим моментом всех методов оценивания является необходимость задания пользователем некоторых начальных значений, размера шагов и критерия сходимости алгоритма. Все методы начинают свою работу с ос

Оценивание пригодности модели
После оценивания регрессионных параметров, существенной стороной анализа является проверка пригодности модели в целом. Например, если вы определили линейную регрессионную модель, а реальная зависим

Распределения Пирсона (хи – квадрат), Стьюдента и Фишера.
В приложениях статистики очень часто используют связанные с нормальным распределения: распределение (хи-квадрат

Распределения Вейбулла - Гнеденко
Экспоненциальные распределения - частный случай так называемых распределений Вейбулла - Гнеденко. Они названы по фамилиям инженера В. Вейбулла, введшего эти распределения в практику анализа результ

Распределение Рэлея
Распределение Рэлея введено Дж. У. Рэлеем (1880) в связи с задачей сложения гармонических колебаний со спиральными фазами. Закон Рэлея применяется для описания неотрицательных величин, в частности,

Факторный анализ как метод редукции данных
Под редукцией понимается переход от многих исходных количественных признаков к пространству факторов, число которых значительно меньше числа исходных количественных признаков. Например, от исходных

Общий обзор методов факторного анализа
В основе каждого метода факторного анализа лежит математическая модель, описывающая соотношения между исходными признаками и обобщенными факторами. Перейдем к краткой характеристике этих моделей дл

Метод главных компонент
В основе модели для выражения исходных признаков через факторы здесь лежит предположение о том, что число факторов равно числу исходных признаков (k=m), а характерные факторы вообще отсутств

Центроидный метод
Этот метод основан на предположении о том, что каждый из исходных признаков aj(j = 1...m) может быть представлен как функция небольшого числа общих факторов F1

Метод экстремальной группировки параметров
Данный метод также основан на обработке матрицы коэффициентов корреляции между исходными признаками. В основе этого метода лежит гипотеза о том, что совокупность исходных признаков может быть разби

Критерии рационального выбора числа факторов
Сколько факторов следует выделять?Напомним, что анализ главных компонент является методом сокращения или редукции данных, т.е. методом сокращения числа переменных. Возникает естест

Проверка качественных характеристик выборки
Будем рассматривать критерии однородности. Любой статистически критерий проверки гипотез представляет собой средство измерения. Поэтому пользоваться им следует также квалифицированно, как

Критерий Смирнова
Предполагается, что функции распределения и

Критерий однородности Лемана-Розенблатта
Критерий однородности Лемана-Розенблатта представляет собой критерий типа . Критерий был предложен

Метод минимального расстояния
Равномернаяметрика,или метрика Колмогорова, - одна из наиболее старых и наиболее часто используемых вероятностных метрик. Термин «метрика Колмогорова» в отечественной литературе ис

Проверка количественных характеристик выборки
В §1 были определены характеристики генеральной совокупности, т.е. принадлежность к одной генеральной выборке, а также среднее и первый момент. На данном этапе имеется функция распределени

Кластерный анализ в задачах социально-экономического прогнозирования
Кластерный анализ может быть успешно использован в задачах социально-экономического прогнозирования. При анализе и прогнозировании социально-экономических явлений исследователь довольно часто стал

Кластерный анализ как инструмент подготовки эффективных маркетинговых решений
Причины неудач или недостаточно быстрого роста бизнеса в нашей стране часто списываются на несовершенную систему кредитования, пробелы в законодательстве, общую экономическую нестабильность и, нако

Иерархические методы кластерного анализа
Суть иерархической кластеризации состоит в последовательном объединении меньших кластеров в большие или разделении больших кластеров на меньшие. Иерархические аглом

Меры сходства
Для вычисления расстояния между объектами используются различные меры сходства (меры подобия), называемые также метриками или функциями расстояний. Для придания больших весов более отдале

Методы объединения или связи
Когда каждый объект представляет собой отдельный кластер, расстояния между этими объектами определяются выбранной мерой. Возникает следующий вопрос — как определить расстояния между кластерами? С

Иерархический кластерный анализ в SPSS
Рассмотрим процедуру иерархического кластерного анализа в пакете SPSS (SPSS). Процедура иерархического кластерного анализа в SPSS предусматривает группировку как объектов (строк матрицы данных), т

Определение количества кластеров
Существует проблема определения числа кластеров. Иногда можно априорно определить это число. Однако в большинстве случаев число кластеров определяется в процессе агломерации/разделения множества об

Итеративный процесс.
Вычисляются центры кластеров, которыми затем и далее считаются покоординатные средние кластеров. Объекты опять перераспределяются. Процесс вычисления центров и перераспределения объектов п

Проверка качества кластеризации
После получений результатов кластерного анализа методом k-средних, следует проверить правильность кластеризации (т.е. оценить, насколько кластеры отличаются друг от друга). Для этого рассчитывают

Сравнительный анализ иерархических и неиерархических методов кластеризации.
Перед проведением кластеризации у аналитика может возникнуть вопрос, какой группе методов кластерного анализа отдать предпочтение. Выбирая между иерархическими и неиерархическими методами, необход

Новые алгоритмы и некоторые модификации алгоритмов кластерного анализа
Методы, которые мы рассмотрели, являются «классикой» кластерного анализа. До последнего времени основным критерием, по которому оценивался алгоритм кластеризации, было качество кластеризации: пола

Алгоритм BIRCH
(Balanced Iterative Reducing and Clustering using Hierarchies) Алгоритм предложен Тьян Зангом и его коллегами. Благодаря обобщенным представлениям кластеров, скорость кластеризаци

Алгоритм WaveCluster
WaveCluster представляет собой алгоритм кластеризации на основе волновых преобразований . В начале работы алгоритма данные обобщаются путем наложения на пространство данных многомерной решетки. Н

Алгоритмы Clarans, CURE, DBScan
Алгоритм Clarans (Clustering Large Applications based upon RANdomized Search) формулирует задачу кластеризации как случайный поиск в графе. В результате работы этого алгоритма совокупность узлов гр

Однофакторный дисперсионный анализ.
Однофакторная дисперсионная модель имеет вид: xij = μ + Fj + εij, (1) где х

Многофакторный дисперсионный анализ
Следует сразу же отметить, что принципиальной разницы между многофакторным и однофакторным ДА нет. Многофакторный анализ не меняет общую логику ДА, а лишь несколько усложняет ее, поскольку, кроме у

Использование дисперсионного анализа при изучении миграционных процессов.
Миграция - сложное социальное явление, во многом определяющее экономическую и политическую стороны жизни общества. Исследование миграционных процессов связано с выявлением факторов заинтересованнос

Принципы математико-статистического анализа данных медико-биологических исследований.
В зависимости от поставленной задачи, объема и характера материала, вида данных и их связей находится выбор методов математической обработки на этапах как предварительного (для оценки характера рас

Биотестирование почвы
Многообразные загрязняющие вещества, попадая в агроценоз, могутпретерпевать в нем различные превращения, усиливая при этом свое токсическое действие. По этой причине оказались необх

Дисперсионный анализ в химии
ДА – совокупность методов определения дисперсности, т. е. характеристики размеров частиц в дисперсных системах. ДА включает различные способы определения размеров свободных частиц в жидких и газовы