Однофакторный дисперсионный анализ.

Большое количество практических задач приводится к задачам однофакторного дисперсионного анализа.

Типичным примером является работа технологической линии в составе которой имеется несколько параллельных рабочих агрегатов.

На выходе имеют место какие-то детали. Эти детали по какому-то параметру можем контролировать.

Ясно, что среднее значения контролируемых параметров после каждого станка будут несколько отличаться.

Вопрос: Обусловлены ли эти отличия действием случайных факторов или имеет место влияние конкретного станка агрегата.

В данном случае фактор только один – станок.

Совокупность размеров деталей подчиняется нормальному закону распределения, и все эти совокупности имеют равные дисперсии.

Имеется m станков, т.о. имеется m совокупностей. Из этих совокупностей мы проводим выборки объёмом n. Так, что значение параметров i-той совокупности i: .

Все выборки можно записать в виде таблицы, которая называется матрицей наблюдения.

i j			.	j	.	n	Ср. выборочное
	x₁₁	x₁₂	.	x_1j	.	x_1n
	x₂₁	x₂₂	.	x_2j	.	x_2n
.	.	.	.	.	.	.	.
i	x_i1	x_i2	.	x_ij	.	x_in
.	.	.	.	.	.	.	.
m	x_m1	x_m2	.	x_mj	.	x_mn

Выдвигаем гипотезу Н₀ заключающуюся в равенстве средних выборочных.

Гипотеза Н₀ проверяется сравнением внутригрупповых и межгрупповых дисперсий по F критерию Фишера.

Если расхождение незначительно, то принимается гипотеза Н₀, в противном случае гипотеза Н₀ отвергается.

Далее находят сумму квадратов отклонений от общего среднего:

Ноль потому, что стоит сумма от - сумма отклонений переменных одной совокупности от средней арифметической той же совокупности.

Слагаемое Q₁ является суммой квадратов разностей между средними отдельных совокупностей и общей средней всех совокупностей. Эта сумма называется суммой квадратов отклонений между группами. Она характеризует систематическое отклонение между совокупностями наблюдений.

Величину Q₁ – рассеяние по фактору.

Слагаемое Q₂ – представляет собой сумма квадратов разностей между отдельными и средней соответствующей совокупности. Эта сумма называется суммой квадратов отклонений внутри группы.

Она характеризует остаточное рассеяние случайных погрешностей совокупностей.

Величина Q называется общей или полной суммой квадратов отклонений отдельных отклонений от общей средней.

Получим оценки дисперсий:

- дисперсия обусловленная влиянием фактора;

- остаточная дисперсия – влиянием случайных и других неучтённых факторов.

- полная дисперсия.

Далее формируем оценку различия между оценками

подчиняется распределению f² Фишера.

Выбираем уровень значимости α, или доверительной вероятности 1– α = Р и по таблице F-распределения с числом степеней свободы: к₁ = m–1; к₂ = m(n–1) находим критическое значение Фишера.

Сравнивая между собой F_н и F_кр,α мы делаем вывод насколько сильно влияние интересующего нас фактора на исследуемую случайную величину.

В этом и состоит идея дисперсионного анализа.

Однофакторный дисперсионный анализ обычно представляют в виде таблицы.

	Компоненты дисперсии	Оценки дисперсии	Число степеней свободы
Основной фактор	Межгрупповая дисперсия		m - 1
Случайные, неучтенные факторы	Внутригрупповая дисперсия		m(n - 1)
	Общая дисперсия		mn - 1

Основы регрессионного и корреляционного анализа.

Связи между различными явлениями в природе сложны и многообразны. В технике чаще всего речь идет о функциональной зависимости. В большинстве случаев интересующие нас явления протекают в условиях воздействия на них множества неконтролируемых факторов. Воздействие каждого из этих факторов в целом невелико, при этом связь теряет строгую функциональность и система переходит не в строго определенное состояние, а в одно из множества возможных. Речь идет о стохастической связи.

Под стохастической мы понимаем такую связь, когда одна случайная переменная реагирует на изменения другой случайной переменной изменением своего закона распределения.

Наиболее широко в технике используется частный случай стохастической связи, называемый статистической связью, при которой условное МО некоторой случайной величины Y является функцией от значения, которое принимает другая случайная величина X:

Как правило исследуются такие виды статистической связи, при которых значение некоторой случайной переменной зависит в среднем от значений, принимаемых другой случайной переменной:

Такое представление зависимости между переменными X и Y называется полем корреляции. Можно также построить таблицу корреляции.

Проделывая операцию усреднения для всех тех значений Х, по которым есть экспериментальный материал, приходим к тому, что облако исчезает и получается набор точек, представляющих средние значения. Соединяя эти точки, получаем ломанную, называемую эмпирической линией регрессии.

Связь между СВ характеризуется формой и теснотой связи.

Определение фориы связи и понятие регрессии.

Определить форму связи между СВ – значит выявить механизм получения зависимой случайной величины. При изучении статистических связей, форму связей характеризует функция регрессии:

- зависимость условного МО

Если св Х и Y зависимы, то МО их произведения:

Регрессия св Y относительно Х определяется как:

где - условная плотность вероятности по формуле Байеса:

- регрессия Х по Y.

Функция регрессии имеет важное практическое значение. Она может быть использована для прогноза значений, которые может принимать известная случайная величина при ставших известными значениях другой случайной величины.

Точность прогноза определяется дисперсией условного распределения:

учитывая:

Несмотря на важность функции регрессии, возможности ее практического использования ограничены, т.к. для ее вычисления необходимо знать аналитический вид двумерной функции {x,y}. Мы же, как правило, имеем выборку ограниченного объема.

Традиционный путь приводи к большим ошибкам, т.к. одну и ту же совокупность точек на плоскости можно описать с помощью различных функций.

Другой характеристикой формы связи, используемой на практике, стала кривая регрессии – зависимость условного среднего случайной величины от значения, которое принимает случайная величина Х: .

Определение кривой регрессии инвариантно закона совместного распределения св Х и Y. Важное значение в практике имеет двумерный нормальный закон распределения. Особенностью этого распределения является то, что условные МО совпадают с условными средними. При этом функция регрессии совпадает с кривой регрессии.

Линейная регрессия (ЛР). Метод наименьших квадратов.

Линейная регрессия занимает в технике и теории корреляции особое место. Она обусловлена двумерным нормальным законом распределения СВ Х и Y:

, где

а₀ и а₁ – коэффициенты регрессии,

х – независимая случайная величина

Параметры уравнения регрессии определяются методом наименьших квадратов, предложенным Лагранжем и Гауссом, который сводится к следующему.

Строятся квадратичные формы:

x_i – измеренное значение переменной,

e - истинное или теоретическое значение этой величины.

Требуется, чтобы сумма квадратов отклонений измеренных значений относительно истинных была минимальна.

В случае линейной регрессии за теоретическое значение принимается значение , т.е. ищется такая прямая линия с коэффициентами а₀ и а₁, чтобы сумма квадратов отклонений от этой линии была минимальна.

у_i – измеренное значение переменной Y.

Минимальные квадратичные формы получают, приравнивая к нулю ее производные по а₀ и а₁:

Нелинейная регрессия (НР).

Форма связи между условными средними определяется уравнениями регрессии. В зависимости от вида уравнений можно говорить о ЛР или НР.

В общем случае эта зависимость может быть представлена в виде полинома степени k:

Определение коэффициентов регресии производится по методу наименьших квадратов:

В результате получаем систему нормированных уравнений:

Решая полученную систему известным способом, находим коэффициенты регрессии.

Измерение тесноты связи.

Если бы величина Y полностью определялась аргументом Х, все точки лежали бы на линии регрессии. Чем сильнее влияние прочих факторов, тем дальше отстоят точки от линии регрессии. В случае в) связь между Х и Y является более тесной.

За основу показателя, характеризующего тесноту связи, берется общий показатель изменчивости дисперсии:

(*)

- дисперсия переменной Y относительно теоретической линии дисперсии, определяющей влияние прочих факторов на величину Y.

- условная дисперсия, характеризует дисперсию теоретической линии регрессии относительно условной генеральной средней m_y. Именно она определяет влияние данного фактора (Х) на величину Y и может быть использована для оценки тесноты связи между величинами Х и Y.

- теоретическое корреляционное отношение.

Изменяется от 0 до 1, что легко доказать, поделив (*) на s_у²:

1) Если =1, то

Влияние прочих факторов отсутствует. Все распределение будет сконцентрировано на линии регрессии. В этом случае между Х и Y существует простая функциональная зависимость.

2) Если =0, когда .

В этом случае линия регрессии Y по Х будет горизонтальной прямой, проходящей через центр распределения.

В случае, когда вид зависимости (форма связи) случайных величин Х и Y не установлен, часто бывает необходимо убедиться в наличии какой-либо связи вообще. Может оказаться, что связь несущественна и вычисление коэффициентов регрессии неоправданно.

Для объяснения такого вопроса вычисляется эмпирическое корреляционное отношение, определяемое на основе выборочных данных. При выводе формул для ЭКО пользуются эмпирической линией регрессии и оценкой дисперсии по выборке.