рефераты конспекты курсовые дипломные лекции шпоры

Реферат Курсовая Конспект

Алгоритм кластерного анализа

Алгоритм кластерного анализа - раздел Философия, МАТЕМАТИЧЕСКАЯ СТАТИСТИКА Кластерный Анализ – Это Совокупность Методов Классификации Многомерных Наблюд...

Кластерный анализ – это совокупность методов классификации многомерных наблюдений или объектов, основанных на определении понятия расстояния между объектами с последующим выделением из них групп, "сгустков" наблюдений (кластеров, таксонов). При этом не требуется априорной информации о распределении генеральной совокупности.

Выбор конкретного метода кластерного анализа зависит от цели классификации.

Кластерный анализ используется при исследовании структуры каких–либо совокупностей.

От матрицы исходных данных

(16.5)

переходят к матрице нормированных значений Z с элементами:

, (16.6)

где:

j = 1, 2, 3, 4 – номер показателя, i = 1,2,..., n – номер наблюдения;

; (16.7)

(16.8)

В качестве расстояния между двумя наблюдениями zi и zν используется "взвешенное" евклидово расстояние, определяемое по формуле:

(16.9)

Полученные значения удобно представить в виде матрицы расстояний:

, (16.10)

Так как матрица R симметрическая, т.е. , то достаточно ограничиться записью наддиагональных элементов матрицы.

Используя матрицу расстояний, можно реализовать агломеративную иерархическую процедуру кластерного анализа. Расстояния между кластерами определяют по принципу «ближайшего соседа» или «дальнего соседа». В первом случае за расстояние между кластерами принимают расстояние между ближайшими элементами этих кластеров, а во втором – между наиболее удаленными друг от друга.

Принцип работы иерархических агломеративных процедур состоит в последовательном объединении групп элементов сначала самых близких, а затем все более отдаленных друг от друга.

На первом шаге алгоритма каждое наблюдение zi (i = 1, 2,..., n) рассматривается как отдельный кластер. В дальнейшем на каждом шаге работы алгоритма происходит объединение двух самых близких кластеров, и вновь строится матрица расстояний, размерность которой снижается на единицу. Работа алгоритма заканчивается, когда все наблюдения объединены в один класс.

 

Вопросы для самоконтроля

 

1 В чем принципиальное отличие между дискриминантным и кластерным анализами при отнесении признака к какому-то либо существующему или вновь образующемуся классу?

2 По каким критериям можно выбирать оптимальный способ классификации признака при дискриминантном анализе?

3 Чем отличаются рандомизированные и нерандомизированные решающие правила при дискриминантном анализе?

4 В чем разница между двумя общими методами дискриминантного анализа: стандартного и пошагового?

5 При каком количестве обучающих выборок дискриминантный анализ может дать достаточно достоверную оценку разделения признаков?

6 Что может служить мерой сходства между объектами в кластерном анализе?

7 Чем отличаются методы одиночной, средней и полной связей в кластерном анализе?

8 Какое количество кластеров закладывается на первом этапе классификации n объектов?

Литература

ОСНОВНАЯ

1 Лакин, Г.Ф. Биометрия / Г.Ф. Лакин - М.: «Высшая школа», 1990. – 142 с.

2 Плохинский, Н.А. Биометрия / Н.А. Плохинский - М.: «МГУ», 1970. – 368 с.

3 Свалов, Н.Н. Вариационная статистика / Н.Н. Свалов - М.: «Лесная промышленность», 1977. – 177 с.

4 Рокитский, П.Ф. Биологическая статистика: изд. 3 испр. / П.Ф. Рокитский - Минск: «Вышейшая школа», 1973. – 320 с.

5 Жученко, Ю.М. Статистическая обработка информации с применением персональных компьютеров: практическое руководство для студентов 5 курса / Ю.М Жученко – Гомель: УО ГГУ им.
Ф. Скорины, 2007.– 101 с.

6 Зайцев Г.Н. Математическая статистика в экспериментальной ботанике / Г.Н. Зайцев - М.: «Наука», 1984. –
424 с.

ДОПОЛНИТЕЛЬНАЯ

7 Мюллер, П. Таблицы по математической статистике /
П. Мюллер [и др.] - М.: «Финансы и статистика», 1982. – 64 с.

8 Павловский, З. Введение в математическую статистику /
З. Павловский - М.: «Статистика», 1967. – 285 с.

9 Карасев, А.И. Теория вероятностей и математическая статистика / А.И. Карасев - М.: «Статистика», 1979. – 279 с.

10 Бейли, Н. Математика в биологии и медицине / Н. Бейли - М.: «Мир», 1970. – 167 с.

11 Урбах, В.Ю. Статистический анализ в биологических и медицинских исследованиях / В.Ю. Урбах - М.: «Медицина», 1975. – 321 с.

12 Боровиков, В.П. Популярное введение в программу STATISTICA / В.П. Боровиков - М.: «КомпьютерПресс», 1998. – 69 с.

13 Лапач, С.Н. Статистические методы в медико-биологических исследованиях с использованием Excel / С.Н. Лапач
[и др.] - К.: «МОРИОН», 2000. – 196 с.

14 Реброва, О.Ю. Статистический анализ медицинских данных: применение пакета прикладных программ STATISTICA /
Реброва О.Ю. - М.: «МедиаСфера», 2002. – 84 с.

Приложение. Основные формулы и определения

Алгебраические преобразования

Законы действий над числами

Переместительный закон сложения: .

Сочетательный закон сложения: .

Переместительный закон умножения: .

Сочетательный закон умножения: .

Распределительный закон умножения относительно сложения:

Распределительный закон умножения относительно вычитания:

 

Дробные выражения

Основное свойство дроби: , ,

Действия с дробями (предполагается, что знаменатели дробей отличны от нуля):

,

,

,

 

Пропорциональность

Пропорция – равенство двух отношений:

, ,

(a, d – крайние члены пропорции; b, с – средние члены пропорции).

Основное свойство пропорции: .

Выражение члена пропорции через остальные:

, , , .

Если истинна пропорция , то истинны и следующие пропорции: , , , , , , , .

Прямая пропорциональность – функция, заданная формулой:

,

где k – коэффициент пропорциональности;

y, x – пропорциональные переменные.

Свойство прямой пропорциональности: .

Обратная пропорциональность – функция, заданная формулой:

, ,

Свойство обратной пропорциональности: .

 

Степени и корни

Степень с целым показателем

(n раз, ), , , .

Свойства:

, , , , .

Корень n–й степени

– арифметический корень n–й степени из числа а, а > 0,

.

Свойства:

.

В частности, – арифметический квадратный корень:

.

Степень с дробным (рациональным) показателем

.

Свойства степени с действительным показателем

,

 

Прогрессии

Арифметическая прогрессия

Арифметическая прогрессия – числовая последовательность (an), определяемая условиями: 1) а1= а; 2) an+1 = аn + d, n = 1, 2, ...
(d – разность арифметической прогрессии).

Свойства арифметической прогрессии:

Формула n-ro члена: .

Формулы суммы n первых членов:

Геометрическая прогрессия

Геометрическая прогрессия – числовая последовательность (bn), определяемая условиями:
(q – знаменатель геометрической прогрессии).

Свойства геометрической прогрессии:

.

Формула n-ro члена: .

Формулы суммы n первых членов ():

Сумма бесконечной геометрической прогрессии:

.

 

Формулы сокращенного умножения

 

Логарифмы

– логарифм числа b по основанию а.

Основное логарифмическое тождество: .

– десятичный логарифм (логарифм по основанию 10): .

– натуральный логарифм (логарифм по основанию е): .

Переход от одного основания к другому:

В частности,

M – модуль перехода от натуральных логарифмов к десятичным.

Свойства логарифмов (u, v > 0):

,

.

 

Элементы комбинаторики. Формула Ньютона

Перестановки. Размещения. Сочетания

Число перестановок из n элементов:

(n! – n факториал)

Число размещений из n по m (n ≥ m):

Число сочетаний из n по m (n ≥ m):

Формула бинома Ньютона

Треугольник Паскаля

                   
                 
               
             
           
         
       
     
   
 

 

 

Числовые функции

Основные понятия

Область определения (множество задания) функции f::

X = D(f).

Множество значений функции f:

.

График функции:

.

Четная функция:

.

Нечетная функция:

.

Периодическая функция (периода ω):

.

Линейная функция

Функция строго возрастает при а > 0, строго убывает при а < 0.

График функции – прямая линия.

Квадратичная функция:

1. При а > 0 (рисунок 1–а) функция строго убывает на и строго возрастает на . График функции – парабола с осью , вершиной в точке и ветвями, направленными вверх.

2. При а < 0 (рисунок 1–б) функция строго возрастает на и строго убывает на . График функции – парабола с осью , вершиной в точке и ветвями, направленными вниз.

а) б)
Рисунок 1 – Квадратичная функция a) ; б)

Степенная функция:

1. : . Функция четная, строго возрастает на и строго убывает на (рисунок 2–а).

2. : , . Функция нечетная, строго убывает на и (рисунок 2–б)

а) б)
Рисунок 2 – Степенная функция: а) ; б)

 

Экспонента: (рисунок 3–а)

При a > 0 – функция строго возрастает. При a < 0 – функция строго убывает.

Показательная функция: (рисунок 3–б)

При 0< а< 1 функция строго убывает, при а >1 строго возрастает.

 

а) б)
Рисунок 3 – Показательная функция: а) ; б)

Логарифмическая функция

Логарифм натуральный: .

Функция строго возрастает (рисунок 4–а).

Логарифм с основанием а: ,

При 0 < а < 1 функция строго убывает, при а > 1 строго возрастает (рисунок 4–б).

 

а) б)
Рисунок 4 – Логарифмическая функция: а) ; б)

 

Логистическая функция

Уравнение Ферхюльтса: ,

При a ≥ 0 и b ≤ 0 функция строго возрастает (рисунок 5–а).

При a ≤ 0 и b ≥ 0 функция строго убывает (рисунок 5–б).

 

а) б)
Рисунок 5 – Логистическая функция: а) , a>0, b<0; б) , a<0, b>0

 

– Конец работы –

Эта тема принадлежит разделу:

МАТЕМАТИЧЕСКАЯ СТАТИСТИКА

Учреждение образования... Гомельский государственный университет... имени Франциска Скорины Ю М ЖУЧЕНКО...

Если Вам нужно дополнительный материал на эту тему, или Вы не нашли то, что искали, рекомендуем воспользоваться поиском по нашей базе работ: Алгоритм кластерного анализа

Что будем делать с полученным материалом:

Если этот материал оказался полезным ля Вас, Вы можете сохранить его на свою страничку в социальных сетях:

Все темы данного раздела:

УЧЕБНОЕ ПОСОБИЕ
для студентов вузов, обучающихся по специальности 1-31 01 01 «Биология»     Гомель 2010  

Предмет и метод математической статистики
Предмет математической статистики – изучение свойств массовых явлений в биологии, экономике, технике и других областях. Эти явления обычно представляются сложными, вследствие разнообразия (варьиров

Понятие случайного события
Статистическая индукция или статистические заключения, как главная составная часть метода исследования массовых явлений, имеют свои отличительные черты. Статистические заключения делают с численно

Вероятность случайного события
Числовая характеристика случайного события, обладающая тем свойством, что для любой достаточно большой серии испытаний частота события лишь незначительно отличается от этой характеристики, называет

Вычисление вероятностей
Часто возникает необходимость одновременно складывать и умножать вероятности. Например, требуется определить вероятность выпадения 5 очков при одновременном бросании 2 кубиков. Искомая сумма вероят

Понятие случайной переменной
Определив понятие вероятности и выяснив ее главные свойства, перейдем к рассмотрению одного из важнейших понятий теории вероятностей – понятия случайной переменной. Допустим, что в результ

Дискретные случайные переменные
Случайная переменная дискретна, если совокупность возможных ее значений конечна, или, по крайней мере, поддается счислению. Предположим, что случайная переменная X может принимать значения x1

Непрерывные случайные переменные
В противоположность дискретным случайным переменным, рассмотренным в предыдущем подразделе, совокупность возможных значений непрерывной случайной переменной не только не конечна, но и не поддается

Математическое ожидание и дисперсия
Часто возникает необходимость охарактеризовать распределение случайной переменной с помощью одного–двух числовых показателей, выражающих наиболее существенные свойства этого распределения. К таким

Моменты
Большое значение в математической статистике имеют так называемые моменты распределения случайной переменной. В математическом ожидании большие значения случайной величины учитываются недостаточно.

Биномиальное распределение и измерение вероятностей
В этой теме рассмотрим основные типы распределения дискретных случайных переменных. Предположим, что вероятность наступления некоторого случайного события А при единичном испытании равно

Прямоугольное (равномерное) распределение
Прямоугольное (равномерное) распределение — простейший тип непрерывных распределений. Если случайная переменная X может принимать любое действительное значение в интервале (а, b), где а и b – дейст

Нормальное распределение
Нормальное распределение играет основную роль в математической статистике. Это ни в малейшей степени не является случайным: в объективной действительности весьма часто встречаются различные признак

Логарифмически нормальное распределение
Случайная переменная Y имеет логарифмически нормальное распределение с параметрами μ и σ, если случайная переменная X = lnY имеет нормальное распределение с теми же параметрами μ и &

Средние величины
Из всех групповых свойств наибольшее теоретическое и практическое значение имеет средний уровень, измеряемый средней величиной признака. Средняя величина признака – понятие очень глубокое,

Общие свойства средних величин
Для правильного использования средних величин необходимо знать свойства этих показателей: срединное расположение, абстрактность и единство суммарного действия. По своему численному значени

Средняя арифметическая
Средняя арифметическая, обладая общими свойствами средних величин, имеет свои особенности, которые можно выразить следующими формулами:

Средний ранг (непараметрическая средняя)
Средний ранг определяется для таких признаков, для которых еще не найдены способы количественного измерения. По степени проявления таких признаков объекты могут быть ранжированы, т. е. расположены

Взвешенная средняя арифметическая
Обычно, чтобы рассчитать среднюю арифметическую, складывают все значения признака и полученную сумму делят на число вариантов. В этом случае каждое значение, входя в сумму, увеличивает ее на полную

Средняя квадратическая
Средняя квадратическая вычисляется по формуле: , (6.5) Она равна корню квадратному из суммы

Медиана
Медианой называют такое значение признака, которое разделяет всю группу на две равные части: одна часть имеет значения признака меньшее, чем медиана, а другая – большее. Например, если име

Средняя геометрическая
Чтобы получить среднюю геометрическую для группы с n данными, нужно все варианты перемножить и из полученного произведения извлечь корень n-й степени:

Средняя гармоническая
Средняя гармоническая рассчитывается по формуле . (6.14) Для пяти вариантов: 1, 4, 5, 5 сре

Число степеней свободы
Число степеней свободы равно числу элементов свободного разнообразия в группе. Оно равно числу всех имеющихся элементов изучения без числа ограничений разнообразия. Например, для исследова

Коэффициент вариации
Стандартное отклонение – величина именованная, выраженная в тех же единицах измерения, как и средняя арифметическая. Поэтому для сравнения разных признаков, выраженных в разных единицах из

Лимиты и размах
Для быстрой и примерной оценки степени разнообразия часто применяются простейшие показатели: lim = {min ¸ max} – лимиты, т. е. наименьшее и наибольшее значения признака, p =

Нормированное отклонение
Обычно степень развития признака определяется путем его измерения и выражается определенным именованным числом: 3 кг веса, 15 см длины, 20 зацепок на крыле у пчел, 4% жира в молоке, 15 кг настрига

Средняя и сигма суммарной группы
Иногда бывает необходимо определить среднюю и сигму для суммарного распределения, составленного из нескольких распределений. При этом известны не сами распределения, а только их средние и сигмы.

Скошенность (асимметрия) и крутизна (эксцесс) кривой распределения
Для больших выборок (n > 100) вычисляют еще два статистических показателя. Скошенность кривой называется асимметрией:

Вариационный ряд
По мере увеличения численности изучаемых групп все более и более проявляется та закономерность в разнообразии, которая в малочисленных группах была скрыта случайной формой своего проявления.

Гистограмма и вариационная кривая
Гистограмма – это вариационный ряд, представленный в виде диаграммы, в которой различная величина частот изображается различной высотой столбиков. Гистограмма распределения данных представлена на р

Достоверность различия распределений
Статистическая гипотеза – это определённое предположение о распределении вероятностей, лежащем в основе наблюдаемой выборки данных. Проверка статистической гипотезы – это процесс принятия

Критерий по асимметрии и эксцессу
Некоторые признаки растений, животных и микроорганизмов при объединении объектов в группы дают распределения, значительно отличающиеся от нормального. В тех случаях, когда какие-нибудь при

Генеральная совокупность и выборка
Весь массив особей определенной категории называется генеральной совокупностью. Объем генеральной совокупности определяется задачами исследования. Если изучается какой-нибудь вид диких жив

Репрезентативность
Непосредственное изучение группы отобранных объектов дает, прежде всего, первичный материал и характеристику самой выборки. Все выборочные данные и сводные показатели имеют значение в каче

Ошибки репрезентативности и другие ошибки исследований
Оценка генеральных параметров по выборочным показателям имеет свои особенности. Часть никогда не может полностью охарактеризовать все целое, поэтому характеристика генеральной совокупности

Доверительные границы
Определять величину ошибок репрезентативности необходимо для того, чтобы выборочные показатели использовать еще и для нахождения возможных значений генеральных параметров. Этот процесс называется о

Общий порядок оценки
Три величины, необходимые для оценки генерального параметра, – выборочный показатель (), критерий надежности

Оценка средней арифметической
Оценка средней величины имеет целью установить величину генеральной средней для изученной категории объектов. Требуемая для этой цели ошибка репрезентативности определяется по формуле:

Оценка средней разности
В некоторых исследованиях в качестве первичных данных берется разность двух измерений. Это может быть в случае, когда каждая особь выборки изучается в двух состояниях – или в разном возрасте, или п

Недостоверная и достоверная оценка средней разности
Такие результаты выборочных исследований, по которым нельзя получить никакой определенной оценки генерального параметра (или он больше нуля, или меньше, или равен нулю), называются недостоверными.

Оценка разности генеральных средних
В биологических исследованиях особое значение имеет разность двух величин. По разности ведется сравнение разных популяций, рас, пород, сортов, линий, семейств, опытных и контрольных групп (метод гр

Критерий достоверности разности
При том большом значении, которое имеет для исследователей получение достоверных разностей, появляется необходимость овладеть методами, позволяющими определить – достоверна ли полученная, реально с

Репрезентативность при изучении качественных признаков
Качественные признаки обычно не могут иметь градаций проявления: они или имеются, или не имеются у каждой из особей, например пол, комолость, наличие или отсутствие каких-нибудь особенностей, уродс

Достоверность разности долей
Достоверность разности выборочных долей определяется так же, как и для разности средних: (10.34)

Коэффициент корреляции
Во многих исследованиях требуется изучить несколько признаков в их взаимной связи. Если вести такое исследование по отношению к двум признакам, то можно заметить, что изменчивость одного признака н

Ошибка коэффициента корреляции
Как и всякая выборочная величина, коэффициент корреляции имеет свою ошибку репрезентативности, вычисляемую для больших выборок по формуле:

Достоверность выборочного коэффициента корреляции
Критерий выборочного коэффициента корреляции определяется по формуле: (11.9) где:

Доверительные границы коэффициента корреляции
Доверительные границы генерального значения коэффициента корреляции находятся общим способом по формуле:

Достоверность разности двух коэффициентов корреляции
Достоверность разности коэффициентов корреляции определяется так же, как и достоверность разности средних, по обычной формуле

Уравнение прямолинейной регрессии
Прямолинейная корреляция отличается тем, что при этой форме связи каждому из одинаковых изменений первого признака соответствует вполне определенное и тоже одинаковое в среднем изменение другого пр

Ошибки элементов уравнения прямолинейной регрессии
В уравнении простой прямолинейной регрессии: у = а + bх возникают три ошибки репрезентативности. 1 Ошибка коэффициента регрессии:

Частный коэффициент корреляции
Частный коэффициент корреляции – это показатель, измеряющий степень сопряженности двух признаков при постоянном значении третьего. Математическая статистика позволяет установить корреляцию

Множественный коэффициент корреляции
Множественный коэффициент корреляции трех переменных – это показатель тесноты линейной связи между одним из признаков (буква индекса перед тире) и совокупностью двух других признаков (буквы индекса

Линейное уравнение множественной регрессии
Математическое уравнение для прямолинейной зависимости между тремя переменными называется множественным линейным уравнением плоскости регрессии. Оно имеет следующий общий вид:

Корреляционное отношение
Если связь между изучаемыми явлениями существенно отклоняется от линейной, что легко установить по графику, то коэффициент корреляции непригоден в качестве меры связи. Он может указать на отсутстви

Свойства корреляционного отношения
Корреляционное отношение измеряет степень корреляции при любой ее форме. Кроме того, корреляционное отношение обладает рядом других свойств, представляющих большой интерес в статистическом

Ошибка репрезентативности корреляционного отношения
Еще не разработано точной формулы ошибки репрезентативности корреляционного отношения. Обычно приводимая в учебниках формула имеет недостатки, которыми не всегда можно пренебречь. Эта формула не уч

Критерий линейности корреляции
Для определения степени приближения криволинейной зависимости к прямолинейной используется критерий F, вычисляемый по формуле:

Дисперсионный комплекс
Дисперсионный комплекс – это совокупность градаций с привлеченными для исследования данными и средними из данных по каждой градации (частные средние) и по всему комплексу (общая средняя).

Статистические влияния
Статистическое влияние – это отражение в разнообразии результативного признака того разнообразия фактора (его градаций), которое организовано в исследовании. Для оценки влияния фактора нео

Факториальное влияние
Факториальное влияние – это простое или комбинированное статистическое влияние изучаемых факторов. В однофакторных комплексах изучается простое влияние одного фактора при определенных орга

Однофакторный дисперсионный комплекс
Дисперсионный анализ разработан и введен в практику сельскохозяйственных и биологических исследований английским ученым Р. А. Фишером, который открыл закон распределения отношения средних квадратов

Многофакторный дисперсионный комплекс
Ясное представление о математической модели дисперсионного анализа облегчает понимание необходимых вычислительных операций, особенно при обработке данных многофакторных опытов, в которых больше ист

Преобразования
Правильное использование дисперсионного анализа для обработки экспериментального материала предполагает однородность дисперсий по вариантам (выборкам), нормальное или близкое к нему распределение в

Показатели силы влияний
Определение силы влияний по их результатам требуется в биологии, сельском хозяйстве, медицине для выбора наиболее эффективных средств воздействия, для дозировки физических и химических агентов – ст

Ошибка репрезентативности основного показателя силы влияния
Точная формула ошибки основного показателя силы влияния еще не найдена. В однофакторных комплексах, когда ошибка репрезентативности определяется только для одного показателя факториального

Предельные значения показателей силы влияния
Основной показатель силы влияния равен доле одного слагаемого от всей суммы слагаемых. Кроме того, этот показатель равен квадрату корреляционного отношения. По этим двум причинам показатель силы вл

Достоверность влияний
Основной показатель силы влияния, полученный в выборочном исследовании, характеризует, прежде всего, ту степень влияния, которая реально, в действительности, проявилась в группе исследованных объек

Дискриминантный анализ
Дискриминантный анализ является одним из методов многомерного статистического анализа. Цель дискриминантного анализа состоит в том, чтобы на основе измерения различных характеристик (признаков, пар

Постановка задачи, методы решения, ограничения
Предположим, имеется n объектов с m характеристиками. В результате измерений каждый объект характеризуется вектором x1 ... xm, m >1. Задача состоит в том, что

Предположения и ограничения
Дискриминантный анализ «работает» при выполнении ряда предположений. Предположение о том, что наблюдаемые величины – измеряемые характеристики объекта – имеют нормальное распределение. Это

Алгоритм дискриминантного анализа
Решение задач дискриминации (дискриминантный анализ) состоит в разбиении всего выборочного пространства (множества реализации всех рассматриваемых многомерных случайных величин) на некоторое число

Кластерный анализ
Кластерный анализ объединяет различные процедуры, используемые для проведения классификации. В результате применения этих процедур исходная совокупность объектов разделяется на кластеры или группы

Методы кластерного анализа
В практике обычно реализуются агломеративные методы кластеризации. Обычно перед началом классификации данные стандартизуются (вычитается среднее и производится деление на корень квадратный

Хотите получать на электронную почту самые свежие новости?
Education Insider Sample
Подпишитесь на Нашу рассылку
Наша политика приватности обеспечивает 100% безопасность и анонимность Ваших E-Mail
Реклама
Соответствующий теме материал
  • Похожее
  • Популярное
  • Облако тегов
  • Здесь
  • Временно
  • Пусто
Теги