рефераты конспекты курсовые дипломные лекции шпоры

Раздел Информатика
/
Теоретические основы

Реферат Курсовая Конспект

Выберите учебное заведение

Теоретические основы

Теоретические основы - раздел Информатика, Інформаційні системи та технології в управлінні Кластерный Анализ Представляет Собой Статистические Методы, Используем...

Кластерный анализ представляет собой статистические методы, используемые для классификации многомерных объектов или событий в относительно однородные группы, которые называют кластерами. Объекты в каждом кластере должны быть похожи друг на друга в большей степени, чем на объекты других классов, и отличаться от объектов других кластеров сильнее, чем от объектов собственного класса.

В экономике кластерный анализ используется для достижения следующих целей: сегментации рынка, изучения поведения покупателей, определения конкурентоспособности нового товара, сокращения размерности данных и др.

Кластеризацию используют, когда отсутствуют априорные сведения относительно классов, к которым можно отнести объекты исследуемого набора данных, либо когда число объектов велико, что затрудняет их ручной анализ.

Постановка задачи кластеризации сложна и неоднозначна, так как:

Оптимальное количество кластеров в общем случае неизвестно;
Выбор меры «похожести» или близости свойств объектов между собой, как и критерия качества кластеризации, часто носит субъективный характер.

Распространенной мерой оценки близости между объектами является метрика, или способ задания расстояния. Наиболее популярные метрики – евклидово расстояние и расстояние Манхэттена.

Важно понимать, что сама по себе кластеризация не приносит каких-либо результатов анализа. Для получения эффекта необходимо провести содержательную интерпретацию каждого кластера. Такая интерпретация предполагает присвоение каждому кластеру емкого названия, отражающего его суть. Для интерпретации аналитик детально исследует каждый кластер: его статистические характеристики, распределение значений признаков объекта в кластере, оценивает мощность кластера – число объектов, попавших в него.

Обычно в задачах кластерного анализа исходные данные представляют в форме прямоугольной таблицы, каждая строка которой представляет результат измерения p признаков на соответствующем объекте:

, (3.1)

где n - число объектов, подлежащих классификации.

Числовые значения признаков, входящих в матрицу, могут соответствовать трем типам переменных: качественным, ранговым и количественным. Качественные переменные, как правило, принимают два и более значений, которым, хотя и можно поставить в соответствие некоторые числа, но эти числа не будут отражать какую-либо упорядоченность значений качественных переменных. И это нужно учитывать при определении близости. Значения ранговых переменных, в отличие от качественных, упорядочены. Их можно пронумеровать натуральными числами. Однако арифметические операции над этими числами не имеют смысла. Количественные переменные обладают свойством упорядоченности, и над ними, в отличие от других, можно приводить арифметические операции.

Желательно, чтобы вся таблица исходных данных соответствовала одному типу переменных. Если это не так, то разные типы переменных стараются свести к какому-то одному типу переменных. Самый простой является процедура сведения к качественным переменным. Суть этой процедуры в следующем. Если есть количественные данные, то они сначала сводятся к ранговым, для чего область значений количественных переменных разбивается на интервалы, которые нумеруются числами натурального ряда. Ранговые переменные можно считать качественными, если не учитывать упорядоченность их значений. В свою очередь, качественные переменные переводятся в дихотомические по следующему правилу. Каждое из возможных значений качественной переменной заменяется на 1, если качественная переменная приняла это значение, и 0 - в противном случае.

В тех случаях, когда все показатели количественные, часто возникает проблема их нормирования, поскольку различие в единицах измерения делает эти показатели несопоставимыми. Так, например, при классификации промышленных предприятий по результатам финансово-хозяйственной деятельности в описание включаются такие показатели, как прибыль, рентабельность, себестоимость, коэффициент текущей ликвидности и т.д. По прибыли предприятия могут различаться на десятки и сотни тысяч единиц, а по рентабельности - на единицы, а то и десятые доли единицы. Такая несопоставимость практически перечеркивает идею многомерной классификации, так как она автоматически будет осуществляться по более масштабному показателю. Поэтому процедуре непосредственного разнесения объектов по классам должна предшествовать процедура приведения всех показателей к сопоставимому виду, которую принято называть нормированием. В практических расчетах чаще других используются два подхода к нормированию. Один из них связан с идеей статистической стандартизации, осуществляемой по формуле:

, (3.2)

где - нормированный j -ый показатель i -го объекта;

– значение j -го показателя i -го объекта;

- среднее значение j-го показателя по всему множеству классифицируемых объектов;

- среднеквадратическое отклонение j -го показателя.

При использовании такой нормировки все показатели, описывающие классифицируемый объект, приводятся к виду, когда среднее равно 0, а разброс вокруг среднего равен 1.

Второй подход предусматривает преобразование показателей путем отображения интервала их возможных значений на промежуток [0;l]. Это осуществляется с помощью формулы:

, (3.3)

где ; .

Таким образом, с помощью нормирования удается избавиться от нежелательного влияния разномасштабности показателей на степень схожести между объектами.

Выбор меры сходства является одним из узловых моментов в задачах классификации, так как от нее, в основном, зависит при данном алгоритме классификации окончательный вариант разбиения объектов на классы. В каждом конкретном случае этот выбор осуществляется в зависимости от цели исследования и природы самих классифицируемых объектов.

Развернуть

Открыть в широком формате

– Конец работы –

Эта тема принадлежит разделу:

Інформаційні системи та технології в управлінні

україни... Запорізький національний технічний університет... Інформаційні системи та технології в управлінні МЕТОДИЧНІ ВКАЗІВКИ...

Если Вам нужно дополнительный материал на эту тему, или Вы не нашли то, что искали, рекомендуем воспользоваться поиском по нашей базе работ: Теоретические основы

Что будем делать с полученным материалом:

Если этот материал оказался полезным ля Вас, Вы можете сохранить его на свою страничку в социальных сетях:

Все темы данного раздела:

Определение СППР
Информационные системы являются в наше время неотъемлемой частью технологий управления бизнесом. Практически на каждом предприятии работают информационные системы, осуществляющие функции учета и ко

Архитектура СППР
Рисунок 1 - Обобщенная архитектура системы поддержки принятия решений Поддержка принятия решений на основе накопленных да

Online Analytical Processing
Любая система поддержки принятия решений, прежде всего, должна обладать средствами отбора и предоставления пользователю данных в удобной для восприятия и анализа форме. Как правило, наиболее удобны

Knowledge Discovery in Databases
KDD (Knowledge Discovery in Databases) – извлечение знаний из баз данных. Это процесс поиска полезных знаний в «сырых данных». KDD включает в себя вопросы подготовки данных, выбора информативных пр

Data Mining
DM (Data Mining) – «добыча» данных. Это метод обнаружения в «сырых» данных ранее неизвестных, нетривиальных, практически полезных и доступных для интерпретации знаний, необходимых для принятия реше

Принципы организации хранилища
1. Проблемно-предметная ориентация. Данные объединяются в категории и хранятся в соответствии с областями, которые они описывают, а не с приложениями, которые они используют. 2.

Анализ данных с помощью кросс-таблиц и визуализации
Технология комплексного многомерного анализа данных и предоставления результатов этого анализа в удобной для использования форме получила название OLAP. OLAP (Online Analytical Processing)

Теоретические сведения
Корреляционный анализ применяется для оценки зависимости выходных полей данных от входных факторов и устранения незначащих факторов. Принцип корреляционного анализа состоит в поиске таких значений,

Теоретические сведения
Рассмотрим методы, которые используются для прогнозирования неопределенного будущего с целью помочь менеджерам в принятии наилучшего решения. Эти методы состоят в изучении и анализе накопленных дан

Компьютерные пакеты для решения задач прогнозирования
Таблица 2.1 – Классификация программных продуктов для расчетов прогнозов Название инструмента Сфера применения Реализуемые модели

Временные ряды
Информационной базой для анализа экономических процессов являютсядинамические и временные ряды. Совокупность наблюдений некоторого явления (показателя), упорядоченная в зависимости от последователь

Основные описательные статистики для временных рядов.
Среднее и дисперсия временного ряда рассчитываются по формулам: . Выборочная автоковариация k-го порядка вычисляетс

Средние и скользящие средние
Самой простой моделью, основанной на простом усреднении, является Y(t+1)=(1/(t))*[Y(t)+Y(t-1)+...+Y(1)], и в отличие от самой простой "наивной" модели, которой

Моделирование временного ряда
В общем случае каждый уровень временного можно представить как функцию четырех компонент: f(t), S(t), U(t),

Методы Бокса-Дженкинса (ARIMA)
В середине 90-х годов прошлого века был разработан принципиально новый и достаточно мощный класс алгоритмов для прогнозирования временных рядов. Большую часть работы по исследованию методологии и п

Нейросетевые модели прогнозирования
В настоящее время, на наш взгляд, самым перспективным количественным методом прогнозирования является использование нейронных сетей. Можно назвать много преимуществ нейронных сетей над остальными а

Предобработка данных
На практике большинство прогнозируемых временных рядов порождаются сложными динамическими системами, с множеством степеней свободы. Кроме того, в самом временном ряде может присутствовать случайная

Импорт данных из файла
Импорт осуществляется путем вызова Мастера импорта на панели "Сценарии". После запуска Мастера импорта укажем тип импорта "Текстовый файл с разделителями" и перейдем к настройке

Настройка параметров столбцов
На этом шаге Мастера предоставляется возможность настроить параметры каждого поля: имя, метку, размер, тип данных, вид данных и назначение. Некоторые свойства (например, тип данных) можно задавать

Расчет автокорреляции столбцов
Важным фактором для анализа временного ряда и прогноза является определение сезонности. В Deductor Studio инструментом, предназначенным для изучения сезонности, является автокоррел

Удаление аномалий
Присутствие аномалий при построении моделей оказывает на них большое влияние, ухудшая качество результата. Как видно из диаграммы, выбросы ухудшают статистическую картину распределения данных. Восп

Преобразование данных к скользящему окну
Когда требуется прогнозировать временной ряд, тем более, если налицо его периодичность (сезонность), то лучшего результата можно добиться, учитывая значения факторов не только в данный момент време

Обучение линейной регрессии
Для построения линейной регрессии необходимо запустить Мастер обработки и выбрать в качестве обработки данных Линейную регрессию. На первом шаге задаем назначение исходных столбцов. Предпо

Прогнозирование с помощью нейронных сетей
Прогнозирование результата на определенное время вперед, основываясь на данных за прошедшее время, – задача, встречающаяся довольно часто. К примеру, перед большинством торговых фирм стоит задача о

Меры близости в алгоритмах кластеризации
Расстояния между объектами предполагают их представление в виде точек m-мерного пространства Rm. В этом случае могут быть использованы различные подходы к вычислению расстояний.

Иерархические методы кластерного анализа
Суть иерархической кластеризации состоит в последовательном объединении меньших кластеров в большие или разделении больших кластеров на меньшие. Иерархические агломеративные методы (Agglom

Алгоритм k-means
Конструктивно алгоритм представляет собой итерационную процедуру следующего вида. 1. Задается число кластеров k, которое должно быть сформировано из объектов исходной выборки. 3.

Кластеризация
Вначале необходимо осуществить импорт рассматриваемых данных из файла. После этого выбираем и запускаем Мастер обработки "Кластеризация". При запуске Мастера необходимо настроить

Постановка задачи
В коммерческий банк ОАО «Друг» обратились руководители 12 крупных предприятий города А с просьбой о предоставлении кредита. Специалисты кредитного отдела банка с целью принятия надежного решения (т

Решение
1. Скопировать данные табл. 3.1 в файл STATISTICA. 2. Открыть меню«Статистика» (Statistics), в нем выбрать«Многомерные исследовательские

Обзор литературы по Data Mining
1) А.А. Барсегян, М.С. Куприянов, В.В. Степаненко, И.И. Холод Методы и модели анализа данных: OLAP и Data Mining (+ CD-ROM)