рефераты конспекты курсовые дипломные лекции шпоры

Реферат Курсовая Конспект

Інформаційні системи та технології в управлінні

Інформаційні системи та технології в управлінні - раздел Информатика, Міністерство Освіти І Науки, Молоді Та Спорту України Запор...

Міністерство освіти і науки, молоді та спорту

україни

Запорізький національний технічний університет

 

Інформаційні системи та технології в управлінні

МЕТОДИЧНІ ВКАЗІВКИ

і завдання до лабораторних робіт

 

 

для студентів денної форми навчання

спеціальності – Менеджмент

 

 


Інформаційні системи та технології в управлінні. Методичні вказівки і завдання до лабораторних робіт для студентів денної форми навчання спеціальності – Менеджмент / Укл.: Біла Н.І., .– Запоріжжя: ЗНТУ, 2012. – с. 90.

 

Містить теоретичні відомості, індивідуальні завдання та приклади із курсу «Інформаційні системи та технології в управлінні»

 

Укладачі: Біла Н.І. доцент,

 

 

Рецензенти: Пінчук В.П., доцент

Вишневська В.Г., доцент.

 

Відповідальний за випуск Корніч Г.В., зав. кафедрою, професор

 

Затверджено на засіданні кафедри

обчислювальної математики,

протокол № 6 від 28.02.2012


Зміст

1 Введення до систем підтримки прийняття рішень 4

1.1 Определение СППР ………………………………………..4

1.2 Классификация СППР ……………………………………. 6

1.3 Архитектура СППР ……………………………………… 7

1.4 Анализ данных – основные принципы 8

1.5 Базовые методы анализа 11

1.6 Примеры задач, где применяются методы Data Mining 14

1.7 Программа Deductor – платформа для создания СППР 17

1.8 Определение хранилища данных 19

1.9Анализ данных с помощью кросс-таблиц и визуализации 21

1.10 Контрольные вопросы 24

2 Бізнес - прогнозування 25

2.1 Теоретичні відомості 25

2.2 Компьютерные пакеты для решения задач прогнозирования 29

2.3 Часові ряди

2.4 Пример прогнозирования с помощью линейной регрессии

2.5 Прогнозирование с помощью нейронных сетей

 

3 Кластерний аналіз в бізнес-аналітиці 43

3.1 Теоретические основы кластерного анализа 43

3.2 Меры близости 46

3.3 Алгоритмы кластеризации 47

3.4 Решение типовой задачи кластеризации в Deductor 52

3.5 Решение задачи кластеризации в Statistica 60

3.6 Задания для самостоятельной работы 65

3.7 Контрольные вопросы 69

4 Література 120


Введение в Системы Поддержки Принятия Решений (СППР)

Определение СППР

СППР возникли в результате развития управленческих информационных систем и систем управления базами данных в начале 70-х годов прошлого века. На… СППР - интерактивная компьютерная система, предназначенная для поддержки… Существенными концепциями этого определения являются:

Классификация СППР

СППР можно, в зависимости от данных, c которыми они работают, разделить на оперативные, предназначенные для немедленного реагирования на текущую ситуацию, и стратегические - основанные на анализе большого количества информации из разных источников с привлечением сведений, содержащихся в системах, аккумулирующих опыт решения проблем.

СППР первого типа получили название Информационных Систем Руководства (Executive Information Systems, ИСР). По сути, они представляют собой конечные наборы отчетов, построенные на основании данных из транзакционной информационной системы предприятия или OLTP-системы, в идеале адекватно отражающей в режиме реального времени все аспекты производственного цикла предприятия.

СППР второго типа - Decision Support System (DSS) предполагают достаточно глубокую проработку данных, специально преобразованных так, чтобы их было удобно использовать в ходе процесса принятия решений. Неотъемлемым компонентом СППР этого уровня являются правила принятия решений, которые на основе агрегированных данных подсказывают менеджерскому составу выводы и придают системе черты искусственного интеллекта. Такого рода системы создаются только в том случае, если структура бизнеса уже достаточно определена и имеются основания для обобщения и анализа не только данных, но и процессов их обработки. Если ИСР есть не что иное как развитие системы оперативного управления производственными процессами, то СППР в современном понимании - это механизм развития бизнеса, который включает в себя некоторую часть управляющей информационной системы, обширную систему внешних связей предприятия, а также технологические и маркетинговые процессы развития производства.

СППР имеет смысл создавать, если есть основания для обобщения и анализа данных и процессов их обработки. Системы этого типа иногда называют динамическими, т.е. они должны быть ориентированы на обработку неожиданных (ad hoc) запросов.

Архитектура СППР

Рисунок 1 - Обобщенная архитектура системы поддержки принятия решений Поддержка принятия решений на основе накопленных данных может выполняться в… 1. Область детализированных данных (OLTP-системы). Целью большинства таких систем является поиск информации, это так…

Базовые методы анализа

Online Analytical Processing

OLAP (Online Analytical Processing) – оперативная аналитическая обработка данных. OLAP дает возможность в реальном времени генерировать описательные…

Knowledge Discovery in Databases

Привлекательность этого подхода заключается в том, что вне зависимости от предметной области мы применяем одни и те же операции: 1. Подготовка исходного набора данных. Этот этап заключается в создании набора… 2. Предобработка и очистка данных. Для того чтобы эффективно применять методы анализа, следует обратить серьезное…

Data Mining

1. Классификация — установление функциональной зависимости между входными и дискретными выходными переменными. При помощи классификации решается… 2. Регрессия – установление функциональной зависимости между входными и… 3. Кластеризация — это группировка объектов (наблюдений, событий) на основе данных (свойств), описывающих сущность…

Примеры задач, где применяются методы Data Mining

Классификация используется в случае, если заранее известны классы отнесения объектов. Например, отнесение нового товара к той или иной товарной группе, отнесение клиента к какой-либо категории. При кредитовании это может быть, например, отнесение клиента по каким-то признакам к одной из групп риска.

Регрессия чаще всего используется при прогнозировании объемов продаж. В этом случае зависимой величиной являются объемы продаж, а факторами, влияющими на эту величину, могут быть предыдущие объемы продаж, изменение курса валют, активность конкурентов и т.д. или, например, при диагностике оборудования, когда оценивается зависимость надежности от различных внешних факторов, показателей датчиков, износа оборудования.

Кластеризация может использоваться для сегментирования и построения профилей клиентов (покупателей). При достаточно большом количестве клиентов становится трудно подходить к каждому индивидуально. Поэтому клиентов удобно объединить в группы – сегменты со сходными признаками. Выделять сегменты клиентов можно по нескольким группам признаков. Это могут быть сегменты по сфере деятельности, по географическому расположению. После сегментации можно узнать, какие именно сегменты являются наиболее активными, какие приносят наибольшую прибыль, выделить характерные для них признаки. Эффективность работы с клиентами повышается за счет учета их персональных или групповых предпочтений.

Ассоциации помогают выявлять совместно приобретаемые товары. Это может быть полезно для более удобного размещения товара на прилавках, стимулирования продаж. Тогда человек, купивший пачку спагетти, не забудет купить к ним бутылочку соуса.

Последовательные шаблоны могут быть использованы, например, при планировании продаж или предоставлении услуг. Например, если человек приобрел фотопленку, то через неделю он отдаст ее на проявку и закажет печать фотографий.

Для анализа отклонений необходимо сначала построить шаблон типичного поведения изучаемого объекта. Например, поведение человека при использовании кредитных карт. Тогда будет известно, что клиент (покупатель) использует карту регулярно два раза в месяц и приобретает товар в пределах определенной суммы. Отклонением будет, например, не запланированное приобретение товара по данной карте на большую сумму. Это может говорить об ее использовании другим лицом, то есть о факте мошенничества.

Следует отметить, что на сегодняшний день наибольшее распространение технология Data Mining получила при решении бизнес-задач. Возможно, причина в том, что именно в этом направлении отдача от использования инструментов Data Mining может составлять, по некоторым источникам, до 1000% и затраты на ее внедрение могут достаточно быстро окупиться.

Сейчас технология Data Mining используется практически во всех сферах деятельности человека, где накоплены ретроспективные данные. Назовем часть из них:

1. Применение Data Mining для решения бизнес-задач. Основные направления: банковское дело, финансы, страхование, CRM, производство, телекоммуникации, электронная коммерция, маркетинг, фондовый рынок и другие.

2. Применение Data Mining для решения задач государственного уровня. Основные направления: поиск лиц, уклоняющихся от налогов; средства в борьбе с терроризмом.

3. Применение Data Mining для научных исследований. Основные направления: медицина, биология, молекулярная генетика и генная инженерия, биоинформатика, астрономия, прикладная химия, исследования, касающиеся наркотической зависимости, и другие.

4. Применение Data Mining для решения Web-задач. Основные направления: поисковые машины (search engines), счетчики и другие.

Одно из наиболее перспективных направлений применения Data Mining - использование данной технологии в аналитическом CRM.

CRM (Customer Relationship Management) - управление отношениями с клиентами. При совместном использовании этих технологий добыча знаний совмещается с "добычей денег" из данных о клиентах.

Важным аспектом в работе отделов маркетинга и отдела продаж является составление целостного представления о клиентах, информация об их особенностях, характеристиках, структуре клиентской базы. В CRM используется так называемое профилирование клиентов, дающее полное представление всей необходимой информации о клиентах. Профилирование клиентов включает следующие компоненты: сегментация клиентов, прибыльность клиентов, удержание клиентов, анализ реакции клиентов. Каждый из этих компонентов может исследоваться при помощи Data Mining, а анализ их в совокупности, как компонентов профилирования, в результате может дать те знания, которые из каждой отдельной характеристики получить невозможно.

В результате использования Data Mining решается задача сегментации клиентов на основе их прибыльности. Анализ выделяет те сегменты покупателей, которые приносят наибольшую прибыль. Сегментация также может осуществляться на основе лояльности клиентов. В результате сегментации вся клиентская база будет поделена на определенные сегменты, с общими характеристиками. В соответствии с этими характеристиками компания может индивидуально подбирать маркетинговую политику для каждой группы клиентов.

Также можно использовать технологию Data Mining для прогнозирования реакции определенного сегмента клиентов на определенный вид рекламы или рекламных акций - на основе ретроспективных данных, накопленных в предыдущие периоды.

Таким образом, определяя закономерности поведения клиентов при помощи технологии Data Mining, можно существенно повысить эффективность работы отделов маркетинга, продаж и сбыта. При объединении технологий CRM и Data Mining и грамотном их внедрении в бизнес компания получает значительные преимущества перед конкурентами.

Перечисленные выше базовые методы анализа данных используются для создания аналитических систем. Причем, под такой системой понимается не только какая-то одна программа. Некоторые механизмы анализа могут быть реализованы на бумаге, некоторые на компьютере с использованием электронных таблиц, баз данных и других приложений. Однако, такой подход при частом использовании не эффективен. Намного лучшие результаты даст применение единого хранилища данных и единой программы, содержащей в себе всю функциональность, необходимую для реализации концепции KDD.

1.7 Программа Deductor – платформа для создания СППР

Deductor предназначен для эффективного решения проблемы тиражирования знаний, это аналитическая платформа, основа для создания законченных прикладных решений в области анализа данных. Deductor состоит из двух компонентов: аналитического приложения Deductor Studio и многомерного хранилища данных Deductor Warehouse.

Deductor Warehouse - многомерное хранилище данных, аккумулирующее всю необходимую для анализа предметной области информацию. Использование единого хранилища позволяет обеспечить непротиворечивость данных, их централизованное хранение и автоматически создает всю необходимую поддержку процесса анализа данных. Deductor Warehouse оптимизирован для решения именно аналитических задач, что положительно сказывается на скорости доступа к данным.

Рисунок 1.2 - Архитектура системы Deductor

Deductor Studio - это программа, предназначенная для анализа информации из различных источников данных. Она реализует функции импорта, обработки, визуализации и экспорта данных. Deductor Studio может функционировать и без хранилища данных, получая информацию из любых других источников, но наиболее оптимальным является их совместное использование.

Поддержка процесса от разведочного анализа до отображения данных Deductor Studio позволяет пройти все этапы анализа данных.

В лабораторных работах вы ознакомитесь с методами анализа бизнес – информации, некоторыми практическими задачами анализа и способами их решения с использованием программы Deductor Academic. Программа распространяется бесплатно и, в первую очередь, предназначена для обучения.

Последовательность действий, которые необходимо провести для анализа данных, называется сценарием. Сценарий можно автоматически выполнять на любых данных.

Рисунок 1.3 – Типовой сценарий анализа данных в Deductor

Определение хранилища данных

Хранилище данных (Data Warehouse) — очень большая предметно-ориентированная информационная корпоративная база данных, специально разработанная и предназначенная для подготовки отчётов, анализа бизнес-процессов с целью поддержки принятия решений в организации. Строится на базе клиент-серверной архитектуры, реляционной СУБД и утилит поддержки принятия решений. Данные, поступающие в хранилище данных, становятся доступны только для чтения. Данные из промышленной OLTP-системы копируются в хранилище данных таким образом, чтобы построение отчётов и OLAP-анализ не использовал ресурсы промышленной системы и не нарушал её стабильность. Данные загружаются в хранилище с определённой периодичностью, поэтому актуальность данных несколько отстает от OLTP-системы.

Принципы организации хранилища

2. Интегрированность. Данные объединены так, чтобы они удовлетворяли всем требованиям предприятия в целом, а не единственной функции бизнеса. 3. Некорректируемость. Данные в хранилище данных не создаются: т.е. поступают… 4. Зависимость от времени. Данные в хранилище точны и корректны только в том случае, когда они привязаны к некоторому…

Анализ данных с помощью кросс-таблиц и визуализации

OLAP (Online Analytical Processing) – оперативная аналитическая обработка данных, дает возможность в реальном времени генерировать описательные и… Кросс-таблица представляет собой способ отображения многомерных данных на 2-х… Кросс-диаграмма представляет собой график заданного типа, построенный на основе куба. Основное отличие кросс-диаграммы…

Контрольные вопросы

1. Дайте определение СППР.

2. Назовите главные составляющие СППР.

3. Приведите примеры использования интеллектуального анализа данных в бизнесе и, в частности, в менеджменте.

4. Дайте определение хранилища данных.

5. Каковы основные свойства ХД?

6. Какие составляющие входят в ХД?

7. Что хранится в метаданных?

8. Что такое кубы данных? Измерения? Факты?

9. Какие операции определены над кубами данных?

10. Дайте определение OLAP системы.

11. В чем состоит OLAP-технология анализа данных?

12. Какие процессы обозначают термином KDD?

13. Какие задачи решаются методами Data Mining?

14. Приведите примеры бизнес-приложений, в которых используются методы Data Mining.


Корреляционный анализ

Теоретические сведения

В процессе обработки значащие факторы могут выбираться вручную или автоматически. При ручном выборе около имени каждого входного поля… Корреляционный анализ применяется для количественной оценки взаимосвязи двух… Связь между признаками (по шкале Чеддока) может быть сильной, средней и слабой. Тесноту связи определяют по величине…

Пример 2.1.

В качестве примера рассмотрим, как определить товары-заменители и сопутствующие товары, имея временные ряды объемов продаж. У товаров-заменителей должна быть большая отрицательная корреляция, т.к. увеличение продаж одного товара ведет к спаду продаж второго. А у сопутствующих товаров – большая положительная корреляция.

Пусть есть такие временные ряды продаж товаров:

 

Таблица 2.1

Товар1 Товар2 Товар3 Товар4

Определим корреляцию Товар1 с остальными товарами. Данные о продажах находятся в файле товар.txt.

Для решения задачи будем использовать программу Deductor.

На первом шаге решения задачи нужно загрузить в Deductor данные из текстового файла. Для этого в левом окне программы Deductor нажимаем кнопку «Мастер импорта».

Импорт данных осуществляется в режиме диалога, вам нужно только правильно отвечать на вопросы мастера.

На первом шаге укажите, что данные будут читаться из текстового файла (Text), и и укажите имя файла. Файл можно выбрать, используя кнопку с многоточием (…). Результат представлен на рисунке 2.1.

Рисунок 2.1 – Ввод данных из файла

 

На третьем шаге мастера импорта выбираем переключатель «С разделителями». Поскольку данные в текстовом файле отделены друг от друга пробелами, на следующем шаге указываем, что разделителем является пробел.

На следующем шаге указываем типы данных в столбцах. Deductor определяет тип данных автоматически, вам нужно проверить, правильно ли определены типы данных и откорректировать их в случае необходимости. Результат работы на этом шаге представлен на рис. 2.2.

 

Рисунок 2.2 – Определение параметров стлбцов

 

На следующем шаге нажмите кнопку «Пуск», чтобы запустить процесс загрузки файла. Затем укажите способ отображения данных как показано на рис. 2.3.

На рис. 2.4 показан результат загрузки данных и отображение их в виде таблицы.

Теперь можно приступить к обработке данных. Для этого вызываем «Мастер обработки» и выбираем пункт «Корреляционный анализ», как показано на рис. 2.5.

Рисунок 2.3 – Выбор способа отображения данных

 

Рисунок 2.5 – Выбор метода обработки данных

 

На первом шаге корреляционного анализа нужно определить какие данные являются входными, а какие выходными. Также можно указать, какие данные не будут использоваться при анализе. В этом случае они могут быть информационными или неиспользуемыми.

Поскольку мы хотим определить степень зависимости между продажами Товара1 и остальных товаров, то указываем Товар1 как выходной, а остальные товары входными, как показано на рис. 2.6.

Рисунок 2.6 – Задание входных и выходных столбцов для корреляционного анализа.

 

На следующем шаге выбираем «Коэффициент корреляции Пирсона», а затем нажимаем кнопку «Пуск», чтобы запустить процесс вычисления коэффициентов корреляции.

На следущем шаге, когда коэффициенты корреляции посчитаны, можно отбирать значащие факторы. Это можно сделать вручную или автоматически. В последнем случае необходимо указать порог значимости. На рисунке 2.7 указан очень низкий порог значимости, поэтому отбираются все переменные.

Рисунок 2.7 – Выбор значащих факторов

 

Одним из доступных способов визуализации результатов является визуализатор «Матрица корреляции». В данном примере эта матрица имеет следующий вид:

Рисунок 2.8 – Результат корреляционного анализа

Как видно из рисунка 2.7, ряд продаж для Товар2 имеет очень большую положительную, а Товар3 – отрицательную корреляцию. Из этого можно сделать вывод, что Товар2, возможно, является сопутствующим товаром, а Товар3 – заместителем Товар1. Корреляция с продажами Товар4 Товара1 является отрицательной, но при этом абсолютное значение корреляции невелико, и, следовательно, можно говорить об отсутствии взаимосвязи между продажами Товар1 и продажами Товар4.

 

Задание для самостоятельной работы

Загрузите данные из файла "region.txt". В данном примере необходимо определить степень влияния экономических показателей региона на среднедушевой денежный доход жителей. Укажите, какие показатели влияют на денежный доход, а какие можно отбросить.

Контрольные вопросы

1.


Бизнес - Прогнозирование

Теоретические сведения

С развитием и ростом сложности аппарата прогнозирования, а также с появлением компьютеров, оснащенных соответствующим программным обеспечением,… Прогнозы могут классифицироваться как долгосрочные и краткосрочные.… Как правило, под прогнозированием понимается процедура предсказания важных показателей для отдельных компаний или даже…

Компьютерные пакеты для решения задач прогнозирования

   

Временные ряды

В экономике и бизнесе временные ряды – это очень распространенный тип данных. Во временном ряде содержится информация об особенностях и… Временной ряд – это набор чисел, привязанный к последовательным, обычно… Временным рядом (ВР) будем называть множество значений некоторой величины в последовательные моменты времени.

Основные описательные статистики для временных рядов.

. Выборочная автоковариация k-го порядка вычисляется как

Средние и скользящие средние

Y(t+1)=(1/(t))*[Y(t)+Y(t-1)+...+Y(1)], и в отличие от самой простой "наивной" модели, которой… В приведенной выше формуле предполагалось, что ряд усредняется по достаточно длительному интервалу времени. Однако,…

Моделирование временного ряда

f(t) – тренд (долговременная тенденция) развития; S(t) – сезонная компонента; U(t) –циклическая компонента;

Методы Бокса-Дженкинса (ARIMA)

- AR(p) -авторегрессионая модель порядка p. Модель имеет вид: ,

Нейросетевые модели прогнозирования

При использовании нейронных сетей легко исследовать зависимость прогнозируемой величины от независимых переменных. Например, есть предположение, что… · продаж в последнюю неделю; · продаж в предпоследнюю неделю;

Предобработка данных

Ключевым для повышения качества предсказаний является эффективное кодирование входной информации. Это особенно важно для трудно предсказуемых… Поэтому в качестве входных переменных логично выбирать наиболее статистически… Отрицательной чертой погружения в лаговое пространство является ограниченный "кругозор" сети. Недостаточно…

Пример прогнозирования с помощью линейной регрессии

Программа Deductor содержит механизмы импорта, обработки, визуализации и экспорта данных для быстрого и эффективного анализа и прогнозирования.

В документации к Deductor Studio приведен пример построения законченного решения по прогнозированию объемов продаж товаров на три месяца вперед.

Рассмотрим группу инструментов предобработки данных, которая приводит исходные, "сырые", данные к виду, пригодному для анализа и обработки. Затем рассмотрим механизмы преобразования данных, которые модифицируют данные на основе настроек аналитика. И, наконец, рассмотрим алгоритмы анализа данных, позволяющие находить зависимости одних факторов от других, кластеризовать данные, обнаружить сезонность во временных рядах, а также построить модель прогноза и получить желаемый результат (провести эксперимент, спрогнозировать временной ряд).

Импорт данных из файла

Далее перейдем к настройке параметров импорта. На этой странице Мастера предоставляется возможность указать, с какой строки следует начать импорт,… Рисунок 3.4 – Второе окно мастера импорта

Настройка параметров столбцов

Указав параметры столбцов, запустим процесс импорта, нажав на кнопку "Пуск". После импорта данных на следующем шаге Мастера необходимо… Перейдем к предварительной обработке загруженных данных. Все шаги по…

Расчет автокорреляции столбцов

Как видно, не каждый аналитик сможет судить о сезонности по этим данным, поэтому необходимо воспользоваться автокорреляцией. Для этого откроем… Также должен стоять флажок "Включить поле отсчетов набор данных". Он… Перейдем на следующий шаг Мастера и запустим процесс обработки.

Удаление аномалий

В Мастере парциальной предобработки на втором шаге выбираем поле "Количество" и указываем ему тип обработки "Редактирование… Рисунок 3.10 – Настройка параметров парциальной предобработки

Преобразование данных к скользящему окну

Обработка создает новые столбцы путем сдвига данных исходного столбца вниз и вверх (глубина погружения и горизонт прогноза). У аналитика имеются данные о месячном количестве проданного товара за… Запустим Мастер обработки, выберем в качестве обработчика скользящее окно и перейдем на следующий шаг.

Прогнозирование с помощью линейной регрессии

Линейная регрессия необходима тогда, когда предполагается, что зависимость между входными факторами и результатом линейная. Достоинством ее можно назвать быстроту обработки входных данных и простоту интерпретации полученных результатов.

Обучение линейной регрессии

На первом шаге задаем назначение исходных столбцов. Предположим, что на прогноз влияет информация за 2 прошлых месяца и за два месяца год назад,… На следующем шаге происходит настройка обучающего и тестового множеств, способ… Третий шаг установки позволяет осуществить ограничение диапазона входных значений. Данный шаг оставим без изменений.…

Прогнозирование

Теперь для построения прогноза запустим Мастера обработки, в котором выберем прогнозирование. На первом шаге обработчика происходит настройка связи столбцов для прогнозирования. Укажем связь между столбцами и горизонт прогноза равный 3 (рис. 3.16).

На следующем шаге задаются параметры визуализации. Для данного примера выбираем отображение результатов в виде диаграммы прогноза. Теперь аналитик может дать прогноз о продажах, основываясь на модели, построенной с помощью линейной регрессии (рис. 3.17).

Рисунок 3.16 – Настройка параметров прогнозирования

Выводы

Данный пример показал целесообразность применения линейного регрессионного анализа для прогнозирования линейных зависимостей.

Простота настроек и быстрота построения модели иногда бывают необходимы. Аналитику достаточно указать входные столбцы - факторы, выходные – результат, указать способ разбиения данных на тестовое и обучающее множество и запустить процесс обучения. Причем после этого будут доступны все механизмы визуализации и анализа данных, позволяющие построить прогноз, провести эксперимент по принципу "Что-если", исследовать зависимость результата от значений входных факторов, оценить качество построенной модели по диаграмме рассеяния. Также по результатам работы этого алгоритма можно подтвердить или опровергнуть гипотезу о наличии линейной зависимости.

Рисунок 3.17 – Прогноз продаж на три периода вперед

 

Прогнозирование с помощью нейронных сетей

Прогнозирование появляется в списке Мастера обработки только после построения какой-либо модели прогноза: нейросети, линейной регрессии и т.д.… Рисунок 3.18 – Сценарий прогнозирования нейронными сетями

Исходные данные

У аналитика имеются данные о помесячном количестве проданного товара за несколько лет. Ему необходимо, основываясь на этих данных, определить, какое Количество товара будет продано через месяц и через два.

Исходные данные по продажам находятся в файле "Trade.txt", известному по предыдущему примеру. Выполним импорт данных из файла, не забыв указать в Мастере, чтобы в качестве разделителя дробной и целой частей была точка, а не запятая.

Удаление аномалий и сглаживание

После импорта данных воспользуемся диаграммой для их просмотра. Как и в предыдущем пункте, перед прогнозированием необходимо удалить аномалии и сгладить данные. Сделаем это при помощи парциальной обработки как описано выше. Видно, что данные сгладились, аномалии и шумы исчезли. Также видна тенденция.

Теперь необходимо трансформировать данные к скользящему окну. Выбраем глубину погружения 12. Теперь в качестве входных факторов можно использовать "Количество-12", "Количество-11" - данные по количеству 12 и 11 месяцев назад (относительно прогнозируемого месяца), а также "Количество-2" и "Количество-1" - данные за 2 предыдущих месяца. В качестве выходного поля укажем столбец "Количество".

Обучение нейросети (прогноз на 1 месяц вперед)

Перейдем непосредственно к самому построению модели прогноза. Откроем Мастер обработки и выберем в нем нейронную сеть. На втором шаге Мастера согласно с принятым ранее решением установим в качестве входных поля "Количество - 12", "Количество - 11", "Количество - 2" и "Количество - 1", а в качестве выходного - "Количество". Остальные поля сделаем информационными.

На следующем шаге укажем разбиение тестового и обучающего множеств. Перейдем к следующему шагу, на котором отметим необходимое количество слоев и нейронов в нейросети (рис. 3.19).

Перейдя далее, выберем алгоритм обучения нейросети - RPROP.

После построения модели для просмотра качества обучения представим полученные данные в виде диаграммы и диаграммы рассеяния.

 

Рисунок 3.19 – Задание структуры нейронной сети

В Мастере настройки диаграммы выберем для отображения поля "Количество" и "Количество_OUT" - реальное и спрогнозированное значение. Результатом будет два графика (рис. 3.20).

Рисунок 3.20 – Исходный и аппроксимированный нейросетью графики объемов продаж

Построение прогноза

Нейросеть обучена, осталось получить требуемый прогноз. Для этого открываем Мастер обработки и выбираем появившийся теперь обработчик "Прогнозирование".

На втором шаге Мастера предлагается настроить связи столбцов для прогнозирования временного ряда: откуда брать данные для столбца при очередном шаге прогноза. Мастер сам верно настроил все переходы, поэтому остается только указать горизонт прогноза (на сколько вперед будем прогнозировать) равный трем, а также для наглядности следует добавить к прогнозу исходные данные, установив в Мастере соответствующий флажок.

Результат

После этого необходимо в качестве визуализатора выбрать "Диаграмму прогноза", которая появляется только после прогнозирования временного ряда.

В Мастере настройки столбцов диаграммы прогноза надо указать в качестве отображаемого столбец "Количество", а в качестве подписей по оси Х указать столбец "Шаг прогноза".

Теперь аналитик может дать ответ на вопрос, какое Количество товаров будет продано в следующем месяце и даже два месяца спустя.

Рисунок 3.21 – Диаграмма прогноза временного ряда

Выводы

Данный пример показал, как с помощью Deductor Studio прогнозировать временной ряд.

При решении задачи были применены механизмы очистки данных от шумов, аномалий, которые обеспечили качество построения модели прогноза далее и соответственно достоверный результат самого прогнозирования количества продаж на три месяца вперед. Также был продемонстрирован принцип прогнозирования временного ряда – импорт, выявление сезонности, очистка, сглаживание, построение модели прогноза и собственно построение прогноза временного ряда.

Подобный сценарий – основа любого прогнозирования временного ряда с той разницей, что для каждого случая приходится, как получать необходимый временной ряд посредством инструментов Deductor Studio (например, группировки), так и подбирать параметры очистки данных и параметры модели прогноза (например, структуры сети, если используется обучение нейронной сети, определение значимых входных факторов). В данном случае приемлемые результаты получились с настройками по умолчанию, в большинстве же случаев предстоит работа по их подбору (например, оценивая качество модели по диаграмме рассеяния).

 

Задание к лабораторной работе

1. Выбрать временной ряд согласно вашему варианту из файла «Временные ряды.xls».

2. Провести предобработку данных временного ряда.

3. Построить линейную регрессионную модель и выполнить прогнозирование.

4. Построить нейронную сеть, выполнить прогнозирование и сравнить результаты.

 

Контрольные вопросы

1. Какие типы прогнозов Вы можете назвать?

2. Какие этапы выполняются при решении задачи прогнозирования?

3. Дайте определение временного ряда.

4. В чем состоит задача прогнозирования временного ряда?

5. Какие «наивные» методы прогнозирования вам известны?

6. Что такое тренд временного ряда и как его получить?

7. Какие методы выделения сезонных колебаний во временных рядах вы знаете?

8. В чем особенности прогнозирования финансовых временных рядов?

9. Запишите авторегрессионную модель прогнозирования временного ряда.

10. Как выбрать глубину погружения при прогнозировании временных рядов?

  1. Какую предварительную обработку данных выполняют перед построением модели прогноза?

12. Какие программные продукты можно использовать для прогнозирования? В чем их достоинства и недостатки?

 


Кластерный анализ в бизнес-аналитике

Теоретические основы

В экономике кластерный анализ используется для достижения следующих целей: сегментации рынка, изучения поведения покупателей, определения… Кластеризацию используют, когда отсутствуют априорные сведения относительно… Постановка задачи кластеризации сложна и неоднозначна, так как: Оптимальное количество кластеров в общем случае…

Меры близости в алгоритмах кластеризации

Рассмотренные ниже меры определяют расстояния между двумя точками, принадлежащими пространству входных переменных. Используются следующие… — множество данных, являющееся подмножеством m-мерного вещественного… , — элементы множества данных;

Алгоритмы кластеризации

При выполнении кластеризации важно, сколько в результате должно быть построено кластеров. Предполагается, что кластеризация должна выявить естественные локальные сгущения объектов. Поэтому число кластеров является параметром, часто существенно усложняющим вид алгоритма, если предполагается неизвестным, и существенно влияющим на качество результата, если оно известно.

Алгоритмы кластеризации обычно строятся как некоторый способ перебора числа кластеров и определения его оптимального значения в процессе перебора.

Методы кластерного анализа можно разделить на две группы:

• иерархические;

• неиерархические.

Каждая из групп включает множество подходов и алгоритмов.

Используя различные методы кластерного анализа, аналитик может получить различные решения для одних и тех же данных. Это считается нормальным явлением.

Иерархические методы кластерного анализа

Иерархические агломеративные методы (Agglomerative Nesting, AGNES) характеризуются последовательным объединением исходных элементов и… Иерархические дивизимные (делимые) методы (DIvisive ANAlysis, DIANA) являются… Принцип работы описанных выше групп методов в виде дендрограммы показан на рис. 3.1.

Неиерархические методы кластерного анализа

Одной из широко используемых методик кластеризации является разделительная кластеризация, в соответствии с которой для выборки данных, содержащих n записей (объектов), задается число кластеров k, которое должно быть сформировано. Затем алгоритм разбивает все объекты выборки на k групп (k<n), которые и представляют собой кластеры.

К наиболее простым и эффективным алгоритмам кластеризации относится k-means или в русскоязычном варианте k-средних. Он состоит из четырех шагов.

Алгоритм k-means

1. Задается число кластеров k, которое должно быть сформировано из объектов исходной выборки. 3. Случайным образом выбирается k записей, которые будут служить начальными… 3. Для каждой записи исходной выборки определяется ближайший к ней центр кластера.

Решение типовой задачи кластеризации в Deductor

В Deductor Studio для автоматизации кластерного анализа есть соответствующий инструмент – "Кластеризация".

Рассмотрим механизм кластеризации, основываясь на данных роста численности населения по регионам РФ за 2000 год. Исходная таблица находится в файле "Population.txt". Задача состоит в распределении регионов на функциональные группы по демографической картине в них и выявлении скрытых закономерностей.

Кластеризация

После этого выбираем и запускаем Мастер обработки "Кластеризация". При запуске Мастера необходимо настроить назначения столбцов, т.е.… На следующем шаге Мастера необходимо настроить способ разделения исходного… Следующий шаг предлагает настроить параметры кластеризации, определить на какое количество кластеров будет…

Выводы

Рассмотренный пример проиллюстрировал, применение кластеризации для группового анализа данных. С помощью задачи кластеризации все регионы сгруппировались на кластеры по параметрам входных значений, интерпретация которых осуществляется с помощью кросс-диаграммы и куба. Но кажущаяся простота задачи кластеризации обманчива, она требует полной собранности аналитика при анализе полученных результатов и наличии чувства интуиции. Именно аналитик решает, на сколько кластеров необходимо разбить исследуемый набор данных и какие свойства будут основными при построении кластера, т.е. аналитик закладывает фундамент решении задачи. Но это не все проблемы связанные с задачей кластеризации. Одной из особенностей применения k-means алгоритма, а так же и многих других является, то что при повторном построении задачи кластеризации можно не получить одинакового результата, это связано с тем что данные очень разрозненные и алгоритм выбирает случайным образом центры кластеров.

Решение задачи кластеризации в пакете STATISTICA

Постановка задачи

Таблица 3.1 - Показатели, характеризующие деятельность предприятий, обратившихся в банк за кредитом x1 x2 x3 x4 … Вот некоторые относительные показатели, которые можно рассчитать с помощью… Коэффициент концентрации собственных средств =

Решение

2. Открыть меню«Статистика» (Statistics), в нем выбрать«Многомерные исследовательские методы» (Multidimensional research methods), далее -«Анализ… 3. В открывшемся окне (см. рис. 3.11) выбрать в качестве методы…

Задания для самостоятельной работы

Задание 3.1. На предприятии «Прогресс» функционируют 16 научно- производственных отделов, занятых выпуском различной продукции, работ и услуг. Поскольку виды деятельности, количество работающих, рентабельность отделов, существенно различаются между собой, было решено сгруппировать отделы в несколько однородных групп, а затем для каждой группы разработать свою систему премирования. После тщательного анализа выбрали четыре признака, с помощью которых описывались наиболее важные параметры каждого отдела: 1) стоимость активной части основных производственных фондов, тыс. руб. (Х1); 2) среднемесячный объем работ отдела, тыс. руб. (Х2); 3) удельный вес работ/услуг отдела по внутрифирменной кооперации, % (x3); 4) среднемесячная прибыль отдела, тыс. руб. (x4). Данные по отделам приведены в табл.3.3.

Проведите кластеризацию отделов в пакете Deductor, используя метод К-средних (число кластеров задайте равным 4). Найдите статистические характеристики каждого кластера.

Таблица 3.2

№ отдела x1 x2 x3 x4 № отдела x1 x2 x3 x4

Задание 3.3. Проведите кластеризацию потребителей по их отношению к посещению магазинов для покупки товаров на основе результатов исследования, суть которого в том, что потребителей попросили выразить их степень согласия со следующими утверждениями по 7-балльной шкале (1 - не согласен, 7 - согласен): V1 - «Посещение магазинов для покупки товаров - приятный процесс»; V2 - «Посещение магазинов для покупки товаров плохо сказывается на бюджете»; V3 - «Я совмещаю посещение магазинов для покупки товаров с питанием вне дома»; V4 - «Я стараюсь сделать лучшие покупки при посещении магазинов»; V5 - «Мне не нравится посещение магазинов для покупки товаров»; V6 - «Я могу сэкономить много денег, сравнивая цены в разных магазинах». Результаты этого исследования приведены в табл. 3.3.

Таблица 3.3

Потребитель V1 V2 V3 V4 V5 V6

Задание 3.4. С целью адресной поддержки малого бизнеса Департаментом экономического развития города А было решено построить компьютерную распознающую систему на основе методов многомерной классификации, позволяющую по определенному перечню показателей идентифицировать малые предприятия для определения проводимой относительно них экономической политики. Данные для решения поставленной задачи представлены в табл. 3.4. Разделите всю выборочную совокупность предприятий на отдельные группы и по средним характеристикам получившихся групп определите, в какие из классов вошли предприятия, нуждающиеся в финансовой поддержке, какие нормально функционируют, а какие уже, возможно, стали банкротами.

Таблица 3.4

Предприятие Коэффициент текущей ликвидности, Х1 Коэффициент обеспеченности собственными средствами, Х2 Коэффициент утраты (восстановления) платежеспособности, Х3
1,30 0,23 1,13
0,73 -1,36 0,59
2,02 0,24 1,46
0,64 -1,09 0,72
1,28 0,23 1,19
1,52 0,51 1,42
2,00 0,50 1,69
0,32 0,16 0,37
1,18 0,15 1,04
0,92 -1,10 0,51

Задание 3.5. Проведите классификацию коммерческих банков методом К-средних на предмет оценки их надежности, установив экспертным путем оптимальное число кластеров. Определите состав каждого кластера, его статистические характеристики. Основные показатели работы банков приведены в табл. 3.5.

Таблица 3.5

Банк Чистые активы, тыс. руб. Ликвидные активы, тыс. руб. Суммарные обязательства, тыс. руб.
728481,825 12731,458 1527149,283
43831,446 -24198,034 79374,219
19973,371 629,285 27452,437
26484,649 -16262,703 31193,252
20393,837 3483,837 29484,226
174967,000 6783,932 260847,887
137371,384 3197,923 12736,830
62763,913 6158,736 97264,837
183,837 -189,780 18373,803
11836,910 -414,712 19724,460

Задание 3.6. Руководство филиала региональной телекоммуникационной компании, предоставляющей услуги мобильной связи, поставило задачу сегментации абонентской базы. Ее целями являются:

· Построение профилей абонентов путем выявления их схожего поведения в плане частоты, длительности и времени звонков, а также ежемесячных расходов;

· Оценка наиболее и наименее доходных сегментов.

Эта информация может в дальнейшем использоваться для:

· Разработки маркетинговых акций, направленных на определенные группы абонентов;

· Разработки новых тарифных планов.

· Оптимизации расходов на адресную SMS-рассылку о новых услугах и тарифах;

· Предотвращения оттока клиентов в другие компании.

Данные за последние несколько месяцев, взятые из биллинговой системы, находятся в файле mobile.txt..

Проведите сегментацию клиентов телекоммуникационной компании, разбив множество записей на 6 кластеров. Проведите анализ полученного разбиения и дайте содержательную характеристику каждого кластера.

 

Контрольные вопросы

1. В чем состоит задача кластеризации?

2. Приведите примеры применения кластерного анализа в бизнесе.

3. Какое программное обеспечение можно использовать для решения задачи кластеризации?

4. Какие алгоритмы кластеризации вы знаете?

5. Опишите иерархические методы кластеризации.

6. Что такое кластерный анализ?

7. Какие бывают типы переменных?

8. Для чего необходимо проводить нормировку данных?

9. Что представляет собой метод k-means и какие у него недостатки?


 

Литература

1. Барсегян А.А., Куприянов М.С., Степаненко В.В., Холод И.И. Методы и модели анализа данных: OLAP, Data Mining. – СПб.: БХВ-Петербург, 2004. – 336с.

3. Ситник В.Ф. Інтелектуальний аналіз даних. К.: КНЕУ, 2007. –

3. А.А. Ежов, С.А. Шумский. Нейрокомпьютинг и его применения в экономике и бизнесе. –

4. Барсегян А.А., Куприянов М.С., Степаненко В.В., Холод И.И. Технологии анализа данных: Data Mining, Visual Mining, Text Mining, OLAP. – СПб.: БХВ-Петербург, 2007. – 384 с.

5. Паклин Н.Б., Орешков В.И. Бизнес-аналитика: от данных к знаниям: Учеб. пособие. 2-е изд., перераб. и доп. _ СПб.: Питер, 2010. – 704 с.


Обзор литературы по Data Mining

В книге представлены наиболее актуальные направления в области разработки… BaseGroup Labsbasegroup.ru

– Конец работы –

Используемые теги: Інформаційні, системи, технології, УПРАВЛІННІ0.066

Если Вам нужно дополнительный материал на эту тему, или Вы не нашли то, что искали, рекомендуем воспользоваться поиском по нашей базе работ: Інформаційні системи та технології в управлінні

Что будем делать с полученным материалом:

Если этот материал оказался полезным для Вас, Вы можете сохранить его на свою страничку в социальных сетях:

Еще рефераты, курсовые, дипломные работы на эту тему:

Лекция 1. Тема: Операционная система. Определение. Уровни операционной системы. Функции операционных систем. 1. Понятие операционной системы
Понятие операционной системы... Причиной появления операционных систем была необходимость создания удобных в... Операционная система ОС это программное обеспечение которое реализует связь между прикладными программами и...

Інформаційні системи і технології
Навчально науковий інститут підприємництва та перспективних технологій... Кафедра обліку і аудиту...

Непротиворечивая система аксиом называется независимой, если никакая из аксиом этой системы не является следствием других аксиом этой системы
При аксиоматическом построении теории по существу все утверж дения выводятся путем доказательства из аксиом Поэтому к системе аксиом предъявляются... Система аксиом называется непротиворечивой если из нее нельзя логически... Если система аксиом не обладает этим свойством она не может быть пригодной для обоснования научной теории...

Інформаційні управляючі системи та технології
Упорядники В М Левикін... Д К Міхнов В І Саєнко М В Євланов...

Микропроцессорные системы: система ДЦ-МПК, система "Юг"
Использован практический опыт внедрения линейных пунктов управления (ЛПУ) на 60 станциях в увязке с ЭЦ-4, ЭЦ-9, МРЦ-12, МРЦ-13. Выполнен переход на… В состав аппаратуры центрального пункта управления (ПУ) входят IBM-совместные… Круглосуточный режим работы аппаратных средств ПУ обеспечивается источниками бесперебойного питания, а также системой…

ІНФОРМАЦІЙНІ СИСТЕМИ І ТЕХНОЛОГІЇ В ОБЛІКУ
Державний вищий навчальний заклад... КИЇВСЬКИЙ НАЦІОНАЛЬНИЙ ЕКОНОМІЧНИЙ УНІВЕРСИТЕТ... імені Вадима Гетьмана...

Система координат действия и общая теория систем действия: культура, личнсть и место социальных систем
В центре данного исследования стоит разработка теоретической схемы. Систематическое рассмотрение ее эмпирического использования будет предпринято… Основные положения системы координат действия подробно излагались ранее, и… При помощи ее анализируются структура и процессы систем, состоящих из отношений таких элементов к их ситуациям,…

Экспертные системы. Классификация экспертных систем. Разработка простейшей экспертной системы
Глава 2. Структура систем, основанных на знаниях. 1. Категории пользователей экспертных систем. 2.2. Подсистема приобретения знаний. 3. База… ЭС выдают советы, проводят анализ, дают консультации, ставят диагноз. Практическое применение ЭС на предприятиях способствует эффективности работы и повышению квалификации специалистов.

Інформаційні системи і технології на підприємствах
На сайте allrefs.net читайте: "Інформаційні системи і технології на підприємствах"

0.035
Хотите получать на электронную почту самые свежие новости?
Education Insider Sample
Подпишитесь на Нашу рассылку
Наша политика приватности обеспечивает 100% безопасность и анонимность Ваших E-Mail
Реклама
Соответствующий теме материал
  • Похожее
  • По категориям
  • По работам