рефераты конспекты курсовые дипломные лекции шпоры

Реферат Курсовая Конспект

Технология анализа OLAP

Технология анализа OLAP - раздел Информатика, Информационные технологии в экономике: Учеб. пособие З.В.Архипова,В.А.Пархомов Иркутск: Изд-во БГУЭП, 2003   В Предыдущем Разделе Были Подробно Рассмотрены Технологии Хра...

 

В предыдущем разделе были подробно рассмотрены технологии хранилищ данных. Теперь перейдем к следующему этапу. После того как данные получены, очищены, приведены к единому виду и помещены в храни-лище, их необходимо анализировать. Для этого используется технология OLAP.

Двенадцать определяющих принципов OLAP были сформулированы в 1993 году Е.Ф.Коддом, "изобретателем" реляционных баз данных. OLAP — это OnLine Analytical Processing, то есть оперативный анализ данных. Позже определение Кодда было переработано в так называемый тест FASMI (Fast Analysis of Shared Multidimensional Information — быстрый анализ разделяемой многомерной информации), который требует, чтобы OLAP-приложение предоставляло следующие возможности быстрого анализа разделяемой многомерной информации: высокая скорость; анализ; разделение доступа; многомерность; работа с информацией..

Высокая скорость.Анализ должен производиться одинаково быстро по всем аспектам информации. При этом допустимое время отклика со­ставляет не более 5 секунд.

Анализ.Должна существовать возможность производить основные типы числового и статистического анализа — предопределенного разработчиком приложения или произвольно определяемого пользователем.

Разделение доступа. Доступ к данным должен быть многопользовательским, при этом должен контролироваться доступ к конфиденциальной информации.

Многомерность.Основная, наиболее существенная характеристика OLAP.

Работа с информацией. Приложение должно иметь возможность об­ращаться к любой нужной информации, независимо от ее объема и места хранения.

Многомерное представление. OLAP предоставляет организациям максимально удобные и быстрые средства доступа, просмотра и анализа деловой информации. Что наиболее важно — OLAP обеспечивает пользо­вателя естественной, интуитивно понятной моделью данных, организуя их в виде многомерных кубов (Cubes). Осями [L1][L2](dimensions) многомер­ной системы координат служат основные атрибуты анализируемого биз­нес-процесса. Например, для процесса продаж это может быть категория товара, регион, тип покупателя. Практически всегда в качестве одного из измерений используется время. Внутри куба находятся данные, количественно характеризующие процесс, — так называемые меры (Measures). Это могут быть объемы продаж в штуках или в денежном выражении, остатки на складе, издержки и т.п. Пользователь, анализирующий информацию, может "нарезать" куб по разным направлениям, получать сводные (например, по годам) или, наоборот, детальные (по неделям) данные и осуществ­лять прочие операции, которые необходимы ему для анализа.

Хранение данных OLAP. В первую очередь нужно сказать о том, что, поскольку аналитик всегда оперирует некими суммарными (а не детальными) данными, в базах данных OLAP практически всегда хранятся наря­ду с детальными данными и так называемые агрегаты, то есть заранее вычисленные суммарные показатели. Примерами агрегатов может служить суммарный объем продаж за год или средний остаток товара на складе. Хранение заранее вычисленных агрегатов — это основной способ повы­шения скорости выполнения OLAP-запросов.

Однако построение агрегатов может привести к значительному увеличению объема базы данных.

Другой проблемой хранения OLAP-данных является разреженность многомерных данных. Например, если в 2000 году продаж в некотором регионе не было, то на пересечении соответствующих измерений куба не будет никакого значения. Если OLAP-сервер будет хранить в таком случае некое отсутствующее значение, то при значительной разреженности дан­ных количество пустых ячеек (требующих, тем не менее, места для хранения) может во много раз превысить количество заполненных, и в результате общий объем неоправданно возрастет. Решения, предлагаемые для этого компанией Microsoft, приводятся ниже.

Разновидности OLAP. Для хранения OLAP-данных могут использо­ваться:

Специальные многомерные СУБД (OLAP-серверы). В этом случае го­ворят о MOLAP (Multidimensional OLAP). При выполнении сложных запросов, анализирующих данные в различных измерениях, многомерные СУБД обеспечивают большую производительность, чем реляционные. При этом скорость выполнения запроса не зависит от того, по какому измерению производится «срез» многомерного куба.

Традиционные реляционные СУБД — ROLAP (Relational OLAP). Применение специальных структур данных — схемы «звезды» (star) и «снежинки» (snowflake), а также хранение вычисленных агрегатов делают возможным многомерный анализ реляционных данных. Реляционные СУБД исторически более привычны, и в них сделаны значительные инве-стиции, поэтому пока ROLAP более распространен.

Комбинированный вариант — HOLAP (Hybrid OLAP), совмещающий и тот и другой вид СУБД. Одним из вариантов совмещения двух типов СУБД является хранение агрегатов в многомерной СУБД, а детальных данных (имеющих наибольший объем) — в реляционной.

Компания Microsoft предлагает следующие средства OLAP-анализа:

В комплект Microsoft SQL Server 7.0 входит полнофункциональный OLAP-сервер — SQL Server OLAP Services. Сервер, естественно, предназначен для обслуживания запросов клиентов, а для этого требуется некий протокол взаимодействия и язык запросов. Например, для взаимодействия клиента с серверной реляционной СУБД — SQL Server — используются протоколы ODBC или OLE DB и язык запросов SQL. Для доступа к OLAP-серверу компанией Microsoft был разработан протокол OLE DB for OLAP и язык запросов к многомерным данным — MDX (MultiDimensional eXpression). Аналогично тому, как для упрощения и удобства над OLE DB разработан слой объектов ADO (ActiveX Data Objects), над OLE DB for OLAP построен ADO MD (MultiDimensional ADO).

Средства анализа данных в Microsoft Office 2000. Microsoft Excel 2000 содержит новый механизм сводных таблиц — OLAP PivotTable, ко­торый заменил собой одноименный механизм предыдущих версий. Наряду с прежними возможностями анализа реляционных данных, механизм PivotTable теперь включает возможности анализа OLAP-данных, то есть выступает в качестве OLAP-клиента. В качестве сервера может использо­ваться Microsoft SQL Server 7.0, а также любой продукт, поддерживающий интерфейс OLE DB for OLAP. Механизм сводных таблиц Excel в полном объеме поддерживает возможности, предоставляемые описанным выше сервисом PivotTable Services (PTS). Таким образом, анализируемые OLAP-данные могут находиться как в локальных кубах, так и на OLAP-сервере.

Microsoft Office 2000 содержит также набор ActiveX-компонентов, на-зываемых Office 2000 Web Components, которые позволяют организовать анализ OLAP-данных средствами просмотра Web. К ним относятся сле­дующие четыре компонента:

Spreadsheet— реализует ограниченную функциональность листа Excel.

PivotTable— "близнец" сводных таблиц Excel; может работать с данными OLAP Services.

Chart— позволяет строить диаграммы, основанные как на реляцион­ных, так и на OLAP-данных.

Data Source— служебный компонент для привязки остальных компо­нентов к источнику данных.

При работе с OLAP-данными Web Components обращаются к PivotTable Services.


 

2.3.6. Технология анализа «Data Mining»

 

Появление технологии Data Mining связано с необходимостью извле­кать знания из накопленных информационными системами разнородных данных. Возникло понятие, которое по-русски стали называть «добыча», «извлечение» знаний. За рубежом утвердился термин «Data Mining».

Широко использовавшиеся раньше методы математической статистики оказались полезными главным образом для проверки заранее сформулированных гипотез (verification-driven data mining) и для «грубого» разведочного анализа, составляющего основу оперативной аналитической обработки данных (online analytical processing — OLAP).

Ключевое достоинство «Data Mining» пo сравнению с предшествую­щими методами — возможность автоматического порождения гипотез о взаимосвязи между различными параметрами или компонентами данных. Работа аналитика при работе с традиционным пакетом обработки данных сводится фактически к проверке или уточнению одной-двух порожденных им самим гипотез. В тех случаях, когда начальных предположений нет, а объем данных значителен, существующие системы теряют работоспособ­ность и превращаются в пожирателей времени аналитика.

Еще одна важная особенность систем Data Mining возможность обработки многомерных запросов и поиска многомерных зависимостей. Уникальна также способность систем data mining автоматически обнаруживать исключительные ситуации — т.е. элементы данных, "выпадающие" из об­щих закономерностей.

Выделяют пять стандартных типов закономерностей, которые позво­ляют выявлять методы Data Mining

• ассоциация

• последовательность

• классификация

• кластеризация

• прогнозирование

Поиск шаблонов производится методами, не ограниченными рамками априорных предположений о структуре выборки и виде распределений зна-чений анализируемых показателей. Примеры заданий на такой поиск при использовании Data Mining приведены в табл.6.

 


 

Data Mining является мультидисциплинарной областью, возникшей и развивающейся на базе достижений прикладной статистики, распознавания образов, методов искусственного интеллекта, теории баз данных и др. (см. рис. 4).

Системы Data Mining интегрируют в себе сразу несколько подходов, но, как правило, с преобладанием какого-то одного компонента.

Приведем примеры некоторых возможных бизнес-приложений Data Min­ing.

Предприятия розничной торговли сегодня собирают подробную информацию о каждой отдельной покупке, используя кредитные карточки с маркой магазина и компьютеризованные системы контроля. Типичные задачи, ко­торые можно решать с помощью Data Mining в сфере розничной торговли, это анализ покупательской корзины, исследование временных шаблонов, создание прогнозирующих моделей.

Анализ покупательской корзины (анализ сходства) предназначен для выявления товаров, которые покупатели стремятся приобретать вместе. Знание покупательской корзины необходимо для улучшения рекламы, выработки стратегии создания запасов товаров и способов их раскладки в торговых залах.

Исследование временных шаблонов помогает торговым предприятиям принимать решения о создании товарных запасов. Оно дает ответы на вопросы типа: «Если сегодня покупатель приобрел видеокамеру, то через какое время он вероятнее всего купит новые батарейки и пленку?».

 

 

Создание прогнозирующих моделей дает возможность торговым предприятиям узнавать характер потребностей различных категорий клиентов с определенным поведением, например, покупающих товары известных дизайнеров или посещающих распродажи. Эти знания нужны для разработки точно направленных, экономичных мероприятий по продвижению товаров.

Достижения технологии Data Mining используются в банковскомделе для решения следующих распространенных задач:

Выявление мошенничества с кредитными карточками. Путем анализа прошлых транзакций, которые впоследствии оказались мошенническими, банк выявляет некоторые стереотипы такого мошенничества.

Сегментация клиентов. Разбивая клиентов на различные категории, банки делают свою маркетинговую политику более целенаправленной и результативной, предлагая различные виды услуг разным группам клиентов.

Прогнозирование изменений клиентуры. Data Mining помогает банкам строить прогнозные модели ценности своих клиентов и соответствующим образом обслуживать каждую категорию.

Страховые компании в течение ряда лет накапливают большие объемы данных. Здесь также можно использовать методы Data Mining: для выявления мошенничества и анализа риска.

Выявление мошенничества. Страховые компании могут снизить уровень мошенничества, отыскивая определенные стереотипы в заявлениях о выплате страхового возмещения, характеризующих взаимоотношения между юристами, врачами и заявителями.

Анализ риска. Путем выявления сочетаний факторов, связанных с оплаченными заявлениями, страховщики могут уменьшить свои потери по обязательствам. Известен случай, когда в США крупная страховая компания обнаружила, что суммы, выплаченные по заявлениям людей, состоящих в браке, вдвое превышают суммы по заявлениям одиноких людей. Компания отреагировала на это новое знание пересмотром своей общей политики предоставления скидок семейным клиентам.

В настоящее время для решения задач DM используются нейросетевые технологии, статистические пакеты SAS, SPSS, STATISTICA, STATGRAPHICS и др. Исследование данных (Data Mining — DM) — одно из самых ценных новшеств SQL Server 2000.

В версии SQL Server 7.0 специалисты Microsoft впервые реализовали аналитическую службу OLAP, предоставляющую возможности составления нерегламентированных (гибких) запросов и анализа данных. В процессе работы с нерегламентированными запросами аналитик точно знает, на какие вопросы клиент хотел бы получить ответы, и просто извлекает нужную информацию из куба OLAP. Например, управляющий заведением типа Fast-food мог бы спросить: "Какова тенденция роста доходов и прибыли от продажи гамбургеров за последние четыре квартала?"

При проведении специального анализа данных аналитик имеет представление о том, что интересует его клиента, но перечня точно сформулированных вопросов у него нет. Например, в компании известно, что некоторые принадлежащие ей магазины розничной торговли не приносят дохода, но никто не понимает, чем это вызвано. Аналитик начинает навигацию по кубу данных OLAP, следуя за предположением, которое кажется ему наиболее верным. При этом он то углубляется в детали, то вращает размерности многомерного куба данных.

Исследование данных средствами DM отличается и от работы с нерегламентированными запросами, и от специального анализа данных. При проведении исследования данных службы Analysis Services путешествуют по информационным измерениям самостоятельно, отыскивают данные, которые относятся к делу, и представляют эти данные пользователю.

SQL Server 2000 применяет для предоставления возможностей DM новый интерфейс приложений (API), называемый OLE DB for Data Mining (OLE DB for DM).

В состав SQL Server 2000 вошли два алгоритма DM, так называемые деревья принятия решений и алгоритм кластеризации.


 

– Конец работы –

Эта тема принадлежит разделу:

Информационные технологии в экономике: Учеб. пособие З.В.Архипова,В.А.Пархомов Иркутск: Изд-во БГУЭП, 2003

ОГЛАВЛЕНИЕ... ВВЕДЕНИЕ ОРГАНИЗАЦИОННЫЕ ОСНОВЫ ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЙ В...

Если Вам нужно дополнительный материал на эту тему, или Вы не нашли то, что искали, рекомендуем воспользоваться поиском по нашей базе работ: Технология анализа OLAP

Что будем делать с полученным материалом:

Если этот материал оказался полезным ля Вас, Вы можете сохранить его на свою страничку в социальных сетях:

Все темы данного раздела:

ОРГАНИЗАЦИОННЫЕ ОСНОВЫ ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЙ В ЭКОНОМИКЕ
1.1. Информационные процессы в экономике и новая роль информационных систем 1.1.1. Информационные процессы в экономике. Основные понятия курса 1.1.2. Социальные и этичес

ТЕХНИЧЕСКИЕ ОСНОВЫ ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЙ В ЭКОНОМИКЕ
2.1. Аппаратное обеспечение информационных технологий 2.1.1. Компьютеры и информационные процессы 2.1.2. Основные компоненты персонального компьютера (ПК) 2

Технологий
  Под воздействием информационных технологий меняются формы эко­номической деятельности, виды и типы предприятий и организаций, характер взаимоотношений между работодателями и служащи

Перестройка бизнеса и управления
  К основным изменениям, характеризующим современную экономику, относятся: · Глобализация (конкуренция на мировых рынках, глобальные группы производителей, глобальные системы

Применение информационных систем для получения конкурентных преимуществ
  Как уже отмечалось ранее, ИС сегодня играют стратегическую роль, так как помогают организации получить конкурентные преимущества. Информационная технология и ИС сами по себе не дают

Организации. Типы организации.
  Организации — это совокупность людей и групп, объединенных для достижения какой-либо цели, решения какой-либо задачи на основе правил и процедур, разделения тру

Влияние ИС на организации с точки зрения различных экономических теорий
  Различные экономические теории признают значимость и необходимость применения ИС. В табл.5 приведены точки зрения различных эко­номических теорий.   Таблица 5

Потребительской стоимости
  Экономическая ситуация в России и складывающиеся рыночные отно­шения требуют пересмотра принципов и механизмов управления на уровне каждого предприятия. Сегодня система управления п

Информация, управление и принятие решений
  Практика управления имеет такую же древнюю историю, как и сами организации, но управление стало признанной и широко распространенной научной дисциплиной только начиная с 1910 г.

Компьютеры и информационные процессы
  Техническую основу обеспечения информационных технологий со­ставляют средства компьютерной техники, средства коммуникационной техники и средства организационной техники. Ср

Основные компоненты персонального компьютера (ПК)
  Персональный компьютерпредставляет собой универсальную техническую систему. Его конфигурацию (состав оборудования) можно гибко изменять по мере необходимости. Сущес

Периферийные устройства персонального компьютера.
Периферийные устройства персонального компьютера подключаются к его интерфейсам и предназначены для выполнения вспомогательных операций. Благодаря им компьютерная система приобретает гибкость и уни

Структура программного обеспечения
  Программное обеспечение (ПО) компьютера называют мягким оборудованием или SOFTWARE. В зависимости от функций, выполняемых программным обеспечением, его можно разделить на 2

Краткий обзор современных операционных систем.
  В настоящее время существует большое количество операционных систем и постоянно появляются новые, учитывающие недостатки и рас­ширяющие возможности предшествующих. Многие из ОС не п

Краткий обзор прикладного программного обеспечения
  К прикладному программному обеспечению относится программное обеспечение общего назначения и программное обеспечение функцио­нального назначения. Пакеты программ об

Модели данных
  В экономике существуют объекты, предметы, информацию о которых необходимо хранить, и эти объекты связаны между собой самыми разными способами. Чтобы область хранения данных рассматр

Системы управления базами данных
  Обработка данных средствами СУБД. Добавление, удаление, изменение и выборка данных производится при помощи языка запросов, встроенного алгоритмического языка и других средств

Тенденции и перспективы развития технологий управленияресурсами данных
  Перспективы развития архитектур СУБД связаны с развитием концепции обработки нетрадиционных данных и их интеграции, обмена данными из разных СУБД, многопользовательской технологии в

Технология хранилищ данных Data Warehousing
  Во всем мире организации накапливают или уже накопили в процессе своей деятельности большие объемы данных. Эти коллекции данных хранят в себе большие потенциальные возможности по из

Телекоммуникационная революция
  Основоположник идеологии информационного общества Д.Белл в книге "Социальные рамки информационного общества" большое значение придает конвергенции электронно-вычислительно

Компоненты и функции телекоммуникационных систем
  Любые виды сообщений передаются с помощью сигналов. Сигналы могут быть звуковые, световые, тепловые и другие, но сообщения передаются преимущественно электрическими сигналами с помо

Технологии распределенной обработки данных. Модель клиент-сервер
  Информационные системы, построенные на базе компьютерных сетей, обеспечивают решение следующих задач: хранение данных, обработка данных, организация доступа пользователей к данным,

Эталонная модель взаимодействия открытых систем
  Протоколы - это специальные стандарты, которые обеспечивают со­вместимость программ и данных (программы поддержки протоколов) и аппаратных средств (аппар

Структура, информационные ресурсы и принципы работы всети Интернет
  Интернет — это всемирная компьютерная сеть, объединяющая миллионы компьютеров по всему миру. Фактически Интернет является конгломератом многих глобальных, регио

Информационные технологии электронного бизнеса
  Сегодня мы становимся свидетелями рождения нового сектора в эко­номике, который все чаще называют электронным бизнесом, Интернет-экономикой, Интернет-бизнесом, электронной коммерцие

Информационная безопасность — составляющая экономической безопасности
  Становление рыночной экономики в России породило ряд проблем. Одной из таких проблем является обеспечение безопасности бизнеса. На фоне высокого уровня криминализации общества, проб

Концептуальная модель защиты информации
  Для организации системы защиты на конкретном предприятии необхо­димо провести анализ источников и видов информации, требующих защи­ты, выполнить анализ угроз безопасности и возможны

Требования, принципы и модель системы защиты информационной системы
  Под системой защиты информационной системы понимается совокупность органов и исполнителей, используемой ими техники защиты инфор­мации, а также объектов защиты, организованная и фун

Методы и способы защиты
  На каждом предприятии, независимо от его размеров, вида собственности и направления деятельности применяются однотипные методы и способы защиты, реализующие модель системы защиты. Б

Криптография с публичным ключом и электронная цифровая подпись
  Защита информации особенно актуальна в электронном бизнесе. Здесь возникают проблемы не только защиты данных при передаче по каналам связи от перехвата, подделки или уничтожения, но

Правовая защита информации
  Среди различных методов защиты информации, особая роль отводится правовой защите. При всех своих возможностях и обязательности исполь­зования, физические и программно-технические сп

Реструктуризация управления
  В постоянно изменяющихся экономических условиях, существует необходимость в инструментах и методах, которые могут помочь организациям стать более эффективными. В мире конкуренции су

Управление и реинжиниринг бизнес-процессов
  Изменения в управлении происходят параллельно с внедрением информационных технологий. Необходимо отметить, что информационная архитектура должна соответствовать бизнес-архитектуре о

Традиционные и альтернативные системы построения ИС
  В основе деятельности по созданию и использованию информационной системы на предприятии лежит понятие ее жизненного цикла (ЖЦ). ЖЦ является моделью создания и использования информац

Проектирование ИС. Методологии разработки систем
  Функциональное моделирование является важным элементом анализа, который выполняется на начальном этапе проектирования любой автоматизированной информационной системы, в том числе и

Постановка экономической задачи
  В курсовом проекте или лабораторной работе разрабатывается и решается на компьютере задача пользователя. Основными теоретическими раз­делами, составляющими базу курсового проектиров

Понятие корпоративных информационных систем (КИС)
Рассматривая классификацию информационных систем, мы отмечали, что наибольший эффект дает применение интегрированных систем, охватывающих все сферы деятельности предприятия, и что информационная си

Краткий обзор российского рынка систем управления предприятием
  В настоящее время на российском рынке информационных систем управления предприятием можно выделить три группы. Первая группа — это крупные интегрированные пакеты зарубежных

Технология поддержки стратегического корпоративного планирования
  Пришедшие на смену распределительным принципам организации и планирования рыночные отношения заставили руководителей большинства предприятий пристальнее изучать мировой опыт. Обраща

Системы поддержки аналитических исследований
  Потребность в аналитических программах для рынка реальных инвестиций не оказалась не замеченной. В настоящее время разработкой таких программ заняты около десятка фирм. Сег

Экспертные системы
  Постоянно возрастающие требования к средствам обработки информации в экономике и социальной сфере стимулировали компьютеризацию процессов решения эвристических (неформализованных) з

Справочно-правовые системы
  Любая предпринимательская деятельность немыслима без оперативной юридической поддержки. Учитывая большое количество издаваемых в по­следние годы нормативных актов, постоянного внесе

Хотите получать на электронную почту самые свежие новости?
Education Insider Sample
Подпишитесь на Нашу рассылку
Наша политика приватности обеспечивает 100% безопасность и анонимность Ваших E-Mail
Реклама
Соответствующий теме материал
  • Похожее
  • Популярное
  • Облако тегов
  • Здесь
  • Временно
  • Пусто
Теги