Хранилища данных

Рассматриваемые до настоящего момента базы данных позволяют выполнять операционную обработку данных, то есть кроме просто поиска данных выполнять поиск (вычисление) максимальных, минимальных, средних значений некоторых полей таблиц базы данных. Проанализировать деятельность предприятия за некоторый период времени по данным в базе данных невозможно, так как в базе хранятся только актуальные данные, соответствующие текущему моменту времени. Но для решения аналитических задач нужны еще и исторические данные – сведения о деятельности предприятия в различные периоды времени. Так появились системы поддержки принятия решений, в которых производится аналитическая обработка данных, результаты которой используются для принятия управленческих решений.

Таким образом, дальнейшее развитие баз данных привело к появлению хранилищ данных (ХД) — «предметно ориентированного, неизменяемого и поддерживающего хронологию набора данных, предназначенный для обеспечения принятия управленческих решений» (Билл Инмон, автор концепции хранилищ данных). В отличие от баз данных, которые предназначены для обслуживания повседневной деятельности предприятия, ХД ориентированы на многолетний оперативный, многомерный анализ данных, результаты которого могут быть использованы для принятия решений.

Предметная ориентированность ХД означает, что данные должны представлять предметы (объекты), а не процессы (выписка счета, продажа товара). Неизменяемость указывает на то, что данные не обновляются, а пополняются за счет баз данных. Хронологическая поддержка указывает на обязательную привязку данных ко времени, так как они накапливаются на протяжении длительного периода (10—15 лет).

Моделью данных в ХД служат гиперкубы, т.е. многомерные базы данных, в ячейках которых находятся анализируемые данные. По осям многомерного куба указываются измерители объекта с различных точек зрения.

Измерение — это последовательность значений одного из анализируемых параметров. Например, для параметра «время» это последовательность месяцев, для параметра «регион» — список городов. Каждое измерение может быть представлено в виде иерархической структуры. Например, измерение «исполнитель» может иметь следующие иерархические уровни: предприятие — подразделение — служащий.

На пересечении осей измерения находятся данные, количественно характеризующие события, факты, процессы (объемы продаж, остатки на складах, прибыль, затраты и т.д.).

Оси измерения позволяют создавать многомерную модель данных (гиперкуб), над которым можно выполнять следующие операции:

• срез;

• вращение;

• консолидация или детализация.

Операция среза позволяет выделить из многомерного куба те данные, которые соответствуют фиксированному значению одного ими нескольких элементов измерений. Из одного куба можно создать множество срезов. Срезы позволяют представить информацию таким образом, что появляется возможность определить причины неудач в деятельности предприятия, выявить тенденции тех или иных процессах, построить соответствующие диаграммы, что, в конечном счете, обеспечивает формирование решения.

Пример операции среза представлен на рисунке, который иллюстрирует ХД, предназначенное для управления продажами. В отличие от реляционной базы данных срез позволяет подготовить информацию для принятия решения о том, какие товарные группы следует сворачивать, а какие развивать в различных регионах.

 

 
 

 

 


Операция вращения — это изменение расположения измерений в пространстве, что, возможно, облегчит принятие решений. Например, измерение «время», ранее представленное горизонтально, можно повернуть и расположить вертикально, а товар показать горизонтально. Операции консолидации и детализации предназначены либо для агрегирования данных (обобщения), либо для их детализации. Осуществить эти операции можно благодаря иерархии, установленной среди измерителей.

Концепция ХД относится к одному из перспективных направлений развития систем формирования решений. Хранилище данных может создаваться в следующих целях:

· интеграция текущих и исторических значений данных;

· объединение данных из разрозненных источников;

· создание надежной платформы данных для аналитических целей;

· обеспечение однородности данных в организации;

· облегчение внедрения корпоративных стандартов данных без изменения существующих операционных систем;

· обеспечение широкой исторической картины и возможностей для анализа тенденций.

В настоящий момент внедрение Хранилищ данных и связанных с ними технологий находится в процессе невиданного за последние несколько лет ускоренного развития и изменения. Недавние результаты, представленные аналитиками компании IDC, показывают, что рынок ХД составляет сегодня около 10 млрд. долларов, а в ближайшие годы может возрасти до 13,5 млрд. Казалось бы, идея ХД, «с нуля» выросшая во всемирный многомиллиардный рынок, уже изживает себя. Однако осуществленные за последние годы новые разработки говорят о том, что в этой области грядет возрождение. Крупные корпорации по всему миру получают существенные преимущества за счет технологии Хранилищ, которая потенциально может принести еще больше пользы.

Рассматриваемый ренессанс вызван ничем иным, как довольно суровыми требованиями современного бизнеса. Особый акцент на соответствие нормативным актам, быстрый доступ к бизнес-информации (необязательно в реальном времени, но хотя бы в режиме ежедневного или ежечасного, а не ежемесячного обновления), а также все более растущая необходимость повышения эффективности бизнеса – вот те факторы, которые стимулируют разработку и модернизацию методов и технологий ХД. Несколько лет назад даже нельзя было себе представить, как некоторые прогрессивные компании будут использовать современные Хранилища сегодня.

Эти организации строят свою работу на основе «информационного менеджмента». Идейное руководство такими фирмами, как правило, находится в руках бизнес-специалистов, а не IT-директоров, а поэтому в них применяется серьезный подход к управлению данными, в том числе рассматривается качество данных, используются Хранилища и управление нормативно-справочной информацией. Подобное изменение в культуре деятельности компании, сочетающееся с более эффективными технологиями, и является тем самым фактором, который предвещает «второе рождение» отрасли ХД.

Устройства для Хранилищ данных можно определить как:

1. собственно устройства для Хранилищ данных - программные средства баз данных и технические средства серверов, созданные специально для построения Хранилищ данных;

2. комплект программных и технических средств для Хранилищ данных, включающий компоненты, изначально созданные для других целей (например, для обработки транзакций). Основными характеристиками такого комплекта являются его интегрированная структура и настройка для целей создания Хранилищ данных.

Большинство подобных устройств поддерживают так называемые "крупные витрины данных", где витрина является частью аналитического приложения, обычно предназначенного для анализа какой-то отдельной области: деталей заказов, потребителей, корзин заказов и т.д. Это одна из наиболее распространенных на сегодня областей использования устройств для Хранилищ данных.

Помимо использования в крупных витринах данных, устройства для Хранилищ данных нашли применение при организации корпоративных Хранилищ. Еще чаще корпоративные Хранилища создаются с помощью комплектов программных и технических средств. Таким образом, эти платформы могут поддерживать корпоративные Хранилища, хотя пока крупные витрины данных остаются основной сферой их использования.

Объем данных, находящихся под управлением одной крупной витрины, обычно составляет от 1 до 10 терабайт, причем это данные, доступные для запросов. Их объем будет увеличиваться по мере того, как пользователи станут работать с большим количеством данных, а поставщики начнут создавать более емкие модели. Обычно пользователи устройств для Хранилищ данных начинают с объема 1-3 терабайта и доводят его до 10 терабайт за несколько лет.

Для того чтобы принимать обоснованные решения, организации необходима надежная система данных. Такая система должна включать как текущие, так и исторические данные из операционных систем, чтобы можно было выявлять тенденции и прогнозировать будущие результаты. Технология интеграции данных является ключевым фактором для объединения этих данных и создания информационной инфраструктуры, удовлетворяющей стратегическим проектам Business Intelligence (BI). Такая информационная инфраструктура включает Хранилища данных, витрины данных и операционные склады данных. Создание Хранилища данных (или, в более ограниченном масштабе, витрины данных, содержащей данные только об одном предмете) существенно упрощает доступ к необходимым данным. Сбор и консолидация данных, необходимых для Хранилища или витрины данных, и периодическое пополнение их содержимого новыми значениями при сохранении более ранних величин является практическим приложением технологии интеграции данных.