Принципы организации хранилища

1. Проблемно-предметная ориентация. Данные объединяются в категории и хранятся в соответствии с областями, которые они описывают, а не с приложениями, которые они используют.

2. Интегрированность. Данные объединены так, чтобы они удовлетворяли всем требованиям предприятия в целом, а не единственной функции бизнеса.

3. Некорректируемость. Данные в хранилище данных не создаются: т.е. поступают из внешних источников, не корректируются и не удаляются.

4. Зависимость от времени. Данные в хранилище точны и корректны только в том случае, когда они привязаны к некоторому промежутку или моменту времени.

Операции с данными:

1. Извлечение – перемещение информации от источников данных в отдельную БД, приведение их к единому формату.

2. Преобразование – подготовка информации к хранению в оптимальной форме для реализации запроса, необходимого для принятия решений.

3. Загрузка – помещение данных в хранилище, производится атомарно, путем добавления новых фактов или корректировкой существующих.

4. Анализ – OLAP, Data Mining, Reporting и т. д.

5. Представление результатов анализа.

Вся информация в хранилище содержится в структурах типа «снежинка», где в центре расположены таблицы фактов, а «лучами» являются измерения, причем измерение может ссылаться на другие измерения.

Такая архитектура хранилища наиболее адекватна задачам анализа данных, т.к. аналитик на практике оперирует многомерными понятиями. Каждая «снежинка» называется процессом и описывает определенное действие, например, продажи товара, отгрузки, поступления денежных средств и прочее. В Deductor Warehouse может одновременно храниться множество процессов, имеющие общие измерения, например, Товар, фигурирующий в Поступления и в Отгрузка. В Deductor Warehouse реализована полноценная ROLAP-модель (для каждого измерения и каждого процесса создается отдельная таблица).

Рисунок 1.4 – Схема «снежинка» процесса отгрузки

Имеются следующие типы объектов.

Измерение – последовательность значений одного из анализируемых параметров. Например, для параметра Время это последовательность календарных дней, для параметра Регион – список городов.

Атрибут – свойство измерения. Атрибут как бы скрыт внутри другого измерения и помогает пользователю полнее описать исследуемое измерение. Атрибутами измерения Товар могут выступать Цвет, Вес, Габариты.

Факт – значение, соответствующее измерению. Факты – это данные, отражающие сущность события. Как правило, фактами являются численные значения, например, сумма и количество отгруженного товара.

Процесс – совокупность измерений, фактов и атрибутов. По сути, процесс и есть «куб», «снежинка». Процесс описывает определенное действие, например, продажи товара, отгрузки, поступления денежных средств и пр.

Все загружаемые в хранилище данные должны быть обязательно определены как измерение, атрибут либо факт ( рис. 1.3).

Рисунок 1.5- Измерения и факты процесса «Отгрузка»