Накопление, хранение и актуализация информации, обработка данных

 

Среда хранилища данных – это комплекс разнообразных инструментов и функций, реали-зующих процессы создания, эксплуатации, постепенного расширения и изменения информацион-ного хранилища.

Основными компонентами такой среды являются:

– программы доступа к источникам данных;

– инструменты преобразования оперативных и внешних данных;

– сервер базы данных хранилища;

– программа управления хранилищем (администратор);

– словарь-справочник данных (ССД – метаданные).

Данные поступают в хранилище из внутренних оперативных приложений и внешних источ-ников, затем обрабатываются и помещаются в разделы хранилища, соответствующие структуре предметной области. Прикладные форматы представления данных (интерфейсы пользователей) разрабатываются как часть этой структуры и предоставляются конечным пользователям. Админи-стратор хранилища создает и поддерживает склад метаданных, который является основой для всех процессов в хранилище и для обеспечения конечных пользователей доступом к информации в нем.

Ниже перечислены основные характеристики хранилищ данных.

1. Данные организованы по предметным областям, например, в информационном хранилище железнодорожной компании предметная область “Поезда” содержит все данные о движении составов, полученные из различных оперативных систем компании.

2. Данные, поступающие в хранилище из оперативных приложений, необходимо привести к некоторому общему формату, т.е. интегрировать. Возможно, потребуется произвести “расчистку” и “проверку” оперативной информации, полученной в режиме реального времени. Данные могут быть избыточными, храниться одновременно в нескольких местах, быть синхронизированными или не синхронизированными между собой и иметь противоречивое представление. Например, в отделениях международного банка в разных странах сведения о счетах могут храниться в различных базах данных и отражать, естественно, состояние дел в национальной валюте.
Для проведения общего анализа эти данные необходимо привести к одной и той же валюте и представить единый обменный курс на определенный момент времени. Должны быть устранены такие аномалии, как повторение одного и того же имени у разных данных, использование разных имен для одних и тех же данных и т.д.

3. Информация в хранилище данных стабильна. Оперативные данные – это детальная информация о сделанных заказах, выписанных счетах, денежных переводах. Они предназначены для приложений, которые выполняют повседневные задачи, существуют в реальном времени (каждое последующее значение заменяет предыдущее), тесно привязаны к конкретному приложению. В отличие от оперативных данных информация в хранилище меняется согласно регламенту. Она загружается в хранилище через определенные промежутки времени и является непротиворечивой благодаря проведенным преобразованиям оперативных данных.

4. Информация отражает историю изменения данных. Хранилище данных представляет собой последовательность моментальных снимков предметной области через определенные, заранее заданные промежутки времени. Хранилище может пополняться ежедневно, еженедельно или ежемесячно – это определяется в процессе его создания. Главное, что аналитик получает не только абсолютное значение величины, но и возможность проследить историю ее изменения за определенный период времени.