Технология хранилищ данных Data Warehousing

 

Во всем мире организации накапливают или уже накопили в процессе своей деятельности большие объемы данных. Эти коллекции данных хранят в себе большие потенциальные возможности по извлечению новой, аналитической информации, на основе которой можно и необходимо стро­ить стратегию фирмы, выявлять тенденции развития рынка, находить новые решения, обусловливающие успешное развитие в условиях конкурентной борьбы. Для некоторых фирм такой анализ является неотъемлемой частью их повседневной деятельности, но большинство, очевидно, только начинает приступать к нему всерьез.

Попытки строить системы принятия решений, которые обращались бы непосредственно к базам данных систем оперативной обработки транзакций (OLTP-систем), оказываются в большинстве случаев неудачными.

Для того чтобы обеспечить возможность анализа накопленных данных, организации стали создавать хранилища данных (Data Warehouse — DW), которые представляют собой интегрированные коллекции данных, кото­рые собраны из различных систем оперативного доступа к данным.

Концепция DW была предложена и в 1992 г. Биллом Инмоном в его книге "Building the Data Warehouse" и стала одной из доминирующих в разработке информационных технологий обработки данных 90-х годов. Англоязычный термин Data Warehousing, который сложно перевести лако­нично на русский язык, означает создание, поддержку, управление и ис­пользование хранилища данных, что говорит о том, что речь идет о про­цессе. Цель этого процесса - непрерывная поставка необходимой инфор­мации нужным сотрудникам организации. Этот процесс подразумевает по­стоянное развитие, совершенствование, решение все новых задач и практически никогда не кончается, поэтому его нельзя уместить в более или менее четкие временные рамки, как это можно сделать для разработки традиционных систем оперативного доступа к данным.

Хранилища данных становятся основой для построения систем приня­тия решений.

Основная цель создания DW в том, чтобы сделать все значимые для управления бизнесом данные доступными в стандартизованной форме, пригодными для анализа и получения необходимых отчетов. Чтобы дос­тигнуть этого, необходимо извлечь данные из существующих внутренних и внешних машиночитаемых источников.

Несмотря на различия в подходах и реализациях, всем хранилищам данных свойственны следующие общие черты: предметная ориентиро­ванность; интегрированностъ; привязка ко времени; неизменяемость.

Предметная ориентированность. Информация в хранилище данных организована в соответствии с основными аспектами деятельности пред­приятия (заказчики, продажи, склад и т.п.); это отличает хранилище данных от оперативной БД, где данные организованы в соответствии с про­цессами (выписка счетов, отгрузка товара и т.п.). Предметная организация данных в хранилище способствует как значительному упрощению анализа, так и повышению скорости выполнения аналитических запросов. Выражается она, в частности, в использовании иных, чем в оперативных системах, схемах организации данных. В случае хранения данных в реляционной СУБД применяется схема "звезды" (star) или "снежинки" (snowflake). Кро­ме того, данные могут храниться в специальной многомерной СУБД в n-мерных кубах.

Интегрированностъ.Исходные данные извлекаются из оперативных БД, проверяются, очищаются, приводятся к единому виду, в нужной сте­пени агрегируются (то есть вычисляются суммарные показатели) и загружаются в хранилище. Такие интегрированные данные намного проще анализировать.

Привязка ко времени. Данные в хранилище всегда напрямую связаны с определенным периодом времени. Данные, выбранные из оперативных БД, накапливаются в хранилище в виде "исторических слоев", каждый из кото­рых относится к конкретному периоду времени. Это позволяет анализиро­вать тенденции в развитии бизнеса.

Неизменяемость. Попав в определенный "исторический слой" хранилища, данные уже никогда не будут изменены. Это также отличает храни­лище от оперативной БД, в которой данные все время меняются, "дышат", и один и тот же запрос, выполненный дважды с интервалом в 10 минут, может дать разные результаты. Стабильность данных также облегчает их анализ.

Хранилища и киоски данных. Хранилища данных могут быть разбиты на два типа: корпоративные хранилища данных (enterprise data warehouses) и киоски данных (data marts).

Корпоративные хранилища данных содержат информацию, относя­щуюся ко всей корпорации и собранную из множества оперативных ис­точников для консолидированного анализа. Обычно такие хранилища охватывают целый ряд аспектов деятельности корпорации и используются для принятия как тактических, так и стратегических решений. Корпоративное хранилище содержит детальную и обобщающую информацию; его объем может достигать от 50 Гбайт до одного или нескольких терабайт. Стоимость создания и поддержки корпоративных хранилищ может быть очень высокой. Обычно их созданием занимаются централизованные отделы информационных технологий, причем создаются они сверху вниз, то есть сначала проектируется общая схема, и только затем начинается заполнение данными. Такой процесс может занимать несколько лет.

Киоски данных содержат подмножество корпоративных данных и строятся для отделов или подразделений внутри организации. Киоски данных часто строятся силами самого отдела и охватывают конкретный ас­пект, интересующий сотрудников данного отдела. Киоск данных может получать данные из корпоративного хранилища (зависимый киоск) или, что более распространено, данные могут поступать непосредственно из оперативных источников (независимый киоск).

Основные компоненты DW:

оперативные источники данных;

• средства проектирования/разработки;

• средства переноса и трансформации данных;

• СУБД;

• средства доступа и анализа данных;

• средства администрирования.

Сферы применения DW:

Сегментация рынка.

• Планирование продаж, прогнозирование и управление.

• Забота о клиенте.

• Разработка схем лояльности.

• Проектирование и разработка новых видов продукции.

• Интеграция цепочки поставок.

• Интеллектуальные технологии в организации бизнеса.

Программное обеспечение технологии DW. Процессы создания, поддержки и использования хранилищ данных традиционно требовали значительных затрат, что в первую очередь было вызвано высокой стоимостью доступных на рынке специализированных инструментов. Эти инструменты практически не интегрировались между собой, так как были основаны не на открытых и стандартных, а на частных и закрытых протоколах, интер­фейсах и т.д. Сложность и дороговизна делали практически невозможным построение хранилищ данных в небольших и средних фирмах, в то время как потребность в анализе данных испытывает любая фирма, независимо от масштаба.

Корпорация Microsoft создала Microsoft Data Warehousing Framework - спецификацию среды создания и использования хранилищ данных. Данная спецификация определяет развитие не только новой линии продуктов Microsoft (например, Microsoft SQL Server 7.0), но и технологий, обеспечивающих интеграцию продуктов различных производителей. Открытость среды Microsoft Data Warehousing Framework обеспечила ее поддержку многими производителями ПО, что, в свою очередь, дает возможность конечным пользователям выбирать наиболее понравившиеся им инструменты для построения своих решений.

Основные поставщики ПО хранилищ данных: Arbor; Hewlett-Packard; IBM; Informix; Microsoft; Oracle; Platinum Technology; SAS Institute; Soft­ware AG; Sybase и др.

Все эти фирмы имеют страницы в Internet, где приводятся подробные сведения об их продуктах и услугах.