Зачастую использование баз данных не дает желаемого результата автоматизации деятельности предприятия. Причина проста: реализованные функции хранения, обработки данных по запросу значительно отличаются от функций ведения бизнеса, так как данные, собранные в базах, не адекватны информации, которая нужна лицам, принимающим решения. Решением данной проблемы стала реализация технологии информационных хранилищ (складов данных).
Технологии хранилища данных (ХД) обеспечивают сбор данных из существующих внутренних баз предприятия и внешних источников, формирование, хранение и эксплуатацию информации как единой, хранение аналитических данных (знаний) в форме, удобной для анализа и принятия управленческих решений. К внутренним базам данных предприятия относятся локальные базы подсистем ЭИС: базы данных бухгалтерского учета, финансового анализа, кадров, расчетов с поставщиками и покупателями и т.д. К внешним базам - любые данные, доступные по интернету и размещенные на web-серверах предприятий-конкурентов, правительственных и законодательных органов, других учреждений.
Отличие реляционных баз данных, используемых в ЭИС, от информационного хранилища заключается в следующем:
Реляционные базы данных содержат только оперативные данные организации. Информационное хранилище обеспечивает доступ как к внутренним данным организации, так и к внешним источникам данных, доступным по интернету.
База данных ориентирована на одну модель данных функциональной подсистемы ЭИС. Базы обеспечивают запросы оперативных данных организации. Информационные хранилища поддерживают большое число моделей данных, включая многомерные, что обеспечивает ретроспективные запросы (запросы за прошлые годы и десятилетия), запросы как к оперативным данным организации, так и к данным внешних источников.
ХД - предметно-ориентированный, интегрированный, редко меняющийся, поддерживающий хронологию набор данных, организованный для целей поддержки принятия решений. Предметная ориентация означает, что ХД интегрируют информацию, отражающую различные точки зрения на предметную область. Интеграция предполагает, что данные, хранящиеся в ХД, приводятся к единому формату. Поддержка хронологии означает, что все данные в ХД соответствуют последовательным интервалам времени.
Кроме возможности работать с единым источником информации, руководители и аналитики должны иметь удобные средства визуализации данных, агрегирования, поиска тенденций, прогнозирования. Несмотря на многообразие аналитической деятельности можно выделить типовые технологии анализа данных, каждой из которых соответствует определенный набор инструментальных средств. Вместе с хранилищем данных эти средства обеспечивают полное решение для автоматизации аналитической деятельности и создания корпоративной информационно-аналитической системы.
При загрузке данных из OLTP-системы в ХД происходит дублирование данных. Однако в ходе этой загрузки данные фильтруются, поскольку не все из них имеют значение для проведения процедур анализа. В ХД хранится обобщенная информация, которая в OLTP-системе отсутствует.
Напомним читателям, что представляют собой OLTP-системы. OLTP-система (On - Line Transaction Processing - оперативная обработка транзакций). Типичными примерами OLTP-систем являются системы складского учета, системы заказов билетов, банковские системы, выполняющие операции по переводу денег, и т.п. Основная функция подобных систем заключается в выполнении большого количества коротких транзакций. Для понимания принципов работы OLTP-систем достаточно представлять транзакцию как атомарное действие, изменяющее состояние базы данных. Транзакции в OLTP-системе являются относительно простыми, например, «снять сумму денег со счета А и добавить эту сумму на счет В». Проблема заключается в том, что, во-первых, транзакций очень много, во-вторых, выполняются они одновременно (к системе может быть подключено несколько тысяч одновременно работающих пользователей), в-третьих, при возникновении ошибки, транзакция должна целиком откатиться и вернуть систему к состоянию, которое было до начала транзакции (не должно быть ситуации, когда деньги сняты со счета А, но не поступили на счет В). Таким образом, основным элементом OLTP-систем является оперативная БД.
Избыточность информации можно свести к нулю, используя виртуальное ХД. В такой системе данные из OLTP-системы не копируются в единое хранилище. Они извлекаются, преобразуются и интегрируются непосредственно при выполнении аналитических запросов в режиме реального времени. Фактически такие запросы напрямую передаются к OLTP-системе.
Следующий шаг на пути сокращения затрат на проектирование и разработку ХД - создание витрин данных (ВД). ВД - это упрощенный вариант ХД, содержащий только тематически объединенные данные. ВД содержит данные, ориентированные на конкретного пользователя, существенно меньше по объему, и для ее реализации требуется меньше затрат. ВД могут строиться как самостоятельно, так и вместе с ХД. ВД внедряются гораздо быстрее и быстрее виден эффект от их использования. Недостатками ВД является многократное хранение одних и тех же данных в различных ВД и отсутствие консолидированности на уровне предметной области.
Примерами информационных хранилищ могут служить Oracle VLM, разработанная фирмами Oracle и Digital, Red Brick Warehouse 5.0 корпорации Red Brick Systems, Business Information Warehouse и др.