Аудиторские и консультационные услуги в сфере IT

Проектирование хранилищ данных

Проектирование хранилищ данных является одной из основных компетенций компании 7Spring Consult.

На рынке присутствуют несколько признанных в мире архитектур хранилищ данных: Ральфа Кимболла, Билла Инмона, Дэна Линстеда, и их всевозможные комбинации. Каждая из перечисленных архитектур имеет как свои плюсы, так и свои минусы, и в чистом виде они применяются редко. В зависимости о того, какой направленности бизнес нашего клиента, мы формируем окончательную архитектуру, которая включает в себя разные варианты вышеуказанных сочетаний.

В банках, которые работают в основном с юридическими лицами, объектные связи внутри хранилища данных максимально будут сложные. В этом случае банку необходимо мощное реляционное хранилище, которое будет держать максимально сложные связи между объектами. При этом объем, такого хранилища, будет относительно небольшой.

В банках розничной направленности, объектных связей внутри хранилища меньше, но при этом записей по сделкам в разы больше, важно,  чтобы такое хранилище работало быстро, а для этого нужна совершенно иная конфигурация.

При выборе архитектуры, важно понимание того, кто является ключевым потребителем хранилища данных в конкретном банке или предприятии.

 Для  финансового департамента, акцент делается на хранение данных: трансформационных таблиц бухгалтерского и управленческого учета, по процессу бюджетирования, сбор управленческих корректировок и т.д.

Для департамента риска, наиболее важно хранение сделочной информации и заявок на банковские продукты. При этом хранение сделок должно быть детальным со всеми плановыми и фактическими патоками платежей, просрочек, и самое главное, нужна большая глубина хранения данных от 1,5 до 10 лет. Для таких хранилищ, нужна другая конфигурация реляционной базы и мощные витрины данных, которые являются, в свою очередь, поставщиками данных для работы скоринговой системы и для статистических рисковых моделей.

Для микро-финансовой организации, наибольшее внимание уделяется проектированию клиентской части хранилища, фактически это проектирование хранилища под аналитическую CRM.

Для предприятий, необходимо проектировать свои структуры хранения данных. Как правило, в таких организациях, хранилище собирает данные о производственном процессе, и зачастую, в качестве источника данных, выступают автоматизированные комплексы сбора данных с датчиков и автоматизированных производственных линий.

Огромную роль в проектировании хранилища данных, занимает проектирование потоков данных - процесса наполнения хранилища и обмена данными между хранилищем и вторичными аналитическими системами. Для этого используется специальный класс продуктов, это ETL (Extraction Transformation Loading) на уровне проектирования, это означает построение так называемых DFD-диаграммы (Data Flow Diagram – диаграммы потов данных). Мы формулируем как их направление, так их состав, обязательно просчитываем мощность каждого потока, то есть объем данных проходящий по конкретной ветке ETL-процесса на единицу времени, рассчитываем также регламент выгрузки (загрузки) данных с учетом технологических окон возникающих в источниках данных или в производственных линиях, если речь идет о производстве.

Таким образом, задачи проектирования хранилища данных достаточно вариативны и зависят от вида деятельности организации и основного потребителя.