Аудиторские и консультационные услуги в сфере IT

Data quality management

Задача управления качеством данных является одной из основных задач и ключевых факторов успеха внедрения информационных систем хранилищ данных. Важно учитывать, что недостаточно собрать данные, необходимо доказать потребителям, что этим данным можно доверять. Без этого, к сожалению, процесс внедрения информационной системы нельзя считать успешным.

Большинство компаний, которые занимаются внедрением информационных систем хранилищ данных, подходят к вопросу управления качеством данных с технологической стороны, учитывая лишь соответствие поступающих данных определенным форматам. Отличительной чертой компании 7Spring Consult, является то, что мы понимаем бизнес смысл данных с которыми работаем, что позволяет нам настроить более глубокую аналитику по качеству данных. Например,  сходимость данных сделочного учета в банках с данными бухгалтерского учета, сходимость данных аналитического учета бухгалтерского учета с данными синтетического учета и т.д.

Для решения подобной задачи, наша компания  использует наиболее мощные инструменты которые сейчас представлены на рынке, это программное обеспечение IBM и Informatica, На базе этих инструментов мы настраиваем репозиторий правил контроля качества данных и правил оповещения заинтересованных сотрудников.

Существует два подхода к управлению качеством данных: управление на уровне хранилищ данных и  управление на уровне источника данных.

В первом случае, данные сначала загружаются во временную область хранилища данных, где отрабатываются правила контроля качества данных, и далее, нарушения правил контроля качества данных, обрабатываются непосредственно в хранилище, которые в свою очередь обрабатываются двумя путями: то, что можно исправить «на лету» - исправляется, то что нельзя исправить - формируется уведомление специально выделенным сотрудникам, которые должны запустить процесс изменения данных в источниках. Только после этого данные из источников перегружаются повторно и контролируются.  Только пройдя все контроли качества данных, они попадают в основную часть хранилища.

Как видно из описания этот процесс итерационный и может занимать длительное время, что не всегда допустимо сточки зрения соблюдения технологий выгрузки/загрузки, соблюдения временных технологических окон. Именно поэтому, в последнее время применяются новые технологии контроля качества данных, которые контролируют качество на источниках перед их выгрузкой. Если качество данных в источнике неудовлетворительное, то сначала генерируется уведомление о том, что необходимо внести определенные изменения, происходит повторный контроль на выгрузке, и только после это, данные попадают сразу в хранилище данных, при этом часть процедур, зачастую достаточно длительных, выполняются только один раз.