Контроль качества данных на базе DSDQ

Контроль качества данных на базе DSDQ

Процедуры проверки качества данных в DSDQ основана на репозитарии правил. Репозитарий представляет собой сгруппированный по отраслевым направлениям список правил анализа данных. Стандартные поставляемые с DSDQ правила проверки данных полностью относятся к сегменту Upstream. Базовые правила построены на типовой для нефтегазовой модели данных – PPDM. Количество правил около 6000 и они покрывают различные предметные области: геологию, сейсмику, добычу и т.д. Так же имеются около 300 готовых правил для работы с БД OpenWorks и EDM. 
Дополнительно к базовому набору правил, компания ООО «Петрис Инжиниринг Рус» поставляет собственный репозитарий правил, локализованный для российских БД: BDM, Finder, OIS и АТОЛЛ. Всего, в этом репозитарии существует порядка 5200 терминов, описывающих эти модели БД и около 220 правил, предназначенных именно для российских моделей данных. Правила сконфигурированы непосредственно под нефтегазовую отрасль, а именно - геологию, добычу, ГИС, РИГИС, бурение, сейсмику, ремонты и многое другое и поставляются при внедрении Системы компанией ООО «Петрис Инжиниринг Рус».
Важным преимуществом Системы является язык, на котором написаны правила DSDQ. Благодаря его простой для понимания и в то же время эффективной структуре, все уже имеющиеся в Системе правила для конкретных моделей данных легко могут быть переконфигурированы для работы с любой другой системой, что делает DSDQ очень универсальным средством проверки данных. 
Отдельно, стоит упомянуть об очень эффективной возможности применения правил для одних и тех же моделей данных, но разных БД. Например, имея две и более БД, которые имеют одинаковую модель данных, можно сравнивать их по одним и тем же правилам, и получать наглядные результаты и моментально выделять те БД (людей/компании), которые вносят некачественные данные больше других и делать соответствующие выводы. 
В DSDQ имеется удобный инструментарий создания и редактирования правил. Правила можно разбивать на группы и тестировать их на ограниченном наборе данных, перед тем, встраивать их в корпоративные сценарии проверки.