Skip to main content

Сложная задача - управление данными

Translated by: 
DWH-Club

Согласно отчетам аналитических компаний, например, таких как «Data Warehousing Institute» плохое качество данных обходится компаниям в миллиарды долларов, пущенных на ветер. В США в 2002 году сумма убытков оценивалась в 600 миллиардов долларов. Очевидно, это огромное число растет непрерывно, пропорционально экспоненциальному увеличению Терабайтов обрабатываемых данных.

Однако, озвученное номинальное значение убытков, не отражает с какими именно видами проблем, компании сталкиваются каждый день, и не объясняет, как плохое качество данных наносит ущерб компаниям.

Чтобы изменять эту ситуацию и ограничить потери, вызванные плохим качеством данных, компании должны осознавать важность своих данных и быть осведомлены о проблемах, которые могут влиять на качество данных. Они должны также знать, что есть инструменты и доступные стратегии, которые могут очистить данные, и помочь поддерживать чистоту и точность данных постоянно.

В самом основном смысле, высококачественные данные - способность компании понимать своих клиентов. Данные клиента, содержащие ошибки (например, неправильные адреса или контактная информация, имена клиентов с орфографическими ошибками и т.п.), избыточные, противоречивые, или устаревшие подрывают способность компании понять ее клиентов. В конце концов, как компания может работать с клиентами (физ. лицами или организациями), если не известен правильный адрес и название клиента? Если компания не может понять своих клиентов, то, как предоставлять товары и услуги, соответствующие потребностям, предпочтениям и целям клиентов?

Без доступной и верной информации о клиентах: проблематично достижение успеха в перекрестной торговле (cross-sell) и целевых маркетинговых акциях; трудно провести сегментацию клиентов, выделить VIP-клиентов.

Отсутствие данных хорошего качества увеличивает затраты на привлечение и удержание клиентов. Например, несколько записей в базе об одном и том же клиенте, с одной стороны увеличивают затраты на рассылку рекламных материалов, с другой, раздражая клиента многочисленными доставками рекламы, снижают его лояльность по отношению к компании.

Однако, данные о клиентах, является лишь одной из частей этой глобальной проблемы. Бизнес данные, которые иногда называются, "non-name-and-address" данные, так же важны для функционирования и успехов компаний. Бизнес-данные могут быть чем угодно: адресами электронной почты, кодом компонента, последовательностью генома. Если компания не имеет правильных адресов электронной почты, то не удастся связаться с клиентом или руководством заказчика по электронной почте. Или рассмотрим ситуацию, в которой код компонента или товара содержит две цифры, которые были случайно переставлены местами. В этом случае ошибка данных задержит поставку компонентов на сборочные линии, что в свою очередь, может задержать процесс производства изделий, или же компания будет иметь не правильные сведения о товарных запасах и их стоимости. Неправильная последовательность в записи генома (совокупность хромосомных наследственных факторов) может отрицательно повлиять на научные исследования, исследования лекарственных препаратов, или судебные доказательства.

Но это лишь наиболее очевидные проблемы, которые могут вызвать данные низкого качества. Низкое качество данных может также повлиять на корпоративные приложения (CRM, ERP, SCM и т. д.) и хранилище данных. А также осложнить компании выполнение правительственных инструкций и постановлений.

Эффективность любой корпоративного приложения зависит от хорошего качества данных. Если CRM приложение снабжать неправильными данными, то возможность управлять взаимодействиями с клиентами будет сведена к минимуму, а расходы на удержание клиентов и поддержку приложения увеличены. Неточные данные (например, неправильный или отсутствующий кредитный лимит, ошибочная контактная информация, неверная семейная информация, недостающая общая информация и т. п.) могут привести к представлению ложной картины о клиенте и, следовательно, повлиять на способность компании взаимодействовать с заказчиком. CRM приложения, как практически все другие программы, не приспособлены различать хорошее или низкое качество данных, и, следовательно, все данные будут обработаны независимо от их качества. Фактически несколько промышленных приложений могут оказаться бесполезными потому, что они были снабжены данными низкого качества.

То же самое справедливо для хранилищ данных, витрин данных, репозиториях данных и так далее. Все они зависят от качества данных, которыми они наполняются. Если хранилища данных заполняется некачественными или неточными данными, то неполная и некачественная информация будет предоставляться хранилищем. Известная десятилетия аббревиатура GIGO ("garbage in, garbage out" – "мусор на входе - мусор на выходе") остается актуальной и подводит итог вышеописанному состоянию дел.

Интересно, во многих компаниях не могут понять одной из существенных проблем данных: устаревание данных (или распад данных – "Data decays"). Данные могут изменяться даже без Вашего участия. Допустим, компания создала хранилище данных, содержащий согласованные, точные и достоверные данные, но эти данные могут начать изменяться или устаревать почти немедленно. Причина? Изменяются атрибуты клиентов. Адреса, телефонные номера и другая личная информация изменяются независимо от наличия у Вас хранилища данных. Люди также женятся, разводятся, рожают детей и умирают. Так же изменения происходят и в компаниях. В любой момент компании учреждаются, закрываются, меняют названия или адреса и объединяются с другими компаниями. Данные также часто используют не по назначению (семантический разрыв?), что может превратить данные хорошего качества в сомнительные данные при нецелевом использовании. Все эти причины могут отрицательно воздействовать на хранилища данных, корпоративные приложения, и т.д.

Наконец, способность компании выполнять различные государственные, федеральные, и международные правительственные инструкции тесно связана с наличием качеством данных. В последние годы (тем более после 11/08/2001 г.) правительственные предписания и инструкции по существу требуют, чтобы компании знали, кто является их клиентами. Инструкции, типа "OFAC ", "USA Patriot Act ", "HIPAA ", "Graham-Leach-Bliley", государственный и федеральный "Do Not Call " законы, и т. п. требуют точной информации о клиентах и сделках, что в свою очередь требует, чтобы компании имели данные хорошего качества.

Список на этом не заканчивается. Проблемы данных возникают из-за слияний и приобретений компаний, модернизации инфраструктуры IT, международного роста и расширения и т. п.

Так что же компании могут сделать для предотвращения проблем с их данными, влияющих на общую эффективность и конкурентоспособность?

Первый шаг заключается в том, чтобы понять, что данные – это один из наиболее важных стратегических активов.

Второй шаг состоит в том, чтобы проработать стратегии, которые будут защищать и поддерживать этот ценный актив.

Одна из таких стратегий, состоит в том, что компании могут привести в исполнение структуру управления данными (data management). Управление данными (data management) представляет собой сочетание технологий и процессов, которые совместно обеспечивают точность, согласованность и своевременность данных компании. Самой важной задачей управления данными является поддерживать данные точными, согласованными и своевременными постоянно.

Следующие статьи этой серии детализируют эффективную стратегию управления данных, которая комбинирует технологии управления данных (data profiling - профилирование данных, data quality - качество данных, data integration - интеграция данных, data enrichment - обогащение данных, и data monitoring - мониторинг данных), с эффективной методологией (Analyze - анализ, Improve - совершенствование и Control - контроль) для построения и сохранения полезных источников данных. При таком сочетании технологии и процессной методологии, компании могут обеспечить, что процесс обеспечения качества данных является постоянным и приоритетным (а также является важным конкурентным преимуществом) для всей компании.