サイトアイコン デジタルテクノロジーディレクター®

データマネジメントの要!データ品質管理のことはじめ 第1回 データ品質管理とは

はじめに

近年、デジタルトランスフォーメーション(DX)はさまざまな業界で求められており、各企業はDX化の取り組みを推進しています。その取り組みの中で、データの利活用は重要な要素として位置づけられています。

人や企業の多くの活動がデジタル化され、取得可能なデータの種類と量も増え、あらゆる業界、あらゆる領域でデータ利活用の試みが行われるなかで、データに基づく意思決定や予測、最適化、データ駆動型の戦略策定と遂行は、企業の競争力強化に不可欠となっています。一方で、ユースケースばかりに目を向けてしまい、データ品質がおざなりになっている場合があります。データはそのものだけでなく、加工・変換をして分析した結果をビジネス上の意思決定に利用したり、AI/機械学習の学習データとして利用したりと二次、三次と加工されて活用されます。元のデータの品質が悪いとそのデータを利用して導出した結果の品質にも悪影響を及ぼすことになり、その結果ビジネスに損失を与えることがあります。

データ利活用の文脈においてよく使われる表現に、「Gabage in, Gargabe out」(ゴミからはゴミしか生まれない)というものがありますが、このような課題を解決するには、単にデータを収集するだけでなく、データ品質の観点で管理を行うことが重要です。
本連載では、複数回にわたり、データ品質管理における考え方や全体のプロセス、運用について、具体例を交えて解説します。

データ品質管理とは

データ品質の課題に取り組むには体系的なアプローチが必要です。国際的なデータ専門家で組織されたData Management Association Interanational (DAMA I)のデータマネジメント知識体系ガイド(DMBOK)の中にデータ品質管理について次のような考え方が提唱されています。

“データが様々な目的で利用されていて、データ利用者の要求を満たすことを保証するために、品質管理に関わる技術を適用する活動の計画、実施、管理である”

つまり、データ品質とは「データ利用者にとってのデータの品質」のことであり、その「要求」というのはビジネス上の「目的」のことを示します。
それに合致するデータこそが、品質の高いデータと定義することができます。

極端な話をすれば、99.9%のレコードが完全であっても、その0.01%だけが、利用者が求めているデータであったならば、そのデータは使い物にならない(品質が低い)データといえます。
データ活用の目的によって、求められるデータ品質の基準は異なるので、組織内におけるデータ品質の現状の認識、目標となるデータ品質基準を定義したうえで、データ品質を向上させるための計画を策定することが、データ品質管理を実施していくうえでのポイントになります。

また、データ品質管理は特定の時点だけで行うだけではなく、継続的に改善を図っていくものです。定期的に評価し、データが品質基準を満たし、ビジネス上の目的に沿った形で活用できているかを確認することが重要です。
データ品質管理においても、製品の品質管理におけるPDCAサイクルと同様に下図のような管理サイクルを回す必要があります。

Plan(計画)データ活用目的の明確化とその目的に合致するデータ品質の基準・評価軸を決定します。データ利用者を交え、ビジネスの要求に沿った評価軸を定め、その評価軸に沿って「データが利用できる状態であること」を判定するための基準(データ品質基準)を策定します。
Do (実行)定めた評価軸に対して、現状がどのような状態なのか定量的に把握します。この時点で、データ品質の問題に対するプロセス(データクレンジングの方法)なども検討しておきます。
Check (評価)データの状態を監視し、データ品質基準を満たしているかどうか評価します。データの品質が許容範囲を下回る場合は、問題に対する対処を検討します。
Action(改善)評価結果をもとに、定めたプロセスに沿って問題の対処(データクレンジング)を行い、期待する品質に適合させていきます。また、データの利用目的や外的要因により、データ品質に対する期待が変わる場合は最初のプロセスから繰り返します。

データ品質管理の難しさ

ここまでデータ品質管理の基本的な概念を紹介しましたが、実践していくには次のような課題があります。

このような状況のなかで、先に紹介したDMBOKが役に立ちます。DMBOKには、データ品質管理におけるプロセスやアクティビティ、検討が必要な項目など取り組みの基本的な指針が定められており、体系的に整理された方法論を参照しながら遂行していくことができます。
しかしながら、DMBOKはあらゆる業界やシステムに適用できるように抽象化されているため、具体的なアクションやアウトプットのイメージがしづらいところがあります。
そこで、次回以降DMBOKをベースに具体例を交えながらデータ品質管理の進め方について解説していきます。
データマネジメントの要!データ品質管理のことはじめ 第2回 データ品質管理の進め方

おわりに

今回は、データ品質管理の概要とその課題について述べました。次回は、データ品質管理の進め方を具体例も交えて紹介していきます。

※記載されている会社名、団体名、商品名、またはサービス名は、各社の登録商標または商標です。

モバイルバージョンを終了