データマネジメント/DMBOKの範囲は非常に広いため、効率よく習得するためには作戦が必要です。 本稿では、特定のDX課題と結び付きの強い領域(章)を優先的に読み進める方式で、より有機的に全体を理解する方法をとります。 今回(第3回)は、DXと密接な関連をもつデータ利活用に焦点をあて、データ利活用とデータマネジメントの関係性を紐解きます
前回の「データマネジメント習得のための背景理解」は、近年のDXの進展とともに脚光があたるデータマネジメントおよび「DMBOKデータマネジメント知識体系ガイド(第二版)」(DMBOK2)の概要を解説しました。今回からはDX課題の類型ごとに、関連の強いDMBOK2の知識領域を解説していきます。
これには理由があります。DMBOK2はその文章量と書籍の厚さから、読むのを途中で断念してしまう方が一定数いるためです。従って、漫然と頭からDMBOK2を読み進めるのではなく、DX課題を切り口に、関連する章を優先的に読み進めていくことをお勧めします。
そのDX課題が、読者の皆さんが実際に関係しているものであれば、より深い理解を得られることでしょうし、そうでなくても、課題を想像しつつ関連領域を読むことで、全体の有機的な理解の一助になるはずです。
DMBOK2の各章とDX課題の関係
下表にDMBOK2の各章ごとのDX課題の類型との関係が強い箇所を記します。DX課題の内容については(第2回:データマネジメント習得のための背景理解)をご覧ください。
表 DMBOK2章とDX課題の対応 [画像クリックで拡大]
以降にそれぞれのDX課題ごとの解説を記載していきます。なおこの対応表は、データマネジメントの習得および実業務適用を効率的に行うために、特に関係性が強い、優先して読むべき部分の交点を印しています。したがって印がない部分も、関係が無いわけではありませんのでご了承ください。
ここでは改めてDMBOK2の全体像を述べておきましょう。DMBOK2は大きく3つのパートで構成されています。
- 第1章~第2章:第1章が「データマネジメント」、第2章が「データ倫理」で、全般的な事項について述べられています。このうち、第1章の「データマネジメント」では、データマネジメントの全体像が述べられているため、まず初めに一読されることをお勧めします。
- 第3章~第13章:この11本の章がDMBOK2のメインコンテンツであり、「知識領域」と呼ばれています。「DAMAホイール図」(第1回:DAMA DMBOK紹介篇に掲載)に示されるとおり、同心円上に配置された各知識領域を、真ん中に置かれた第3章の「データガバナンス」が統括する構図になっています。
- 第14章~第17章:補足的な位置づけの章になります。
DMBOK2 各章内部の構成
各章の内部の構成と読み方についても説明しておきましょう。各章は基本的に以下の構成を採っています。各項番の内容(アクティビティ、ツール)は、読んで字の通りですので特に説明は不要でしょう。
各章の概要を把握するのであれば、まず第1項「イントロダクション」の配下を優先して読むのが良いでしょう。ただし、章により記述レベルに多少のバラツキがあり、例えば、第1.3項に概要のみが記載されている章と、より詳細に記述されている章があるのでご注意ください。
DMBOK 2 各章内の構成 [画像クリックで拡大]
ここまでがDMBOKの全般的な読み方についての解説です。以降は、各DX課題と関連する章の説明にうつります。
課題1 データ利活用のためのデータ整備
DX課題の1つ目は「データ利活用のためのデータ整備」です。
データ利活用を進める上で、「データが探せない」「データの品質が低く分析結果が信頼できない」などの様々な問題が発生します。それらの問題に対応し、データを利活用可能な状態に保つことがこのテーマとなります。この課題に対しては、以下の章を優先して読むことをお勧めします。
- 第11章 データウェアハウジングとビジネスインテリジェンス
- 第12章 メタデータ管理
- 第13章 データ品質
もちろん、ここに上げた3つの章以外にも、第8章、第10章、第14章など他にも関連する章はあり、時間があればそちらも一読することをお勧めします。
第14章は「ビッグデータとデータサイエンス」という章ですが、前述したとおり、この章は補足的な扱いですので今回は割愛します。また、DMBOK 2の刊行は2018年になり、データ利活用の世界は進化が早く、一部の情報が陳腐化している面もあるかもしれません。(余談ですが、データマネジメントの世界は、基盤の技術進歩自体は目覚ましいものの、データの本質自体は大きく変化することはないため、習得した知識やスキルは比較的長くその価値が保たれるように思います)。
課題1への対応ー第11章 データウェアハウジングとビジネスインテリジェンス
この章はDMBOK2の中では最もデータ利活用に関連が深い章です。まずデータウェアハウスとその周辺の一般的な構成を図示しておきましょう。

この図にあるように、データウェアハウスは、以下の2つの流れの中間にあり、データを蓄積する役割を担います。
- (左からの流れ)業務システムなどの様々なデータソースからデータを収集する
- (右への流れ) BIツールなどのデータ利活用側にデータを提供する
ここでポイントとなるのは、収集しただけのデータでは、利用に適した形のデータではないということです。DMBOK2の記述を引用します。
- ウェアハウスは他のシステムから得られるデータを保存する
- データはその価値が高まるような方法で体系化され保存される
- 組織がウェアハウスを構築するのは権限を持つステークホルダーに信頼できる統合データを利用してもらうため
※引用『データマネジメント知識体系ガイド 第二版』 第11章 1.3.4項
「複数のシステムから収集したデータを1か所に保持する」という点も重要な役割の一つですが、さらに「その価値が高まるような方法で体系化される」 ことが重要です。そのためにデータウェアハウス内では通常以下のような処理が行われます。
- 収集したデータの不備を修正する [ 図中(2)クレンジング ]
- 複数データソースからのデータを統合し、標準的な形式へ変換する[ 図中(3) 統合・標準化 ]
第11章の読み解き方
ここまでがデータウェアハウスの基本ですが、第11章を読みにくいと感じている方も多いようですので、補足しておきます。第11章の記載内容は大きくは以下の2つに分別できます。
a. データウェアハウス導入・維持のためのアクティビティやガイドライン、ガバナンス(2項、5項、6項など)
b. データウェアハウスのアーキテクチャ(1.3項、3項など)
ここで「b.」には技術面の内容が多く含まれること、またそれが前半に集中して書かれていることが、読みにくさを感じる要因かもしません。
この章を読む人のうち、データウェアハウスの内部的な技術までは習得不要と考える人は一定数いると思われます。例えばデータを利用する側の人などです。
そのような人にとっては 「a.」のアクティビティやガイドラインの箇所を取捨選択し、読み進めるのも良いでしょう。 ここでは、データウェアハウスに係る「要件」「成果物」「ユーザ」「ビジネスゴール」などに関する説明がなされています。
逆に技術面に興味がある人にとっては、様々な要素が広く紹介されているので、それらをさらに深堀りしてみてもよいでしょう。「インモン」「キンボール」「データボールト」などのデータウェアハウスのアーキテクチャに関するワードを追ってみるなどです。
課題1への対応ー第12章 メタデータ管理
メタデータとは、簡単に言うと組織が保持するデータの目録のようなものです。近年ではソリューション名として「データカタログ」という製品群もあり、そちらの名前の方が馴染みやすいかもしれません。データ利活用においても、以下の目的のために重要な位置づけとなっています。
- 利活用するために、組織内にどのようなデータが存在するかを知る
- そのデータが信頼でき・利活用できるのかを判断する
あるデータを分析しようとした時に、似たような名前のデータ項目が多数あることはよくあります。例えば、ある製造業の企業においては、納期と名の付く項目が約30個も存在するそうです。顧客が希望した納期、顧客と約束した納期、社内の内部的な工程における納期、等々。これらの項目から適切なものを選択する必要があり、それには目録が必要となるのです。
メタデータはデータマネジメント全体においても重要な位置づけとなっており、前述の第11章を含めDMBOK2の様々な章から参照される位置づけとなっています。組織にどのようなデータが存在するかを定義できなければ、それを管理することは出来ないためです。
この章の記載内容は、メタデータの維持管理方法を含め多岐に渡りますので、今回のデータ利活用の課題に対しては、まずは以下のような概要を押さえた上で、その後必要に応じ習得範囲を広げていければよいでしょう。
- データリネージという用語・概念:データがどこからどこへ行くのかを表す概念。データが、上流のシステムからデータウェアハウスに転送され、その中で標準化データ項目にマッピングされ、利活用側に提供される、といったデータの流れのこと。
- メタデータの種類 :メタデータの種類が幾つか述べられていますが、主に以下2つを覚えておきましょう。
- ビジネスメタデータ:データ項目の業務上の定義や説明など。業務用語集なども含むことがあります。
- テクニカルメタデータ:データベースのカラム名などの物理的な定義情報など。
課題1への対応ー第13章 データ品質
データ利活用時に発生する問題の一つに「Inputとなるデータの品質が悪い」ことがしばしば問題として挙がります。
ではデータの品質が悪い、とは具体的にどのようなことでしょうか?この認識を合わせるために「データ品質評価軸 (第1.3.3項)」が有効です。例えば以下のようなものです。
- 完全性:対象データが全て存在するか
- 有効性:あるデータ項目のデータが、業務ルールが示す有効な値のルール・範囲に即しているか
この評価軸をベースとすることで、データ提供側とデータ利用側の間での意思疎通が成立し、また実際のデータを用いての品質の測定が可能となるのです。
残念ながら、DMBOK2上においても「一般的な評価軸」という記載となっており、コンセンサスが確立できているものではありませんが、ある組織内においての認識合わせには効果的であると考えます。
また、データ品質の管理方法としてデータ品質の管理対象データを定め、品質を測定し、改善していくサイクルが記載されています。ここで重要な点は優先度の考え方です(第2.3項)。すなわち全てのデータに対しデータ品質を測定・改善するのは現実的ではないため、対象データの優先度を定め、順次改善の対象を広げていくこととなります。
このデータ品質改善の優先度判断のために、データ利活用において、データの品質に起因したリスクや問題がどの程度発生するか? という点もその判断のインプットとなり得るのです。
なお、データ利活用以外にも規制対応や、業務オペレーションにおける顧客への直接的な影響なども考慮点として存在します。
今回はDX課題類型のうち「1.データ利活用のためのデータ整備」に関し、関連の深いDMBOK2の章とその読み方を解説しました。次回は2番目以降の課題と、関連する章を解説していきます。