データを蓄積せずにデータ活用を推進？

はじめに

当方、データ活用と呼ばれる領域で10年ほど活動しているのですが、データを蓄積せずにデータ活用を推進したい、という相談を受けることが非常に多くなってきています。
また、このようなお客様は、ロジカルデータファブリックというテクノロジーに興味を持たれていることが非常に多いです。
本記事では、お客様が最近抱える課題感、それを解決するためのアプローチ方法と、それを実現するための考え方としてのロジカルデータファブリックおよび、実現するために活用することができるデータ仮想化技術を紹介します。

データ活用プラットフォームに対する課題感

お客様の主な課題感としては以下の通りです。

初期投資の課題
- データ活用を推進したいが、ビジネスニーズの変化が早く、あらかじめデータを収集・蓄積してから活用を始める、というデータ活用の始め方で本当によいのか
データサイロ化の課題
- 組織によるデータのサイロ化
  - 各事業部門／事業会社でDWH／DataLakeはすでに構築しているが、それぞれで持っているデータをヘッドクオータでつないで分析をしたいと考えたときに、必要となるデータ全部をヘッドクオータ側で再度収集蓄積するためにDataLake／DWHを構築する必要があるのか
環境によるデータのサイロ化
- クラウド環境を適材適所で採用しているため、過去よりデータのサイロ化が進んでしまい、そもそも1カ所に集めることが非常に難しい
セキュリティ・ガバナンスの課題
- データのサイロ化が進んだことで、セキュリティ・ガバナンスを確保することが過去より一層困難となっている

特にデータのサイロ化に関しては、数多くのお客様が抱えている課題であると感じています。

このような課題には、ロジカルデータファブリックの考え方を採用し、データ蓄積を前提としないデータ活用のアプローチをとる、ということが解決策として有効です。

ロジカルデータファブリックとは？

Gartnerの2021年のデータとアナリティクスにおけるテクノロジ・トレンドのトップ10の一つとして、” 基盤としてのデータファブリック”が挙げられています。（※1）
このデータファブリックとは、データと接続プロセスの統合レイヤ（ファブリック）として機能するデザインコンセプトとガートナーでは定義しています。（※2）

（※1）出典　Gartner, “ガートナー 2021年のデータとアナリティクスにおけるテクノロジ・トレンドのトップ10”, 2021年5月19日
（※2）出典　Smarter With Gartner, “Data Fabric Architecture is Key to Modernizing Data Management and Integration” , Ashutosh Gupta, May 11, 2021

市場では、主に２つの方向性で語られています。

データを１つの環境に収集・蓄積・集約し、そこでデータを結合し、ユーザに提供
データを１つの環境に収集・蓄積せず、リアルタイムに連携し、ユーザに提供

特に、後者のアプローチを、本記事内ではロジカルデータファブリックと呼びます。
このロジカルデータファブリックを実現するテクノロジーとして、データ仮想化技術があります。

データ仮想化技術を活用した、データ蓄積を前提としないデータ活用のアプローチ

ロジカルデータファブリックを実現するテクノロジーとしてデータ仮想化技術を活用すると、データを収集・蓄積せずにリアルタイムのデータを連携し、データ活用を推進することが可能です。

データ仮想化技術のイメージを以下に示します。

データ仮想化技術の主な特長は以下の３点です。

複数のデータソースを1つの論理的な仮想データソースとして透過的にアクセス提供
多様なシステム・クラウドへの接続に対応
柔軟な権限設定機能によるデータアクセス管理（ガバナンス）やセキュリティの強化

データ仮想化技術の活用により、どのように課題が解決できるかについて、データ仮想化技術ソフトウェアの１つであるDenodo（※3）を１例として紹介します。

（※3）Denodo：Denodo Technologies社が提供するデータ仮想化ソフトウェア。Denodo Technologies社はデータ仮想化専業の会社であり、創業以来一貫してデータ仮想化ソリューションの提供を行っている。

１．スモールスタートでスピーディーなデータ提供が可能（初期投資の課題）

DataLake/DWHを構築するよりもリーズナブルにデータ活用を開始することが可能です。
具体的には、DataLake/DWHの構築に際しては、ETLも含めた情報プラットフォームの基盤の構築と、その基盤上で動くデータ収集／データ処理アプリケーションの設計・実装が必要となり、初期構築作業、システム基盤のランニングともに決して小さくないコストが発生します。
それに対し、データ仮想化を活用すると、DataLake/DWHを構築し、データ提供を実施する場合と比較し、非常に軽量にデータ提供を開始することが可能です。

データ仮想化ソフトウェアの１つであるDenodoを利用した場合のデータ提供までの作業は以下の通りです。

データ仮想化ソフトウェアであるDenodoのインストール・設定
接続対象のデータソース側での接続用ユーザ払い出し等の設定変更
DenodoのGUIで接続設定
DenodoのGUIで、ユーザに提供する仮想ビューの作成
DenodoのGUIで、ユーザへのアクセス権限設定

これらの５ステップで、利用者に対してデータの提供が可能です。

２．サイロ化されたデータの論理的な統合がリーズナブルに実施可能

データ仮想化ソフトウェアのDenodoを活用することで、事業部門／事業会社それぞれで独自に構築したDataLake/DWHのデータを、リアルタイム連携を前提として統合することが可能です。
また、それぞれのDataLake/DWHが異なる環境／クラウドに収容されているケースについても接続し、リアルタイム連携を実現可能です。
これにより、事業部門や既設環境によるデータのサイロ化の課題を解消し、ユーザに対して一元的にデータを提供することが可能です。

３．データガバナンス・セキュリティの向上

上述の例の際に、さまざまなデータがデータ仮想化基盤を介してさまざまなユーザに提供されることとなりますが、その際にデータアクセスに関する一元的な制御をデータ仮想化レイヤで実施されることが要求されます。
データ仮想化ソフトウェアであるDenodoでは、アクティブディレクトリに代表される認証基盤との連携や、ロールベースでのデータベース／テーブル／行／列レベルの詳細な認可設定、操作ログの記録等の機能を具備しており、一般的に必要とされるガバナンス・セキュリティ要求を満たすことが可能です。

データ仮想化技術はDataLake/DWHを不要とするのか

ここまで、データ仮想化技術を利用した、データ蓄積を前提としないデータ活用のアプローチについて紹介しましたが、最後に１つ。
データ仮想化技術を使用すれば、DataLake／DWHは全く必要なくなるのでしょうか？

答えは、「否」です。

データ蓄積を前提としないデータ活用のアプローチは「コストがかかる収集・蓄積を最初からしない」ことがポイントとなります。
一般的に、複数の利用者が同じようなデータ加工を実施する場合、あらかじめ中央に加工済みデータを準備して、それをユーザに提供するほうが、ユーザの利便性も、処理効率も、コスト効率もよいです。
これを実現する基盤が本来のDataLakeやDWHであったはずです。
しかし、ビジネスニーズの変化が非常に速い昨今の状況ですと、複数のユースケースを見つけ、そこで使われる共通のデータを「実際にデータ活用を実施する前に」設計し、定義することは非常に難しいです。

一方、データ仮想化技術の登場で、以下のように、活用しながら蓄積が必要かどうか判断できるようになりました。

まずデータ仮想化技術を活用し、ユーザにデータを利用してもらう
その中でDataLakeやDWHを活用したほうが利便性、処理効率、コスト効率が良いデータは選別し、実際に費用対効果を算出する
実際に費用対効果が見込まれるものはDataLakeやDWHに格納していく

上述の通り、費用対効果を判断しながら蓄積対象を見極め、必要に応じてDataLakeやDWHに格納していく、ということが肝要です。

なお、この考え方を実現する上では、DataLake/DWHにも相応の柔軟性・伸縮性が求められます。
NTTデータでは最新のDataLake/DWH技術としてSnowflakeの活用も併せて推進しており、本ケースでもSnowflakeの活用をお勧めしています。

まとめ

データ活用を進める上で発生する、初期投資に関する課題、データのサイロ化に関する課題、ガバナンス・セキュリティに関する課題に対して、データ蓄積を前提としない解決アプローチについて解説しました。
ロジカルデータファブリックを実現する要素技術であるデータ仮想化技術は、特にデータのサイロ化を解消するためのキーテクノロジーとなります。

DataLake・DWHにデータを蓄積することを前提としていた旧来の考え方からの発想の転換は必要ですが、発想を転換できると、きっと今よりもアジリティに満ちたデータ活用の未来が見えるのではないでしょうか。

記載されている会社名、商品名、またはサービス名は、各社の登録商標、または商標です。