以前、『データレイク』という言葉について考察したのですが、それをきちんと管理しないとデータスワンプ(データ沼)になっちゃうよ!的な発言をとある記事で見つけ、興味深かったのでのでこちらで紹介させてください。
正確には、こう書いてありました。
“A lot of organizations have dumped themselves into data lakes or data oceans. But a lot of those have become data swamps because the data that comes out the other end isn’t governed (and can’t be trusted). For example, do you know the origin of that data or if there are any conflicts? … That’s what brings in governance and data quality.”
「多くの企業はデータレイク、もしくはデータオーシャンにどっぷり浸かっていますが、そこから得られるデータを統制しないと、そこはやがてデータスワンプと化してしまいます(そのようなデータは信頼性を欠きます)。たとえば、データがどこからやって来たのか、データ同士に矛盾はないのか、きちんと把握できるでしょうか? それこそが、データガバナンスとデータ品質が必要とされる所以です」
これは、データ マネジメント ソリューションの米ソフトウェア会社SynitiのCEOケビン・キャンベル氏の言葉です。
企業が取り扱うデータの量が増え、その起源(データソース)が多様化する中、それをアナリティクスに活用するために貯蔵して後で仕分けするのなら、データレイクに貯め込むのは間違いではないのでしょう。しかし、企業データの用途はアナリティクスだけではないし、現実には、人事や販売管理など、企業内で用途ごとに別々のシステムで管理して、データレイクで突き合わせることすら難しいのではないでしょうか。それこそ、データスワンプ(沼)化することがはなから目に見えているから、非効率でも別々に処理する(重複するデータも整合性ないまま、別々に存在し続ける)ことのほうが多い気がします。
Synitiのデータ管理システムSyniti Knowledge Platformでは、たとえばSalesforceからデータを取り込み、正規化したうえでSAPにアップロードすることも可能なのだそうで、たしかに、データのスワンプ化を避け、ガバナンスを施行するには有効です。特に、エクセルにデータを落とせるSyniti Data Workbenchでは、エンジニアの手を借りなくても、データのビジネス的な背景をよく知る業務担当者が直接作業でき、企業データを整理して、ガバナンスを徹底するにはうってつけと言えます。
現実の企業環境では、データは湖や海で形容するよりも、どちらかと言うと数本の川、つまりデータリバーに近く、本当に必要なのはデータレイクやオーシャンのように大袈裟なものではなく、用途に合わせて川から水を引く用水路のようなシンプルで小回りの利くツールなのではないでしょうか。
と、うまく「水」用語でまとめたところで、この原稿アップしたら、データ風呂でも入って、データハイボールでも呷るとしますか(← 全然うまくまとまってないです、はい)
【Syniti DR オンライン・ハンズオン】セミナーについてはこちらを!
関連したトピックス
- データ分析基盤へもSyniti Data Replication(旧DBMoto)で簡単レプリケーション! Google BigQueryへの接続方法
- Heroku Connectを使用してユーザはHeroku Postgresと Salesforce のデータを同期
- データレプリケーションソリューションに求められる9つのポイント
- Google Cloud SQL と オン・プレミス・データベース間でのデータ・レプリケーション【DBMoto】
- DBMotoからSyniti Data Replicationへのアップグレード方法
- レプリケーション対象テーブル構成変更後のSyniti Data Replication (旧DBMoto) マッピング対応について
- Syniti Data Replication (DBMoto) の監視方法について
- Azure Synapse Analytics(旧 SQL DW)へのレプリケーションを検証してみました[Syniti DR]
- Heroku Postgres と 異種DB間でのリアルタイム・レプリケーションを検証・確認[Syniti DR]
- 多様な変更追跡で様々環境、要件に対応、Oracleトランザクションセットアップ[Syniti Data Replication]