Big Dataという、ひと頃は一世を風靡した言葉も最近はあまり聞かれなくなってきました。と言っても英語の話です。日本語の「ビッグデータ」なら、先日もNHKスペシャルで連呼されていたし、相変わらず、よく耳にする言葉です。英語で聞く機会が減ったのは、もはや当たり前すぎて敢えて言う意味がなくなったせいかな、と想像します。
データが多すぎるのはもう至極当然のことなので、取捨選択の重要性が叫ばれて久しいです。企業にとって、データは血液のようなもの、という巧い表現を見かけました。その循環がビジネスに不可欠で、生命線とも言える反面、質の悪化や滞りが命取りにもなるという譬えです。
データサイエンティストの役割の変化
そこで活躍するのがデータサイエンティストで、データを浄化したり(=データ クレンジング)仕分けしたりします(=データラベリング)。悪いデータを精緻に分析して、ダッシュボードにわかりやすく可視化したら、経営者はすばらしい見識を得た!と勘違いして、経営が悪い方向に進み、気付いたときには手遅れ、なんてことも起こり得ます。いくら、分析システムが優秀で、ダッシュボードの利便性が高くても、大元のデータの質が良くなければ何の意味もありません。
だから、優秀なデータサイエンティストの活躍が不可欠ですが、いくら優秀なサイエンティストでも所詮は人間です。作業にはそれなりの時間もかかるし、間違いも決してないとは言えません。もっと心配なのは人間本来の先入観です。こればかりは、人間が人間たる所以でもあって、完全消去は無理です。
たとえば、新型コロナウイルスの話題でも、ありとあらゆるデータの中から、自分が信じている方向に多少なりとも寄っているデータを無意識に選り抜いて分析し、世間に公表している人が大勢います。それについては、別の記事(データには幾つもの顔がある)でも触れました。
AIの新しい成長分野
データサイエンティストの手作業を自動化し、ミスと先入観のリスクを最小限に抑えてくれるのが、Augmented Data Analytics(拡張データアナリティクス)です。これまで、AI(人工知能)やML(機械学習)のビジネス活用は、チャットボットなど、顧客対応の情報スクリーニングが主流でしたが、今後は、このデータ管理におけるAIとMLの活用が急成長すると見られています。
データサイエンティストによるデータ管理/処理の効率化と高速化に加え、拡張データアナリティクスにはシステム上の利点もあります。多岐にわたるデータソースを仮想環境に一元化してアナリティクス エンジンと統合し、一連のプロセスをシームレスにすることで、データソースだけでなく、データアナリティクス全体の管理が効率化されます。この「管理」には、コンプライアンスやガバナンスの徹底のほか、セキュリティやアクセス管理も含まれ、コロナ以後の新しい仕事形態にも適合します。
このようなプラットフォームの代表例としてはSAS やDatabricksが挙げられ、特にDatabricksは外部のBIツール(TableauやEspressReport ES)との統合が容易な点からも、近年、急成長を遂げています。
データの民主化とコロナ後の世界
さらに、このようなデータ管理プラットフォームが整備されると、いわゆるData Democratization(データの民主化)が促進され、企業全体におけるデータの有効利用が進むという利点もあります。Citizen Data Scientist(市民データサイエンティスト)という言葉もあるぐらいで、拡張データアナリティクスによる一貫したプロセスの確立で一般ユーザーが高度なデータサイエンティストの役割を担えるようになり、深刻な人材不足も解消されます。
ただし、データの民主化には当然、責任がともなうのでセキュリティの強化と全社員のセキュリティ意識の強化も、コロナ禍をきっかけにリモートワークが急激に普及した今、さらなる重要課題になるでしょう。
いずれにせよ、拡張データアナリティクスが、コロナ以後の仕事のあり方に大きく影響することは間違いなさそうです。