生成AIの未来は「企業内データ」活用にあり、Cohesityはバックアップデータ利用で先を行けるか?

 生成AIブームは、まだまだ衰えを見せない。とはいえ、大規模言語モデル(LLM)の規模や精度を追求する動きは一段落した感もある。ここ最近は、生成AIを全社展開したもののなかなか利用率が上がらない、自社に蓄積したデータを活用できない、思うような回答が得られないなど、新たな課題も聞こえてくる。自社データを用いて独自にLLMをファインチューニングするのは、どうやらコスト的にも手間的にも容易でないことがわかってきた。そのため、企業内に蓄積されている情報をいかにしてLLMに渡せるかが、企業における生成AIの活用では鍵となる。

バックアップデータを活用、生成AIへの新たなアプローチ

企業内データを生成AIで活用するため、ベンダーからはそれを実現するためのサービスや機能提供も増え始めた。バックアップからデータプラットフォームにソリューションの幅を広げているCohesityも、企業データを生成AIで活用するために「Cohesity Gaia」の提供を開始した。

同社はバックアップソリューションから始まり、最近ではデータ管理の効率化やセキュリティを高めるため、積極的にAIや機械学習技術を活用している。2023年には、ユーザー企業における自社データのAI活用を後押しするため、欲しいタイミングで安全にデータを活用するためのフレームワーク「Cohesity Turing」も発表した。

このCohesity Turingの中で、企業に蓄積されているデータを生成AIで容易に利用できるようにする機能がCohesity Gaiaだ。これはバックアップデータに対してAIと大規模言語モデルを適用するもので、Cohesity Data Cloudに蓄積されている企業データにアクセスして必要なデータを抽出してLLMに渡すことで、ユーザーの質問に適切な回答を返すことができる。

[画像クリックで拡大]

Cohesityは、これまでも同社のサービスで取得するバックアップデータを、バックアップ/リカバリーに使うだけでなく、さまざまな用途に活用できるように機能追加を行ってきた。たとえば、アプリケーションやデータベース、ファイルサーバーなどから得られるバックアップデータをクラウド上で、あたかもデータレイクのように蓄積して扱えるようにするものがCohesity Data Cloudだ。「バックアップデータをきちんと管理してさまざまな用途で使えるようにし、それを活用することで新たなインサイトを得られるようにします」と言うのは、Cohesity Japan 技術本部本部長の笹 岳二氏だ。

一般的にバックアップデータを他の用途で使いたいときは、バックアップデータをリストアし、得られたデータを別サーバーなどにコピーして利用する。一方、Cohesityでは“バックアップデータのまま”利用できることが大きな特長だ。つまり、コピーなどせずに、1つのプラットフォームの中でデータを他の用途でも利用できる。

バックアップデータは世代管理されるが、それをデータレイクとして利用できるために時系列変化を見ることも容易だ。今回提供を開始したCohesity Gaiaでは、バックアップデータに対して自然言語でアクセスし、生成AIに必要なデータをLLMに渡すことで知見を得られる。このとき、質問に対する関連性の高いデータを渡すために、バックアップデータに対してインデックス化を行う

このインデックス化は、バックアップデータをベクトル化するものであり、RAG(Retrieval-Augmented Generation:検索拡張生成)の手法となる。これにより質問に関連性のあるデータを効率的にバックアップデータから抽出し、LLMに渡せるという。ユーザー権限に応じたアクセスコントロールも実現できるとして「データの安全性も担保されています」と笹氏は説明する。

社内データをLLMに渡す手間、バックアップデータで削減されるか

一般的に社内データを適切にLLMに渡そうとすると、どのデータを対象にするのかを決めて整理した上でベクトルデータ化するなど、準備に大きな手間がかかってしまう。こうした下準備がネックとなり、社内業務への生成AI適用が上手くいかないとの声も聞こえてくる。

前述したようにCohesityではバックアップデータをデータレイクとして利用でき、データレイクにどのようなデータがあるのかも整理して把握可能だ。最初のフルバックアップ取得時にデータをベクトル化しており、データ量にもよるが相当な時間はかかるだろう。とはいえ、Cohesityではフルバックアップ以降は差分でバックアップしていくため、更新データをベクトル化する際のデータ量は最小限に抑えられ、処理時間も大きく短縮されるという。

Bestseller No. 1
Pwshymi Printhead Printers Head Replacement for R1390 L1800 Printhead R390 R270 R1430 1400 for Home Office Printhead Replacement Part Officeproducts Componentes de electrodomésti
  • Function Test: Only printer printheads that have...
  • Stable Performance: With stable printing...
  • Durable ABS Material: Our printheads are made of...
  • Easy Installation: No complicated assembly...
  • Wide Compatibility: Our print head replacement is...
Bestseller No. 2
United States Travel Map Pin Board | USA Wall Map on Canvas (43 x 30) [office_product]
  • PIN YOUR ADVENTURES: Turn your travels into wall...
  • MADE FOR TRAVELERS: USA push pin travel map...
  • DISPLAY AS WALL ART: Becoming a focal point of any...
  • OUTSTANDING QUALITY: We guarantee the long-lasting...
  • INCLUDED: Every sustainable US map with pins comes...

仮に日次でバックアップを取得していれば、生成AIに問い合わせる際には日次単位での時系列データが扱えることになる。つまり、LLMに渡せるデータも常に前日分までが対象となるため、かなり鮮度が高い状態を維持できるということだ。もし時系列でデータが扱えるならば、過去の正確ではない情報が含まれることで起きる「ハルシネーション」を回避しやすくなるだろう。

[画像クリックで拡大]

また、Gaiaではユーザーの役割に基づいたアクセス制御、ゼロトラストセキュリティの原則が採用されており、許可されたユーザーとLLMだけが必要なデータにアクセスできる。Gaiaのメリットは「企業内にある質の高いデータを容易に生成AIで利用でき、そのためのRAGの仕組みをCohesityの単一プラットフォームでセキュアに実現できることです」と笹氏。生成AIの企業利用で求められるコンプライアンスとリスクの管理も実現可能だとする。

過熱する生成AIマーケット、Cohesityが頭一つ抜き出る可能性は

Cohesity GaiaはSaaSで展開され、まずはMicrosoft 365のバックアップデータが対象となる。将来的には画像を含む、さまざまなデータをLLMに渡すエンジンも追加される予定だ。また、各種アプリケーションやOracle、Snowflake、Databricksなどのバックアップデータはもちろん、オンプレミスにあるバックアップデータもLLMに渡せるようにすることがロードマップでは掲げられている。初めてとなる生成AIの連携先はOpenAIだが、今後は各種LLMを選択できるようにするオープンな戦略を採っていくという。

なお、Cohesity Gaiaの利用に際しては、サブスクリプション型のライセンスが用意されており、その費用にはLLMの利用料金なども含まれるが、インデックス容量と生成する回答量に応じて料金は変動するとのことだ。GPT-3.5あるいはGPT-4のバンドル版ライセンスも用意されており、30日間の無償トライアルも可能だ。

繰り返しとなるがCohesity Gaiaのユニークな点は、バックアップデータをデータレイクとして扱い、そのデータをベクトル化してLLMに渡すまでの一連のプロセスをCohesityの単一プラットフォームで完結できる点だ。RAGの手法を利用するために、別途ベクトルデータベースを用意する必要もなく、バックアップデータの復元もいらず、データのコピーや移動も発生しない。

1つのプラットフォームで完結するため、社内データをLLMに渡すためのシステム構成もシンプルになる。生成AIを活用する目的は、ユーザーが生成AIとやり取りして価値あるインサイトを得ることだ。生成AIとの試行錯誤を繰り返すには、ユーザーはなるべく裏側の仕組みなどを気にしたくない。そのためCohesity Gaiaのように、シンプルな仕組みで運用管理も楽なことは重要だ。

一方で、1つ気になるのはアクセスコントロールだ。バックアップデータを利用する際には、Cohesityのプラットフォーム上でロールベースのアクセス権限設定をする必要がある。BIツールなどから利用するときと同様のアクセス制御で問題なければ、その設定は比較的容易かもしれない。

New
ABYstyle - Call of Duty Toiletry Bag Search and Destroy, Black, 26 x 14 x 8.5 cm, Handle on pencil case for easy carrying, Black, 26 x 14 x 8.5 cm, Handle on pencil case for easy carrying
  • 100% official
  • Very practical with multiple pockets
  • Handle on pencil case for easy carrying
  • Material: Polyester
  • Dimensions: 26 x 14 x 8.5 cm
New
1890 Wing Angel Goddess Hobo Morgan Coin Pendant - US Challenge Coin Liberty Eagle Novel Coin Adult Toy Funny Sexy Coin Lucky Coin Pendant Storage Bag for Festival Party
  • FUNNY COIN&BAG: You will get a coin and jewelry...
  • NOVELTY DESIGN: Perfect copy the original coins,...
  • LUCKY POUCH: The feel of the flannelette bag is...
  • SIZE: Fine quality and beautiful packing. Coin...
  • PERFECT GIFT: 1*Coin with Exquisite Jewelry Bag....
New
Panther red Fleece Beanie
  • German (Publication Language)

しかし、生成AI利用のために職種や部署、人事グレードなどに応じたきめ細かなアクセス制御が必要となれば、その設定には少々手間がかかる可能性もある。RAGでデータをLLMに渡して利用する際には、ガバナンスやセキュリティを確保するために求められるアクセス制御をいかに容易に実現できるかは重要だ。そのための機能の充実も、Cohesity Gaiaには今後求められるだろう。

企業に蓄積されているデータを効率的にLLMに連携できるようにするサービスは、これからどんどん出てくるとことが予測される。その際にCohesity Gaiaのように、あらかじめ活用しやすいデータレイクがあることは、かなり優位となるだろう。今後、Cohesity Gaiaで利用できるバックアップデータ対象が早い段階でMicrosoft 365以外まで拡がれば、Cohesityは生成AIのソリューションを推し進めるベンダーの中でも、一歩先を行く存在になれるかもしれない。

Original Post>

Leave a Reply