グーグルが「Google Cloud Next ’24」で発表した「生成AIエージェント」戦略とは?

 Google Cloudが進化を遂げた生成AIエージェント『Vertex AI Agent Builder』を、米ラスベガスで行われた年次カンファレンス「Google Cloud Next '24」で発表。Gppgleは生成AI戦略として、基盤モデルの次の「生成AIエージェント構築」に乗り出している。

Google Cloud提供 [画像クリックで拡大]

Vertex AI Agent Builderを発表

2023年までのブームが沈静化し、企業は「脱PoC」に向けて、生成AIの本格的な活用の準備を急ピッチで進めようとしている。先進企業の目は基盤モデルからアプリケーションに移りつつある。このトレンドを踏まえ、Google Cloudでは、ビジネスアプリケーションの機能強化手段の1つとして、生成AIエージェント構築に注目している。

基調講演に登壇したトーマス・クリアン氏(Google Cloud CEO)は「エージェントとは、特定の目標を達成するためにエンドユーザーに代わって行動するインテリジェントエンティティである。エージェントは人間とつながり、アプリケーションのユーザーに代わって、文字、画像、音声、動画のように形式の異なる情報を同時に処理し、対話、推論、学習、意思決定を行う」と生成AIエージェントを説明した。

生成AIエージェントを活用することで、企業のECサイトでは買い物客が欲しいと思っていた服を探すこと、人事システムでは従業員が適切な医療給付を選ぶこと、病棟看護システムでは看護スタッフがシフト交代時に患者の引き継ぎを迅速に行うことなどが可能になる。クリアン氏は、「これらのエージェントが他のエージェントともつながり、これからのコンピューティングデバイスやWebそのものとの接し方を変えていくことになるだろう」と語った。

基調講演全体を通して、生成AIエージェントのユースケースとして、「顧客エージェント」「従業員エージェント」「クリエイティブエージェント」「データエージェント」「コードエージェント」「セキュリティエージェント」の6つの紹介があった。

生成AIエージェントの6つのユースケース 出典:Google Cloud [画像クリックで拡大]

Google Cloudの顧客の中でも先行ユーザーは、マルチモーダルネイティブな基盤モデルとして開発された「Gemini」、生成AIプラットフォーム「Vertex AI」のような既存のプロダクトを使い、最初の生成AIエージェントの構築を進めていた。しかし、企業がPoCから卒業するには、もっとスピーディに生成AIエージェントを実装する仕組みが必要だ。それを見越して新しく提供を開始するのが「Vertex AI Builder(以降、Agent Builder)」になる。

Vertex AIにおけるAgent Builderの位置付け 出典:Google Cloud [画像クリックで拡大]

Agent Builderは、Vertex AI Search and Conversation(旧Gen App Builder)と、開発者向けのツールを統合して提供するものになる。Agent Builderを導入すると、アプリケーション開発の専門知識をあまり持たないビジネス部門の担当者でも、ノーコードコンソールから生成AIエージェントを構築できる。同時に、プロの開発者向けには、LangChainのようなオープンソースアプリケーション開発フレームワークを利用して、生成AIエージェントの構築からデプロイまで一気通貫でできるようにした。

グラウンディングの強化で信頼できる回答生成が可能に

Agent Builder : Grounding on Vertex AI Search [画像クリックで拡大]

Agent Builderでは、ハルシネーション問題を低減するため、グラウンディングを強化している。まず、企業が独自で持つデータ資産へのグラウンディングプロセスの簡素化し、企業が求める信頼性の高い出力結果を得られるようにする「Grounding on Vertex AI Search」の一般提供を開始した。たとえば、プロンプトに「週に何度まで有給を使えますか?」と入力すると、グラウンディングなしでは「週に2日までです」という結果になる。ところが、新機能を利用すると、自社の人事規程の情報から、「2024年からは週に3日まで有給を利用することが可能です」と、事実に基づく正確な結果を返してくれる。また、その結果を返すために参照したソースへのリンクも提示するので、ユーザー自身で結果を検証することもできるようになった。

さらに、ドキュメントから文字や表などの構成要素を抽出し、構造化データに変換する機能「Document AI Layout Parser」のパブリックプレビューでの利用開始と共に、RAG(拡張検索生成)の仕組みをエンドユーザーが容易に構築できる、以下のようなAPIセットもマネージドサービスとして提供するとの発表もあった。

  • Check Grounding API(パブリックプレビュー) :事実の探索ではなく、事実にどれだけ合致しているか、その度合いを判定するファクトチェックに適したAPI
  • Ranking API(パブリックプレビュー) :ドキュメントのリストを取得後、クエリーに対しての適切さの順に各ドキュメントを並び替え、出力結果の質を向上させることに適したAPI
  • Grounded Generation API(プライベートプレビュー): Vertex AI Search のデータストアでも、自社のデータストアのどちらでも、グラウンディングした回答を返すAPI

このように、Agent Builderではグラウンディングを拡張する検索機能に加え、便利なAPIや関数呼び出し機能も利用できるようにしている。基盤モデルはコンテンツの生成能力と分析能力を持っているが、エンドユーザーがモデルの能力を引き出すには、安全で便利なユーザーインターフェースが伴っていなければならない。Agent Builderは、エージェントがユーザーに代わってアクションを実行できるよう、生成AIエージェント構築のプロセスを支援してくれる

基盤モデルの次はエージェント?

なぜGoogle Cloudは生成AIエージェント構築を推すのか。この点を理解する上で参考になるのが、メディア向けのラウンドテーブルで平手智行氏(グーグル・クラウド・ジャパン合同会社 日本代表)が紹介した「LAM(Large Action Model)」の考え方である。たとえば、「京都に出張に行く。空き時間の3時間で行けるおすすめの場所を教えてほしい」とプロンプトに入力したとする。LLM(Large Language Model)は、あちこちを検索して、おすすめの場所のリストを作ってくれるはずだ。ただし、その結果を確認した後の交通手段や食事場所の手配は、今は人間が行わなければならない。

この状況を一歩進め、次のアクションプランを示すのが検索で能力を拡張した『LAM』になる。データセットからチャートを作成するものから、エンドユーザーが次の行動を決められる「アクショナブルインサイト」を提供するものにBIツールが変わったように、生成AIも次のステップに移ろうとしている。平手氏は、Google DeepMindの創始者の1人デミス・ハサビス氏の言葉、「基盤モデルの次の山はエージェントになる」を紹介し、「生成AIエージェントを使うことで、AIを使える水準に持っていく。日本企業が取り組むDXを加速させることができる。日本企業のビジネスモデルの変革を支援したい」と意気込んだ。

同席した小池裕幸氏(グーグル・クラウド・ジャパン合同会社 上級執行役員 カスタマーエンジニアリング担当)も、「モデルだけでできることはさほどない。Vertex AIの先行導入企業の取り組みを支援する中で、顧客と共有した一種の『勝ちパターン』のようなものが見えてきた」と話した。ここでの勝ちパターンとは、前述の6つのユースケースのことを指している。何をプロンプトに与えるかから始まり、エージェントの処理フローを考え、正確な結果を得るための制御方法を整理し、これから本格的に取り組む企業が1つの環境でやりたいことを全てできるようにVertex AIは強化された。

平手氏は、「今までのLLMの精度向上はモデル単体での話にとどまっていたが、これからの企業は業務用途に合わせて最適なものを選択するように変わるだろう」と予測を述べた。すでにVertex AIのModel Gardenでは、Geminiを含む130超のモデルの中から企業が最適なものを選択きる。今回の拡張機能の充実に伴い、Agent Builderから自社データにグラウンディングさせての出力コントロールも容易になった。全てをVertex AIという1つの環境でできる。これまでGoogle Cloudが訴えてきた「AI に対するアプローチは、大胆でありつつも責任あるものでなければならない」の実践が可能になったと平手氏はみている。

複数のエージェントを動かす処理も対応可能

一方、ビジネスアプリケーションベンダーも手をこまねいているわけではないはずだ。主要SaaSベンダーが自社のアプリケーション製品に生成AI機能を実装しようと躍起になる中、企業が自分たちで生成AIエージェントを構築する意義はどこにあるのか。メディア向けラウンドテーブルでトーマス・クリアン氏に聞いてみたところ、2つの例を紹介してくれた。

たとえば、一通のメールを受信したとする。その内容は福利厚生に関するもので、それを読んだエンドユーザーがプロンプトに質問を入力する。それを受けた生成AIエージェントは、パーソナライズした回答を生成するため、福利厚生システムや給与計算システムなど、様々なシステムのデータにアクセスしようとする。この時、Workdayのように、独自に開発したモデルで生成AI機能を実装している場合、複数のモジュール同士のデータをつなぎ合わせ、回答を返すまでのプロセス間でSaaS側のモデルとの調整が発生する。「この調整でうまく立ち回れるのが生成AIエージェント」とクリアン氏は説明した。

もう1つ、クリアン氏が挙げたのが、フランスの通信キャリアOrange(旧フランステレコム)が構築した会話エージェントの例である。同社が顧客からの質問にエージェントが回答するシステムを構築したとき、利用したのがAgent Builderである。大抵の場合、コンタクトセンターの裏側ではおそらくSalesforceやServiceNowのシステムが動いている。会話エージェントがパーソナライズした回答を生成するには、Salesforceのコンタクトセンターシステムだけでなく、ServiceNowのチケット管理システムのデータを確認し、質問をした顧客の問い合わせ履歴を確認する必要がある。

Agent Builderでは、このような複雑な内部処理が必要になる場合を想定し、複数のエージェントを用意し、1つをマスターエージェントが、他のサブエージェントと協調してタスクを実行できるようにしている。前述の会話エージェントの例で言えば、マスターエージェントがSalesforceのエージェントや続けて ServiceNowのエージェントと対話し、問い合わせをしてきた顧客に示す最終回答を生成することになる。

Agent Builderでは、人間のエージェントを訓練する場合と同様の方法で、自然言語で会話の流れをコントロールできる。また、特定の話題が出た時の誘導、会話履歴の要約を基に人間のエージェントに引き継ぐタイミングまで会話フローに織り込めるようにしている。このような生成AIエージェントを構築する時、これまではスクラッチ開発しか手段がなかった。Agent Builderを使うことで、開発に伴う負担は軽減する。ビジネスユーザーにとっては、温めていたアイデアを現実にできる環境が整ったと言えそうだ。

Original Post>