生成AIはまだ検索に革命的変化をもたらさない – オンライン


サマリー:生成AIを活用することで大きな効果を発揮する分野としてオンラインの「検索」機能がある。本稿では、検索に生成AIを用いる際の課題や、検索技術の歴史から考察する。現在の騒ぎが落ち着き、技術がコモディティ化した時に現実と限界が露呈する。それまでに注視すべきは、法的および倫理的課題への対処に注力しながら生成AIを手がける企業だという。

生成AIが検索を変える

チャットGPTは熱狂を巻き起こした。2022年11月末にオープンAIがこの大規模言語モデル(LLM)をリリースして以降、生成AI(チャットGPTはその一つにすぎない)が知識、研究、コンテンツ制作のあらゆる常識をいかに変えうるかについて、憶測が広がっている。また、労働力が再編され、従業員が成功するために必要なスキルも変化し、産業全体が一変する可能性さえあるとも推測されている。

生成AIの開発競争で、勝者が大きな優位を得られる分野として顕著なのは、検索だ。生成AIによって、ユーザーが検索に求めるものが劇的に変わる可能性がある。

オンライン検索における長年の勝者であるグーグルは、突如としてマイクロソフト傘下の挑戦者に直面した模様だ。マイクロソフトは先頃、チャットGPT開発元のオープンAIに100億ドルを投資し検索エンジンのビング(Bing)を含む同社のさまざまなプロダクトにこのツールを組み込む計画を発表した。

一方、グーグルも独自のAIツールのバード(Bard)をリリース予定であり、中国の巨大テック企業バイドゥ(百度)も、チャットGPTの競合プロダクトのリリースを準備している。生成AIのスタートアップにも巨額の資金が流れ込んでいる。

しかし、チャットGPTと生成AI全体をめぐっては過剰な期待とは裏腹に、大きな現実的、技術的および法的な課題がある。グーグルのような確立された検索エンジンと同等の規模、堅牢性、信頼性を実現するためには、これらの課題が克服されなくてはならない。

過去の検索技術

検索エンジンが主流となったのは1990年代初期だが、中核的な手法はその後も変わらず続いた。インデックス化されたウェブサイト群を、ユーザーにとって最も関連性が高い順番で並べるというものだ。この「検索1.0」の時代には、ユーザーは検索エンジンに尋ねるにはキーワードまたはキーワードの組み合わせを入力する必要があった。

2000年代後期、セマンティック検索の登場とともに「検索2.0」が始まり、ユーザーは人間とやり取りをしているかのように、自然な言葉を入力できるようになった。

グーグルは3つの要因によって、リリース直後から検索を支配した。シンプルですっきりとしたユーザーインターフェース、適切な検索結果を提供するページランクという革命的なアルゴリズム、そして爆発的なボリュームで絶え間なく拡張するグーグルの能力である。グーグル検索は、ある明確に定義された用途に応えるには完璧なツールだった。すなわち、ユーザーが探している情報を掲載しているウェブサイトを見つけることである。

だが現在、新たな用途が台頭しつつあるようだ。グーグルもバードに関する発表の中で認めているように、ユーザーはいまや検索クエリに関連するウェブサイトの一覧に留まらず、「より深いインサイトと理解」を欲している。

これこそまさに、「検索3.0」が行うことである。ウェブサイトではなく、答えを提供するのだ。グーグルは、私たちの質問に答えてくれる図書館内の本を指し示してくれる同僚だった。チャットGPTは図書館のすべての本をすでに読んでおり、私たちの質問に答えることができる同僚である。理論的にはそうなのだ。

しかし、第1の問題もこの部分にある。現在の形のチャットGPTは、検索エンジンではない。その最大の理由は、ウェブをクロールする検索エンジンのようにリアルタイムで情報にアクセスするわけではないからだ。チャットGPTは、2021年10月時点までの膨大なデータセットで訓練された。この訓練プロセスによって、驚異的な量の静的知識と、人間の言語を理解して生成する能力が与えられた。

だが、それ以上のことは何も知らない。チャットGPT自身が知る限り、ロシアはウクライナに侵攻しておらず、FTXは暗号資産取引所として順調で、エリザベス女王は生きており、新型コロナウイルス感染症はまだオミクロン株に変異していない。おそらくこれが理由で、2022年12月にオープンAIのサム・アルトマンCEOは「現時点では、チャットGPTに重要なことをさせるのは間違いだ」と述べている。

近い将来に状況は変わるのだろうか。ここで第2の大きな問題が生じる。現在のところ、インターネット上の情報の変化に応じてLLMを継続的に再訓練するのは非常に難しい。

最も明白な課題は、LLMの継続的な訓練に要する膨大な処理能力と、関連するリソースの経済的コストだ。グーグルは検索のコストを広告の販売によって賄い、サービスを無料で提供できている。LLMはエネルギーコストがさらに高いため、もしグーグルと同じ速度での検索クエリの処理を目指すのであれば、毎秒数万件(1日に数十億件)と推計される処理を行わなければならず、その実現は困難だ。一つ考えられる解決策は、モデルを訓練する頻度を減らし、進展の速いトピックに関する検索クエリへの適用を避けることかもしれない。

とはいえ、たとえ企業がこの技術面と経済面の課題を何とか克服するとしても、提供する実際の情報に伴う問題が残る。チャットGPTのようなツールは、具体的に何を、誰から学習するのだろうか。

情報源について考える

チャットGPT型のチャットボットは社会に向けられた鏡に似ており、目に映るものを映し返す。インターネット上の、フィルターのかかっていないデータで自由に訓練を受けさせれば、暴言を吐き出すかもしれない(マイクロソフトのTayが、人種差別的な暴言を繰り返してサービス停止に追い込まれたことをご記憶だろうか)。したがってLLMは、開発者によって適切と判断され慎重に選ばれたデータセットで訓練される。

しかし、その程度のキュレーションでは、オンラインにある極めて膨大なデータセットに含まれるコンテンツについて、事実上正しく、バイアスがないよう徹底することはできない。

実際、エミリー・ベンダー、ティムニット・ゲブル、アンジェリーナ・マクミラン・メイジャー、マーガレット・ミッチェル(クレジット名は「シュマーガレット・シュミッチェル」)は研究の中で、「インターネットに存在するテキストに基づいた大規模なデータセットは、覇権主義的な視点を過剰に反映し、社会的に弱い立場の人々に害を及ぼしかねないバイアスを内包している」ことを発見した。

一例として、チャットGPTの訓練データに使われる主要な情報源の一つはレディット(掲示板型のソーシャルニュースサイト)だが、引用されているピュー・リサーチセンターの調査によれば、米国内のレディットユーザーの67%は男性で、64%は18~29歳だ。

オンラインでのエンゲージメントにおける、ジェンダーや年齢、人種、国籍、社会経済的状況、支持政党といった人口統計学的要素の不均衡が意味するのは、AIはキュレーションされたコンテンツにおける最も支配的なグループの見解を反映するということだ。チャットGPTはすでに、「ウォーク」(社会問題や社会的な不平等に対する意識が高いことを揶揄する言葉)で「リベラルのバイアス」があると非難されている。

その一方で、チャットGPTは人種差別的な推奨も提供し、カリフォルニア大学バークレー校の教授がこのAIに書かせたコードでは、白人またはアジア人の男性のみが優秀な科学者であるとされていた。その後オープンAIはこうした事案を回避する対策を講じたが、根本的な問題は残っている。

従来型の検索エンジンにもバイアスの問題はあり、偏見や人種差別、不正確な内容やその他の不適切なコンテンツを含むウェブサイトにユーザーを導く可能性がある。とはいえ、グーグルは情報源をユーザーに示すガイドにすぎず、コンテンツに関して大きな責任を負うわけではない。ユーザーはコンテンツと文脈情報(その情報源について明らかになっている政治的バイアスなど)を提示され、事実とフィクション、意見と客観的真実を区別するために自身の判断を適用し、どの情報を使いたいかを決める。

この判断に基づく工程が、チャットGPTでは取り除かれるため、バイアスと人種差別を伴う内容を提供した場合にはチャットGPTが責任を直接負うことになる。

ここで生じるのが透明性の問題だ。ユーザーは、チャットGPTのようなツールからの回答の裏にはどのような情報源があるのか皆目わからず、AIは情報源を尋ねられても示さない。このため、バイアスがかかった機械が、客観的なツールであり正しいはずだとユーザーに認識されかねない危険な状況が生まれる。オープンAIは、出所を示すよう訓練されたAIツールのウェブGPT(WebGPT)を通じてこの課題への対処に取り組んでいるが、有効性はまだ定かではない。

情報源をめぐる不透明性は、別の問題にもつながる。生成AIのアプリケーションは訓練データからコンテンツを盗用する可能性があることが、学術研究と事例証拠で示されている。言い換えれば、元のコンテンツの作成者は、自分が著作権を持つ作品が訓練データに含まれることに合意しておらず、使用に対する報酬も得ておらず、何のクレジットも与えられていない。

『ニューヨーカー』誌は先頃、生成AI企業のミッドジャーニー、ステーブル・ディフュージョン、ドリームアップに対する集団訴訟に関する記事の中で、これを「3つのC」(著作権、報酬、クレジット)と述べている。マイクロソフト、オープンAI、ギットハブなどに対しても訴訟が起きており、法と倫理をめぐる新たな争いの波が到来しているようだ。

盗用も問題だが、LLMが単に話をでっち上げる場合もある。たとえばグーグルのバードは、デモの最中にジェームズ・ウェッブ宇宙望遠鏡について事実に反する情報を提供するという、公の場での大失態を犯した。同様にチャットGPTも、経済学で最も多く引用された研究論文はどれかと尋ねられ、完全に架空の研究を引用して答えた。

こうした問題があるため、チャットGPTおよび後発のLLMは、情報探索やコンテンツ制作で役立つには大きな課題を克服しなくてはならない。学界や企業など、ごく小さな過ちでもキャリアに壊滅的な影響が及びかねない場での活用に関しては、なおさらである。

垂直方向に活用する

LLMは、従来型の検索エンジンにおける特定の要素を強化することになりそうだが、現時点ではグーグル検索を王座から引きずり降ろせるとは思えない。ただし、ほかの種類の検索に変化をもたらすという点では、より破壊的で革命的な役割を果たすことができる。

検索3.0の時代に起こる可能性が高いのは、垂直検索のために、意図的かつ透明な形でキュレーションされたデータで慎重に訓練されたLLMの台頭だ。つまり、専門化された、分野特化型の検索エンジンである。

垂直検索はLLMの有力な用途であり、それにはいくつか理由がある。まず、垂直検索の焦点は特定の分野と用途、つまり狭く深い知識だ。このため、高度にキュレーションされたデータセットに基づいてLLMを訓練するのが容易になり、そのデータセットには出所とモデルの技術的詳細について説明した包括的なドキュメントを含めることができる。また、それらのデータセットを適切な著作権、知的所有権、プライバシーの法とルールと規制によって管理しやすくなる。

加えて、より小規模で対象を絞った言語モデルであるため計算コストが下がり、より頻繁に再訓練できるようになる。最後に、これらのLLMは第三者の専門家による定期的な試験と監査を受けることになる。規制を受ける金融機関で使われる分析モデルが、厳格な試験要件を課されるのと同様だ。

過去の事実とデータに根差した専門知識が仕事で重きを占める分野では、垂直型LLMは、人間をまったく新しい方法で補強する新世代の生産性ツールを提供することができる。

次のように想像してみよう。査読付きの医学専門誌と医学教科書で訓練されたチャットGPTが、医療専門家の研究アシスタントとしてマイクロソフトオフィスに組み込まれる。あるいは、金融分野で一流のデータベースと専門誌からの、数十年分の金融データと金融論文で訓練されたチャットGPTを、銀行アナリストが研究のために使う。また、コードの作成やデバッグを行い、開発者からの質問に答えるようLLMを訓練するなども考えられる。

企業と起業家は、LLMを垂直検索のアプリケーションに適用する有力な用途があるか否かを判断する際、5つの問いを自問するとよい。

1. 対象のタスクやプロセスは従来、綿密な調査・研究や、特定分野の深い専門知識を必要とするだろうか。

2. タスクの結果は、総合的な情報やインサイトや知識として提供され、ユーザーの行動や意思決定を後押しするだろうか。

3. AIを垂直検索領域の専門家にすべく訓練するための、過去の技術データや事実データは十分にあるだろうか。

4. LLMに最新の情報を提供させるために、新しい情報を用いて適切な頻度で訓練できるだろうか。

5. 訓練データに含まれる見解、仮説、情報をAIが学習し、複製して永続させることは、合法かつ倫理的だろうか。

上記の問いに自信を持って答えるためには、ビジネス、テクノロジー、法律、財務、倫理の観点を結びつける学際的な視座が求められる。5つの問いすべての答えが「イエス」であれば、垂直型LLMの有力な用途が存在する可能性は高い。

騒ぎが落ち着いてから

チャットGPTの背後にあるテクノロジーは素晴らしいが、独占的なものではなく、近いうちに容易に模倣可能となりコモディティ化する。チャットGPTのみごとな回答に対する世間の熱狂は時とともに薄れ、現実と限界が露呈し始めるだろう。

したがって投資家とユーザーは、上記で論じてきた技術的、法的および倫理的課題への対処に注力している企業に注目すべきである。これらの領域は、プロダクトの差別化が起こりAI競争の勝者が最終的に決まる、最前線なのだ。

Original Post>