大規模言語モデルの終焉と“小さなモデル”の台頭──GPU不足を打破する、複合モデルやOSSの発展へ

 今、私たちの生活は前例のないペースで進化しています。その推進力となっているのが「AI」。中でも、LLM(大規模言語モデル)の出現は単なる技術の向上や効率化に留まらず、人々のコミュニケーション、考え方、社会全体の運営にまで影響を及ぼし始めています。このテクノロジーの背後にある課題と解決策に焦点を当てることで、私たちは未来への理解を深め、より良い世界を築くための道筋を見通すことができるのではないでしょうか。

「大きさ」「マシンパワー」に依存する、従来アプローチの限界

現在さまざまなLLMが提供されている中でも、より高度なものについては、人間のフィードバックを元に学習して精度を徐々に向上させる方法が一般的に採用されています。今まさに人間との連携を通じて、AI自身が認識力や推論力を確実に磨き上げている状況と言えるでしょう。

しかし、このアプローチには限界が近づいています。現時点では、これ以上の巨大なコンピューティングリソースや電力、時間、そして人間の労力を投入しても、以前のような飛躍的な成果は得られなくなるからです。

そのため次のステージとして、我々はより効率的かつ持続可能な方法を模索し、この新たな挑戦にどう取り組むかを考える必要があるでしょう。AIの未来を考える際、単に「大きさ」や「パワー」だけでなく、「効率性」や「賢さ」に焦点を当てる必要性が高まっているのです。

データに関する「3つの問題」

LLM学習のフィードバックアプローチ以外にも、憂慮すべきデータに関する問題が浮上しています。

1つ目は、生成AIによるフェイクニュースやデマの拡散という非常に深刻な問題です。生成AIの進化にともない、真実を捻じ曲げた情報の生成が容易になってきたことから、政治や経済、社会の各分野において深刻な影響を及ぼし得る現象が起きています。これはAIへの信頼性だけでなく、AIとのコミュニケーションにおける根幹を揺るがす事態にまで発展する可能性があるでしょう。とはいえ、広範にわたる大きな課題であるため、本連載ではテクノロジーの観点、特にLLMの学習に焦点を絞って考えていきます。

2つ目は、AIが生成するコンテンツの増加です。これにより、「AIが作ったデータをAIが学習してしまう」という再帰的とも言える学習状況を生んでしまっています。一見すると効率的なこのプロセスですが、実際には精度の観点からデメリットが多く存在するのです。特に、フェイクニュースを学習してしまうという状況が生まれた場合、精度が悪くなることは想像に難くないでしょう。この種の自動的な学習が進む中、現在の高精度なLLMが崩壊していく危険性が、今まで以上にリアルなものとなっています。

3つ目は、驚くべきことに、一部からは「今の時点のLLMが最も良い状態である」との声が挙がっていることです。コロナ禍などの特殊な社会状況などを除外すれば、2019年までの人間の知識を集約したGPTなどのモデルが「最も効果的かつ汎用的で、良いLLM」である可能性があるということです。

これら3つの観点は、人間と機械における学びのバランスがいかに重要かを示しており、非常に興味深くあります。つまり、本稿を執筆している2023年現時点から見たときに「“汎用LLM”の開発時代は急速に終わりに近づいている」ないしは「既に終了している」と言えるということです。これからのAIモデル開発の方向性としては、より効率的かつ倫理的な方法を追求する必要があり、私たちにとっては未知の領域への挑戦となるでしょう。

LLMではなく、“小さなモデル”の成功

LLMの開発競争が終焉を迎えると同時に、新しい可能性が広がりつつあります。単にモデルを大きくして“力ずくで問題を解決する”時代から、より“合理的で賢い”モデル構築へと方向性が変わるということです。

従来のアプローチでは、「すべての問題に対して、1つの巨大なモデルで応える」という考え方が主流でしたが、この方法ではコンピューティングリソースや電力の浪費につながりがちです。たとえば、ハンバーガーのレシピを知りたいだけなのに、わざわざ膨大なリソースを使う必要があるのでしょうか。複雑でない簡単な問いであれば、小さなモデルで十分に正確な回答が得られるでしょう。

実際にMicrosoft ResearchのAI研究チームが2023年6月に発表した「Phi-1」は、わずか13億パラメーターという小さなモデルですが、Pythonのプログラミングテストにおいて、1750億パラメーターを持つGPT-3.5を上回る成績を収めました[1]。 これは規模の追求ではなく、学習データを適切なものにすることで精度を飛躍的に上げられることを証明した事例と言えます。

また、この事例は精度に対する新たな気づきを与えてくれただけではありません。モデルを単純に拡張するのではなく、「オーバースペックなモデルの使用を避けつつ、特定の目的に特化した『専門家モデル』の利用こそが新たな合理的な選択肢となりつつある」ことも示唆しているのです。

合理的な次代のあり方「複合モデル」の登場

ここで登場するのが「複合モデル」という概念。個々のタスクに対して、最適な専門家モデルを選択し、必要に応じてそれらを組み合わせるという方向性です。各モデルが特定の分野で高いパフォーマンスを発揮することで、1つの大きな問いに対しても最良の回答を提供してくれます。

これを実現するためには、専門家モデル間の適切なルーティング、すなわち仕事の割り振りを行う「マネージャーモデル」の役割が極めて重要となります。このモデルこそが、各タスクに最適な専門家モデルを割り当てる。 つまり、LLMの「頭の良さ」を便宜的に示してきたパラメーター数というものは無意味化してしまうため、問題解決における概念そのものを探る必要が出てくるということです。

複合モデルの到来は、単に大きなモデルを追求するだけの時代に終わりを告げるものであり、効率と効果を最大限に引き出すための“合理的なシステム設計”へと目を向ける必要性を示しています。

産業界を悩ます「GPU不足」を新たな技術革新につなげる

ここまで検討してきたLLMの背後には、GPUという計算リソースへの強い依存関係が存在します。近年、GPUの不足が産業界では顕著な問題として扱われており、その影響は明確になっています。わかりやすく、下記のように具体的な一例で見ていきましょう。

深いコンテキストの理解(より長いプロンプトを入力できる仕組み)

そもそも技術的には、より長いプロンプトを処理できる技術開発は進んでいる一方で、GPUの供給不足により市場へのサービス導入が遅れている可能性があります。比較的短いプロンプト、たとえば100k程度の処理は2023年に一般的になるかもしれませんが、1000kレベルの処理は2024~2026年に延びると考えています。

ここで重要なのは、長いプロンプトの処理実現には、低レベルな検索技術との組み合わせでも、ある程度成り立つということです。つまり、長文をプロンプトに入れるという行為自体が不毛になる可能性があり、たとえば企業内のドキュメントにおける「検索結果」とLLMが連携して回答を導き出すような仕組みが発展していく可能性もあるでしょう。

実際、低レベルな検索技術との組み合わせにより、長いプロンプトをある程度処理できるような手法は開発されつつあります。同様のアプローチが有用だとすると、長いプロンプトの処理自体が必ずしも重要かつ必要ではないという新しい見解も現れています。これまでの重厚長大な方法に固執せず、プロンプトの長さと処理能力のバランスを見直すことで、より効果的な解決策が見つかるかもしれません。

前述したような企業内ドキュメント検索とLLMの連携といった明確なユースケースは有望であり、きっと発展することでしょう。もちろん、長いプロンプトの処理以外に、高度なファインチューニング、APIに対する速度上の懸念や安定性への課題なども出てきます。しかしながら総合的に考えたとき、GPUの不足はある意味で“テクノロジー開発というゲームの制約条件”であって、こうした制約を乗り越えるための新たな方法論やアプローチの開発が盛んになり、将来的な技術革新への道を拓いていく。このようにポジティブに捉えています。

オープンソースがLLMをリードする

こうした最先端の技術革新の舞台で忘れてはならないのが、オープンソースの力です。今後は、LLMにおいても「オープンソースLLM」の存在が急速に台頭し、業界全体の方向性を形作っていくことでしょう。

その理由の1つとして、現にITの世界を見たときにオープンソースソフトウェア(OSS)がセキュリティ課題を裏から支えるファクターとなっている点が挙げられます。企業のLLM導入のハードルは情報セキュリティに依るところも大きい中、従来の情報取り扱い規定を維持しながらも効率的に運用するにはOSSがLLMを取り込んでいくことが欠かせないでしょう。

また、オープンソースLLMのようなケースが増えるほど、OSSにおける機能開発の方向性が企業に与える影響は強くなります。企業ニーズがOSSに応じて変化していくため、OSS自体が業界全体の流れをリードしていき、どんどんと洗練されていき成熟期へと向かっていくことでしょう。ここで、もう少し細かな具体例として、「LoRa(Low-Rank Adaptation of Large Language Models)」[2]という興味深い仕組みを紹介します。

LoRaは、LLMを効率的にチューニングするための新しい手法で、計算コストと推論速度に起因する課題解消に役立つものです。数十億ものパラメーターを持つモデルを調整する際のメモリ消費を最適化しながらも、ファインチューニングと同様の推論速度を保持するためのメカニズムを持っています。

こうしたテクノロジーは、GPU不足の状況下、市場で先手を打つ可能性が高く、今後は特に注目されることでしょう。 LoRaはファインチューニングの効率的な代替手段となるだけでなく、前述した複合モデルとの相性も良いため、非常に重要な技術要素と言えるのです。将来的に普及が進むことで、周辺テクノロジーの進展を促していき、新たにLLMが応用できる領域を開拓していくとも考えられます。

まとめ

このように、LLMの開発における挑戦は多岐にわたりますが、これらの進展はただ単に技術の進歩を示すより深く、私たちの社会や文化、さらには人類の基本的な思考や理解に影響をもたらし始めています。つまり、私たちが今目撃している変化は、新しい時代の扉が開かれる瞬間に間違いありません。こうした時代に、作り手と使い手の正当なやり取りを促進し、未知への挑戦に勇気をもって取り組むこと。何より、私たち自身が未来を作るという意志を忘れてはなりません。

Original Post>