オープンソースがなければ、人工知能(AI)は存在しない。それは断言できる。議論の余地はない。
その根拠は、AIの起源が1960年代のオープン言語「Lisp」にあることだけではない。「ChatGPT」「Llama 2」「DALL•E」といった話題の生成AIモデルが、強固なオープンソースの基盤の上に構築されているからでもある。しかし、それらのモデルやプログラム自体はオープンソースではない。
Metaの最高経営責任者(CEO)であるMark Zuckerberg氏が、「Llama 3.1」を発表した「Threads」の投稿で述べた内容は知っている。同氏は「オープンソースAIこそが進むべき道」であり、Metaは「オープンソースAIを業界標準にするための次のステップを踏み出している」と語った。
「SIGGRAPH」の基調講演でNVIDIAのCEOのJensen Huang氏と対談したZuckerberg氏は、次のように認めている。
利他主義で(オープンソースを)追求しているわけではないが、それがエコシステムのためになると信じている。この取り組みを進めているのは、強力なエコシステムの構築によって、当社の製品が強化されると考えているからだ。利己的に聞こえるかもしれないが、この会社を築き上げてしばらくたった今、次の10~15年の目標の1つは、ソーシャル体験の基盤となるテクノロジーを確実に構築できるようにすることだ。
Zuckerberg氏はオープンソースに関して誠実だ。これまで何度も起きてきたように、オープンソースはテクノロジーを統合する手段となる。たとえば、現在使われているのは、統一された「Linux」であり、複数の互換性のない「UNIX」バージョンではない。これはLinus Torvalds氏がLinuxをGPLv2でオープンソース化したからだ。
しかし、筆者はMetaのLlama 2のライセンスとLlamaの利用規定にも目を通したが、これはオープンソースではない。全く違う。
だが、オープンソースをいい加減に扱っているのは、Zuckerberg氏だけではない。社名を見ると、OpenAIの製品はオープンソースだと思うだろう。「GPT-1」と「GPT-2」が最先端だったときは確かにオープンだった。それは遠い昔、莫大な額の売り上げが発生していなかった頃の話だ。「GPL-3」以降、OpenAIは扉を閉ざしてしまった。
オランダのナイメーヘンにあるラドバウド大学の言語科学者Mark Dingemanse氏がNatureの記事で語ったように、「一部の大企業は、オープンソースモデルを採用したと主張しつつ、『可能な限り情報を公開せずに済まそう』とすることで、利益を得ている」
実際に、Dingemanse氏と同僚のAndreas Liesenfeld氏が発見した、真にオープンといえるAIチャットボットは、Hugging Faceがホストしている大規模言語モデル(LLM)「bigscience/bloomz」だけだ。
オープンLLMの候補は他に「Falcon」「FastChat-T5」「OpenLLaMA」がある。だが、ほとんどのLLMに、プロプライエタリーな情報や著作権で保護された情報、所有者が開示しない未知の情報が含まれている。電子フロンティア財団(EFF)が指摘したように、「得られた出力を安易に信じるべきではない」
現在、AIの原動力となっている革新的なソフトウェアの多くはオープンソースだ。「TensorFlow」は汎用性の高い学習フレームワークであり、複数のプログラミング言語をサポートし、機械学習に使用される。「PyTorch」は、すぐに思い浮かぶような深層学習アプリケーションでの動的な計算グラフと使いやすさで人気がある。
LLMと、それを基に構築されるプログラムは、状況が異なる。人気の高いAIチャットボットとプログラムはすべてプロプライエタリーだ。
では、なぜ企業は自社のプロジェクトをオープンソースだと主張するのだろうか。自社の取り組みを「オープンウォッシング」することで、透明性、コラボレーション、イノベーションといったオープンソースの肯定的な意味合いで自社プログラムを飾り立てたいからだ。また、開発者を言いくるめて、自社プロジェクトの推進を手伝わせたいという思惑もある。すべてはマーケティングだ。
AIプログラムに適したオープンソースの定義を考案し、このような見せかけの取り組みをただちに阻止する必要があることは、はっきりしている。残念ながら、それは言うほど簡単ではない。
何がオープンソースコードで何がそうでないのかという細かな点で、激しい議論が続いているが、Open Source Initiative(OSI)はその定義である「Open Source Definition」(OSD)を約20年前に確定している。オープンソースとAIの融合は、それよりもはるかに複雑だ。
むしろ、ベンチャーキャピタリスト(VC)企業FOSS Capitalの創設者であるJoseph Jacks氏は、「オープンソースAIというものは存在しない」と主張しており、その理由について「オープンソースはソフトウェアのソースコードという明確な目的のために発明された」からだと述べている。
そのとおりだ。さらに、オープンソースの法的根拠は著作権法である。Jacks氏は次のように指摘した。「(AIに不可欠な)ニューラルネットの重み(NNW)は、ソフトウェアのソースコードではない。人間には読めず、デバッグも不可能なものだ」
OSIのエグゼクティブディレクターであるStefano Maffulli氏が筆者に語ったように、AIにはソフトウェアとデータが混在しているため、既存のオープンソースライセンスが崩壊しつつある。具体的には、それらすべてのデータとコードがAI/MLの成果物(データセット、モデル、重みなど)で統合されると、問題が発生する。「そのため、オープンソースAIの新しい定義を策定する必要がある」とMaffulli氏は述べた。
しかし、それを成し遂げるのは簡単ではない。主な論点は、特に訓練データに関して求められるオープン性の程度だ。事前訓練済みモデルを訓練データなしで公開すれば十分だという主張もあるが、真のオープンソースAIには訓練データへのアクセスも含めるべきとの意見もある。
Amazon Web Services(AWS)のオープンソースAI/MLストラテジストであるjulia ferraioli氏(同氏は名前をすべて小文字で表記する)がブログ投稿で指摘したように、OSIの「Open Source AI Definition」の最新の草案である第0.0.8版では、「『オープンソースAI』に分類されることを望むシステムが公開しなければならないデータの側面は、訓練の方法論と手法、訓練データの範囲と特性、訓練データのソース(データの取得方法と選択方法を含む)、訓練データのラベル付け手順、訓練データのクリーニング方法だけだ」
このようなデータはどれも、「AIシステムの採用を検討している人に対して、システムの訓練に使用されたデータについての洞察を与えるものではない」とferraioli氏は続けた。このデータがないAIをオープンとみなせるのか。それはできない、とferraioli氏は主張する。
そのような立場をとるのはferraioli氏だけではない。同氏はAWSの同僚でプリンシパル・オープンソース・テクニカル・ストラテジストを務めるTom Callaway氏が執筆した内容を引用した。「そのデータをオープンにするよう求めなければ、データを持たない人には、LLMの本格的な研究や変更、ソースコード全体の配布ができない。LLMの使用や、ちょっとした調整ができるだけで、深く掘り下げて、なぜそのような仕組みになっているのかを理解することはできない」
同氏の指摘は的を射ている。本質的に、オープンソースとはコードを理解できることだ。AIの場合は、データも理解できる必要がある。Maffulli氏は先頃、国際連合(UN)の「OSPOs for Good」カンファレンスで次のように述べた。「包括的な原則については広く合意が得られているが、問題は細部に宿るということが明らかになりつつある」。全く同感だ。
同カンファレンスでは、Hugging FaceのAIおよび気候担当リードのSasha Luccioni氏が次のように主張した。「オープンソースライセンスの定義に照らすと、すべての企業が100%オープンソースになることは期待できそうにない。自社の収益源をすべて手放し、それを快く行うということを期待してはならない」
それでもLuccioni氏は、「責任あるAIライセンスは実現可能だ」と考えている。それは、オープンソースに友好的で、オープンソースの条件を定義できるライセンスだ。文言を少し調整することで、企業、政府、学界が納得できる形で前に進めるようになり、このプロジェクトやライセンスはオープンソースではない、といった議論がなくなる可能性がある。
オープンソース支持者は同氏の意見に反対した。この議論はまだ何年も続きそうだ。
OSIは、研究者、弁護士、政策立案者、活動家、そしてMeta、Google、Amazonなどの大手テクノロジー企業の関係者や、The Linux Foundation、Alfred P. Sloan Foundationといった組織の関係者など、70人の協力者とともに、実用的な定義の策定に取り組んでいる。目標は、米国時間10月27~29日にノースカロライナ州ローリーで開催される次回の「All Things Open」カンファレンスで、Open Source AI Definitionの安定版を発表することだ。
筆者は同カンファレンスに参加する予定なので、楽しみにしていてほしい。オープンソースの原則とAI開発の組み合わせが、大きな進歩を後押ししている。これは、イノベーションの加速、共同作業の促進、強力なAIツールへのアクセスの民主化を実現するものでもある。しかし、その進化は長く困難なプロセスになるはずだ。
Enjoyed this article? Sign up for our newsletter to receive regular insights and stay connected.
