中国テック事情:GPT-4oだけじゃない中国語の訓練データ問題

この記事は米国版ニュースレターを一部再編集したものです。

音声、テキスト、映像を使ってやり取りできる新しい人工知能(AI)オムニモデルである「GPT-4o」の5月13日のリリースは、オープンAI(OpenAI)にとって晴れ舞台になるはずだった。しかし、それからわずか数日で、同社は大きな苦境に陥っているようだ。安全性チームの大半の辞任や、同意に反してこのAIモデル用に自分の声が複製されたというスカーレット・ヨハンソンの告発などから、オープンAIは現在、ダメージ・コントロール・モードに入っている。

加えて、オープンAIがGPT-4oでしくじったことがもう1つある。トークナイザー(モデルがテキストをより効率的に構文解析・処理できるように支援するツール)の訓練に使用したデータが、中国のスパムサイトによって汚染されていたのだ。その結果、このモデルの中国語トークン・ライブラリは、ポルノやギャンブルに関連するフレーズだらけになっている。このことによって、AIモデルによく見られるハルシネーション(幻覚)やお粗末な性能、誤用といったいくつかの問題がさらにひどくなる可能性がある。

複数の研究者やAI業界関係者がこの問題を指摘したことを受け、この件について記事にまとめた。研究者らは、GPT-4oの公開トークンライブラリを調べた。このライブラリは、英語以外の言語への対応を向上させるため、新しいモデルで大幅に更新されたものである。そして調査の結果、このモデルが持つ最も長い中国語トークン100個のうち、90個以上がスパムWebサイトから取得したものであることがわかった。それらの中国語トークンは、「無料で見られる日本人のポルノビデオ」や「北京レースカー賭博」「毎日中国福祉宝くじ」などといったフレーズである。

中国語を読める人なら誰でも、すぐにこの一連のトークンの問題に気づくかもしれない。このようなフレーズがいくつか訓練データセットに紛れ込むのは、しかたないことではある。ネット上ではアダルト・コンテンツの人気が高いからだ。しかし、モデルの訓練に使われた中国語の90%を占めているとは、どういうことだろうか?憂慮すべき事態である。

「1人の中国人として、見るのが恥ずかしいです。単に、(中国語の)データの質の問題なのでしょうか? データのクリーニングが不十分なせいなのか、それとも、中国語自体がそういうものなのでしょうか?」と、カーネギーメロン大学でコンピューター科学の博士課程に在籍する学生、ジェンヤン・ゲンは言う。

GPT-4oのためにオープンAIが選んでいるトークンから、ある言語や文化について1つの結論を導き出したくなるかもしれない。結局のところ、それらのトークンは、それぞれの言語によく見られる重要なフレーズとして選ばれているものだ。香港在住の研究者、ヘンリー・ルオが投稿した興味深いブログ記事がある。ルオはさまざまな言語の最も長いGPT-4oトークンを照会し、それらが異なるテーマを持っているように見えることを発見した。ロシア語のトークンには政府や公的機関に関する言葉が反映されている一方で、日本語のトークンには「ありがとう」のさまざまな言い方がたくさん含まれている。

しかし、これは文化や国の違いを反映しているというよりも、どのような種類の訓練データがオンラインで容易に入手できるのかということや、GPT-4oに入力するためオープンAIがクロールしたWebサイトについて説明しているのだと、私は考える。

記事を公開した後、カリフォルニア大学サンディエゴ校で政治学の教授を務めるビクター・シーが、Xで次のようにコメントした。「中国国営メディアのコンテンツで訓練しないようにしようとすると、こういう結果になります」。

半分は冗談だが、残りの半分は、大規模言語モデルに中国語を話すように訓練する際の2つの大きな問題に関する、真剣な指摘である。ネットで容易に入手できるデータが反映しているのは、中国に関して話をする方法として認可を受けた「公式な」ものか、あるいは、どこにでも存在して現実の会話を埋もれさせているスパム.・コンテンツのどちらかなのだ。

実際、GPT-4oが扱うポルノにもギャンブルにも関連しない少数の長い中国語トークンのうち、2つは「中国的な特徴を持つ社会主義」と「中華人民共和国」である。これらのフレーズの存在は、訓練データのかなりの部分が、実際に中国国営メディアの文章から取得されたものである可能性を示している。それらのメディアの文章は、形式的で長い表現であることが極めて一般的である。

オープンAIはこれまで、モデルの訓練に使用しているデータについて口を閉ざしてきた。おそらくこれからも、中国語訓練データベースのうち、どれだけの割合が国営メディアのもので、どれだけがスパムなのか、教えてくれることはないだろう(MITテクノロジーレビューはオープンAIへ詳細な質問を送ったが、返答はなかった)。

しかし、この問題に悩んでいるのはオープンAIだけではない。中国のAI業界で働く中国国内の人々も、LLM(大規模言語モデル)訓練用の中国語テキストデータセットに、質の高いデータが不足していることを認める。理由の1つは、中国のインターネットがかつて、そして概して今も、テンセント(Tencent)やバイトダンス(ByteDance)といった大企業によって分割支配されているからだ。それらの企業はソーシャル・プラットフォームのほとんどを所有しており、LLMを訓練するために競合他社や第三者とデータを共有することはない。

実は、グーグルを含め、検索エンジンが中国語での検索に関してはあまり強くない理由もここにある。ウィーチャット(WeChat)のコンテンツはウィーチャットでしか検索できず、ドウイン(Douyin=中国版ティックトック)のコンテンツはドウインでしか検索できないため、LLMはもちろん、サードパーティの検索エンジンも、データにアクセスできないのだ。しかし、それらのプラットフォームは、常にオンラインギャンブルに引き込もうとしているスパムWebサイトとは異なり、実際の人間同士が会話をしている場所である。

質の高い訓練データが不足していることは、GPT-4oのトークン訓練データでポルノや雑多な意味のないコンテンツを除去できなかったことよりも、はるかに大きな問題である。既存のデータセットがない場合、AI企業は独自のデータセットを特定し、調達し、収集・要約して、不適切なコンテンツや偏ったコンテンツを除去しなければならず、それには多大な労力を要する。

オープンAIがそんなことをしているようには見えない。どちらにせよ中国在住の人々が同社のAIモデルを使えない事実を踏まえれば、公平に言って理にかなっているように思える。

しかしそれでも、中国国外にいる多くの人々が、中国語でAIサービスを使いたいと考えている。そしてそれらの人々も、他の言語を話す人々と同じくらい、きちんと機能する製品を使う資格がある。


OpenAI’s latest blunder shows the challenges facing Chinese AI models

Leave a Reply