自動運転にもLLM革命、チャットで賢くなるAIドライバー

自動運転車のスタートアップ企業であるウェイヴ(Wayve)は、自社の車両に尋問をしている。運転時の決定について問いかけ、答えさせているのだ。「チャットGPT(ChatGPT)」と同じ技術を、無人乗用車の訓練に役立てようというアイデアだ。

ウェイヴは既存の自動運転ソフトウェアと大規模言語モデルを組み合わせて、「リンゴ-1(LINGO-1)」というハイブリッド・モデルを開発している。LINGO-1は映像データと運転データ(秒単位での車の動き)を、車からの景色や車の動きについての自然言語の記述と同期させる。

英国に拠点を置くウェイヴは、この数年で次々にブレークスルーを起こしてきた。2021年には、ロンドンの通りで訓練した人工知能(AI)を使って、英国の他の4つの都市で自動車を運転できることを示した。これは通常、膨大な再設計が必要とされる課題である。2022年には同じAIで、2種類以上の車両を運転させることに成功した。これも業界初のことだ。そして今回ウェイヴは、自動車とチャットができるようにしたのである。

筆者は先日、ウェイヴにデモを見せてもらった。ジャガー「I-PACE」の車載カメラで撮影した映像を再生していたアレックス・ケンドール最高経営責任者(CEO)は、映像内のランダムな位置へと飛び、チャットロボに質問をタイピングし始めた。すると自動車は答える。
「今日の天気はどうですか?」——曇りです。
「どんな危険が見えますか?」——左に学校があります。
「なぜ停まったのですか?」——赤信号だったからです。
といった具合だ。

「この数週間で、いくつか注目すべき成果が出ています」とケンドールCEOは話す。さらに、「こんな質問をしようとは考えもしませんでしたが、でも見てください」と言い、次のようにタイピングした。
「右にある建物は何階建てですか?」——3階建てです。

「これを見てください!」 ケンドールCEOは子どもを自慢する父親のように言う。「こんな風に答えを返すように訓練したわけではありません。本当に驚きました。私たちはこれをAIの安全性に関するブレークスルーだと考えています」。

「LINGO-1の能力には感心しています」と、カリフォルニア大学バークレー校のロボット工学研究者、ピーター・アビール教授は話す。アビール教授はロボット工学企業コバリアント(Covariant)の共同創業者で、LINGO-1のデモを体験したことがある。同教授は、LINGO-1に対して「青信号だったらどうしますか」といった「もしも」の質問をしたところ、ほぼ毎回、非常に正確な答えを返したと言う。

ウェイヴは自動運転ソフトウェアのすべての段階において質問を投げかけることで、なぜ、どのようにして車両が特定の決定を下しているのかを正確に理解できるようになると考えている。大半の場合、自動運転車の運転は順調だ。ただ、この産業の先端を行くクルーズ(Cruise)やウェイモ(Waymo)といった企業がわかっているように、順調でない時が問題なのだ。

クルーズとウェイモは、米国のいくつかの都市で少数のロボタクシーを展開してきた。だがこのテクノロジーは完璧には程遠い。クルーズとウェイモの車両は複数回に渡って軽度な衝突(ウェイモは犬1匹が死亡したと報告している)や、立ち往生して交通の妨げになる事態を引き起こした。8月にサンフランシスコ市は、クルーズの車両2台が怪我人を乗せた救急車の走行を妨げ、この怪我人が後に病院で死亡したと主張した。クルーズは市の説明を否定している。

ウェイヴは自社の車両が間違いを犯した時、その行動を説明させることで、記録映像を細かく調べたりエラー報告を遡ったりするだけよりもすばやく欠陥を見つけられるようになると期待している。

「自動運転の最も重要な課題は安全性です」と、アビール教授は語る。「LINGO-1のようなシステムなら、実世界での運転をどれだけうまく理解できているかについて、私たちの理解が大幅に向上すると思います」。自然言語での受け答えによって、弱点の特定が容易になると言うのだ。

次の段階は、言語を用いて車両を教育することだとケンドールCEOは言う。ウェイヴはLINGO-1を訓練するために、専門のドライバー・チーム(そのうち数人は教習所の元教官だ)に、運転しながら自分が何をしているのか、そしてその理由を大きな声で説明させた。なぜ加速したのか、なぜ減速したのか、どんな危険を認識していたのか、といったことだ。ウェイヴはこのデータを用いてLINGO-1を微調整し、教習所の教官が人間の受講者にするように、運転のヒントを与えた。自動車に何らかの行動の方法を教えることは、単にそれを見せるだけの時よりも訓練の速度を大幅に加速させられるとケンドールCEOは言う。

ロボット工学に大規模言語モデルを用いるのはウェイヴが初めてではない。グーグルや、アビール教授のコバリアントなどの企業も、自然言語を用いて家庭用あるいは産業用ロボットに質問や指示をしている。このハイブリッド・テクノロジーには、「視覚言語行動モデル(VLAMs)」という名前まで付いている。だが、VLAMsを自動運転に用いるのはウェイヴが初めてだ。

「百聞は一見に如かずとよく言われますが、機械学習においてはその逆なのです」と、ケンドールCEOは話す。「わずか数語が画像1000枚分の価値を持つこともあります」。1枚の画像には不要なデータが大量に含まれている。「人が運転している時は、空や前を走っている車の色みたいなことは気にしません」と同CEOは言う。「言葉によって、重要な情報にフォーカスできるようになります」。

「ウェイヴのアプローチが興味深く独特なものであることは間違いありません」と、ニューヨーク大学のロボット工学研究者であるレレル・ピント助教授は話す。ピント助教授は特に、LINGO-1の行動の説明の仕方が気に入っているという。

だが、ピント助教授は、LINGO-1がでっち上げを言ったら何が起こるか気になるという。「私は、大規模言語モデルが事実に基づいたことを言っているとは思っていません。大規模言語モデルを信用して自分の車の運転を任せられるかどうかはわかりません」。

ジョージア工科大学の研究者で、AIに自らの意思決定を人間に説明させる方法を研究しているウポル・イーサンも同様の懸念を抱いている。「有り体に言ってしまえば、大規模言語モデルはとんでもないほら吹きです。私たちははっきりとわかりやすい『警告』テープを貼り付けて、大規模言語モデルの言うことに騙されないようにする必要があります」。

ウェイヴはこうした限界をよく理解しており、LINGO-1をできる限り正確なものにしようと取り組んでいる。「私たちもあらゆる大規模言語モデルと同じ課題に直面しています」と、ケンドールCEOは話す。「完璧でないことは確かです」。

他の非ハイブリッド・モデルに対するLINGO-1の優位性の1つは、反応が付随する映像データに裏付けられている点にある。理屈の上では、この仕組みによりLINGO-1がより誠実であるということになる。

これは自動車だけの話ではないとケンドールCEOは言う。「あなたと私が進化した言語を使っているのには理由があります。それは、複雑な話題についてコミュニケーションするにあたって、私たちの知る中でこれが最も効率的な手段だからです。それは知能機械にとっても同じことだと考えています。私たちが将来ロボットと交流する際は、言語がその手段になるでしょう」。

アビール教授も同意する。「視点を引いて大きく捉えれば、私たちはロボット工学における革命を目の当たりにしようとしているのだと思います」。

This driverless car company is using chatbots to make its vehicles smarter