Google DeepMind、ロボットの能力を引き上げるAIモデル「RT-2」を発表

 人工知能(AI)の進歩に伴い、かつてないほど多くのロボットやオートメーションを活用する未来が期待される。家の中をうまく移動するロボット掃除機や、動物のペットを楽しませてくれるロボットペット、週末の作業を代行してくれるロボット草刈り機など、それらは既に私たちの身の回りに存在する。私たちは、「宇宙家族ジェットソン」の世界を実際に生きる日々に少しずつ近づいているようだ。しかし、あれほど賢く見えるロボットにも限界というものがある。 提供:Andriy Onufriyenko/Getty Images Google DeepMindは、ロボット制御用のVLA(ビジョンランゲージアクション)モデル「RT-2」を発表した。ロボティクスの能力を実質的に数レベル引き上げるものだ。このシステムは、「ChatGPT」や「Bing」のトレーニングを支える大規模言語モデル(LLM)とほぼ同様に、インターネットからのテキストデータと画像でトレーニングされている。 私たちの家庭にあるロボットは、プログラムされた単純なタスクを実行できる。例えば、床を掃除するというタスクの場合、左側のセンサーが壁を検出すると、それを避けて移動しようとする。しかし、従来のロボット制御システムは、新しい状況や予期せぬ変化に対処するようにはプログラムされていない。また通常、同時に複数のタスクを実行できない。 RT-2は、時間が経つにつれて新しい状況に適応し、ウェブやロボティクスデータといった複数のデータソースから学習して言語と視覚的入力の両方を理解し、これまで遭遇したことのないタスクや実行するようにトレーニングされていないタスクを実行するように設計されている。 提供:Google DeepMind 従来のロボットの場合、球を拾うようにトレーニングすると、球は拾えるが立方体の拾い上げには苦戦する。RT-2には、球を拾うようにトレーニングされたロボットが、これまで見たことのない立方体やその他の形状の玩具を拾うために、自らの能力の限界を調整する方法を見出すことができるような、柔軟なアプローチが採用されている。 従来のロボットは、物体を物理的に認識してそれを拾い上げる方法を学習するために、数十億ものデータポイントを使った時間のかかる実世界のトレーニングが必要であるのに対し、RT-2は、大量のデータでトレーニングされており、その知識を行動に転換して、これまで経験したことのないタスクを実行できる。 「情報を行動に転換するRT-2の能力は、新しい状況や環境に、より迅速に適応するロボットが期待できることを示している」と、Google DeepMindのロボティクス責任者を務めるVincent Vanhoucke氏は述べた。「6000を超えるロボット試行実験でRT-2モデルをテストしたところ、RT-2が、トレーニングデータに含まれるタスクまたは『既知』のタスクに対して、当社の前モデルである『RT-1』と同等に機能することが分かった。その上で、初見の新しいシナリオに対する性能はほぼ2倍となっており、RT-1が32%であるのに対して62%だった」(同氏) ロボティックデータには存在せず、ウェブで事前学習した知識から転換する必要があるスキルの例 提供:Google DeepMind/ZDNET DeepMindチームは、2つの既存モデルである「Pathways Language and Image Model」(PaLI-X)と「Pathways Language Model

Continue reading

GPTで始まる大規模言語モデル時代

AIは既に顔認証や音声認識、翻訳などさまざまな分野で実用化されていますが、ChatGPTの出現により自然言語処理能力についても十分実用レベルに到達していることが広く認識されました。それどころか、あまりにも急速に賢くなっていて、いったいどこまで行くのだろうと不安視する声も聞こえてきます。

Continue reading

短編映画を独占公開:生成AIは映像制作をどう変えるか?

『ザ・フロスト(The Frost)』は、不気味で不穏な雰囲気を最初の数ショットで印象付ける。氷に覆われた広大な山々、軍用テントの仮設キャンプ、火を囲んで身を寄せる人々、吠える犬たち。見慣れたもののはずなのに、大きくなっていく不安の種を植え付けるには十分な異様さだ。何かが変なのだ。

Continue reading

1 3 4 5