マイクロソフトのAI研究者、独自開発の軽量型言語モデルや医療のAI活用を語る

「AIフォーラム2023」が東京大学とMicrosoft Research Asiaにより開催された。両者はAIと社会・科学のシナジーを追求し、研究成果を共有した。グリーントランスフォーメーションやダイバーシティ&インクルージョン、AI研究の推進などが議論された。特に、Microsoftは新型AI「phi-1」、「phi-1.5」を開発し、これらはより小型ながら大型言語モデルと同等の性能を有することが明らかにされた。

Continue reading

AIチャットへの質問、1割近くが「性的な内容」–安全なAIを目指す研究者らの取り組み

研究者らは25言語の大型言語モデルを使い、100万件の会話を収集しデータベース化、10万件をランダムに抽出した。この内容から「安全ではない」トピックも存在していることが明らかになった。さらにOpenAIの技術を部分的に使用してタグ付けを行ったが、失敗もあった。この研究は既存のAIモデルの安全性を改善するための重要なステップとなる可能性が示された。

Continue reading

イーロン・マスクのBCIで「脳の高速通信」は実現できる?

イーロン・マスク所有のニューラリンク社が、脳に直接電極を取り付けることで人間のデータ転送速度を上昇させる技術の実験を開始しました。既存の技術の2倍の電極を有する「N1」のインプラントをボランティアのALS患者や脊髄損傷者に装着し、思考による外部機器の制御を試みます。マスクは長期的な目標として、通信速度を1000倍に引き上げることも提唱しています。

Continue reading

AIの次なる波「マルチビュー」–対象物を複数の視点から捉えて関連付ける利点と課題

いわゆるマルチビューとは、2つの異なる信号が、同じ対象物について違いはあっても共通して持っている情報を考慮することで、それらの信号を関連付ける方法のことだ。マルチビューは、世界の構造をより豊かに認識できるマシンへの道を開く可能性があり、「推論」と「計画」が可能なマシンという目標の達成に貢献するかもしれない。

Continue reading

大規模言語モデルの終焉と“小さなモデル”の台頭──GPU不足を打破する、複合モデルやOSSの発展へ

今、私たちの生活は前例のないペースで進化しています。その推進力となっているのが「AI」。中でも、LLM(大規模言語モデル)の出現は単なる技術の向上や効率化に留まらず、人々のコミュニケーション、考え方、社会全体の運営にまで影響を及ぼし始めています。このテクノロジーの背後にある課題と解決策に焦点を当てることで、私たちは未来への理解を深め、より良い世界を築くための道筋を見通すことができるのではないでしょうか。

Continue reading

ChatGPTのプラグイン【前半】

今回はChatGPT Plugin storeにある16個の人気プラグインのうち、主にコンテンツへのアクセスをサポートするものを7つ紹介します。また、ChatGPTとプラグインがどのような関係にあるかも理解しましょう

Continue reading

チャットGPTはどのように質の高い文章をつくっているのか

大規模言語モデル(LLM)は、まだ予測マシンの域を出ていない部分もあるが、人工知能(AI)が人間の意思決定を支援する方法を様変わりさせつつある。LLMの出現により、人間が判断を下す方法が大きく変わろうとしていからだ。では、LLMを使った対話型AIのチャットGPTはどのようにして、平均的な人間の書き手よりも質の高い文章をつくり出しているのか。

Continue reading

グーグル、「Duet AI」をクラウドセキュリティに統合

Googleは米国時間8月29日、サンフランシスコのモスコーニセンターで開催中の年次カンファレンス「Google Cloud Next」で、同社のクラウドおよびセキュリティソリューションの能力強化に重点を置く人工知能(AI)ベースの新たなソリューションを発表した。

Continue reading

Google DeepMind、ロボットの能力を引き上げるAIモデル「RT-2」を発表

 人工知能(AI)の進歩に伴い、かつてないほど多くのロボットやオートメーションを活用する未来が期待される。家の中をうまく移動するロボット掃除機や、動物のペットを楽しませてくれるロボットペット、週末の作業を代行してくれるロボット草刈り機など、それらは既に私たちの身の回りに存在する。私たちは、「宇宙家族ジェットソン」の世界を実際に生きる日々に少しずつ近づいているようだ。しかし、あれほど賢く見えるロボットにも限界というものがある。 提供:Andriy Onufriyenko/Getty Images Google DeepMindは、ロボット制御用のVLA(ビジョンランゲージアクション)モデル「RT-2」を発表した。ロボティクスの能力を実質的に数レベル引き上げるものだ。このシステムは、「ChatGPT」や「Bing」のトレーニングを支える大規模言語モデル(LLM)とほぼ同様に、インターネットからのテキストデータと画像でトレーニングされている。 私たちの家庭にあるロボットは、プログラムされた単純なタスクを実行できる。例えば、床を掃除するというタスクの場合、左側のセンサーが壁を検出すると、それを避けて移動しようとする。しかし、従来のロボット制御システムは、新しい状況や予期せぬ変化に対処するようにはプログラムされていない。また通常、同時に複数のタスクを実行できない。 RT-2は、時間が経つにつれて新しい状況に適応し、ウェブやロボティクスデータといった複数のデータソースから学習して言語と視覚的入力の両方を理解し、これまで遭遇したことのないタスクや実行するようにトレーニングされていないタスクを実行するように設計されている。 提供:Google DeepMind 従来のロボットの場合、球を拾うようにトレーニングすると、球は拾えるが立方体の拾い上げには苦戦する。RT-2には、球を拾うようにトレーニングされたロボットが、これまで見たことのない立方体やその他の形状の玩具を拾うために、自らの能力の限界を調整する方法を見出すことができるような、柔軟なアプローチが採用されている。 従来のロボットは、物体を物理的に認識してそれを拾い上げる方法を学習するために、数十億ものデータポイントを使った時間のかかる実世界のトレーニングが必要であるのに対し、RT-2は、大量のデータでトレーニングされており、その知識を行動に転換して、これまで経験したことのないタスクを実行できる。 「情報を行動に転換するRT-2の能力は、新しい状況や環境に、より迅速に適応するロボットが期待できることを示している」と、Google DeepMindのロボティクス責任者を務めるVincent Vanhoucke氏は述べた。「6000を超えるロボット試行実験でRT-2モデルをテストしたところ、RT-2が、トレーニングデータに含まれるタスクまたは『既知』のタスクに対して、当社の前モデルである『RT-1』と同等に機能することが分かった。その上で、初見の新しいシナリオに対する性能はほぼ2倍となっており、RT-1が32%であるのに対して62%だった」(同氏) ロボティックデータには存在せず、ウェブで事前学習した知識から転換する必要があるスキルの例 提供:Google DeepMind/ZDNET DeepMindチームは、2つの既存モデルである「Pathways Language and Image Model」(PaLI-X)と「Pathways Language Model

Continue reading

1 2 3 4 5