Microsoft Research Asiaと東京大学は、東京大学安田講堂で「AI Forum 2023」を開催した。「AIシナジー:科学と社会」をテーマに、両者の専門家がAI研究の取り組みや成果を共有するとともに、AIと社会、科学とのシナジーを探ることを目的にしている。
両者は、2023年8月にグリーントランスフォーメーションやダイバーシティ&インクルージョン、AIの研究の推進に向けた連携で基本合意書を締結、。研究を通じて、社会への貢献を果たすとともに、学生の育成にも取り組む方針を示している。今回のイベントは、この連携に基づいて開催した。また、Microsoft Research Asiaは中国・北京および上海を拠点として1998年に設立され、25周年の節目を記念したイベントでもあった。
東京大学 総長の藤井輝夫氏
東京大学 総長の藤井輝夫氏は、「10年ほど前にAIが新たな船出を迎えた。大きな改善が繰り返されてきたが、それに終わりはない。AIという船は、世界中の海を航行できるようになり、一部のAIは未知の大陸に到着して探索し始めた。どれほど広大な世界か。何が生息し、隠された宝があるのか、どんな危険が潜んでいるのかも分からない。このAIフォーラムは、そこに挑む探検家たちに無限の可能性を示してもらう場」と語った。
また、東京大学は、画像解析や音声認識、自然言語処理、ロボットといった観点からAIの研究を行うだけでなく、AIを物理学や医学、生物学、社会科学と統合することなどにも取り組んでいるという。藤井学長は、「対話とは、話したり情報交換したりするだけでなく、未知のことを知る行為でもある。未知を既知に変えるには質問が不可欠。対話を通じて他者と共に考え、信頼関係を構築できる。東京大学は、Microsoft Researchと対話を重ね、長期にわたりAI研究を進歩させ、さまざまな分野と統合するきっかけをつくりたい」と述べた。
Microsoft コーポレートバイスプレジデント Microsoft Research & Incubations担当のPeter Lee氏
まずMicrosoft Researchを率いる米Microsoft コーポレートバイスプレジデント Microsoft Research & Incubations 担当のPeter Lee氏は、「医療用AIの出現」と題して講演した。「私たちは、生成AIについて多くを学んできたが、それでもまだ分からないところが多い。医療分野を変革する可能性がある一方、リスクもあり限界もある。生成AIを正しく理解することが、医療分野では大切だ」と切り出した。
Lee氏の講演でユニークなのは、生成AIを理解してもらうための方法として、日本の人気アニメ「アンパンマン」を題材にして見せた点だ。
「GPT-4」などの生成AIは、アンパンマンのキャラクターの特徴やストーリーに関する質問については、公開情報から答えを引き出すことができ、得意とする分野であるとした。「このアニメが人生について何を教えてくれるのか?」という質問に対しても、生成AIは、「キャラクターの多様性、社会における協調性などの大切さを教えてくれる」といった回答ができることを、GPT-4によるデモストレーションを通じて示した。

しかしLee氏は、「論理的な答えをするのは生成AIの得意な部分であり、人を超えることができるが、生成AIがオリジナルの考え方を述べたものではないことに注意しなくてはならない」と指摘した。さまざまなアイデアをまとめた結果として出てきたもので、オリジナリティーがない部分は、人間とは異なる部分だとする。「私たちは、どこにオリジナリティーがあるのか、どんなプロセスでそのAIの回答が導き出されるのか理解するための努力をしている」と語った。
またLee氏は、「AIにも限界があることを認識しなくてはならない。完全な能力や知識があると思い込んでしまいがちだが、生成AIは、正しい計算結果を出すコンピューターとは異なり、新たなタイプのマシンであると認識した方がいい」などとした。その上で、医師や看護師が生成AIを医療で使用する際には、生成AIが得意とする部分と限界を正しく理解する必要があり、生成AIが高度なコミュニケーション機能を持つことから、治療プランを詳細に説明したり、患者にどう話していいか迷う時などに活用したり、患者がセカンドオピニオンを聞くために生成AIを利用したりできる例などを示した。
Microsoftは、生成AIに関してOpen AIとの連携などを通じて、GPT-4などを用いた大規模言語モデル(LLM)を中心に訴求してきた。だが、軽量なLLMで13億パラメーターの「phi-1」および「phi-1.5」を開発している。Bubeck氏は、講演でこれらMicrosoft独自の軽量なLLMに言及した。
Microsoftの本社がある米国レドモンドの研究所からオンラインで参加したBubeck氏は、「phi-1は軽量版LLMの最初の試みであり、20数人のチームメンバーで開発した。(1750億パラメーターの)『GPT-3』よりはるかに小型で、自然言語の指示に従いコードを作成できる。これは、10倍のモデルサイズで100倍のデータでトレーニングしたものと同じ性能を発揮している。phi-1.5はphi-1と同じ13億パラメーターのサイズであり、機械学習に必要な『常識推測』を採用した。30倍のデータでトレーニングされたものと同性能を発揮できる」と説明した。

マイクロソフトは13億パラメーターの「phi-1」および「phi-1.5」を開発している

phi-1.5の概要。phi-1.5-webと呼ぶウェブデータを追加した別のモデルも用意している
Bubeck氏は、アラブ首長国連邦で開発された「Falcom-7B」や米Metaの「LLaMA 2-7b」では、質問内容によっては社会的常識から外れた回答をするのに対し、phi-1.5では、人の思考や感情を予想した常識的な回答をすることができると解説。「phi-1.5の特徴は、単にウェブ情報などで学習するのではなく、教科書にあるような正確性が高く質の高い情報で学習している点で、ウェブデータは学習に一切使用していない。それが回答結果の違いになる」とした。
ここではGPT-4を活用し、教育の観点から「価値がある」と判断して抽出した一部のデータを利用していることを明らかにしたほか、「GPT-3.5」を活用して合成データセットを生成したり、あるいは「The Stack」データセットを活用してトレーニングしたりすることにより、コストを削減しながら質の高いデータでトレーニングしていることも示した。
Bubeck氏は、「1兆トークンのデータをそのまま利用するのではなく、わずか70億トークンの質の高いデータで学習できるようにしたほか、phi-1.5は8基のGPUで安価に構築でき、20日間かけて学習できる。軽量モデルならではの特徴も生かしている」と語った。
コーディングのベンチマークは、phi-1のモデルサイズやデータセットサイズ(トークン)が圧倒的に小さくても、「HumanEval」は50.6%の高水準を達成しており、GPT-3.5の47.0%も上回っているという。「これまでとは全く異なった水準の結果が出ている」とBubeck氏は胸を張った。
phi-1はモデルサイズやデータセットサイズ小さくても高いパフォーマンスを発揮している※クリックすると拡大画像が見られます
また、「phi-1.5-web」と呼ぶウェブデータを追加した別モデルも用意しながら、常識に基づく非合成データの重要性をテストするなどの取り組みもしているとのこと。ここでは、phi-1.5-webやphi-1.5が、常識推論や自然言語の理解などの項目において、10倍以上サイズが大きいLLMより高性能を記録していることも強調した。
Bubeck氏は、「教科書レベルのデータを基に学習しているのがphi-1とphi-1.5であり、モデルサイズは小さく、データサイズも小さいながら、10倍も100倍も大きいサイズのLLMに匹敵する高性能を実現している。ぜひ直接比較してほしい」と述べ、講演を締めくくった。
ZDNET Japan 記事を毎朝メールでまとめ読み(登録無料)
Enjoyed this article? Sign up for our newsletter to receive regular insights and stay connected.

Falcom-7BやLLaMA 2-7bでは、質問内容によって、社会的常識から外れた回答をするが、phi-1.5では人の思考や感情を予想した常識的な回答ができる
ほかの大規模言語モデルよりも高い性能を発揮していることを強調した