OpenAI、最新モデル「GPT-5.2」を発表–「Gemini 3」「Opus 4.5」など競合を凌駕できるか

OpenAIは米国時間12月11日、最新モデル「GPT-5.2」を公開した。同モデルはプロフェッショナルレベルのスキルに匹敵する性能を備えているとみられる。

同社は、GPT-5.2を「プロフェッショナルなナレッジワークにおいて、これまでで最も有能なモデルシリーズ」と評価した。同社が最近実施した職場でのAI利用に関する調査によると、AIは平均的な労働者に1日当たり最大1時間の時間短縮をもたらしているという。GPT-5.2は、この効果をさらに拡大することを目的に設計されたとみられる。

「われわれは、人々のために、より大きな経済的価値を引き出すようGPT-5.2を設計した。具体的には、スプレッドシート作成、プレゼンテーション構築、コード記述、画像認識、長文コンテキスト理解、ツール活用、複雑な多段階プロジェクトの処理において、従来モデルより優れている」

なお、The Informationによると、OpenAIはGoogleやAnthropicが競合モデルの「Gemini 3」「Claude Opus 4.5」を発表したことを受け、GPT-5.2の開発を急いだと報じられている。

業務タスク向けに特化

OpenAIは、GPT-5.2が「44の職種にわたる明確に定義されたナレッジワークタスクにおいて、業界のプロフェッショナルを上回る」と説明した。同社が9月に公開した社内ベンチマーク「GDPval」では、AIモデルが生み出す経済的価値を測定する試みが示されている。GDPvalは、米国の国内総生産(GDP)の5%以上に貢献する9業界にわたる44職種に共通する1320タスクに対し、モデルの対応力を評価するものだ。

この評価で、「GPT-5.2 Thinking」は70.9%のスコアを獲得した。「GPT-5.1 Thinking」の38.8%と比べて大幅に向上しており、スプレッドシートやプレゼンテーション作成など典型的なナレッジワークタスクで優れた性能を示した。

OpenAIは「GPT-5.2 Thinkingは、GDPvalタスクに対するアウトプットを専門家の11倍以上の速度、1%未満のコストで生成した」と述べている。この結果は、人間による監視と組み合わせることで、GPT-5.2がプロフェッショナル業務を支援できることを示唆する。同社によると、専門家の評価では、このモデルのアウトプットは「専門スタッフがいる企業の作業」と比較され、軽微なエラーはあったものの高水準だったという。

OpenAIはGDPvalと併せて、Anthropicの「Claude Opus 4.1」、Googleの「Gemini 2.5 Pro」、xAIの「Grok 4」など競合モデルのパフォーマンスも公表した。この結果、総合首位はClaude Opus 4.1で、ドキュメントの書式設定やスライドレイアウトなど美的要素を伴うタスクで強みを発揮した。一方、GPT-5は正確性、すなわちOpenAIが「ドメイン固有の知識の発見」と呼ぶ分野で高スコアを記録した。

さらにOpenAIは、GPT-5.2の長文コンテキスト推論能力と視覚認識能力の向上にも言及した。長文推論は、プロフェッショナルがレポートや契約書を分析する際の正確性維持に寄与し、視覚認識は図表やダッシュボード、スクリーンショットなどのデータ解釈精度を高めるという。

同社は「GPT-5.2 Thinkingは、画像内の要素配置をより正確に把握し、レイアウトが問題解決のカギとなるタスクで有効」と説明した。また、低品質画像でもバウンディングボックスを識別でき、GPT-5.1より「空間配置」の理解が深まったことを示す事例も提示している。

コーディングの熟達

GPT-5.2は、数学的思考を測定する「AIME 2025」や、4言語でソフトウェアエンジニアリングを評価する「SWE-Bench Pro」など、複数の業界標準ベンチマークでGPT-5.1 Thinkingからの改善を示した。特にSWE-Bench Proでは55.6%を記録し、新たな最先端スコアを達成した。

OpenAIによると、この向上は本番コードのデバッグや機能実装の精度を高め、開発者による手動介入を減らした修正の展開につながるという。同社はさらに、GPT-5.2のフロントエンド能力の強化を強調し、複雑または非従来型のUI作業や3D要素における性能改善をアピールした。

ハルシネーションの減少

OpenAIは発表で、GPT-5.2 Thinkingのハルシネーション(幻覚)がGPT-5.1 Thinkingと比べて30%減少したと指摘した。同社は、この改善により企業ユーザーが研究や分析でモデルを利用する際の誤りへの懸念が軽減されると述べている。

 ただし、ハルシネーションのリスクはどのAIモデルでも避けられない現実である。そのため、モデルの正確性スコアが先行モデルから改善されたとしても、ユーザーは提示された情報を全て再確認する必要がある。

安全対策

 OpenAIは発表で、機密性の高い会話への対応方法についてGPT-5.2をより厳密にトレーニングしたことを強調した。その結果、「GPT-5.1およびGPT-5 Instant、Thinkingモデルと比較して、GPT-5.2 InstantとGPT-5.2 Thinkingの両方で望ましくない応答が減少した」という。

 同社はさらに、モデル全体に関して「自殺や自傷行為の兆候、精神的な苦痛、またはモデルへの感情的な依存を示すプロンプトへの対応方法に、実質的な改善」が施されたと述べた。

加えて、OpenAIは年齢予測モデルの展開を進めているとし、これは「18歳未満のユーザーに対して、機密性の高いコンテンツへのアクセスを制限するため、コンテンツ保護を自動的に適用する」ものだと説明した。

今回の発表には、前述の4モデルに関するメンタルヘルス評価表も含まれていた。評価手法は明記されていないものの、各モデルのスコアが0から1のスケールで示されている。

利用方法

GPT-5.2は、Instant、Thinking、Proという各タスク向けのバージョンを持つOpenAIモデルファミリーの通常の展開に沿い、11日から有料のChatGPTユーザーへの提供が開始される。開発者は現時点で、API経由で3バージョン全てにアクセスできる。

Plus、Pro、Business、Enterpriseの各ユーザーは、ThinkingまたはProモードを選択することで、スプレッドシート作成やプレゼンテーション作成などの機能を利用可能だ。

GPT-5.2は既存モデルを置き換えるのか

OpenAIは発表で、ユーザーに対し「現在、APIでGPT-5.1、GPT-5、またはGPT-4.1を非推奨にする計画はない」と明言し、「非推奨化の計画がある場合は、開発者に十分な事前通知を行う」と保証した。また、新しいモデルは「Codex」環境でも問題なく動作するが、数週間以内に同環境向けに最適化されたバージョンをリリースする予定だと付け加えた。

これは、OpenAIが今夏にGPT-5をリリースした際、GPT-4を含む旧モデルが一時的に非推奨となり、ユーザーから否定的な反応があったことを踏まえたものとみられる。

謎のモデル「Garlic」

The Informationの先ごろの報道により、OpenAIがコードネーム「Garlic」と呼ばれる新モデルを開発していることが明らかになった。

GarlicとGPT-5.2がどの程度独立したモデルなのかは不明だが、The InformationはGPT-5.2および今後リリース予定の「GPT-5.5」をGarlicの派生バージョンとして言及している。同報道によると、GPT-5.2のリリースに先立ち、OpenAIの最高研究責任者(CRO)であるMark Chen氏は、Garlicが社内評価でコーディングや推論を伴うタスクにおいてGemini 3やOpus 4.5と比較して良好なパフォーマンスを示したと同僚に伝えたという。ただし、Gemini 3とOpus 4.5は、GPT-5.2の性能報告書におけるベンチマーク比較では言及されていない。

Chen氏はGarlicの開発に当たり、モデルが大規模データセットから学習を開始する事前学習に関する課題にOpenAIが対応したと説明した。同社は、より具体的なタスク向けトレーニングに移行する前に、モデルが広範な関連性に焦点を当てるよう調整したという。

報道で引用されたChen氏の発言によると、この事前学習の改善により、OpenAIは従来大型モデルに限定されていた知識量を小型モデルにも注入できるようになった。小型モデルは安価で展開しやすく、開発者にとって有益である。この点は、フランスのAIスタートアップMistralが先ごろのリリースで強調した内容とも一致する。

OpenAIにとっても、小型モデルは構築と展開のコストを抑えられる。なお、The Informationの過去の報道によれば、Garlicは最高経営責任者(CEO)のSam Altman氏が10月にスタッフへ発表したモデル「Shallotpeat」とは別物である。Shallotpeatも事前学習プロセスにおけるバグ修正を目的としていたという。

Garlicの登場時期について、Chen氏は「できるだけ早く」と述べるにとどめ、詳細は明らかにしなかった。同氏によると、Garlicの開発で得られた知見は、OpenAIが次の、より大規模で高性能なモデルの開発へ移行することを可能にしているという。

ユーザー獲得競争

GoogleとOpenAIの間で激しい競争が続いている背景には、両社が同じ消費者市場をめぐって争っている構図がある。

AnthropicのCEOであるDario Amodei氏は、先日開催された米国の「The New York Times DealBook Summit」で、ジャーナリストのAndrew Ross Sorkin氏との対談において、Anthropicは消費者ではなく企業向けに焦点を当てているため、競合他社と同じ競争には加わっておらず、「コードレッド(非常事態)」のようなパニックには直面していないと指摘した。

同社は最近、エージェント型コーディングツール「Claude Code」が一般公開からわずか6カ月で年間経常収益10億ドルに達したと発表したばかりである。

ZDNET Japan 記事を毎朝メールでまとめ読み(登録無料)

Original Post>

Enjoyed this article? Sign up for our newsletter to receive regular insights and stay connected.

Leave a Reply