不妨称之为美国下一代顶尖模型。
随着上周第三代Gemini大语言模型发布,谷歌(Google)的这款模型在业界公认的基准测试中超越了ChatGPT和其他竞争者,被评为当前能力最强的AI聊天机器人。
这一成绩令谷歌员工获得公开肯定,许多员工数月来一直在亲自测试该模型,让它讲笑话、用数学问题“刁难”它,并愈发确信他们握有终会使公司在大语言模型领域占据优势的筹码。
Gemini产品管理高级总监图尔西·多希(Tulsee Doshi)在进行她的一次“直觉测试”(vibe checks)时,要求该模型用古吉拉特语写作。这是一种在印度广泛使用但在互联网上并不特别普及的语言。测试结果远胜早期模型。
“我称之为生命迹象,对吧?”她说。“人们纷纷反馈说,‘我感觉到了,我想我们有了重大发现。’”
云内容管理公司Box的首席执行官亚伦·莱维(Aaron Levie)在本月中旬、也就是模型发布几天前,拿到了Gemini 3的早期使用权。该公司在周末对模型进行了内部评估,以了解其分析大量复杂文档的能力如何。
“起初我们还有点不敢相信,心想‘会不会是我们的评测出问题了?’因为性能提升幅度太大了,”他说。“但我们每次测试,它总是以两位数优势胜出。”
Gemini 3的推出为谷歌赢得了一场来之不易的胜利:多年来,谷歌首次在AI开发竞赛中大幅领先。
上周发布的这款最新AI模型令用户赞叹不已,他们称赞其智能、准确且具创造力。谷歌上周四表示,Gemini 3将为新版Nano Banana提供支持。这是一款热门的图像生成工具,今年已推动Gemini使用量快速增长。
Gemini 3的成功对OpenAI、Anthropic以及其他争夺AI主导地位的初创公司构成重大挑战。Gemini 3在十余项衡量不同智能类别的基准测试中全面领先竞争对手模型。
“他们是AI领域的赢家,这一点非常明确,”MoffettNathanson的分析师迈克尔·内桑森(Michael Nathanson)说。“我现在对他们手里的牌相当有信心。”
OpenAI的ChatGPT目前仍是最受欢迎的AI聊天机器人,热门程度遥遥领先于其他对手。OpenAI本月表示,ChatGPT每周活跃用户数量已达8亿,而Gemini的月活用户数为6.5亿。Anthropic的Claude则被广泛视为编程领域的领先模型之一。但有用户和分析师表示,Gemini 3的进步有可能巩固其作为处理各种任务的首选工具的地位。
自ChatGPT三年前面世以来,谷歌一直在奋力寻求在AI竞赛中占据优势。ChatGPT的横空出世令投资者更加担心谷歌标志性的搜索引擎会因聊天机器人而失去大量流量。谷歌数月来都难以取得进展。
据员工称,首席执行官桑达·皮采(Sundar Pichai)和其他高管此后一直致力于改革公司的AI发展战略,包括打破内部壁垒、精简领导层以及整合模型方面的工作。谷歌联合创始人之一谢尔盖·布林(Sergey Brin)已重返公司担任日常职务,协助监督公司的AI开发工作。
在今年5月份的年度开发者大会上,谷歌发布了一套先进的AI产品和其经典搜索引擎的改进版,该版本具有AI Mode功能,能以聊天机器人式的对话方式回答搜索查询。内桑森说,这让部分投资者重拾信心,认为谷歌正在卷土重来,不过,今年夏天公司股价仍然萎靡不振。
他说:“华尔街当时还在争论这些公司是否会成为AI浪潮下的牺牲品。”
在谷歌今年早些时候举行的年度I/O开发者大会上,与会者体验了多项活动,这些活动突显了谷歌如何借助Gemini应用AI。图片来源:camille cohen/AFP/Getty Images
随后在8月份,Nano Banana的首次亮相助推Gemini的使用量以史上最快速度增长。Gemini月活用户数从7月的4.5亿跃升至6.5亿。
9月,谷歌又取得一项重要胜利:此前有联邦法官认定该公司在搜索市场维持非法垄断地位,但该法官最终拒绝对该公司处以严厉惩罚。这位法官表示,市场的竞争动态已经发生变化,主要归因于AI。
谷歌母公司Alphabet上月公布了创纪录的季度收入,主要得益于云计算和广告业务的增长。该公司股价今年以来累计上涨50%以上,自夏季以来上涨逾60%。上周其市值达到3.6万亿美元,七年来首次超过微软(Microsoft)。
谷歌开发Gemini 3的目标是在AI最具挑战的领域实现突破。该公司的工程师和研究人员希望提升该模型对文本、图像、音频、视频和代码等多类内容的感知、分析与生成能力。与此同时,他们还希望增强思考与推理能力,从而打造更出色的个人助理,改进包括编程在内的任务表现。
Gemini 3发布后,一张显示该模型在20项基准测试中得分的表格在网上广为流传。在涉及专家级知识、逻辑谜题、数学问题和图像识别的测试中,该模型得分明显高于ChatGPT和Anthropic的最新模型。在唯一一项与编程相关的基准测试中,Gemini 3仅次于Anthropic的Claude Sonnet 4.5,位居第二。
谷歌内部进行了一些测试,其余测试由其他公司完成。在发布前的那个周末,员工们翘首以待分数回传,其中一些结果远超预期。
多希说,最大的惊喜是Gemini 3在名为Vending Bench的评测中表现出色。该评估通过要求模型操作一台自动售货机来测试其随时间推移进行思考和行动的能力。在模拟中,模型必须跟踪库存、下订单和设定价格,才能实现盈利。
“Vending Bench反映了我们希望通过这个模型真正转变和推动的事情之一,那就是改进工具使用和规划能力,”她说。
作为此次发布的一部分,谷歌开始向订阅用户提供在AI Mode下使用Gemini 3的机会,这是该公司首次在模型发布当天就将其整合进搜索中。该公司计划很快向美国所有用户推广该功能。
搜索产品副总裁罗比·斯坦(Robby Stein)说,他与Gemini团队合作了几个月,研究这款新模型如何优化搜索结果的呈现。在他的一次直觉测试中,他使用AI Mode请求帮助向他7岁的儿子解释飞机升力的概念。
他原以为会收到一段书面说明,结果是一个互动模拟:画面显示气流如何掠过机翼,并提供滑块让他移动机翼、改变气流,从而让飞机升空。
“我当时就想,‘哇,它确实能根据问题以最佳方式呈现信息’,”他说。“那是我对这款产品主要的‘顿悟’时刻。”
Enjoyed this article? Sign up for our newsletter to receive regular insights and stay connected.

