凭借AI模型训练芯片,英伟达跃居全球市值之巅,但推理芯片的需求增速远超训练芯片。
每年春天,成千上万的软件工程师齐聚加州圣何塞,争相目睹最新超高速计算机处理器的风采,并参加英伟达(Nvidia)年度开发者大会上的编程工作坊。这场盛会名为GTC,即GPU技术大会(GPU Technology Conference)。但或许用不了多久,这个名字就得改改了。
今年,这场于周一拉开帷幕的大会将首次不再完全聚焦于GPU——也就是图形处理器。正是凭借这种速度极快、性能强悍的芯片,英伟达筑起了庞大的算力帝国,并一跃成为全球市值最高的上市公司。
取而代之的是,推理计算将成为更核心的话题。推理,是运行模型并使其响应用户查询所需的计算类型。原因在于,人工智能(AI)行业已明确迈入新阶段。如今,英伟达的客户不再像以往那样关注大型AI模型的训练——这恰恰是GPU最擅长的领域——而是更专注于运行这些模型,并期望从终端用户身上获取丰厚利润。
与专为训练优化的芯片相比,推理需要一套不同的硬件组合,包括更高的能效、更快的互连速度以及更大容量的高带宽存储。
英伟达首席执行官黄仁勋一段时间以来一直在预言,2026年将是推理“吞噬”AI的一年。在3月4日的一次投资者会议上,他坦言:“我们眼下见证的这个拐点,其实早已摆在眼前,它本质上是AI使用文件、访问文件和应用工具的能力。”
这些功能被统称为智能体化AI,几乎完全依赖推理计算,而这也正是支撑AI将彻底改变全球经济这一信念的核心。智能体能力的飞速提升,正在引爆对算力的需求。黄仁勋表示,OpenAI和Anthropic等公司分别运营着热门编码智能体Codex和Claude Code,它们产生的推理“词元”——即生成式AI中数据输出的基本计量单位——数量已是此前的数千倍。
大大小小的科技公司翘首以盼的推理时代终于到来。在这个时代,AI计算的经济模式有望从亏损转向盈利——前提是能将算力成本压到足够低。AI公司正从增长阶段迈入变现阶段。增长阶段意味着在模型训练所需的基础设施上投入巨资——包括采购数以百万计的英伟达最新GPU,特别是Hopper和Blackwell系列——并吸引数亿普通用户;而现在,它们正试图通过订阅费或按智能消耗量计费的方式将产品变现。
“必须认清一个关键事实:对客户而言,眼下推理就等于真金白银。因为智能体正在生成海量词元,且效果显著”,黄仁勋在英伟达最新一次财报电话会议上强调。“我们需要大幅提升推理速度,当速度提上来,每一个生成的词元都能变现,这就直接转化为了收入。”
英伟达目前面临的挑战在于,其拳头产品在推理计算方面的吸引力不如训练。用户反馈,其Grace Blackwell服务器能耗巨大,且内存不足,难以支撑AI模型快速高效地响应用户查询。
“英伟达正处在一个尴尬的关口”,风险投资人、麻省理工学院数字经济倡议研究员保罗·凯德罗斯基(Paul Kedrosky)表示。“很长一段时间里,黄仁勋都在说,我们不需要专门的独立推理芯片,用Blackwell就能搞定。但这条路已经走不通了,一大批新对手正在涌现。”
凯德罗斯基认为,英伟达最新财季高达73%的毛利率势必会受到压缩,原因有二。首先,推理计算的商业模式高度重视效率,极力降低最终产品——对用户而言就是AI工具——的生产成本。背后的硬件不能过于昂贵,否则无论是直接销售还是充当中间商的公司都将无利可图。
其次,推理计算供应端的竞争更为激烈,因为越来越多的芯片公司已经找到了用更便宜芯片提供推理计算的方法,无论是采购成本还是运营成本都更低。英伟达凭借销售芯片界的“法拉利”(Ferrari)——速度快、性能强、价格高——成为首家市值突破4万亿美元的公司,但如今世界需要的是普锐斯(Prius)和Model Y。
“所有这些关于‘推理’的风向,对黄仁勋而言都是巨大威胁,因为一切都由效率驱动”,凯德罗斯基说。“他正竭力寻找路径,试图将公司的护城河延伸到推理领域。”
去年12月,英伟达斥资200亿美元从芯片初创公司Groq获取了芯片技术授权并引进了其顶尖人才。Groq设计了一种名为语言处理单元的新型芯片,专攻模型运行。在本周的GTC大会上,英伟达计划推出首个采用Groq芯片的计算平台,这是一款将其新一代Rubin GPU的改进版与专门针对推理计算定制的Groq处理器相结合的服务器。《华尔街日报》(The Wall Street Journal)此前已对此进行过报道。
还有其他迹象表明,英伟达正将重心从单纯的GPU转向成为推理计算的供应商。今年2月,Meta Platforms表示,将在其AI数据中心部署数千颗英伟达的Vera CPU——即中央处理器,大多数计算机的核心处理大脑。这是英伟达AI系统首次实现不包含GPU的大规模部署。业界正形成一种共识,即推理计算可以用CPU处理,未必需要英伟达的旗舰芯片。
据《华尔街日报》报道,英伟达还计划推出新的计算解决方案,涉及多颗不与GPU绑定的CPU,这与Meta的规划方向一致。此外,近年来在AI计算领域基本掉队的芯片制造商英特尔(Intel)也放出风声,将在本次大会上宣布与英伟达的重大合作。英特尔长期以来一直是最大的CPU生产商之一,但在GPU领域一直未成气候。
“最优质的模型,在现有基础设施上越来越难以为继”,前谷歌(Google)和Meta高管、芯片初创公司Majestic Labs联合创始人沙赫里亚尔·拉比(Shahriar Rabii)说。Majestic Labs专注于提升能效和解决推理计算中的内存短缺问题。
英伟达与Groq的大规模授权交易之所以加速推进,是因为其最大客户之一、ChatGPT开发商OpenAI与芯片初创公司Cerebras签署了一项价值100亿美元的合作协议。Cerebras设计的高端芯片,号称是市场上最快的推理处理器。上周,Cerebras宣布已签约全球最大云服务提供商亚马逊云科技(Amazon Web Services)作为其最新客户,进一步蚕食了英伟达的业务。
Cerebras首席执行官安德鲁·费尔德曼(Andrew Feldman)数月来持续在博客文章中对英伟达和黄仁勋发起攻势。他在领英(LinkedIn)上撰文称,英伟达在推理计算供应竞赛中注定会落后于对手,部分原因在于其专有编程语言库CUDA通常只在模型训练时必需,运行模型时则不需要。
“在推理领域,CUDA构不成护城河”,费尔德曼在接受采访时说。“显然,他们不想失去OpenAI的快速推理业务,但我们从他们手中抢走了这块蛋糕。”
英国云服务提供商Nscale目前只使用英伟达芯片,该公司首席营收官汤姆·伯克(Tom Burke)表示,推理的崛起正在彻底重塑算力销售格局。他预计,不久之后将有更多AI公司寻求芯片供应商的多元化。
“如果你回顾12个月前的市场,训练与推理在所需算力中的占比大概是九比一。我认为到今年年底,这个比例就会逆转”,伯克说。“我们有义务为客户重新规划路线图,尽可能保持灵活。”
英伟达在AI基础设施竞赛中还能领先多久,在很大程度上取决于它能否有效地将产品路线图从训练转向推理。如果它与Groq合作打造的新芯片在速度、效率和价格上都足以碾压竞争对手,那么英伟达很可能继续稳坐头把交椅。该公司也正押注于此。
英伟达首席财务官科莱特·克雷斯(Colette Kress)在近期的一次采访中表示,智能体化AI工作负载正在成为英伟达营收增长的重要驱动力,她预计英伟达芯片在可预见的未来仍将占据主导地位。
“目前,推理领域的王者非我们莫属”,克雷斯说。
Enjoyed this article? Sign up for our newsletter to receive regular insights and stay connected.

