Speaker presenting on AI myths and risks at a conference podium

Anthropic特派黑客:他如何安抚政府的AI安全焦虑

尼古拉斯·卡利尼近期刚对AI的潜在威胁发出严厉警告,而现在,他正作为团队成员极力游说,呼吁政府允许发布最新版的AI模型。

最近几天,特朗普(Trump)政府官员一直对Anthropic下一代人工智能(AI)软件的威力忧心忡忡,担心其可能对全球网络安全造成严重破坏。而对于700名网络安全研究人员来说,他们在今年3月就已惊恐地意识到了这一点。

当时,Anthropic研究员尼古拉斯·卡利尼(Nicholas Carlini)向众人展示了利用新模型入侵系统已变得何等容易。这位35岁、身材瘦高的研究员是一名备受尊敬的黑客,被公认为业界对AI网络安全说辞的”专业怀疑论者”。但最近,他改变了看法。

3月初,也就是在接触到Mythos仅仅几周后,卡利尼向一群网络安全专家发出了严厉警告。这场座无席虚的演讲在旧金山一座华丽的布杂艺术风格建筑内举行,这里曾是Hibernia Bank的所在地。

他首先向众人展示了自己如何利用Anthropic的AI,在一款名为Ghost的网络发布软件中发现并利用了一个关键漏洞。随后,他又演示了在Linux操作系统中发现的另一个漏洞。Linux是久经考验的软件之一,为数十亿台设备提供支持。

卡利尼此前从未在Linux或Ghost中发现过漏洞。而现在,他发现了许多。他眼前的景象代表着网络安全领域的一种新世界秩序。过去二十年来攻击者与防御者之间维持的平衡”似乎很可能即将走向终结,”他说,”在我看来,很明显,目前的这些模型是比我更优秀的漏洞研究员。”

演讲结束两天后,卡利尼给Anthropic的同事发了一条消息。”我认为我们还不应该发布Mythos,”他写道。

于是,”漏洞大灾难”(Bugmageddon)拉开了帷幕。安全专业人士以及像卡利尼这样的黑客群体逐渐意识到,在AI的加持下,发现漏洞并编写软件加以利用已变得极其容易,这种程度令人不寒而栗。

上周,Anthropic发布了Mythos的更新版本Mythos 5,以及一款名为Fable 5的产品。Fable 5是Mythos的弱化版,内置了安全措施。这一次,轮到白宫拉响警报了。上周五,特朗普政府禁止外国政府、企业和个人使用Fable 5和Mythos 5。为遵守规定,Anthropic切断了所有用户的访问权限。

突然之间,卡利尼发现自己正干着努力安抚政府紧张情绪的活。这位曾经的怀疑论者如今已对AI的威胁深信不疑,并亲自敲响了警钟。Anthropic派他前往美国首都解释安全防护措施。他所在的团队试图说服白宫:尽管AI领域不存在绝对的安全,但向世界发布Fable总好过将其束之高阁。

过去几个月里,卡利尼个人经历的转折,反映出快速发展的AI给网络安全领域带来的混乱与不确定性。

这一事件也使特朗普政府与Anthropic之间长达数月的争端进一步升级。今年早些时候,Anthropic首席执行官达里奥·阿莫迪(Dario Amodei)与美国国防部长皮特·赫格塞思(Pete Hegseth)发生冲突,起因是Anthropic试图限制军方对其产品的使用。这迫使五角大楼停止使用该公司的模型,并引发了多起诉讼。双方此前还曾因AI政策路径的分歧、政府向中国出口AI芯片的决定,以及Anthropic与大力捐助自由派事业的非营利组织之间的联系而发生过摩擦。

最近几天,美国政府官员与包括卡利尼在内的Anthropic高管及技术负责人进行了长达数小时的会议和通话,探讨潜在的解决方案。据知情人士透露,一些政府官员表示,解决方案应包括Anthropic承认其在推出Fable以及与白宫沟通方面存在改进空间。

几个月来,Anthropic高管与政府官员一直在就扩大Mythos访问权限的问题反复交涉。

此前,亚马逊(Amazon)的一份报告发现,用户可以通过输入提示词来寻找网络安全漏洞,而该模型本不应披露这些信息。美国政府在听闻此事后感到担忧。Anthropic则表示,Fable发现的漏洞都是轻微的,而且利用其他公开可用的模型也能挖掘出这些漏洞。

“政府和Anthropic显然无法有效地相互沟通,”美国对外关系委员会(Council on Foreign Relations)的技术与创新高级研究员、前国防部官员迈克尔·霍罗威茨(Michael Horowitz)说,”更多的技术交流应有助于让各方熟悉这些问题,从而促成更好的决策。”

夹在中间的则是其他企业和消费者,他们正试图弄清楚这项技术将对自己有何影响。

美国经济的大范围运转都依赖于一些鲜为人知的软件产品,其中许多软件从未经历过Mythos及类似模型能够轻易实施的测试和严密审查。银行业担心,这可能会暴露维持金融系统运转的软件中的漏洞。企业则在发愁,面对目前发布的海量补丁,他们该如何在黑客利用漏洞之前完成测试和安装。Mythos已经发现了超过10,000个漏洞。

更糟糕的是,他们担心Mythos在编写”漏洞利用”代码方面过于出色,这类代码软件可以利用漏洞进行恶意活动。

卡利尼在3月份主张放缓Mythos发布步伐的备忘录中写道,Mythos是”首个能够大规模发现并利用漏洞的模型”。

专业怀疑论者

特朗普政府之所以努力管控Anthropic的技术,起因是亚马逊的一份报告发现,Fable可能会被诱导去寻找漏洞。

据知情人士透露,就在Fable模型发布几天后,亚马逊首席执行官安迪·贾西(Andy Jassy)致电包括美国财政部长斯科特·贝森特(Scott Bessent)在内的多位官员,告知他的研究人员已经找到绕过Fable安全护栏的方法。随着上周五与政府安全专家的对话展开,政府官员愈发感到警惕。

上周,独立安全研究人员分析了这份报告,认定亚马逊并未做到他们最担心的事情:完全”越狱”Fable模型,并利用它编写网络攻击所需的代码。

知情人士称,Anthropic之所以决定迅速安排卡利尼及其他顶尖安全专家飞赴华盛顿,是因为上周五一些政府官员起初因未能立即与阿莫迪通上电话而感到恼火。此后,这位首席执行官及其他高管进行了长达数小时的讨论。一位接近Anthropic的消息人士表示,该公司在15分钟内就与白宫取得了联系,而阿莫迪在政府致电后的一小时内便上线通话。

计算机科学可谓流淌在卡利尼的血液中。他的父亲是一名程序员,母亲也在科技行业工作。他在硅谷长大,从小就编写计算机程序,并对密码学十分痴迷。他在高中时撰写过一篇论文,题为《简单替换网络的差分密码分析》(Differential Cryptanalysis of Simple Substitution Networks)。

在加州大学伯克利分校(University of California, Berkeley)就读期间,卡利尼与计算机科学教授大卫·瓦格纳(David Wagner)共同发表了多篇论文,展示了AI系统可能被滥用的各种方式。他们曾欺骗图像识别系统,使其将猫的照片误认为牛油果酱,还发现了将人耳听不见的Alexa指令嵌入五秒钟古典音乐片段的新方法。

“他在机器学习的安全方面做了大量早期工作,证明了要确保机器学习的安全性非常困难,”瓦格纳说。

尽管卡利尼的研究驳斥了AI开发者的许多主张,但他此前的关注点一直是恶意分子欺骗AI系统、让系统犯错的威胁,而非黑客利用这些系统获取超强能力。

卡利尼说,他2019年在谷歌(Google)工作时,OpenAI曾暗示其最新版本的软件GPT-2可能过于危险而不宜发布,他当时认为OpenAI的做法”不可理喻”。

“他是这个领域的专业怀疑论者,”网络安全公司Trail of Bits的首席执行官丹·圭多(Dan Guido)说。该公司曾协助Anthropic处理其发现的数百个漏洞。

如今,美国政府在这一问题上也正经历着自身观念转变的阵痛。

当Anthropic对Mythos的威力发出警告时,白宫AI顾问兼风险投资家大卫·萨克斯(David Sacks)在社交媒体上发帖称,”很难忽视Anthropic过去就有使用恐吓策略的先例。”特朗普政府最初曾以跑赢中国为名,对监管美国AI实验室采取了不干涉的加速主义策略。

但随着Mythos等模型的威力日益凸显,加之公众对AI的看法恶化,政府收紧了对该行业的管控。总统特朗普在6月初签署了一项行政命令,要求AI公司在公开发布模型的30天前就向政府开放访问权限,并让国家安全和网络安全官员在模型评估以及与私营部门共享威胁信息方面发挥更大作用。

在贾西打完电话后,包括美国国家网络总监肖恩·凯恩克罗斯(Sean Cairncross)在内的多位官员向阿莫迪及其他Anthropic高管下达了最后通牒:要么配合政府在当天撤下公司的最新模型,要么面临针对外国用户的禁令。据接近该公司的消息人士透露,官员们告知Anthropic有90分钟的时间撤下模型,但并未提供有关安全风险的具体细节。

仓促决定关闭模型对阿莫迪来说难以接受。他已带领这家成立五年的公司实现了近1万亿美元的估值,而且当时他对具体的安全隐患知之甚少。

据一些知情人士透露,当天下午,特朗普要求美国商务部长霍华德·卢特尼克(Howard Lutnick)协助处理这一局面,并批准切断所有外国用户对这些模型的使用权限。卢特尼克致信阿莫迪,通知他相关措施已在当天美东时间下午5点后不久生效。这项禁令涵盖了在美国工作的外籍人士,从而波及了Anthropic自身的部分研究人员。

据了解通话内容的人士透露,当晚卢特尼克与阿莫迪讨论Fable时,这位Anthropic首席执行官表示:”这意味着我们无法让该模型继续上线了。”

“这正是我们的目的,”卢特尼克回应道。

通话结束后不久,Anthropic便切断了所有访问权限。白宫已经成了”漏洞大灾难”说法的信徒。

探索Mythos的威力

最近的一个下午,卡利尼在Anthropic位于旧金山的10层楼总部展示了Mythos的强大威力。该总部的苔藓墙、绿植和艺术品设计旨在营造出太平洋山脊步道(Pacific Coast Trail)的自然氛围。

此时,他已与Mythos交流了数周,模型也记住了一些信息。Mythos了解到卡利尼是一名安全研究员,这一身份似乎让模型对他产生了信任。这样一来,当他向模型索要敏感安全信息或要求编写漏洞利用代码时,Mythos就不太可能会拒绝。

卡利尼此前曾要求Mythos在Linux中寻找漏洞。这个AI模型对Linux的代码进行了数千次的反复搜索。对人类而言,这将是一项极其枯燥乏味的工作,但Mythos却在几天内毫无怨言地完成了任务。它共发现了479个Linux漏洞。

为了让Mythos在每次运行时都能得出不同的结果,卡利尼使用了一系列提示词,这套方法后来被称为”卡利尼循环”(Carlini Loop)。这些提示词为Mythos提供了恰到好处的指令,确保它每次翻阅Linux代码寻找漏洞时都能得到不同的发现。

卡利尼很讨厌这个以他名字命名的术语,他认为这种技巧完全是直觉使然,但安全研究人员在观看了他在3月份介绍该技巧的演讲后,便纷纷开始采用这一方法。那场演讲的观看次数已超过36万次。

卡利尼也摸清了Mythos的一些怪癖,这也是AI系统的通病。Mythos有时会为了讨好用户而用力过猛。他们敲出的对话记录,读起来就像是一个急于表现且工作极其拼命的实习生与老板之间的往来聊天信息。

卡利尼想确认在Linux的搜索结果中是否存在真正的漏洞。他让Mythos隔夜运行了一些测试,第二天早上便得出了结论,并且附带了一段漏洞利用代码。这个漏洞并非最致命的那种,但如果与另一种黑客手段结合使用,就能夺取计算机的控制权。

卡利尼将该漏洞报告给了Linux团队,目前该漏洞已被修复。”一名称职的安全研究员可能穷尽一生都无法发现一个Linux内核漏洞,”卡利尼说。

“这些漏洞容易被发现吗?显然并非如此,”Linux的创始人、软件开发者林纳斯·托瓦兹(Linus Torvalds)说。”但与此同时,它们往往是一些容易被忽略的小细节。”

漏洞本身并不一定构成安全问题。最无害的漏洞仅仅会导致程序出现意外行为,比如电脑屏幕上的显示故障,或者引发系统崩溃。

托瓦兹表示,每天都有人向他报告漏洞。”其中绝大多数都微不足道,我们不得不一遍又一遍地重申,这些并不算作安全问题,”他在一封电子邮件中说。

今年2月,当卡利尼在网络发布软件Ghost中发现那个漏洞时,它只是两周内被挖掘出的500个漏洞之一。如果落入不法分子之手,利用该漏洞就能让黑客篡改任何使用Ghost搭建的网站。

卡利尼已将该漏洞报告给了Ghost的开发者,后者在2月16日发布了补丁,这比卡利尼在旧金山发表演讲早了几周。

但并非所有使用Ghost的用户都更新了软件,而黑客很快就摸清了如何利用这个漏洞,很可能是通过研究补丁修复了Ghost的哪些部分得出的结论。到4月份,他们已开始对未更新的网站发起大范围攻击。据网络安全公司Xlab称,在一个月内就有超过700个网站遭到黑客攻击。

卡利尼表示,Ghost遭黑客攻击的事件表明,当今世界在验证、测试并最终发布补丁方面面临着极其棘手的难题。

如今,卡利尼认为其他模型赶上Mythos的水平只是几个月的时间问题。而这将意味着什么,目前仍是未知数。

Enjoyed this article? Sign up for our newsletter to receive regular insights and stay connected.

Leave a Reply