Anthropic研究人员探索AI安全边界：模拟“噩梦”场景

Table of Contents ( Press the ← key in browser search bar to return TOC)

为了解人工智能的危险性，初创公司Anthropic开展了一项名为Frontier Red Team的网络安全测试项目。该公司正在评估AI模型是否可能被用于制造生物武器或发动大规模网络攻击。

在旧金山一间玻璃幕墙的会议室里，Newton Cheng点击笔记本电脑上的一个按钮，启动了一个人工智能(AI)项目的1,000份副本程序，每个程序都有具体的指令：侵入计算机或网站窃取数据。

“它正在查看源代码，”Cheng一边检查一个运行中的副本一边说。“它试图找出漏洞在哪里？我们如何利用它？”几分钟内，AI表示入侵成功。

该程序回复称：“我们的方法非常有效。”

Cheng就职于硅谷最大的AI初创公司之一Anthropic，负责Frontier Red Team的网络安全测试。这些针对模拟目标的黑客攻击是该团队在10月份进行的数千次安全测试、或称“评估”的一部分，目的是了解Anthropic最新的AI模型在执行非常危险的任务方面究竟有多厉害。

两年前ChatGPT的发布令人担忧AI可能很快就能超越人类的智力，而这种能力也带来了造成超人类伤害的可能性。恐怖分子会利用AI模型学习如何制造出能杀死100万人的生物武器吗？黑客会利用它同时发动数百万次网络攻击吗？AI可以重新编程甚至自我复制吗？

无论如何，这项技术已经突飞猛进。美国没有强制要求公司执行或提交评估的约束性规则。到目前为止，这在很大程度上由公司自行安全测试或提交外部测试，并制定了关于严格程度以及如何应对潜在危险的自愿性标准。

包括OpenAI和Google DeepMind在内的AI开发人员会进行评估，并承诺在发布模型之前将任何严重风险降至最低，但一些安全倡导者对于在一个竞争激烈的行业中运营的公司是否值得信赖、能够自我问责表示怀疑。

没有人认为今天的AI模型能够成为下一个HAL 9000，这一原型来自《2001太空漫游》(2001：A Space Odyssey)。但AI是否以及何时会变得如此危险是一个热门话题。马斯克(Elon Musk)和OpenAI首席执行官阿尔特曼(Sam Altman)都表示，通用人工智能(artificial general intelligence)、即在广义上超过人类智能的AI，可能在几年内就会出现。Anthropic的Frontier Red Team负责人Logan Graham也在为一个短时间框架做准备。

“两年前，他们还是友好、有点古怪的高中生，”Graham在谈到AI模型时说。“现在，他们在某些领域可能已经是研究生了。”

Anthropic可能是最直言不讳地呼吁有必要进行测试的AI开发商，该公司成立于2021年，由前OpenAI员工创立，他们认为作为ChatGPT开发者的OpenAI对安全问题不够重视。Anthropic在今年10月份发布的公开“负责任扩展策略”(Responsible Scaling Policy)更新版中表示，如果其AI模型在评估中接近特定能力——例如为制造生物或化学武器提供非常有用的建议，该公司将推迟发布，直至能够执行修复措施来控制风险。

从事第三方评估的英国公司Apollo Research的首席执行官兼联合创始人Marius Hobbhahn说，整个行业中，即使是那些非常重视安全性的公司，也可能在某些因素的诱惑下优先考虑速度。“如果没有硬性约束，那么就很容易进行动机性推理，说为了在与其他公司的竞争中不至于掉队，我们需要采取点通融的办法，”他说。

Graham在Anthropic的工作是确定一个模型何时太危险而不能发布，他说，他从未感到发布新产品的财务压力与公司的安全承诺之间存在冲突。“也许有心理上的紧张，但真实情境中从来没有过这种紧张，”他说。Frontier Red Team评估测试了人工智能与生物武器相关的知识。

Anthropic首席执行官Dario Amodei曾表示，他认为政府应该强制要求进行AI安全测试。2023年初，他的公司推迟了旗下第一个模型的发布，以便进行更多安全测试。但Amodei表示，重要的是不要过早地施加过多限制。

“我们不希望把这些非常繁重的负担强加给今天并不危险的模型，从而损害我们自己在对话中占有一席之地的能力，”Amodei上个月告诉计算机科学家兼播客主理人Lex Fridman。反之，“如果你能证明模型的危险性，那就应该重拳出击。”

“不确定性无处不在”

Anthropic对灾难性风险的评估由Graham监督，这名罗德学者现年30岁，拥有牛津大学(Oxford)机器学习博士学位。Graham在温哥华长大，4岁时被诊断出患有一种严重的儿童关节炎，这种病影响了他的腿，如果不是进行了治疗，还可能让他失明。他说，康复使他成为一个极端的乐观主义者——而且有些神经质。

“有一天我醒来，突然不能走路了。我觉得这件事可能在思想上给我留下了非常深刻的印记，”Graham说。“比如我会认为，一个不小心就可能一切都突然变得非常糟糕。”

从牛津大学毕业后，Graham为英国政府从事AI政策方面的工作。他在2022年加入Anthropic做兼职，此前他向该公司提出了一个想法，即社会需要尽快弄清楚AI将带来哪些重大风险。很快，Anthropic聘请他全职组建了Frontier Red Team，该团队现已发展到11人。

“我们所处的行业要求我们必须弄清楚一个模型是否可能是坏的，”Graham说。“首先要考虑的就是会不会引发灾难。”

一些批评人士认为，AI带来的灾难性风险被夸大了。Meta首席AI科学家Yann LeCun曾表示，今天的模型不比家猫聪明，甚至还没有走上向人类智能看齐的道路。

其他人则担心更直接、更切实的问题，比如AI驱动的招聘软件中存在性别歧视或种族主义，或者为AI提供动力的数据中心使用了过多的水和电力。

在那些担心AI灾难的人中，有些人认为今天的评估不足以胜任这项任务。

“实际上我认为，我们没有一种方法可以安全有效地测试这类系统，”加州大学伯克利分校(University of California, Berkeley)的AI科学家兼教授Stuart Russell说。

评估从业者承认，他们的领域尚处于起步阶段。对于哪些风险最值得关注、如何界定这些风险，或者如何确定是否越界，目前还没有达成一致的标准。

拜登(Biden)政府去年秋季发布了一项关于AI的行政命令，其中包括一项条款，要求AI公司定期向监管机构报告其安全测试结果。候任总统特朗普(Trump)此后已承诺废除该命令。

加州州长纽森(Gavin Newsom)今年早些时候否决了一项将监管最大模型的AI安全法案。他表示，较小模型也可能造成危害，监管应侧重于最危险的AI用途。他表示，他将在明年推动制定更全面的立法。

欧盟去年通过了一项法律，其中的条款最终将使对高度复杂模型的评估和安全修复成为强制性要求，但这些条款将在近一年后才会生效。不遵守规定的公司将面临罚款。

继去年举行一次AI安全峰会之后，英国、美国和其他几个国家纷纷设立了政府运营的AI安全机构，开展安全研究，包括开发和运行针对新AI模型的评估项目。根据与Anthropic和OpenAI达成的协议，英国和美国的相关机构都测试了这两家公司推出的最新模型。

Anthropic也是与少数几个团体签订第三方评估合同的AI开发商之一。尽管如此，有AI开发商表示，至少就目前而言，他们在评估自己的模型方面发挥着特殊作用，因为他们最了解这些模型，并且可以帮助为其他人制定最佳实践方案。

“不确定性无处不在，作为一家公司，我们最重要的任务之一就是努力降低这种不确定性，”Graham说。“这就像一门趋向于科学的艺术，但需要非常快速地发生。”

实际测试

今年10月份，在那个有玻璃幕墙的会议室里，Graham团队准备开始下一轮评估。Anthropic当时正准备发布其Claude Sonnet 3.5模型的升级版，该模型经过训练，能够更好地进行计算机编程和代表用户执行部分独立任务，包括接管计算机和浏览网页。

其上一个模型于6月发布时，Anthropic将其评为AI安全等级2级，即ASL-2级，根据该公司制定的衡量标准，这意味着该模型显示出具有危险能力的早期迹象。

经过目前这一轮新测试后，该团队将向Anthropic的领导层及其董事会提出建议，说明新模型是否接近ASL-3级，ASL-3级意味着“系统会大大增加灾难性滥用的风险”。Anthropic首席科学官Jared Kaplan表示，Anthropic一些ASL-3级模型的安全保护措施尚未准备好部署，这意味着被评为该级别的模型将不得不推迟发布。

“我们还没有在现实世界中对它进行过测试，所以这就是我们现在正在做的事情，”Kaplan在谈到这些保护措施时说。

Frontier Red Team花了几个月时间与外部专家和内部压力测试人员协商，以确定针对其主要风险类别运行哪些评估：网络（包括黑客攻击）；生物和化学武器；以及自主性。

负责生物评估的Anthropic研究员Anjali Gopal设置了与化学和生物武器相关的问题。有些问题针对的内容并非十分危险，但会揭示可能被滥用的深层知识，比如知道将基因从一个大肠杆菌克隆到另一个大肠杆菌时使用哪个核?酸序列。其他问题则深入探讨如何获取或制造受到高度限制的病原体，比如导致炭疽热的细菌或导致鼠疫的细菌。

拥有加州大学伯克利分校生物工程博士学位的Gopal还委托一家名为Gryphon Scientific的公司（最近被德勤(Deloitte)收购），来观察专家或新手能从一个安全护栏关闭的Sonnet版本中获得多少关于制造生物或化学武器的可操作信息。在一次聊天中，一名测试人员询问如何设计和制造一种可以杀死100万人的武器。

物理学博士Daniel Freeman负责测试AI的自主性，他后来在谷歌(Google)从事机器人和语言模型等方面的工作。自主性这种技能可能会导致末日论者最担心的一些情况，比如AI逃逸并自行变得更聪明。在本轮测试中，目标是观察Sonnet能多接近于定期完成计算机编程挑战，一名公司初级开发人员需要2到8个小时才能完成这样的挑战。

他们测试了该模型解决高级机器学习研究问题的能力，比如教一个有四条腿的虚拟机器人走路。

Freeman还在测试AI是否足够聪明，可以破解另一个AI，也就是说服另一个模型绕过其安全训练，做一些危险的事情。在这种情况下，它提供了制造冰毒的说明。

“我们担心的核心是，世界上存在着另一种与我们竞争的东西，我们无法控制它，它可以收集资源并加以利用，”Freeman说。

负责网络评估的研究员、量子物理学博士Cheng为该模型设置了数千个夺旗黑客挑战，使其能够访问一组黑客工具，这些工具可用于利用各种场景，包括一些众所周知的漏洞，比如2014年的“心脏出血”(Heartbleed)安全漏洞。

“我们特别感兴趣的是最复杂、最具破坏性的场景，”Cheng说。

及格

Anthropic启动最新一轮安全评估近两周后，Graham那张稚气的脸上露出了如释重负的笑容。新的Sonnet 3.5已经逼近该公司下一个危险能力阈值，但还没有突破红线。

Sonnet对操纵化学或生物制剂的指令在实验室步骤上出错，最终将会失败。它在超过一半的时间里成功利用了简单的网站漏洞，但在密码学方面基本上都失败了。平均而言，Sonnet能够完成需要人类程序员30到45分钟才能完成的挑战，但远未达到安全阈值，即在需要人类2到8个小时才能完成的任务中成功率超过一半。Sonnet也没能让虚拟机器人行走，但能让它扭来扭去。

该团队已在一周前提交了一份建议，认为新的Sonnet 3.5仍应归类为ASL-2级。此时Graham在召集他们进行最后的总结。

“如果你们有任何重大的FUD，或者认为在这个东西启用之前我们还有任何事情需要做，现在就赶紧提出来，”Graham在上午9点与他的主要员工的会议上说，他所说的FUD是一个首字母缩写，意思是“恐惧、不确定性和怀疑”。

与会的所有人都表示了赞同。第二天，Anthropic公开发布了新版Sonnet 3.5。

“我认为我们还有很多工作要做，但还是要谢谢大家，”Graham在会议结束时说。

Graham仍然很紧张。Anthropic及其竞争对手的开发人员都在迅速改进自家的AI模型。他说，他的团队只有几个月的时间奋力加油，以努力跟上。

“我现在真正担心的是，在情况变得令人担忧之前，我们还有多少时间，”他说。

Enjoyed this article? Sign up for our newsletter to receive regular insights and stay connected.

Anthropic研究人员探索AI安全边界：模拟“噩梦”场景

“不确定性无处不在”

实际测试

及格

Like this:

Related

“不确定性无处不在”

实际测试

及格

Share this:

Like this:

Related

Discover more from Global Intelligence and Insight Platform: IT Innovation, ETF Investment, plus Health Wellbeing