transformer八年前为当前的AI热潮奠定了基础。初创公司Pathway的Dragon Hatchling架构旨在更进一步.
对AI泡沫的大部分担忧都涉及一些企业的投资,这些企业基于transformer的概念构建了它们的大语言模型和其他形式的生成式AI。transformer是一种创新型神经网络,八年前为当前的AI热潮奠定了基础。
但在幕后,AI研究人员正致力于探索可能带来更大回报的新方法。
总部位于加州帕洛阿尔托的Pathway是一家正在开发transformer替代方案的早期初创公司。该公司计划于周一宣布,其Dragon Hatchling架构现在可以在英伟达(Nvidia)的AI基础设施以及亚马逊云科技(Amazon Web Services)的云和AI技术栈上运行。
该公司已经交付了Dragon Hatchling架构,但计划到明年才发布基于该架构训练的商业模型。Pathway表示,一旦商业模型发布,其与英伟达和亚马逊云科技的兼容性意味着企业“第二天”就能够将其投入生产。
据Pathway称,Dragon Hatchling将大语言模型无法比拟的记忆能力赋予了AI,理论上能够催生出一类可以持续学习、自适应的AI新系统。该公司还将其方法视为一条可能更快实现通用AI的途径,一些人将通用AI描述为类似于人类水平的认知能力。
Pathway在这场探索中并非孤军奋战。该公司将规模庞大且地位稳固的Anthropic视为其最大的障碍。它也面临其他挑战,例如说服那些刚刚学会一套AI词汇和技能的潜在用户去接受新事物。
无论Pathway能否实现其雄心,它至少将有机会向市场证明自己。该公司的出现也再次印证了推动AI向前发展的强大科研力量,尽管目前吸引眼球的是巨额交易、高估值和知名人物。
推理方程
“这简直太有趣了,不是吗?”Pathway联合创始人兼首席执行官祖赞娜·斯塔米罗夫斯卡(Zuzanna Stamirowska)在11月份笔者与其及另一位团队成员在《华尔街日报》(Wall Street Journal)总部会面时说。她热情洋溢地谈论Pathway的方法,并将其比作科学家发现热力学定律。热力学定律的发现加速了工业革命,因为它让社会从单纯地制造发动机,转变为理解支配发动机运行的热与能量定律。
斯塔米罗夫斯卡说,Pathway已经找到了她所称的“推理方程”,即基本的数学公理,这些公理可以解释智能是如何从大脑中更小范围的局部互动中产生的。这意味着Pathway可以解释智能如何以及为何起作用,而不仅仅是观察到智能确实起作用,这一直是基于transformer的模型难以解决的问题。
斯塔米罗夫斯卡说,这也帮助Pathway解决了大语言模型在基于先前互动进行学习方面的典型局限,其方法是根据突触的使用情况随时间推移来加强或削弱它们。斯塔米罗夫斯卡拥有复杂系统博士学位,并发表过关于动态网络中涌现行为的研究。她还曾获得法国的i-Lab创新奖,并被杂志《观点》(Le Point)称为“将以创新改变世界的100位天才”之一。
斯塔米罗夫斯卡说:“记忆是智能和高效推理的关键。”
斯塔米罗夫斯卡称,在transformer中,短期记忆和长期记忆的组织方式不兼容,没有明确的方法可以将短期记忆转移到长期记忆。她说:“这不仅仅是一个技术细节,而是一个根本性的障碍。”
斯塔米罗夫斯卡称,Pathway的架构组织短期记忆的方式与transformer非常不同,其更新机制类似于大脑中的机制,而且至关重要的是,它具有与长期记忆相同的存储模式。“这为实现终身学习打开了大门,短期记忆可以转移到长期记忆,并平稳地过渡到更长的推理过程,”她说。
该公司于2020年由斯塔米罗夫斯卡、首席运营官克莱尔·努埃(Claire Nouet)、首席科学官阿德里安·科索夫斯基(Adrian Kosowski)以及首席技术官兼Google Brain资深成员扬·霍罗夫斯基(Jan Chorowski)共同创立。这个26人的团队包括八名博士,其中科索夫斯基是一位理论计算机科学家、数学家和量子物理学家,他在20岁时就获得了博士学位。
该公司表示,已筹集超过2,000万美元,其中包括超过1,620万美元的风险投资和约380万美元的非稀释性研发补助金。支持者包括卢卡斯·凯撒(Lukasz Kaiser)和早期投资者TQ Ventures。凯撒是2017年凭借论文《注意力才是关键所在》(Attention Is All You Need)开启transformer时代的八位谷歌(Google)研究人员之一。该公司未披露其估值。
斯塔米罗夫斯卡说,Pathway架构的名称灵感来自特里·普拉切特(Terry Pratchett)的小说《魔法的色彩》(Color of Magic)中的龙,小说中的角色越是想到龙,龙就越频繁地出现。她说:“目前,我们向世界展示的是一个架构,因此它还是个‘幼龙’(hatchling)。”
加速创新
该公司预计该架构将在解决商业、金融及其他领域的问题方面有广泛应用。
Pathway首席商务官维克多·什切尔巴(Victor Szczerba)将AI任务分为两类:一类是“大宗”任务,例如批准客户折扣;另一类则是更具挑战性的项目,例如季度末财务规划。什切尔巴说:“这个过程持续八周,涉及10个部门的协调,并需要长时间掌握工作全局。”他还说:“Pathway的架构旨在随着时间的推移记住长期的序列和后果来处理这种复杂性,而不是每次交互都重置。”
该技术可能有助于解决复杂的供应链可变性问题。例如,一家突然面临钨短缺的钢铁制造商可以应用Pathway的框架,该框架可以从有限的私有数据中学习,而无需将这些数据暴露给外界。据斯塔米罗夫斯卡称,其他潜在应用领域还包括聚变研究、太空探索和全球贸易网络优化等。
在所有这些例子中,关键在于对真正创新的需求。要设计出一种新的宇宙飞船,AI模型不能仅仅获取大量关于其他宇宙飞船的数据并进行学习。它需要一个能够泛化或学习推理的模型,而不仅仅是模式匹配。
斯塔米罗夫斯卡说:“我们将极大地加快创新周期。”她还说:“当前基于transformer的模型的问题在于,它们需要大量数据,而且无法推广到它们所见过的数据范围之外。”
纽约大学坦登工程学院(NYU Tandon School of Engineering)计算机科学与工程系主任马丁·法拉赫-科尔顿(Martín Farach-Colton)认为,虽然围绕大语言模型概念可能已经形成了一个泡沫,但这不一定适用于AI本身。大语言模型在三个方面面临局限:确定模型如何得出答案; 将计划推广到训练数据标准之外的能力;以及多模态能力,即同时处理文本、图像、视频和空间推理的能力。然而,人们正在为解决这些缺点付出巨大努力,尤其是在第三个方面。
法拉赫-科尔顿表示,Pathway的架构可能有助于解决前两个问题。他说,他在专业层面认识Pathway的一些团队成员,但与该公司没有财务或商业联系。
他说:“市场可能高估了当前技术(大语言模型)的迭代,同时可能低估或误解了下一次架构飞跃的必要性。”
Enjoyed this article? Sign up for our newsletter to receive regular insights and stay connected.

