当电子设备终于“听懂人话”,科技业或将迎来巨变

Table of Contents ( Press the ← key in browser search bar to return TOC)

生成式AI正让设备能更好地聆听并理解我们说的话。随着语音交互技术在今年加速发展,我们很快就会疑惑:以前为什么要打那么多字?

一件原本只发生在私底下的事情正在被全世界成百上千万的人带入到公共场所,无论是在人行道上,还是在开放式的办公室区里。

这件事就是人机语音交互。这种交互不只是偶尔聊几句,而是持续不断地对话。

和我们对话的也早就不是令人生厌的过时的语音助手了。现在有太多设备装上了麦克风,接入了互联网,而且有更多设备部署了生成式AI,在聆听和理解人类语言方面有了根本性的飞跃。

由谷歌(Google)提供技术支持的全新Siri即将登陆iPhone。亚马逊(Amazon)已有数亿台支持Alexa的设备已经兼容生成式AI版Alexa+。谷歌正在为其智能音箱和Gemini应用推出一款AI模型,可以直接理解用户的音频内容,无需先将语音转为文字。

ChatGPT、Claude和Gemini正在一步步实现与人类对话一样流畅的无障碍交流体验。预计今年晚些时候,OpenAI还将很快推出一款硬件,设计者正是史蒂夫·乔布斯(Steve Jobs)的前合作者乔尼·艾夫(Jony Ive)。今年的国际消费电子展(CES)上更是充斥着据说能倾听并理解你说出的每一句话的AI设备。

看来,今年将是AI让“说话”变得与“点击和滑动”一样强大的关键之年。这场变革对科技行业的影响可能堪比Mac电脑、Windows系统或iPhone的诞生。

有人将这种新的生活方式称为“语音化”(voice-pilled)。领英(LinkedIn)联合创始人雷德·霍夫曼(Reid Hoffman)近期撰文称:“对许多日常用途来说,语音输入就是比打字更快捷,更自然,也更灵活。现在的根本改变在于,最尖端的AI模型已经能够真正理解我们所说的话了。”

说话 > 打字

如今的语音转文字AI已经跨过了一个准确率门槛:直接口述信息比打字更方便。

利兰·雷奇斯(Leland Rechis)是谷歌Gemini部门语音实验业务的负责人。他透露,自从谷歌为Gemini增加了自然语言语音交互功能后,这款聊天机器人的总使用量增加到原来的五倍。自去年10月份之后,Gemini就拥有了“原生音频”模型,能直接理解语音并生成回应,无需任何繁琐的转录过程。雷奇斯补充说,用户现在倾向于与这个聊天机器人进行长时间的对话,而不仅仅是问一些简单问题。

由谷歌提供技术支持的新版Siri将为全球超过10亿的iPhone用户带来功能更强大的AI。谷歌的技术甚至可能让iPhone拥有安卓(Android)用户长久以来一直享有的一个强大功能:近乎完美的语音转录。

与此同时,iPhone用户还可以通过一款名为Wispr Flow的应用来体验未来。这款应用以一个云端开源语音转录模型取代了苹果公司(Apple)的原生语音转录功能,准确度令人惊叹。对于文字工作者的我来说,拥有一款能自动判断何时插入分号的语音听写AI,这个想法令人心动。此外,这款应用在识别专有名词方面也同样出色。

我现在已经开始用我的联想Chromebook Plus上内置的听写功能来口述我所有的电子邮件、Slack消息和其他一切文本。Windows和MacOS电脑也提供类似功能,但往往隐藏在各自的辅助功能设置中。

说话 = 新的触控屏

如果你在开车的时候突发灵感,想必你不会掏出笔记本电脑开始打字——起码我不希望你这样做。在这种场景下,语音交互会更便于你捕捉灵光乍现的时刻。

得益于理解力的大幅提升,由聊天机器人驱动的交互界面远比早期的Siri或Alexa宽容得多,也更善于模拟智慧。同时,由于它们在需要时会检索网络,补足它们并不现成掌握的信息,它们也确实能让使用者变得更聪明。

我的同事乔安娜·斯特恩(Joanna Stern)经常和AI交谈:在车里的时候,她会和ChatGPT聊任何她突然想到的话题。我的另一位同事、专栏作家妮可·阮(Nicole Nguyen)则用它来练习法语,这让她能进行真实的对话,而不只是重复固定短语。

OpenAI的一位发言人表示,过去一年,ChatGPT应用中的听写和对话模式的使用率大幅上升。最近该公司将语音功能直接整合到了应用中,更便于用户完全通过语音来操作。

我的编辑威尔逊·罗斯曼(Wilson Rothman)已经习惯了在厨房里和Alexa+聊天,讨论烹饪时间和温度、替代食材,以及其他临时需要的烹饪攻略,他可不想腾出手来查手机。

最近,我带着Gemini出去远足。一路上,我们就拜占庭帝国的历史展开了一场苏格拉底式的对话。(你知道罗马帝国其实从未真正灭亡吗?)

执行与整合

接下来出现的将是专门让人机对话体验变得更加轻松的硬件设备。

米娜·法赫米(Mina Fahmi)是Sandbar的首席执行官兼联合创始人。这家公司目前正在测试一款内置麦克风的戒指。使用的时候只需要抬起手,靠近嘴边,轻声对AI助手说话。这款产品的理念就是让用户即便在公共场合也能轻松自如地与设备交流。

法赫米说,有了像Sandbar戒指这样的产品,对话就可以自我构建、层层递进,形成一场真正的对话,在这个过程中,我们既能理清自己的思路,也能与机器真实地互动。去年,我的同事乔安娜试用了一款类似产品——来自Plaud的可穿戴智能胸针,可以记录并分析你所有的会议内容。

我曾花时间与ChatGPT和Gemini讨论专栏构思,然后让它们将这些想法整理成笔记,以便我重新查阅。

OpenAI对该公司与前苹果公司设计总监艾夫正在合作开发的设备不予置评,但OpenAI的一位高管最近暗示,这款设备的核心在于“对话”。

与此同时,Meta的智能眼镜取得了出人意料的成功。这款眼镜配备麦克风和微型耳塞式扬声器,你可以一边忙其他事情,一边与Meta的AI助手交流。据悉,苹果公司也在研发自己的智能眼镜以及AirPod的扩展功能,设计思路也是出于交互方面的考虑。

但我们会失去什么?

以语音为基础的交互界面存在的主要风险之一,就是让人机交互变得太过顺滑,太没有阻碍。极度便捷的交互可能导致“认知卸载”(cognitive offloading),让我们逐渐丧失一些能力,因为这些能力都被AI接管了。如果随口一问就能得到答案,又何必费心学习任何东西呢?这是个很现实的担忧。随着AI应用的日益普及和影响力的日益显现,我也打算在今后继续深入探讨这一话题。

另一方面,技术已经给我们的生活增加了太多压力和微任务。AI至少有希望减少一部分技术进步所带来的我们并不想要的副产品。未来,AI甚至可以帮助我们抵制那种模糊了“工作与生活边界”的永远在线的状态。

就我个人而言,我期待这样一个未来:整日与AI助手交谈,让它们帮我处理信件、日程和待办列表,同时充当我的教练、导师和知己

Enjoyed this article? Sign up for our newsletter to receive regular insights and stay connected.

Leave a Reply