AI初创企业不差钱,缺数据才是真难题

大公司并不是很愿意与希望为训练自身大语言模型的初创企业分享自有数据。

生成式AI初创企业正吸引数以十亿美元计的巨额投资,但如果无法获得合适的数据,它们就可能已经走上了失败的道路,而拿到此类数据绝非易事。

风投公司Primary Venture Partners的联合创始人兼普通合伙人Brad Svrluga说:“我们看到过很多公司的推介,这些公司很可能在开发一款卓越的AI应用,但它们没有获得使自己有能力开发一款强大应用的数据渠道,更不用说能帮助这些公司在业务中建立竞争护城河的自有数据了。”

现在,要想取得成功,拥有适合的数据比以往任何时候都更加关键。Bullpen Capital的驻场首席技术官Paul Tyma说,由于构建实际的模型已经在一定程度上变得商品化,真正的价值在于数据。

根据PitchBook的数据,对生成式AI初创企业的风险投资已从2022年的48亿美元增长到2023年前五个月的127亿美元。现在,许多这类公司都希望在金融或医疗健康等领域建立更加细分化的AI模型,但要获得这些领域的训练数据集并非易事。

一些AI初创公司的目标就是与大型、数据丰富的企业合作。例如,安永(EY)负责税务的全球副主席Marna Ricker说,由于该公司拥有大量的交易数据,每天都有生成式AI初创公司与其接触。但安永的全球客户服务管理合伙人Andy Baldwin说,他关切的问题是,如果安永的数据被用来训练外部模型会发生什么。

“谁拥有这些数据?训练模型时,这个模型的访问权是什么?还有,其他人将如何以别的方式使用该模型?”Baldwin说。“数据是我们带来的知识产权的一部分。”

初创公司可以通过为每个客户训练不同的模型,而且只用该客户的数据,以此来解决知识产权问题。这是初创公司TermSheet用来打造其Ethan产品的策略,这是一个生成式AI模型,用于回答房地产开发商、经纪人和投资者有关该行业的问题。但首席执行官兼联合创始人Roger Smith说,即使让客户同意这样做也需要做一些教育和说服工作。

法律科技公司Logikcull的联合创始人兼首席执行官Andy Wilson称,让企业相信你有一个强大的网络安全配置,并能真正保护这些数据,这也是一个挑战。

Primary Venture Partners的Svrluga说,在生成式AI应用方面,大型科技公司可能比初创企业更有优势,部分原因是它们已经得到了大客户的信任,可以放心让它们处理数据。

金融服务公司Truist的首席数据官Tracy Daniels称,她目前只与大型技术供应商而不是初创公司探讨生成式AI的使用案例。她表示,她可以相信较大的供应商能保证数据的安全。

这意味着,即使是那些能够利用公开数据取得先机的初创企业,在利用企业数据集壮大模型方面也面临挑战。Veesual是一家能够生成人们试穿衣服的图像的AI初创公司,最初利用互联网上的公共图像进行训练,但很难让大型零售商同意交出它们的数据来增强模型。

该公司首席执行官兼联合创始人Maxime Patte说,有时大型零售商会要求获得巨额报酬或公司股权,以换取Veesual通过这些数据获利,这些交易没有实现。

PatentPal是一家帮助律师事务所起草专利申请的生成式AI初创公司。该公司首席执行官兼创始人Jack Xu说,该公司用公开的专利申请进行训练。他说,如果继续用被加密或匿名的实际客户反馈进行训练,有机会使该工具更加准确。不过,这很复杂,这种反馈必须与高度敏感和机密的数据分开,包括商业秘密。

他说:“对于早期的初创公司,有品牌认可度的问题,有社会认同的问题。”

不过,与此同时,压力也在增加。Struck Capital的创始人兼执行合伙人Adam Struck说,一些初创公司正在加紧你争我夺,以确保在某些小众市场内获得更多的数据,且要做得更快。

“如果你相信有一个专有的数据集,你就会想在他们之前得到这些数据,然后谈判独家合作,”他说。“从这个意义上说,这几乎成了一场军备竞赛。”