科技不时会激发全世界的想象力,最新的例子就是ChatGPT。这可以从充斥于硅谷、华尔街、把角办公室、新闻编辑室和教室里的闲言碎语来判断。自从去年11月由初创公司OpenAI发布后,ChatGPT人工智能聊天机器人(AI Chatbot)在前五天就吸引了100万名用户,成为有史以来被最快接受的消费产品。微软公司刚刚在OpenAI投资了100亿美元,希望在其自身销售的软件中,植入ChatGPT这样以假乱真模拟人类创作文本、图像和视频的能力。1月26日,Google发布了论文,描述了一种类似的模型,能够根据歌曲的文字描述创作音乐。Google母公司Alphabet的投资人在密切关注其如何应对ChatGPT的挑战。中国搜索巨头百度据传也计划于3月在搜索引擎中加入聊天机器人的功能。
谈论这些早期热潮是否合理还言之尚早。暂且不论ChatGPT及其竞争对手背后的这些“生成式”人工智能模型改变商业、文化和社会的程度,它们已经在改变科技行业对于创新及其引擎的认识了。像OpenAI和Google Research这样的公司研发实验室,正在把大科技的处理能力与计算机科学中最明亮的一些脑力火花结合起来。这些竞争实验室——无论它们是深处大科技公司内部,与其有关联,还是由独立初创公司运营——都在参与一场对于人工智能霸权史诗般的竞赛。这场竞赛的结果将决定全世界的计算机用户多快能见到人工智能时代的曙光,以及将由谁来统治。
尤其是在美国,公司研发机构长期以来都是科学进步的来源。一个半世纪以前,托马斯·爱迪生使用其留声机、灯泡等发明带来的资金,运作其在新泽西Menlo Park的工作室。二战后,美国公司在基础科学方面投入巨大,希望能够研发出实用的产品。杜邦(化工产品制造商)、IBM和施乐(均为硬件厂商)等均组建了大型研发实验室。AT&T的贝尔实验室生产出晶体管、激光和光伏电池等产品发明,其研发人员获得过9项诺贝尔奖。
然而,到了20世纪晚期,公司研发部门慢慢地更专注于“开发”,而非“研究”。2017年,经济学家Ashish Arora及其同事们研究了1980到2006年这段时期,发现公司们从基础科学研究转向了开发已有成果。他们认为,其中的原因在于研究成本上涨,以及从研发成果中获取收益的难度加大。施乐开发了现在计算机用户们熟悉的图标和窗口等,但却是苹果和微软从中收获最多。科学对于创新仍然很重要,但其主要已成为非营利大学的领地。
人工智能的兴起使形势再一次变化。大公司已不再是一枝独秀。Anthropic和Character AI等初创公司已经打造出自身的ChatGPT挑战者。初创公司Stability AI作为一些小企业、大学和非盈利机构组成的共同体,已打造出一种流行的能把文本转成图像的模型。中国政府资助的智源研究院(BAAI)等机构也十分出色。
但最近全球几乎所有人工智能方面的突破都来自于巨头公司,一方面是由于它们有计算机算力,另一方面该领域的基础研究成果难得地可以被迅速融入产品。亚马逊将人工智能应用于Alexa语音助手,meta(Facebook母公司)的一个模型最近在Diplomacy桌面策略游戏中击败了人类选手引发关注。前述两家公司比(计算机科学学霸集中营)斯坦福大学在人工智能方面的研发成果还分别要高三分之二和五分之四。Alphabet(Google母公司)和微软的成果更丰富,这还不包括Google Research的兄弟实验室——Alphabet在2014年收购的DeepMind,以及微软的关联公司OpenAI。
至于哪家处于领先位置,专家们的观点并不一致。例如,中国的实验室看来在计算机视觉子学科方面已取得大幅领先,它们在图像分析方面的论文被引用得最多。根据微软开展的排名,全世界前五名计算机视觉团队都是中国的。智源研究院也自称打造了全球最大的自然语言模型——“悟道2.0”。meta选手Cicero由于在Diplomacy游戏中开展策略推演和欺骗人类对手等广受赞誉。DeepMind的模型已经在对于计算机最难的围棋游戏中战胜了人类冠军,还能解决长期以来的生命科学难题——预测蛋白质的形状。
这些成就都令人惊叹。然而,在谈到目前最火的ChatGPT这类人工智能时,最大的战役爆发于微软和Alphabet之间。有人把基于OpenAI的GPT-3.5模型和Google尚未发布的基于LaMDA模型的聊天机器人进行了比较,各问了它们一些问题。其中包括从美国数学竞赛中选取的10个问题(“和为60的质数对数量有多少个”),从美国SAT考试中选取的10个阅读问题(“阅读该段文字,选择最能够描述其中事件的选项”)。为了增加趣味,还分别向它们请教了约会建议(“根据下列约会应用中的对话,提出首次约会的最佳方式是什么?”)。
两个人工智能都没能显著领先对方。Google的数学较好,答对了5个问题,ChatGPT对了3个。它们给出的约会建议不太一致:输入约会应用中的一些真实对话后,两者均就一个场景给出具体建议,对于另一个则只有“保持开放心态”、“进行有效沟通”等陈词滥调。在SAT问题方面,ChatGPT正确回答了9个问题(对手Google答对了7个),对于提问者反馈的响应度更好,且再次尝试时可以修正一些答案。1月30日,OpenAI宣布升级ChatGPT以改善其数学能力。当对两个人工智能提出10个新问题时,LaMDA再次比对手多得了2分。但如果允许修正答案的话,ChatGPT能与对手打成平手。
至少在目前为止,没有模型能够取得无法撼动的领先优势,原因是人工智能知识传播得很快。Stability AI的David Ha指出,相互竞争实验室的研究人员“经常混在一起”。与曾在Google工作的Ha先生一样,很多人在机构间携带着专业技术和经验跳来跳去。此外,由于最好的人工智能专家在内心深处都是科学家,他们经常把能够持续发布研究论文和在会议上展示研究成果作为屈就于私营部门的前提条件。这在一定程度上促使Google公布了一些重大进展,包括人工智能模型的关键基础要素“Transformer”,为对手提供了帮助(GPT里面的T指得就是“Transformer”)。由此,meta的顶尖人工智能研究员Yann LeCun认为,“没有人能够领先其他对手2-6个月以上”。
但这些只是早期的情况。这些实验室也许不会永远并驾齐驱下去。Google据传已经发布了“红色警报”,担心ChatGPT将能够提升来自微软的竞争对手搜索引擎Bing。DeepMind的研究人员说该公司以前聚焦于游戏和科学,现在正把资源投入语言建模,可能于年内发布其名为Sparrow的聊天机器人。
可能有助于判断竞赛最终胜者的一个变量是实验室的组织方式。OpenAI作为一家没有什么收入流需要保护的小公司,也许会发现自己有更大空间向公众发布产品。这会带来大量的用户数据,使其模型变得更好(“基于人类反馈的强化学习”),并因此吸引更多用户。
这种先发优势还可能在另一个方面自我强化。内部人士指出,OpenAI近年的快速发展使其能够从DeepMind等竞争对手处挖来专家。要想紧追不舍,Alphabet、亚马逊和meta也许要重拾其快速行动、分解实施的能力,这在其经受全球各地政府深入监管审查的背景下很难实现。
另一个决定性因素也许是科技发展的路径。到目前为止,对于生成式人工智能,越大就意味着越美,这给有钱的科技巨头们带来巨大优势。但在未来,规模也许不再意味着一切。例如,模型能够变多大是有限度的。据非营利性研究所Epoch预计,按照现在的速度,大语言模型将把高质量网络文本用完(尽管视频等形态还将在一段时间内有富余)。Stability AI的Ha先生指出,更重要的是,有办法可以对具体任务的模型进行微调,“大幅降低扩大模型的必要性”。人们也一直在探索以小博大的创新方法。
去年,共有27亿美元资本流入生成式人工智能初创公司,达成110笔交易。这意味着风险投资家们在赌大科技公司们无法获取该行业的全部价值。当然,Alphabet、微软和其他科技巨头们将试图证明这些投资者们是错的。人工智能的竞赛才只是刚刚开始。