通用 AI,通用技术,通向何方 未尽研究 2023.05.07 摘要 ChatGPT 自从 2022 年底发布以来,迅速成为风靡全球的现象级产品,开启了通用人工智能的时代。这个 应用背后的技术,是用深度神经网络技术训练出来的自然语言大模型,它可以生成内容,也具备了逻辑 和推理能力,与其他模型和应用协同完成任务。大模型还能打通语言、图像、视频、音频,以及更多对 物理环境的感知,产生“具身”的智能。大模型也可能进一步改变科学研究的范式。尽管大模型目前也 存在着事实不准确、幻觉等缺陷,并且进一步引发了关于智能的本质的争议,但大模型通过学习人类语 言并且掌握其基本结构,从中产生了智能,并且对人类的智能提供了一种参照。大模型在互联网和数字 技术的基础之上,成为一种通用技术,正在迅速渗透到数字经济的各个领域,在计算机上形成了自动化 完成复杂任务的能力,在知识工作的领域能显著提升劳动生产力,并且引领数字经济向人工智能化发 展。根据以往的电力和信息等通用技术颠覆旧技术的研究,大模型的迅速应用,可能在短期内冲击就业 市场,但随着新技术带来更多行业的生产力的提升,并且创造新的需求,新技术可能创造新的就业和增 长。但这一切还取决于采取相应的政策。对于中国来说,发展大模型面临着一些瓶颈,如算力落差、开 源的语言数据不够丰富、先进大模型人才短缺,等等。但中国可以通过多元分布式的布局,统筹超算中 心克服短期算力瓶颈,通过开源及要素市场建立起语料数据的供应。由于中国在特定领域、行业应用方 面拥有丰富的应用场景,大模型技术在中国有广阔前景,服务于中国的数字经济与创新型经济的大计。 1 / 23 人是万物之灵。人类之灵,在于语言。人 类所有的知识通过语言传播,所有的智慧通过 语言传承。维特根斯坦说,思想的边界,止于 语言的边界。 学习,计算机通过概率统计,总是能通过推算出 下一个单词,以符合语法、语义、上下文信息 等,最终生成对人类有意义的词组、句子、段 落、表达,并且与人类流畅地对话。 是不是说,当机器学习了所有的语言,就 能达到人类的智能,这是一个假设,一个需要 有勇气去证明的假设。 1 通用 AI 图 1:生成式人工智能输出对话的原理示例 用人类所有的语言作为用来学习的数据,去 复制人类的智能,去发现一种新的智能,这是一 项伟大的实验。费曼说过:凡是我不能创造的, 我就无法理解。 1.1 机器学习让计算机从经验中学习知识,而不 是以人类给计算机规定的形式以获取所需要的所 有知识。计算机用较简单的概念,一层一层地学 习复杂概念,构建出多层次的深度神经网络。 ChatGPT 时刻 世界上第一个能像人一样对话的机器人,不 可能只是在语言实验室里,而只能是出世不久即 在真实的世界里与上亿人对话的 ChatGPT。它的字 面意思,就是预训练生成式对话机器人。这个机 器人的大脑,就是自然语言大模型。这份报告里 自始至终会用自然语言大模型(简称大模型)这 个概念。 这个由深度神经网络训练出来的 GPT-3.5 大 模型,拥有 1750 亿个参数,45 万亿个语言标志 (token)。神经网络可以从已知的单词正在组成的 句子中,预测下一个单词——这也是辛顿 (Geoffrey Hinton)等人于 1986 年 5 月在《自 然》杂志上发表的论文中,首次提出的语言模 型。 自然语言展示出智能,就是排序的游戏。我 们置身于一个复杂的世界。无论多么复杂,宇宙 万物,从人类语言到蛋白质的结构,皆成序列。 序列决定结构。结构决定功能。世界上所有的语 种,皆是由遵从一定的语义和语法规则而组成的 语言文字序列。 根据人类的提示,借助从人类语言中知识的 图 2:人工智能的表现改善迅速。人工智能测试与 人类水平相比。Kiela et al.(2021) 从 2012 年起,人类训练的模型识别图像和声 音,接近并超过了人类的水平;对自然语言的辨 识和处理能力迅速提升,一些单项语言能力迅速 超越人类的能力。到 2016 年时,一个粗略的经验 法则是,只要在一个具体的类别给定 5000 个标注 样本,监督深度学习一般将达到可以接受的性 能,当至少有 1000 万个标注样本的数据集用于训 练时,它将达到或超过人类的表现。 2 / 23 图 3:大模型缩放定律与涌现能力。左图:当模型大小呈指数增长时,相应的模型性能呈线性增长。右 图:当模型尺寸达到一定规模时,性能急剧增加,出现涌现现象。 算力越来越强,算法越来越精妙,神经网络 能吞吐的数据量也越来越大。自注意力转换器 (Transformer)的出现,让计算系统可以并行处 理更大规模的语言数据量,直到可以从人类所有 语料库数据中推算出人类想要的结果。目前神经 网络的神经元(参数)的数量,已经远远超过了 人脑,达到了数千亿甚至数万亿个,所处理的自 然语言数据量也达到了几十万亿级别(接近人脑 的连接数) ,在日益复杂的神经网络中,出现了智 能从一项任务向其他任务迁移,当模型的规模达 到某个临界值时,那些各自的能力,以及新的能 力就会突然“涌现” ,其中包括人们所期待的智能 的泛化与通用。 涌现是大模型的理论基础,用来解释为什么 无需人工干预,就能从原始的自然语言或者多模 态数据中自动学习到的特征与模式,并且能用来 进行预测和决策。 一般认为,深度学习模型的分层结构和权重 学习机制导致了涌现的发生。大模型的训练中, 每一层神经元(可视为变量组合)的输出都是下 一层神经元的输入,并且模型的每个权重都通过 强化学习算法进行学习和更新。当训练大模型 时,数据中的统计规律对其内部参数和结构进行 调整 ;一层又一层的权重学习,使得深度神经网 络能够自动学会从原始数据中提取隐含的特征和 模式,从而实现涌现能力。 涌现这个概念,来自复杂性科学,它的一个 基本论断,就是大量最简单的行为中,可能产生 高级和复杂的行为。 大模型不仅知书,而且达理。语言是世界 “潜在复杂性的表现” 。这意味着语言运作的模型 在某种意义上也包含世界运作的模型。通用的大 模型,在一定程度上也是一个世界模型。从 DeepMind 到 OpenAI 的终极目标,正是训练出达到 甚至超过人类水平的智能,不仅能完成专项任 务,而且能完成多项任务,具有学习、推理、预 测等能力,即通用人工智能(AGI) 。通用人工智 能相信奇点,人工智能终有一天会比人类聪明。 ChatGPT 推出仅仅 2 个月,成为史上用户数量 过亿所用时间最短的产品;之后 100 天左右, GPT-4 推出,并迅速与微软的产品全面集成,几乎 重新定义了所有的软件服务。盘踞于搜索、云计 算和 SaaS 之上的巨头开开始“跳舞” ,硅谷掀起 了一场大模型风暴,也引发了通用 AI 革命。 1.2 大模型的缺陷 大语言模型目前引领了人工智能的发展方 向,它在带来惊喜的同时,也不时伴随着失望。 最大的问题是可靠性。人们最初会容忍一个不成 熟的技术,但是不成熟的技术,将无法直接大规 3 / 23 模应用。 ChatGPT 在首页提醒了自己的局限:可能偶尔 会产生不正确的信息; 可能偶尔会产生有害的指 令或有偏见的内容;对 2021 年后的世界和事件 的了解有限。许多用户无法容忍的,是它在洋洋 洒洒的文章和头头是道的叙事中,隐藏着事实性 错误。 而大模型“涌现”智能的原因和机理是什 么,一直没有找到合理的解释,它依然像是从一 个黑盒子里冒出来的异类智能。它也涌现出人类 语言中所固有的认知缺陷,如偏见、歧视、胡思 乱想、胡言乱语,等等。人们不知其所以然,难 以完全放心。 大模型主要是一场大规模的工程实验的结 果,一时还欠缺理论的解释。在它所涉及到的语 言学、心理学等领域里,遭遇了权威学者们的抵 制与批评;大模型的“智能”,也承受着学术界的 严格拷问和批判。 一些人工智能科学家、语言学家、心理学 家、哲学家批评,大模型在与人类进行对话时, 只是根据人类的提示,对语言数据进行概率统计 运算,然后提供一个猜测式的回答,并没有真正 理解语言的意义。人类掌握语言的背后,其实是 对事实的了解,对物理世界的感知,对因果关系 的追求;机器学习对这一切无感 ,因而并不了解 语言的意义,不对事实负责,也不是真正的智 能。图灵奖获得者杨立昆说:自回归式的深度神 经网络,不可能有未来。 图 4:大型语言模型的竞争优势分析矩阵 如何解决可靠性问题?如何建立起一个世界 模型?人工智能的研究者们,已经总结出了一系 列的工程实践。继续扩大模型,增加参数和语言 数据依然是一个方向,但并非唯一可行。现有模 型,需要更加精确地理解和掌握人类的意图,如 提升语言数据的质量,优化人类反馈的强化学习 (RLHF) ,更好的提示工程(Prompt Engineering) ,持续精调模型,以及大模型主动 发问人类,调用更多外部资源,等等。目前 OpenAI 并不急于推出 GPT-5,而是致力于提升现 有模型的稳定性与可靠性,这是未来两年 OpenAI 的技术方向。 随着插件的推出,以及人类越来越多地把自 己的事情委托给基于大模型的应用来处理,人们 也担心可能带来的一个后果,是人类牺牲了自己 的决策权,而大模型的决策机制是不透明的。 1.3 大模型的下一步 OpenAI 并不急于训练 GPT-5,近两年内,创 新迭代的重点,已经不再是马上造出更大的模 型,而是让现有的模型变得更好。一方面是推广 模型化的应用,建立起生态;另一方面是解决大 模型暴露出来的问题。 自主智能体(如 AutoGPT)应用的推出,正在 让 ChatGPT 变得像个“玩具” 。大模型可以通过 API 接口,调用其他应用、其他模型,自动完成更 为复杂的任务。自主智能体在完成任务的过程 中,能推理工作的步骤。而且这些智能体之间的 互动,已经有专家开始探索。智能体还能将工作 流与硬件结合在一起,让智能硬件真正具备智 能,从而改变物理世界。大模型的训练成本越来 越低,正在快速降低使用门槛,变成“小模型” 进入到越来越多的边缘计算中,也与越来越多的 设备结合在一起,包括手机和机器人。 连续学习,与世界和周围环境同步的能力。 一旦模型被训练,它就固定了,无法及时整合来 自用户的新反馈和世界的新信息(指的是更改权 重的方式) 。可以根据新数据对模型进行微调,但 这可能会导致性能下降或过拟合。由于训练周期 较长,模型训练期间,世界有出现了新的事件、 信息和知识,尽管插件已经可以解决部分问题, 但大模型自身可能需要探索一种能够持续稳定进 行连续学习的方法。 4 / 23 图 5:训练模型的技术堆栈,使用三个应和即可完成。Replit 官网 多模态大模型。如果大模型在结合文本、图 像和视频的数据集上接受训练,以提供对世界如 何运作的更丰富的感知,那么它们将减少幻觉。 语言大模型与视觉、听觉,以及人类设计和发现 的更加复杂的结构结合在一起,可以弥补自然语 言智能的不足,对周围环境形成感知,让智能更 加完整和“具身”。 大模型的小型化、平民化。开源的大模型, 正在帮助实现一张显卡上能训练出百亿级参数的 模型,成本仅数百美元。可能在不远的将来,人 人都将可以获得本地的、定制化的大模型服务。 人类的创造与消费活动将合为一体。 专业领域、细分领域的模型正在大量涌现。 用专业知识和领域数据来精调大模型,会减少错 误,通常在特定领域内比通用大模型更加可靠。 成为机器人的大脑。以语言大模型为基础, 集成多模态模型,利用零样本学习方法让机器人 完成任务。通过在真实的物理世界中与环境互 动,完成人类任务,形成具身化的人工智能。 (如 LLM-Brain,谷歌的 PaLM-E) 也许克服大模型所固有的弱点,除了上述技 术之外,可能还需要新的范式,超越对下一个单 词的预测。在科学家对 GPT-4 进行测试之后,提 出了如下的建议: 以“慢思考”深层机制,监督下一个单词预 测的“快思考”机制。这种方法可以允许模型执 行长期计划、探索或验证,并保持工作记忆或行 动计划。慢思考机制将使用下一个单词预测模型 作为子程序,但它也可以访问外部信息源或反 馈,并且能够修改或更正快速思考机制的输出。 超越单词预测。用层次结构取代标记序列, 其中文本的高级部分(如句子、段落或思想)在嵌 入中表示,内容以自上而下的方式生成。将长期 记忆集成为体系结构的固有部分,也许在某种意 义上,模型的输入和输出除了表示文本的标记之 外,还将包括表示上下文的向量。 正如维特根斯坦在晚年几乎完全否定了自己 早年关于语言的理论,把语言看成是一种人类全 面参与的“游戏”,语言大模型将在无数人的应用 中,不断探索语言的真谛,扩展智能的边界。 尽管大模型饱受批评,在数学家和物理学家 沃夫拉姆 ( Steve Wolfram ) 看来,它依然是一 个“令人惊讶的科学发现:在某种程度上,在像 ChatGPT 这样的神经网络中,有可能捕捉到人类 大脑在生成语言时所做的事情的本质。” 大语言模型反过来帮助我们更深刻地理解人 类智能,它提供了人类智能的一种对照。人工智 能将使人类重新审视自以为已经知道的领域,例 5 / 23 如,可能人类以为高深的东西,原本是浅显的。 “神经网络之所以能够成功地写一篇论文,是因 为写一篇论文被证明是一个比我们想象的计算 ‘更浅’的问题。”(Wolfram) 。 不同,科学研究也可以是 AI 驱动的,即许多科学 研究工作将由 AI 自动完成;或者说是量子计算驱 动的科学研究,以解决在传统计算能力中无法完 成的任务。 大模型反过来提示人类,人类的哪些智力活 动是真正有价值的,以及如何更有效地运用人类 的智能。ChatGPT 的推出,让人类的智能得到了一 个“第三方”的评判,而未来知识的产生,也将 越来越多地产生于人类与机器的协同之中。 如果人类无法解释大模型所产生的智能,只 会有两种结果,要么这种智能的确是一种虚幻的 东西,要么现有的理论需要来一次“范式转移” 。 1.4 AI for Science 图 6:AI for Science 的科研新范式。 人类努力在一些关键领域实现一些重大的科 学发现,如创新药、新材料、新能源、气候变 化、宇宙发现,等等,所耗费的资金量越来越 大,时间也越来越长,效率也在递减,但人类所 面临的挑战也越来越近迫切地需要解决。提升科 学发现与技术创新的效率,在大国竞争的时代, 也变得尤为重要。科学研究的突破,需要新范 式。 深度学习新方法,正在成为兼顾科学发现的 速度与准确性的有力工具。就在基于大数据提出 的科学研究第四范式还没有多久,人工智能驱动 的科学研究(AI for Science)很快被提出为第 五范式。与以往的经验、理论、计算、数据驱动 实验自动化。AI 驱动的科学方法,可能从人 类社会与自然界的大量数据中及时发现相关关 系,形成假设,去探索新的因果关系。这一过 程,以往需要天才科学家的灵感,今后可以配上 一个 AI for Science 的副驾。如在物理、化学及 材料科学等领域,在 AI 驱动之下, “实验观察可 变成无人实验,理论推导可变成假设生成,仿真 模拟可变成现象生成,数据驱动可变成数据增 强。 ”数据的来源,也从真实世界的原生数据,日 益转向合成数据。科学家们已经开始使用生成式 代理 (Generative Agent),结合了多个大型语言 模型,用于自主设计、规划和执行科学实验。 图 7:人类的许多工作正在被智能代理接管。代理由多个模块组成,它们之间交换信息。其中一些模 块可以访问 API、互联网和 Python 解释器。 6 / 23 科研“大模型”。 通用的科研大模型,可能 应用于任何物质研究,又可以针对特定问题量身 定制。科学家可以用专业知识把大模型精调为服 务其所在的研究领域,如化学材料或某种自然现 象。科学家还可以应用该方法来控制实时过程, 即随着实验的进行而及时动态演变的系统。 而引领科学家发现新的有用物质。机器学习未来 可能极大地加速先进材料的发现。例如,从 LiMn2O4 到镍锰钴(NMC)材料的电池发现的时间 线。使用已知的数据,可以通过机器学习将电池 的新材料类的发现加速从 14 年缩短到不到 5 年。 美国的国家实验室正在提供这样的服务。用 同步辐射光产生的通用物质基本结构数据,可以 用来训练科学大模型。同步辐射光是一种极强的 电磁波,其波长非常短,能够穿透材料并提供高 分辨率的信息,因此它在材料科学、化学、生命 科学、环境科学等领域的研究中非常重要。 再例如,用 AI 算法发现 3 种新纳米结构,研 究时间从 1 个月压缩到 6 小时,正是因为澳大利 亚的科学家提出了一种全新的自然语言处理任 务,即结构化信息推断(SII),成功利用 GPT-3 从科学文献中获取有价值的科学知识。 中国的北京、上海、深圳等主要的科创中 心,也正在加紧建造各种大科学设施,而 AI 驱动 的科学探索,已经成为其中的重点。 科学家的利器。不管科学界如何批评大模型 的不完善之处,世界各地越来越多的科研人员, 正在以大模型为科研工具,除了用于日常的文 本、文献、计算等,还可以设计和执行科学实 验,验证既有的科学理论,发现新的研究方向。 生命科学成为最活跃的领域。AlphaFold 已经 能用生成式人工智能预测蛋白质结构,已经应用 于科学家张锋的项目中。AI 能使研究人员更快更 高效地找到药物候选物,有可能加快创新药的研 发,并降低昂贵的失败风险。AI 有可能革命性地 改变药物发现过程。 有一些药物通过 AI 的帮助,已经进入临床阶 段。越来越多的科学家,利用生成式 AI 模型和强 化学习来探索抗癌药物的潜在化合物,评估它们 的可合成性,或模拟它们在目标肿瘤中的反应。 群体基因组学数据,可以用来了解复杂性状的基 础,以及发现或构建自动化微生物和植物细胞逆 向设计的工作流程。 化学与新材料。一直以来,发现新材料和化 学反应的能力是通过直觉、设计规则、模型和理 论,从实验和模拟产生的科学数据推导出来的。 可以得到的材料和化合物数量是天文数字级别 的,因此找到所需的材料就像大海捞针一样困 难。目前,各种机器学习方法被用来帮助科学家 探索复杂的信息和数据集,以获得新的洞见,从 图 8:电池材料技术从发现到商业化 AI 在未来科学将日益走向中心的位置,而数 据在其中扮演着核心角色。为此需要将领域知识 纳入到 AI 方法中,以提高模型的质量和可解释 性;需要开发软件环境,使 AI 能力能够与大规模 HPC(高性能计算)模型无缝集成;需要自动化大 规模创建“FAIR”(可找到、可访问、可互操作 和可重复使用)数据。 2 通用技术 ChatGPT 的问世,被称为浏览器时刻,iPhone 时刻;GPT-4 推出后,微软和 OpenAI 很快发布了 两篇论文,认为 GPT-4 已经冒出“通用人工智能 的火花”,而大语言模型正在成为“通用技 术”,通过对就业市场影响的初步分析,预示将 会引发广泛的产业与经济变革。 2.1 电力与 IT 20 世纪公认的两大通用技术,电力技术和信 息技术,在上半世纪和下半世纪分别推动了第二 次和第三次技术革命,大幅提升了生产效率,加 速了社会财富增长。 7 / 23 通用技术迅速得以规模化采用的时期,就是 通用技术时代。电力技术和 IT 技术渗透进多个行 业领域;随着时间推移,它们能不断改进,使用 成本不断降低;它们能让应用部门的发明和生产 变得更容易,后者反过来又推动前者进步。有学 者将通用技术在全社会的中位行业(median sector)渗透率超过 1%视为起点,将净采用率 (net adoption)不再增长的那一刻视为终点。 专利数量的变化反映了这一趋势。快速电气化时 期,市场涌现了一大批需要电力驱动的新产品。 同样,IT 时代的发明活动空前高涨。这种趋势是 全球性的,市场化的。 图 9:从 1874 年到 2002 年的劳动生产率变化。 NBER(2005) 2.2 人工智能作为通用技术 正如电力之于当时正在兴起的工业,人工智 能之于数字经济,是一种潜在的通用技术。从通 用技术观察人工智能,起点应该是 2012 年,标志 性事件是人类利用深度神经网络技术,在图像及 声音识别中接近或者达到了人类的水平。 ChatGPT 的推出,是人类近年来大模型研究不 断突破的结果。以往,人工智能带来的大部分益 处,都分散在上千种不同的地方,产品每增加一 项智能任务,就要专门定制一个模型;人们在受 益于人工智能,但甚至可能都没有意识到所获得 的产品体验中,有多少来自机器学习系统。现在 一个模型可以用在很多地方,因为它们拥有了很 强的泛化性。随着规模扩展而变得更强大的模 型,还能不断改善,可以让所有构建在模型之上 的应用同步受益。 模型与模块。大模型已经初步展示出了通用 技术的一些特征。它使互联网上的智能组件之间 能够无缝整合,获得更好的通用性,并且实现彼 此增强。在计算机上通常执行的任何任务,大模 型都有可能完成。大模型还是创建其他工具的多 功能模块。 今后大模型会像内燃机安装入各种汽车和动 力装置一样,集成到各种软件与硬件系统中,成 为数字产品的基本能力单元,部署在各行各业。 这一过程需要时间,也需要重新配置现有工作及 业务流程。尽管会遇到各种现有范式的限制,以 及模型本身并不完善,但采用趋势正在扩大,大 模型越来越多地被集成到写作辅助、艺术设计、 营销推广、编程服务、法律研究等领域的专业应 用中,而越来越多的专业应用程序允许企业和个 人将大模型纳入其工作流程中。 图 10:1979 年以来美国生产效率与劳动者时薪 的鸿沟。EPI(2020) 从目前的研究来看,通用技术似乎并不能立 即带来生产效率的提升。在英国工业革命、电气 革命和信息技术革命的初期,总是出现劳动生产 率提升不明显甚至下降,或者说是劳动力收入的 增速低于劳动产生率的提升。 技术平台。大模型能发挥出平台的作用,连 接互补的技术,与人类建立起新型的协作关系。 随着大模型超越特定性能阈值,可能会出现积极 的反馈循环,使它们能够协助构建工具,增强其 在各种场景中的作用,并且降低创建此类工具所 需的成本和专业知识门槛,进一步加速大模型的 采用和整合。大模型本身还可以帮助机器学习开 发新的模型,为研究人员提供编码辅助、数据标 注服务或合成数据。 8 / 23 通用技术(如印刷、蒸汽机、内燃机)的特 点是普及范围广、不断改进,并且产生了互补创 新。实现通用技术的全部潜力,需要更加广泛的 共同发明,因而也可能是一个昂贵而耗时的过 程。因此,对于许多公司来说,组织系统可能需 要重新设计,才能有效地利用新的大模型技术。 2.2.1 生成式人工智能应用所产生的内容,从文 字、图片、视频到游戏,迅速占据网络空间。 图像生成模型 Stable Diffusion 拥有的 A100 芯 片,从去年的 32 个增加到今年 3 月的 5400 个, 算力支持的访问量翻了超过 168 倍。这种将人工 智能用于消费而非生产的用户行为,正是通用 技术渗透入生活的缩影。 市场渗透 2.2.2 整体渗透。近年来,主导人工智能发展的力 量,已经从政府和学术界,完全转向产业界。从 2015 年起,产业界发布的机器学习系统的数量, 就已经超过了学术界,而且差距越来越大。它不 再只是实验室里的点子和原型,而是更密切地与 科技企业的创新结合在一起的产品。 推动研发的不仅仅来自 AI 行业,它在向具 体应用转化。在过去十年的下半叶,每项专利 的技术类别(尤其是三级行业分类或四级行业 分类)数量不断增加。AI 相关专利正在越来越 多地涉及其他行业。 一些主流大型企业已经开始投资及采用大模 型技术。摩根士丹利首家正式接入 GPT-4,改变 其财富管理人员查询和使用相关信息的方式。 彭博则利用自己强大的数据资源,训练出 BloombergGPT,一个有 500 亿参数、基于 BLOOM 模型的金融大语言模型(LLM for Finance) 。普 华永道宣布将投资 10 亿美元采用大模型技术。 成本下降 得益于模型的改进、算法的优化、硬件性 能的提升,大模型的训练与推理的单位成本正 在持续下降。 自 2014 年以来,AI 芯片性能以每年 93%的 速度提高,这意味着成本每年下降 48%,比摩尔 定律还快。如果这一趋势继续,那么,完成同 等质量的任务的硬件成本,将从 2014 年的 11000 美元,惊人地下降到 2030 年的 5 美分。此外, 自 2012 年以来,人工智能模型在 ImageNet 分类 中训练神经网络达到相同性能所需的计算量, 每 16 个月减少 2 倍。 2020 年 GPT-3 发布的时候,单次训练成本 是 460 万美元,而现在价格是 140 万美元,约下 降了 70%。今年初,OpenAI 提供的 API 服务价格 下降了 90%。而开源模型的兴起,可能提供免费 的模型服务,挑战 OpenAI 的闭源模型。 消费者的接受。 ChatGPT 有很多缺点,却仍 然是史上用户接受最快的科技产品。今年 3 月, 它吸引了全球近 16 亿次用户访问,是 1 月时访 问量(5.9 亿次)的近 3 倍。 图 12:人工智能训练成本持续下降。从 2020 年 到 2022 年,GPT-3 水平的人工智能成本年均下降 70%, 降幅大于此前预测的 60%。按这个趋势,到 2030 年, 同等表现的人工智能的训练成本将降至 30 美元。Ark Invest 图 11:ChatGPT 全球月访问量激增。含桌面端与移动 端流量,全球数据。Similarweb 用于生成图画的模型与语言模型有所不同, 开源为主,鼓励多样化的数据集和训练方法, 训练成本更低至几十万美元,训练 Diffusion 模型本身可以成为产品甚至作品。 9 / 23 2.2.3 催生创新 风险资本热点。近两年来,仅生成式人工 智能领域,风险投资机构(VC)就分别投入了 48 亿美元与 45 亿美元。2022 年,尽管多数领域 的估值出现了下滑,但这一领域逆势提升。今 年一季度,在风险资本投资大幅度下滑的情况 下,生成式人工智能的融资额高达 100 亿美元。 图 13:全球生成式人工智能初创企业季度融资 额。2023 年一季度宣布融资的总金额达到了 100 亿美元,超过前两年已完成的总融资额。 科技巨头“大象起舞” 。无论是搜索、云服 务、数据库服务、SaaS 服务、电商、社交,甚 至包括软硬件一体的科技公司,在裁员的同 时,都认准了业务全面 AI 化的战略方向,一方 面在研发通用的或者领域大模型,另外一方 面,也在积极投资新物种公司。 图 14:苹果、谷歌、亚马逊、Meta 与微软等五大 科技巨头职位列表中提及人工智能的占比。三月 移动平均数值。PredictLeads Pitchbook 这只是冰山一角。据 CB insights 统计, 约 33%的生成式人工智能尚无外部股权融资,它 们尚未纳入统计,这将推升全年的融资总额继 续上涨。 截至今年一季度,全球生成式 AI 企业的估 值达到总计约 480 亿美元,在 2 年里增至 6 倍;除了占一半以上的 OpenAI(估值预计为 290 亿美元)以外,Jasper.ai 等 5 家企业已成 为估值在 10 亿美元以上的“独角兽企业”。还 有更多企业野心勃勃。Anthropic 计划两年内筹 集 50 亿美元,争取取代 OpenAI。 科技和数据服务企业正掀起新的热潮,投 资初创生成式 AI 企业。如彭博是最活跃的企业 风险投资机构(CVC)。SaaS 云服务巨头 Salesforce 旗下企业风投已参与 140 起 AI 相关 初创企业融资,占其总投资的 20%,今年更是新 设立了 2.5 亿美元的基金。 创造新行业,改变众多行业。通用技术的 一个重要性质,是其本身能形成一个新行业, 摧生众多新物种,产生辅助共生的技术,又能 吸引众多行业拥抱这一技术。大模型的训练和 运营,用来训练大模型和进行加速推理的云计 算,相应的芯片和服务器,架构及软件环境, 这些底层技术和基础设施,架成了 AI 产业化, 将支撑大量应用的出现。另外一方面,是产业 AI 化,其中最大的领域,就是机器人和自动驾 驶的汽车。但变革之风,首先吹向现代服务 业,将掀起一场白领工业革命。就像电力驱动 起所有的机器,AI 也将驱动起所有的计算。 白领工业革命。每位知识工作者都需要一 个 AI 助手。微软已经为很多工作配备了副驾驶 (Copilot) 。基于 GPT-4 的 Microsoft 365 Copilot,可以在 Word、Excel、PowerPoint、 Outlook 等应用中快速生成内容,提高案头工作 的效率。它还有编程副驾驶 GitHub Copilot、 工作流程副驾驶 Dynamics 365 Copilot 以及安 全副驾驶 Microsoft Security Copilot。 10 / 23 使用 AIGC 工具,游戏美术设计的原画概念 图,从开始到结束,已经从 3 周减少到一个小 时。AI 花 15 秒生产的电影海报,比请专业海报 公司 1 个月时间画得还好。 App Store 时刻。随着 OpenAI 等大模型拥 有者开放 API,并将其连接到互联网,开发这样 的生产力工具也会变得越来越容易。基于 AI 与 模型的新物种将大爆发,正如当年智能手机和 应用商店推出后,那一大波应用开发的热潮。 AI 云计算及大模型成为新型基础设施。英 伟达希望从算力的代工厂,一跃成为大模型的 代工厂。目前,它已开放以下三大代工业务: 文本生成模型构建服务的 NeMo,视觉语言模型 构建服务的 Picasso,生命科学服务的 BioNeMo。 人工智能正在吃掉软件。几乎所有的互联 网应用都产生了重新做一遍的机会。目前,围 绕 OpenAI 构建起来的下游应用的商业模式,主 要是订阅模式,而不是广告模式。美国商业市 场经历了且还在经历云服务对业务的提升,但 AI 化比云化有更大的想象空间,传统的 SaaS 服 务商会迅速拥抱人工智能。 AI 可能“拯救”其他潜在的通用技术。生 成式人工智能正在让元宇宙中的虚拟人更加生 动逼真,产生 3D 游戏的效率得到提升;各种新 型协作和权益关系的产生,也可能为 web3 的应 用带来场景。 人工智能也在加快渗透先进精密的制造 业。当前用于芯片制造的人工智能,一个是 EDA 的人工智能化,一个是极紫外光刻技术。英伟 达在人工智能算力硬件 GPU 之上,构建了 cuLitho 计算光刻技术,能设计制造更强大的 GPU,比以往更快上市。 革命性的技术出现的时候,会为自己创造 新的需求,甚至是大多数人当时无法想象的。 正如第一次看到智能手机时,很少会有人想 到,这个产品重新塑造了出租车行业;又或者 冰箱诞生后,食品饮料保鲜技术的迅速普及, 最赚钱生意之一却是可口可乐。 图 15:大模型在各行各业广泛应用。影响了美 国各行业 40%的工作时间。主要基于该行业所有 工作任务中语言类任务的占比。埃森哲(2023) 2.3 人工智能的经济分析 在历史上,通用技术为提升了商业效率,形 成了新的生产力,但在经济的层面,自动化对全 劳动生产率、就业和收入分配带来的影响,往往 是非线性的。 2.3.1 鲍莫尔病与索洛悖论 鲍莫尔病。经济学家鲍莫尔在 1960 年代就 发现,技术提升制造业与科技等部门的劳动生 产率,需要的劳动力越来越少,这些部门的单 位产品成本越来越低,其产品价格越来越便 宜。但技术很难提升教育、医疗、政府等依靠 人力或深度匠艺的服务部门的劳动生产率,这 些部门的单位产出成本会越来越高,推动价格 上涨。整体来看,技术进步对劳动生产率提升 的效应并没有那么明显。 11 / 23 这就产生了索洛悖论。信息技术革命发展 这么快,但是为什么表现在统计数据上,总体 劳动生产率增长放缓。相对合理的解释是,以 往的通用技术,提升劳动生产率的往往是制造 业和科技产业,随着服务业占比提升,低劳动 生产率部门抵消了高劳动生产率部门,经济整 体生产率提升不明显,甚至有所下降。这一点 在通用技术开始大规模颠覆既有行业的初期都 发生过。 人工智能所带来的生产力革命,能否的提 升整个经济的劳动生产率,取决于它能否治得 了“鲍默尔病”,提升服务行业的劳动生产 率,同时创造更多的就业机会,从而打破索洛 悖论。这对中国经济也至关重要。2012 年,服 务业在中国经济总量中所占比重超过制造业, 2015 年,服务业在中国经济总量中的比重首次 超过 50%,服务业的比重持续上升,中国进入了 服务经济时代。 2.3.2 白领危机与就业逆差 从历次工业革命来看,通用技术的大规模部 署,早期劳动生产率提升带来的效果并不明显, 而进入生产率的增长期后,它带来的劳动力的薪 酬收入又落后于生产率的增长。随着人工智能这 一更加有效率的通用技术与经济全面结合,尤其 是 AI 背后更加强大的资本,它带来的就业及社会 财富分配的效应,可能对生产关系带来更大的冲 击。经济学家们假设一种经济“奇点” ,就是一种 极端情况,财富完全由 AI 创造,也可能主要由支 持 AI 的资本所拥有。 人工智能作为通用技术,已经展示出冲击 知识工作的端倪。这种冲击可能是正向的,知 识工作者借助人工智能,提升工作效率,促成 白领工业革命;也有可能是逆向的,部分工作 任务被人工智能彻底取代,人类工作岗位消 失。 历史上曾经发生过这种情况。当年,Excel 等电子表格出来之后,淘汰了一些数据录入和 表格维护类的职业,但是它又造就了基于数据 分析的新职业,而且新生的比淘汰的职业数量 更多。 图 16:咨询机构估算 AI 带来的经济增长。埃森 哲的为中国与 12 个发达经济的 GVA 增量总量, 其余为全球数据。埃森哲预测目标时间为至 2035 年,普华永道与麦肯锡为至 2030 年,高盛 的为 10 年内,分析集团的至 2026 年。 就全球范围而言,高盛预测,在近十年 内,人工智能将推动生产率每年提高 1.4 个百 分点,使全球 GDP 增长 7 万亿美元。普华永道 与麦肯锡认为,至 2030 年,人工智能将为全球 GDP 带来 13 万亿或 15.7 万亿美元的增量。 图 17:电子表格出现时减少的工作岗位与创造的 工作岗位。美国劳工统计局 12 / 23 图 18:从硅谷到华尔街,今年一季度裁员 16 万,已超去年。LayoffsTracker OpenAI 的研究发现,大约 80%的美国劳动 力的工作内容中至少有 10%会受到 GPTs 的影 响,而大约 19%的劳动力可能会看到至少 50%的 工作内容受到影响。上述影响跨越所有工资水 平,其中高收入的工作可能面临更大的风险。 此外,这种影响不仅限于近期生产率增长较高 的行业。 大模型显露出强大的编程辅助能力,甚至 每个人都有望用自然语言提示人工智能生成想 要的程序。从去年 12 月 ChatGPT 出来之后,美 国在知识最密集的三个领域,硅谷、华尔街和 咨询行业,2023 年一季度的裁员数量初步统计 16 万,数量已经超过了去年一整年。 这固然有经济衰退方面的原因,但它首先 表现为“白领衰退”,在一定程度上反映出就 业市场对人工智能替代一些工作岗位,已经开 始产生预期。IBM 正考虑用 AI 取代 7800 个岗 位。 在中国的就业市场,那些更具成长性的职 业,恰恰是首先被替代掉的。每增加一年从业 年限工资增长低于 8%的职业,相对最不容易被 AI 替代的,往往是制造业或服务业的蓝领;但 如果一个职业每工作一年工资增长超过 20%,被 AI 替代的可能性平均将大于 60%,它们往往是 律师、程序员或其他知识工作者。人类后天艰 辛习得积累的技能,正在成为人工智能最拿手 的本事。 技术让部分岗位消失,也会创造新的岗位 需求。在美国人口普查局的职业描述中,现在 有超过 60%的岗位,在 1940 年不存在。但问题 在于,需求的消失与创造,在同一时期并不平 衡。在二战结束后早期,技术变革以大致相同 的速度取代了工人并创造了新的就业机会,但 自 1980 年代以来,员工的流失的速度,快于创 造新机会的速度。人工智能的广泛应用,会不 会加剧这一趋势,值得观察。 13 / 23 图 19:美国 80 年代以来自动化造成了工作数量净减少。高盛(2023) 这一次会不一样? 首个真实应用场景的研究,发现在人工智能 应用最前沿的用户服务领域,分阶段部署的结 果,正与许多预言相反。该研究使用了 5179 名客 户支持代理的数据。使用这种工具平均可以使每 小时解决的问题数量增加 14%。AI 模型传播了熟 练员工可能具有的隐性知识,并帮助新员工进 步。研究还表明,AI 辅助改善了客户情感,减少 了对管理干预的要求,并提高了员工保留率。但 研究也认为,这只是单个企业的初步调查结果, 不能代表整个就业市场的情况。 2.3.3 新的数据要素 数据之于人工智能,重要性毫不逊色于煤 炭之于蒸汽机,石油之于内燃机,煤炭与天然 气之于电力。当前的机器学习模型,依赖于不 断增长的巨大数据集。获取数据越来越难,高 质量的数据更难获取。人们担心自然语言作为 “原料”供应,是不是终有一天像石油一样, 被人类开采枯竭。 人工智能的广泛应用,需要重新认识大数 据,超越大数据。大模型从设计上能调动起人 类所有语言数据,提供给神经网络,产生了一 种概率性的大知识,进而提供智能化服务,所 以,如果把数据定义为一种生产要素,人工智 能是实现其价值的最重要技术。 未来越来越多的数据,将来自人工智能的 合成。合成数据是人工智能生成的,但在统计 上可视为真实的数据,近年来备受市场追捧。 Gartner 预测称,到 2030 年合成数据将彻底取 代真实数据,成为训练 AI 的主要数据来源。 图 20:AI 工具不同访问权限对于解决客户问题数 量的影响。先给 AI 再处理问题的结果,比先不给 AI 与全程不给 AI 都要好。 基于开源大模型精调出来的较小模型,其 领域性能已经与大模型相当,而成本已经降至 数百美元。使用先进大模型的对话作为精调的 语料数据,其质量甚至优于来自高质量公共数 14 / 23 据集的人工标注数据。 可以期待的是,随着大模型越来越普及, 人工智能产生的合成数据所占的比重会越来越 大,又成为训练新的大模型的语料数据,这样 往复下去,直到成为主流的数据来源。 因此, 大模型训练面临信息的准确性、可靠性和真实性 问题会更加迫切需要解决。 3 中国之路 中国能像互联网应用那样追上美国吗?从短 期来看,中国需要以 GPT3.5 为起点,推出自己面 向消费者的通用大模型,这样与目前最先进的 GPT-4 相比,推出时间点和模型的规模可能会有一 些差距。但就在国内争论是两个月还是三年赶上 OpenAI 的时候,当下的主要问题,可能是大模型 的可靠性,而不是一味追求规模。主要大厂都不 再公布大模型的技术参数,直接可比的可行性也 在弱化。 3.1 ChatGPT 的推出和大模型风靡全球,仿佛是遇上了 一次“技术突袭”。 OpenAI 是一个罕见的初创企业类型。它经历 了从非盈利到盈利,从独立的初创企业到把自己 “租”给微软,借助科技巨头的力量进行创新, 获得了充沛的资金、算力、应用场景。它能按照 自己对 AGI 的信仰,以及对大模型“涌现”的渴 望,坚定持续地进行了一场大航海。对于微软来 说,这也是一个企业战略与商业逻辑的一次完美 结合,战略性押注一个未来的技术方向,同时推 动自己云服务和软件服务的战略转型。在商业层 面,微软以资金和云服务投入 OpenAI,促进了 Azure 云服务,又在资本市场上获得更高的估值。 中国主要的科技企业,百度、阿里、腾讯、 字节、华为等,都会推出自己的大模型,将大模 型与自己的产品和服务结合起来。它们将首先满 足国内对于大模型服务的需求。而那些初创企 业,许多是训练一些特定领域的大模型,在此基 础之上推出垂直应用和 AI 工具。更多的企业则是 开始推出百花齐放的应用产品。 脱钩时代 从互联网的兴起,到移动互联网的普及,正 逢全球化创新的高潮时期,中国在互联网时代很 快就赶上了美国。互联网的底层技术,基本源于 美国,但最贴近现实应用的那一层,中国也掌握 了。软件的应用技术扩散非常快,开发起来也更 为敏捷。中国互联网企业从模仿硅谷起步,接受 美元基金的投资,面向庞大新兴的国内市场,在 美国股票市场上市。当时各方面基本上不存在卡 脖子问题,现在则不同了,中国与美国进入脱钩 时代。 中国与美国在人工智能方面的总体差距已经 不明显,各有千秋。中国在一些应用方面已经走 到美国前列,如计算机视觉、算法推荐、智能风 控、智能物联网,等等。但是人工智能最领先的 领域深度学习方面,生成式人工智能主要的技术 和算法突破都在美国,如 Transformer 已经成为 生成式人工智能全球通用的架构。美国也最先从 工程实践中发现了“涌现”的现象,掌握了做大 模型的工艺。美国的创新机制方面也出现了一些 新的迹向。中国刚刚走出三年疫情,即遇上 表 1:中国企业的大型语言模型。左:今年已 经发布的,仅重点列举,正式召开发布会或公开 测试的时间,不包括此前发布的。右:即将发布 的。不包括大学或研究机构。 3.1.1 算力落差 无论是追着美国训练通用大模型,还是部署 领域应用大模型,对于中国企业来说,算力是一 个瓶颈。 先进芯片是人工智能的算力基础设施。英伟 达的 GPU 是大模型的标配,占据了可用于机器学 习的 GPU 市场的 95%。3 年前发布的 A100,是中美 15 / 23 算力重要的分水岭。到目前为止,1 万美元的 A100,以及建议价格 20 万美元的 DGX A100,还是 生成式 AI 的算力的主力。而新推出的 H100,在美 国的售价达到了 4 万美元。 去年,美国宣布对中国限售英伟达 A100 与 H100 等先进算力芯片,此后,美国政府还限制了 先进制程代工产能,并要求日本与荷兰停售用于 制造先进制程芯片的光刻设备。 没有人能给出中国目前有多少 A100 的确切数 据。在 2022 年 10 月限售令前,A100 已经发布 2 年,中国企业还有时间囤卡,H100 则尚未正式发 布。来自国内科技巨头的访谈纪要,透露了有限 的细节:国内可用于大模型研发和运行的人工智 能存量算力,阿里第一,字节、百度与腾讯等紧 随其后;增量方面,多家巨头仅在今年就各下单 了上万张能买到的最先进的芯片,英伟达收到的 订单或高达 300 亿元人民币。 速,或随着存量 A100 陆续折旧——一般是 2-3 年,最长不超过 5 年——中美之间以 GPU 衡量的 算力落差会继续加大。 近五年来,中国科技巨头经营出现波动,但 研发支出整体仍呈增长趋势。如果再加上搭建算 力基础设施等的研发相关资本支出,阿里巴巴最 近一个财年技术相关投入达到了 1200 亿人民币, 是研发支出的 2 倍多。 但与当前美国大模型相对领先的微软与谷歌 相比,无论是研发支出还是资本支出,中国科技 巨头的差距在加大。 图 21:2022 财年中美科技巨头研发投入及研 发强度对比。亚马逊的研发投入统计口径略有不 同,为“科技与内容” ;字节的研发强度沿用 2021 财年,研发投入根据 2022 年收入推算。谷歌指谷 歌母公司 Alphabet。 表 2:中国 AI 算力的企业分布现状。在科技巨头 中,阿里巴巴的 A100 等先进 AI 存量算力最高, 金融机构幻方也超过万张 A100。科技巨头增量算 力主要仍然来自英伟达。由于确切数据不可得, 表格展示的并非中国企业算力的全部。公司访谈 纪要等 无论是英伟达的定制版,还是国产替代版, 性能都与美国领跑企业拥有的存在显著的算力落 差。A800 芯片数据传输速率为每秒 400GB,低于 A100 的每秒 600GB;H800 相对 H100 的降幅相似。 国内已经批量生产的 AI 算力硬件,基本都落后于 A100 一代;对标 A100 的尚未量产上市。 尽管很多初创企业充满壮志雄心,立志要做 中国的 OpenAI,但市场更好看大模型最终会出自 科技巨头,或者成为巨头的“代理人” ,如谷歌投 资的美国的独角兽公司 Anthropic。这不仅是算力 基础设施投入巨大,还因为算力差距不能简单地 以堆叠芯片或延长时间来弥补。芯片越多,时间 越长,稳定性越重要,不能轻易掉线。这取决于 软件与工程能力。 科技巨头在大规模集群调度与部署上积累了 丰富经验。初创企业也在思考,能否从大模型裁 剪出稍小一点的模型,应用到特殊场景,以解决 算力问题。 而 OpenAI 在训练 GPT-4 的 3 个月里,花了 3 万张 A100 芯片的算力。如果英伟达更新迭代加 16 / 23 3.1.2 语言数据,非对称的汉语与英语 优质、多元、丰富的语言数据,对于大模型 的智能水平至关重要。全球知识的主要载体是英 语,最活跃和自由的知识体系,主要以英语表 达。全球最好的大模型,都会以英语为主要的语 言数据来训练。英语具有全球的“开源性”,众多 的公共语料库包括了图片、文字、视频、音频 等,构成了全球知识的公共品。而且语言与语言 之间的界限,在大模型所发现的语言基本结构中 将消弭,越来越准确的通用翻译将成公共品。仅 以语种建立起通用大模型的壁垒,在大模型时代 可能并不那么明显。 中国学者总结了在开发大模型时常用的语料 库,包括图书、网络文本、社交问答、维基百 科、开源代码等。它们几乎全部都是外文。为了 训练出越来越聪明的大模型,ArXiv 等科学文本越 来越多,全球学术又主要以英语为载体。 例如,国外一家名为 Common Crawl 的非营利 组织,每月爬网一次,向公众免费提供网络文本 数据集。为过滤掉质量不佳的文本,国外还基于 这些数据,形成了 CCnet 等干净的数据集。 中国拥有庞大互联网用户群体,每天都在生 产海量数据,但它们封存在不同的数据孤岛之 间,且缺乏高质量标注的合规的开源数据集。 近期,北京智源更新了 WuDaoCorpora,这是 当前全球最大的经处理的纯文本、多模态图文和 中文对话的数据集,开放了商业合作。 中国可以充分利用海外开源数据,让大型语 言模型涌现出通用的语言能力,不分中文与外 文。但过于偏向海外数据,会导致统计的偏见, 丢掉了中国特色。未经清洗的中文数据,可能因 大量重复文本,给本已捉襟见肘的算力平添压 力,还会干扰大模型把注意力停留在正确的地 方,甚至生成出不那么正能量的内容。这增加了 干预与调优的工程量。 如果英语作为最大的来源,其优质的原生语 料最快可能于 2026 年耗尽,对中国来说,优质汉 语语料的持续供给,更是一个值得关注的问题。 图 22: “匿名聊天机器人竞技场”排名前 15 的语言的对战次数。这是加州大学伯克利分校主导的大型语 言模型基准平台,通过众包的方式,用户对与其匿名聊天的两个大型语言模型打分,评估孰优孰劣。排 名采用电子竞技通行的 Elo 等级分制度。 17 / 23 3.2 中国大模型,大力出奇迹 大模型让 AI 发生了一次“范式转移” ,也将 引领数字经济进一步向 AI 化发展。大模型技术在 美国率先突破,中国在学习和追赶的同时,也要 走出一条自己的道路。 3.2.1 源的最优利用。 ” 视频大模型。相比语言大模型,视频大模型 对于中国与美国都是较新的领域。字节跳动入局 大模型稍晚于其他巨头,今年初才正式组建专门 的大模型团队。但字节引起了竞争对手的重视, 因为它已经是全球最大的短视频平台,拥有高质 量的图片或视频,大量已经标注现成。字节还是 国内巨头中海外战略最成功的,它有可能更好地 获取和利用全球人才。 算力多元化和集约化 3.2.2 随着中国大模型的研发和应用渐入高潮,训 练和运营大模型的 AI 算力出现了短缺。中国一些 企业试图开发大模型服务,但无论在应用层还是 在模型层,都已经遇到了算力瓶颈。短期内为了 解决 AI 算力短缺的问题,先进算力的一体化、集 约化、多元化供给是一种选择。 多元化,就是不完全依赖英伟达的先进 GPU 芯片。一方面支持 CPU、GPU、ASIC、FPGA 等多种 芯片的混合部署,充分发挥不同体系架构的优 势;另一方面,模型训练、边缘推理、数值模拟 的不同场景需要不同的算力,AI 算力、通用算 力、高性能算力等综合配给,才能很好地支撑各 类行业 AI 训练和应用。 让更大的模型训练更长的时间,意味着“不 仅需要拥有最大的基础设施,还必须能够长期可 靠地运行它” 。只要在全国建立起长期可靠运行的 算力,基本可以满足需求。调度算法是有可能把 分散在全国甚至海外的各种算力统筹起来去训练 大模型的。算力短缺,训练阶段可能比推理阶段 要缓和些,可以借助东数西算、东数西存、东数 西训、东视西渲等。 目前正在推进的全国超算互联网,有助于在 全国进行算力的统筹,支持算力驱动科学学研 究,云计算向云服务转型,降低人工智能的使用 门槛。国家的计算需求密集地区,政府统一调 配,成为市场之上的算力资源配置方式。如上海 发出《上海市推进算力资源统一调度指导意见》 , 提出了“实现多地算力资源的共享和全市算力资 大模型与大科学 大模型可能将科学探索带入“第五范式” ,对 于中国来说是更加值得重视的。这方面需要持续 和巨大的资金投入。在美国 AI 研究日益由科技巨 头和风险资本所支持,而学术机构的 AI 研究资源 不足。谷歌 DeepMind 在 AI for Science 方面走 在前列,微软+OpenAI 在科学研究方面的潜力巨 大。把科学研究与企业和长期战略结合起来,这 是美国在 AI 方面的机制优势之一 。 而中国则更需要国家的力量。在现有的超算 中心之上,又需要发展大模型这样的新型的科学 研究基础设施。大数据,大算力,大模型,大科 学已经紧扣在一起,构成了“AI 举国体制”。 3.2.3 汉语+ 中国目前可用于大模型训练的悟道语料库, 包括文本、图文和对话数据集,最大的仅 5TB,其 中开源的文本部分仅为 200GB。另外一个开源的中 文本数据集 CLUECorps 为 100G。相比之下,GPT-3 的训练数据量,以英语为主,达到了 45TB。谷歌 也拥有庞大的语料数据,包括汉语。国内的十多 个大学等机构,各自拥有自己的语料库;中国的 数据要素市场逐步形成,定制和加工语料数据的 企业大量出现。中国的大模型和 AI 训练,需要更 丰富通用的开源语料库。 以汉语为主的通用语料库,同时获取英语的 开源和授权使用的数据集,才能建立起立足中 18 / 23 国、汇集全人类智慧的大模型。 世界几百亿、千亿以上参数规模的大模型数量, 中国占三分之一,美国占了一半,这个比例可能 很快会反转为中国数量领先。 3.2.4 但自从 GPT-3 不再开源之后,中国的速度就 慢了下来。一方面是尚未看到既有成功案例,不 确定性的风险太大。另一方面则是缺乏底层技术 创新的经验,需要花时间去摸索模型结构的理论 创新,如对于涌现的理解,以及对实现涌现的工 程的掌握。 不输在应用 中国在大模型的应用创新方面,有机会很快 发现并发挥自己的优势。 中国企业家和创业者的学习能力很强,善于 尝试新技术推出新产品,中国的消费者乐于使用 新产品。美国的许多新技术,哪怕只是进入早期 的消费市场,后来的推广和验证,都会以更快的 速度和更大的规模在中国展开。中国工业门类齐 全,消费互联网发达,拥有多数国家无法比拟的 垂直领域的数据,拥有巨大的提升效率和创造需 求的潜力。 中国科技企业赶超美国的机会,目前并不在 通用语言大模型方面,而是在通用大模型的能力 边界之外进行创新,如多模态的技术创新,以及 中国比美国更大的应用与市场空间。中国的一系 列政策,也预示了在中国发展垂直模型的空间, 将远远大于通用语言大模型。 中国也将在不同的领域、不同的层面上训练 出比美国数量更多的大模型。最近出台的《生成 式人工智能服务管理办法(征求意见稿) 》 ,也初 步预示了中国大模型的发展方向。 中国弱在公共数据,而强在垂直场景数据。 互联网、消费、实体经济中,蕴藏和生成着丰富 的数据量,垂直领域模型的训练成本不断降低, 一些开源的大模型可以进行灵活的精调训练,迅 速降低了人工智能的使用门槛,千行百业都将会 获得 AI 的加持,迎来一波新的创业高潮。 当年安卓开源,中国大量智能手机厂商崛 起。但这次,中国团队都需要在开源的 GPT-2 的 基础上从头开始,各家开发自己的大模型,方向 一致,但路线与细节会存在较大差异。但可以肯 定的是,开源与闭源的大模型,在中国都有可能 获得广阔的发展机会。 图 23:全球各国发表的 AI 论文的数量。 中美在 AI 领域整体的差距本来并不是很大。 从发布的论文数量来看,中国已经超过了美国, 而且,中国和美国,各自都超过了后面所有国家 总和。中国这几年一直在炼制自己的大模型。全 中国通用大模型的发展还不是最快的,但在 应用上可能是最快的,尤其是在媒体、电商、游 戏、营销等领域。如果将人工智能技术使用频次 分为高频与低频,将结果宽容度分为高容忍与低 容忍,那么高频高容忍度的象限,会最快最具黏 性地用上大模型。在中国,跨境电商的小卖家就 是这个群体。他们提供大量 SKU(库存控制的最小 单位)的货品,卖给说着不同语言的客户,没有 太多时间一一沟通。用不同语种撰写不同货品还 过得去的介绍文案,甚至配上图片,可以帮上他 们的大忙。买家也不会太在意那些小错误,他们 追求物美价廉。 19 / 23 图 24:中国与美国发表论文侧重点不同。StateofAI(2022) 低容忍度的地方,往往蕴藏着大生意。这也 是中国 SaaS 行业面临的困局,通用软件没有发展 起来,大客户需要他们提供重度定制化的产品。 这是垂直一体化的中模型的挑战所在,也是机遇 所在。低 SaaS 渗透率的企业服务创新创业,重新 获得了一次跃升的机会。 “幻觉” ,另外一种可能,则是需要一次范式革 命。我们相信范式革命,但它可能会需要广泛行 业的工作流程和协作关系的改变 ,甚至更广泛的 生产关系的调整,才能最终实现,而这一切中, 政策选择起到至关重要的作用。 我们相信 ChatGPT 是人工智能一次里程碑式 的突破,它是对人类语言深层结构机制的一次重 要发现,也是对智能的一次重要发现。正如当代 几乎所有初现的科学发现和技术突破一样,这些 发现是通过持续的、大型的和精密的工程来实现 的,即自然语言大模型工程。 关于通用人工智能带来的生产力革命,可能 对于就业、劳动收入、生产关系带来的影响,理 论上有一些假设和探讨,如通用人工智能基本实 现时,可能产生的经济“奇点”效应,以及基于 “无知之幕”等社会正义与道德理论产生的新型 生产关系的设置。与历次通用技术革命相比,这 次有什么不同,仍然需要观察。人工智能大规模 应用对人类福祉可能产生的影响,引发出广泛的 不安与担忧。人类是使用一种新的智能帮助自己 解决诸多急迫的问题与挑战,并且调整和适应新 的生产力的变革,还是在研发和应用更先进的人 工智能的过程中失控于新的超级智能,导致灾难 性后果的发生,这是一个极为重大的时代命题, 我们会继续研究。 大模型中的确产生了智能,一种与人类智能 对照的智能,一种用“碳基”智能一时还无法完 全解释的智能,如概率性的知识、涌现的机制, 等等。但是,科学进步的历史表明,当既有的理 论无法解释新的发现时,一种可能是新的发现是 与硅谷所追求的普适的智能不同,相比基础 大模型,中国的比较优势在大模型的应用。硅谷 在人工智能底层技术的突破,极大降低了技术和 应用的不确定性,也降低了试错的成本。开源的 技术也帮助中国企业加快应用和部署。中国自主 结论与讨论 20 / 23 的大模型中,创新的比较优势在特定领域的应 用,以更快的速度与各行各业的应用场景结合起 来。与互联网兴起时的全球化不同,这一轮脱钩 时期的人工智能创新应用,将会进一步推动中美 之间竞争,并且在相对平行的市场中各自发展出 特征与优势。 [10] GPTs are GPTs: An Early Look at the Labor Market Impact Potential of Large Language Models, Tyna Eloundou et al. https://arxiv.org/pdf/2303.10130.pdf [11] LLM as A Robotic Brain: Unifying Egocentric Memory and Control, Jinjie Mai, et al https://arxiv.org/pdf/2304.09349.pdf [12] CLUECorpus2020: A Large-scale Chinese Corpus for Pre-training Language Model, Liang Xu et al https://arxiv.org/pdf/2003.01355.pdf (全文完 ) [13] CLUE: A Chinese Language Understanding Evaluation Benchmark , Liang Xu et al https://aclanthology.org/2020.coling-main.419.pdf 引用及参考文献: [1] 《 深 度 学 习 》, Ian Goodfellow , Yoshua Bengio, Aaron Courville [2] What is ChatGPT doing...and Why Does it Work, Wolfram https://writings.stephenwolfram.com/2023/02/whatis-chatgpt-doing-and-why-does-it-work/ [3] On the Opportunities and Risks of Foundation Models, Rishi Bommasani et al. https://arxiv.org/abs/2108.07258 [4] On the Principles of Parsimony and SelfConsistency for the Emergence of Intelligence, Yi Ma et al https://arxiv.org/abs/2207.04630 [5] Emergent autonomous scientific research capabilities of large language models, Daniil A. Boiko et al https://arxiv.org/ftp/arxiv/papers/2304/2304.05332. pdf [6] PaLM-E: An Embodied Multimodal Language Model, Danny Driess, et al. https://arxiv.org/abs/2303.03378 [7] Finetuning Large Language Models, SEBASTIAN RASCHKA https://magazine.sebastianraschka.com/p/finetuninglarge-language-models [14] Can GPT-4 Perform Neural Architecture Search?, Mingkai Zheng et al. https://arxiv.org/pdf/2304.10970.pdf [15] A New Era of Generative AI for Everyone, Accenture https://www.accenture.com/usen/insights/technology/generative-ai [16] Sparks of Artificial General Intelligence: Early experiments with GPT-4,Microsoft Research https://arxiv.org/abs/2303.12712 [17] Vertical Snapshot: Generative AI,Pitchbook https://pitchbook.com/news/reports/2023-verticalsnapshot-generative-ai [18] Artificial Intelligence Index Report 2023, Stanford HAI https://aiindex.stanford.edu/wpcontent/uploads/2023/04/HAI_AI-IndexReport_2023.pdf [19] Economic Impacts of Artificial Intelligence (AI),European Parliamentary https://www.europarl.europa.eu/RegData/etudes/BRIE/ 2019/637967/EPRS_BRI(2019)637967_EN.pdf [20] Revisit the Classification of General Purpose Technologies (GPTs) in Corporate Innovation Research Using Patent and Patent Citation Data,Ranfeng Qiu et al https://doi.org/10.58729/1941-6679.1043 [8] Language Models (Mostly) Know What They Know, Saurav Kadavath, et al https://arxiv.org/abs/2207.05221 [21] Does Electricity Drive Structural Transformation? Evidence from the United States, Paul Gaggl et al http://www.nber.org/papers/w26477 [9] Why Does ChatGPT Fall Short in Questions Faithfully, Shen Zheng, et L https://arxiv.org/abs/2304.10513 [22] Exploring Artificial Intelligence as a General Purpose Technology with Patent Data, Kerstin Hötte Answering 21 / 23 et al https://arxiv.org/abs/2204.10304 [23] General Purpose Technologies, & Peter L. Rousseau http://www.nber.org/papers/w11093 Boyan Jovanovic [24] A Survey of Large Language Models, Zhao et al https://arxiv.org/abs/2303.18223 Wayne Xin [25] Big Ideas 2023,ARK Invest https://ark-invest.com/big-ideas-2023/ [26] The State of Generative AI in 7 Charts, CBInsights https://www.cbinsights.com/research/generative-aifunding-top-startups-investors/ [27] U.S. Outbound Investment into Companies,Emily S. Weinstein et al https://doi.org/10.51593/20210067 Chinese AI [28] The Potentially Large Effects of Artificial Intelligence on Economic Growth, Goldman Sachs https://www.goldmansachs.com/insights/pages/generat ive-ai-could-raise-global-gdp-by-7-percent.html [29] 《生成式人工智能服务管理办法(征求意见稿)》, 国 家互联网信息办公室 http://www.moj.gov.cn/pub/sfbgw/lfyjzj/lflfyjzj/202 304/W020230411552347475413.doc [30] 《上海市推进算力资源统一调度指导意见》, 上海经 信委 https://sheitc.sh.gov.cn/cmsres/9c/9c4ffba94ba24944 9581b3510f99898e/a8a228e0d7fdb9c81421a7eafd90453a.p df 22 / 23 想了解我们都在研究什么,是如何研究的,先关 注我们的微信公众号:未尽研究。 未尽研究希望在每年结束的时候,做一份有助于 “看到”来年新兴技术趋势的报告,看 DAO XXXX。 也很乐意随时抛出更多新思考。 我们不是在深奥的层面关注技术,而是技术能拿 来产生对常人有用的工具、产品与服务,让常人 能理解其价值。这就是创新的过程。 我们关注的也不是孤立的技术,而是把它放在技 术、资本与国家的三元互动中所产生的创新。 我们的研究方法是数据分析、企业调研、专业研 讨、关键技术角色的追踪观察。我们在报告准备 的过程中,得到了各相关技术领域的专家、机构、 创业者、投资人分享的看法,在此对他们表示感 谢。我们也如饥似渴地满世界阅读新兴领域的最 新报告、论文和各种知识形式的分享。 报告不是投资建议。 23 / 23