通用AI与通用技术：发展方向研究报告

通用 AI，通用技术，通向何方未尽研究 2023.05.07 摘要 ChatGPT 自从 2022 年底发布以来，迅速成为风靡全球的现象级产品，开启了通用人工智能的时代。这个应用背后的技术，是用深度神经网络技术训练出来的自然语言大模型，它可以生成内容，也具备了逻辑和推理能力，与其他模型和应用协同完成任务。大模型还能打通语言、图像、视频、音频，以及更多对物理环境的感知，产生“具身”的智能。大模型也可能进一步改变科学研究的范式。尽管大模型目前也存在着事实不准确、幻觉等缺陷，并且进一步引发了关于智能的本质的争议，但大模型通过学习人类语言并且掌握其基本结构，从中产生了智能，并且对人类的智能提供了一种参照。大模型在互联网和数字技术的基础之上，成为一种通用技术，正在迅速渗透到数字经济的各个领域，在计算机上形成了自动化完成复杂任务的能力，在知识工作的领域能显著提升劳动生产力，并且引领数字经济向人工智能化发展。根据以往的电力和信息等通用技术颠覆旧技术的研究，大模型的迅速应用，可能在短期内冲击就业市场，但随着新技术带来更多行业的生产力的提升，并且创造新的需求，新技术可能创造新的就业和增长。但这一切还取决于采取相应的政策。对于中国来说，发展大模型面临着一些瓶颈，如算力落差、开源的语言数据不够丰富、先进大模型人才短缺，等等。但中国可以通过多元分布式的布局，统筹超算中心克服短期算力瓶颈，通过开源及要素市场建立起语料数据的供应。由于中国在特定领域、行业应用方面拥有丰富的应用场景，大模型技术在中国有广阔前景，服务于中国的数字经济与创新型经济的大计。 1 / 23 人是万物之灵。人类之灵，在于语言。人类所有的知识通过语言传播，所有的智慧通过语言传承。维特根斯坦说，思想的边界，止于语言的边界。学习，计算机通过概率统计，总是能通过推算出下一个单词，以符合语法、语义、上下文信息等，最终生成对人类有意义的词组、句子、段落、表达，并且与人类流畅地对话。是不是说，当机器学习了所有的语言，就能达到人类的智能，这是一个假设，一个需要有勇气去证明的假设。 1 通用 AI 图 1：生成式人工智能输出对话的原理示例用人类所有的语言作为用来学习的数据，去复制人类的智能，去发现一种新的智能，这是一项伟大的实验。费曼说过：凡是我不能创造的，我就无法理解。 1.1 机器学习让计算机从经验中学习知识，而不是以人类给计算机规定的形式以获取所需要的所有知识。计算机用较简单的概念，一层一层地学习复杂概念，构建出多层次的深度神经网络。 ChatGPT 时刻世界上第一个能像人一样对话的机器人，不可能只是在语言实验室里，而只能是出世不久即在真实的世界里与上亿人对话的 ChatGPT。它的字面意思，就是预训练生成式对话机器人。这个机器人的大脑，就是自然语言大模型。这份报告里自始至终会用自然语言大模型（简称大模型）这个概念。这个由深度神经网络训练出来的 GPT-3.5 大模型，拥有 1750 亿个参数，45 万亿个语言标志 (token)。神经网络可以从已知的单词正在组成的句子中，预测下一个单词——这也是辛顿（Geoffrey Hinton）等人于 1986 年 5 月在《自然》杂志上发表的论文中，首次提出的语言模型。自然语言展示出智能，就是排序的游戏。我们置身于一个复杂的世界。无论多么复杂，宇宙万物，从人类语言到蛋白质的结构，皆成序列。序列决定结构。结构决定功能。世界上所有的语种，皆是由遵从一定的语义和语法规则而组成的语言文字序列。根据人类的提示，借助从人类语言中知识的图 2：人工智能的表现改善迅速。人工智能测试与人类水平相比。Kiela et al.（2021）从 2012 年起，人类训练的模型识别图像和声音，接近并超过了人类的水平；对自然语言的辨识和处理能力迅速提升，一些单项语言能力迅速超越人类的能力。到 2016 年时，一个粗略的经验法则是，只要在一个具体的类别给定 5000 个标注样本，监督深度学习一般将达到可以接受的性能，当至少有 1000 万个标注样本的数据集用于训练时，它将达到或超过人类的表现。 2 / 23 图 3：大模型缩放定律与涌现能力。左图：当模型大小呈指数增长时，相应的模型性能呈线性增长。右图：当模型尺寸达到一定规模时，性能急剧增加，出现涌现现象。算力越来越强，算法越来越精妙，神经网络能吞吐的数据量也越来越大。自注意力转换器（Transformer)的出现，让计算系统可以并行处理更大规模的语言数据量，直到可以从人类所有语料库数据中推算出人类想要的结果。目前神经网络的神经元（参数）的数量，已经远远超过了人脑，达到了数千亿甚至数万亿个，所处理的自然语言数据量也达到了几十万亿级别（接近人脑的连接数），在日益复杂的神经网络中，出现了智能从一项任务向其他任务迁移，当模型的规模达到某个临界值时，那些各自的能力，以及新的能力就会突然“涌现” ，其中包括人们所期待的智能的泛化与通用。涌现是大模型的理论基础，用来解释为什么无需人工干预，就能从原始的自然语言或者多模态数据中自动学习到的特征与模式，并且能用来进行预测和决策。一般认为，深度学习模型的分层结构和权重学习机制导致了涌现的发生。大模型的训练中，每一层神经元（可视为变量组合）的输出都是下一层神经元的输入，并且模型的每个权重都通过强化学习算法进行学习和更新。当训练大模型时，数据中的统计规律对其内部参数和结构进行调整；一层又一层的权重学习，使得深度神经网络能够自动学会从原始数据中提取隐含的特征和模式，从而实现涌现能力。涌现这个概念，来自复杂性科学，它的一个基本论断，就是大量最简单的行为中，可能产生高级和复杂的行为。大模型不仅知书，而且达理。语言是世界 “潜在复杂性的表现” 。这意味着语言运作的模型在某种意义上也包含世界运作的模型。通用的大模型，在一定程度上也是一个世界模型。从 DeepMind 到 OpenAI 的终极目标，正是训练出达到甚至超过人类水平的智能，不仅能完成专项任务，而且能完成多项任务，具有学习、推理、预测等能力，即通用人工智能（AGI）。通用人工智能相信奇点，人工智能终有一天会比人类聪明。 ChatGPT 推出仅仅 2 个月，成为史上用户数量过亿所用时间最短的产品；之后 100 天左右， GPT-4 推出，并迅速与微软的产品全面集成，几乎重新定义了所有的软件服务。盘踞于搜索、云计算和 SaaS 之上的巨头开开始“跳舞” ，硅谷掀起了一场大模型风暴，也引发了通用 AI 革命。 1.2 大模型的缺陷大语言模型目前引领了人工智能的发展方向，它在带来惊喜的同时，也不时伴随着失望。最大的问题是可靠性。人们最初会容忍一个不成熟的技术，但是不成熟的技术，将无法直接大规 3 / 23 模应用。 ChatGPT 在首页提醒了自己的局限：可能偶尔会产生不正确的信息; 可能偶尔会产生有害的指令或有偏见的内容；对 2021 年后的世界和事件的了解有限。许多用户无法容忍的，是它在洋洋洒洒的文章和头头是道的叙事中，隐藏着事实性错误。而大模型“涌现”智能的原因和机理是什么，一直没有找到合理的解释，它依然像是从一个黑盒子里冒出来的异类智能。它也涌现出人类语言中所固有的认知缺陷，如偏见、歧视、胡思乱想、胡言乱语，等等。人们不知其所以然，难以完全放心。大模型主要是一场大规模的工程实验的结果，一时还欠缺理论的解释。在它所涉及到的语言学、心理学等领域里，遭遇了权威学者们的抵制与批评；大模型的“智能”，也承受着学术界的严格拷问和批判。一些人工智能科学家、语言学家、心理学家、哲学家批评，大模型在与人类进行对话时，只是根据人类的提示，对语言数据进行概率统计运算，然后提供一个猜测式的回答，并没有真正理解语言的意义。人类掌握语言的背后，其实是对事实的了解，对物理世界的感知，对因果关系的追求；机器学习对这一切无感，因而并不了解语言的意义，不对事实负责，也不是真正的智能。图灵奖获得者杨立昆说：自回归式的深度神经网络，不可能有未来。图 4：大型语言模型的竞争优势分析矩阵如何解决可靠性问题？如何建立起一个世界模型？人工智能的研究者们，已经总结出了一系列的工程实践。继续扩大模型，增加参数和语言数据依然是一个方向，但并非唯一可行。现有模型，需要更加精确地理解和掌握人类的意图，如提升语言数据的质量，优化人类反馈的强化学习（RLHF），更好的提示工程（Prompt Engineering），持续精调模型，以及大模型主动发问人类，调用更多外部资源，等等。目前 OpenAI 并不急于推出 GPT-5，而是致力于提升现有模型的稳定性与可靠性，这是未来两年 OpenAI 的技术方向。随着插件的推出，以及人类越来越多地把自己的事情委托给基于大模型的应用来处理，人们也担心可能带来的一个后果，是人类牺牲了自己的决策权，而大模型的决策机制是不透明的。 1.3 大模型的下一步 OpenAI 并不急于训练 GPT-5，近两年内，创新迭代的重点，已经不再是马上造出更大的模型，而是让现有的模型变得更好。一方面是推广模型化的应用，建立起生态；另一方面是解决大模型暴露出来的问题。自主智能体（如 AutoGPT）应用的推出，正在让 ChatGPT 变得像个“玩具” 。大模型可以通过 API 接口，调用其他应用、其他模型，自动完成更为复杂的任务。自主智能体在完成任务的过程中，能推理工作的步骤。而且这些智能体之间的互动，已经有专家开始探索。智能体还能将工作流与硬件结合在一起，让智能硬件真正具备智能，从而改变物理世界。大模型的训练成本越来越低，正在快速降低使用门槛，变成“小模型” 进入到越来越多的边缘计算中，也与越来越多的设备结合在一起，包括手机和机器人。连续学习，与世界和周围环境同步的能力。一旦模型被训练，它就固定了，无法及时整合来自用户的新反馈和世界的新信息（指的是更改权重的方式）。可以根据新数据对模型进行微调，但这可能会导致性能下降或过拟合。由于训练周期较长，模型训练期间，世界有出现了新的事件、信息和知识，尽管插件已经可以解决部分问题，但大模型自身可能需要探索一种能够持续稳定进行连续学习的方法。 4 / 23 图 5：训练模型的技术堆栈，使用三个应和即可完成。Replit 官网多模态大模型。如果大模型在结合文本、图像和视频的数据集上接受训练，以提供对世界如何运作的更丰富的感知，那么它们将减少幻觉。语言大模型与视觉、听觉，以及人类设计和发现的更加复杂的结构结合在一起，可以弥补自然语言智能的不足，对周围环境形成感知，让智能更加完整和“具身”。大模型的小型化、平民化。开源的大模型，正在帮助实现一张显卡上能训练出百亿级参数的模型，成本仅数百美元。可能在不远的将来，人人都将可以获得本地的、定制化的大模型服务。人类的创造与消费活动将合为一体。专业领域、细分领域的模型正在大量涌现。用专业知识和领域数据来精调大模型，会减少错误，通常在特定领域内比通用大模型更加可靠。成为机器人的大脑。以语言大模型为基础，集成多模态模型，利用零样本学习方法让机器人完成任务。通过在真实的物理世界中与环境互动，完成人类任务，形成具身化的人工智能。（如 LLM-Brain，谷歌的 PaLM-E）也许克服大模型所固有的弱点，除了上述技术之外，可能还需要新的范式，超越对下一个单词的预测。在科学家对 GPT-4 进行测试之后，提出了如下的建议：以“慢思考”深层机制，监督下一个单词预测的“快思考”机制。这种方法可以允许模型执行长期计划、探索或验证，并保持工作记忆或行动计划。慢思考机制将使用下一个单词预测模型作为子程序，但它也可以访问外部信息源或反馈，并且能够修改或更正快速思考机制的输出。超越单词预测。用层次结构取代标记序列，其中文本的高级部分(如句子、段落或思想)在嵌入中表示，内容以自上而下的方式生成。将长期记忆集成为体系结构的固有部分，也许在某种意义上，模型的输入和输出除了表示文本的标记之外，还将包括表示上下文的向量。正如维特根斯坦在晚年几乎完全否定了自己早年关于语言的理论，把语言看成是一种人类全面参与的“游戏”，语言大模型将在无数人的应用中，不断探索语言的真谛，扩展智能的边界。尽管大模型饱受批评，在数学家和物理学家沃夫拉姆 ( Steve Wolfram ) 看来，它依然是一个“令人惊讶的科学发现：在某种程度上，在像 ChatGPT 这样的神经网络中，有可能捕捉到人类大脑在生成语言时所做的事情的本质。” 大语言模型反过来帮助我们更深刻地理解人类智能，它提供了人类智能的一种对照。人工智能将使人类重新审视自以为已经知道的领域，例 5 / 23 如，可能人类以为高深的东西，原本是浅显的。 “神经网络之所以能够成功地写一篇论文，是因为写一篇论文被证明是一个比我们想象的计算 ‘更浅’的问题。”（Wolfram）。不同，科学研究也可以是 AI 驱动的，即许多科学研究工作将由 AI 自动完成；或者说是量子计算驱动的科学研究，以解决在传统计算能力中无法完成的任务。大模型反过来提示人类，人类的哪些智力活动是真正有价值的，以及如何更有效地运用人类的智能。ChatGPT 的推出，让人类的智能得到了一个“第三方”的评判，而未来知识的产生，也将越来越多地产生于人类与机器的协同之中。如果人类无法解释大模型所产生的智能，只会有两种结果，要么这种智能的确是一种虚幻的东西，要么现有的理论需要来一次“范式转移” 。 1.4 AI for Science 图 6：AI for Science 的科研新范式。人类努力在一些关键领域实现一些重大的科学发现，如创新药、新材料、新能源、气候变化、宇宙发现，等等，所耗费的资金量越来越大，时间也越来越长，效率也在递减，但人类所面临的挑战也越来越近迫切地需要解决。提升科学发现与技术创新的效率，在大国竞争的时代，也变得尤为重要。科学研究的突破，需要新范式。深度学习新方法，正在成为兼顾科学发现的速度与准确性的有力工具。就在基于大数据提出的科学研究第四范式还没有多久，人工智能驱动的科学研究（AI for Science）很快被提出为第五范式。与以往的经验、理论、计算、数据驱动实验自动化。AI 驱动的科学方法，可能从人类社会与自然界的大量数据中及时发现相关关系，形成假设，去探索新的因果关系。这一过程，以往需要天才科学家的灵感，今后可以配上一个 AI for Science 的副驾。如在物理、化学及材料科学等领域，在 AI 驱动之下， “实验观察可变成无人实验，理论推导可变成假设生成，仿真模拟可变成现象生成，数据驱动可变成数据增强。 ”数据的来源，也从真实世界的原生数据，日益转向合成数据。科学家们已经开始使用生成式代理 (Generative Agent)，结合了多个大型语言模型，用于自主设计、规划和执行科学实验。图 7：人类的许多工作正在被智能代理接管。代理由多个模块组成，它们之间交换信息。其中一些模块可以访问 API、互联网和 Python 解释器。 6 / 23 科研“大模型”。通用的科研大模型，可能应用于任何物质研究，又可以针对特定问题量身定制。科学家可以用专业知识把大模型精调为服务其所在的研究领域，如化学材料或某种自然现象。科学家还可以应用该方法来控制实时过程，即随着实验的进行而及时动态演变的系统。而引领科学家发现新的有用物质。机器学习未来可能极大地加速先进材料的发现。例如，从 LiMn2O4 到镍锰钴（NMC）材料的电池发现的时间线。使用已知的数据，可以通过机器学习将电池的新材料类的发现加速从 14 年缩短到不到 5 年。美国的国家实验室正在提供这样的服务。用同步辐射光产生的通用物质基本结构数据，可以用来训练科学大模型。同步辐射光是一种极强的电磁波，其波长非常短，能够穿透材料并提供高分辨率的信息，因此它在材料科学、化学、生命科学、环境科学等领域的研究中非常重要。再例如，用 AI 算法发现 3 种新纳米结构，研究时间从 1 个月压缩到 6 小时，正是因为澳大利亚的科学家提出了一种全新的自然语言处理任务，即结构化信息推断（SII），成功利用 GPT-3 从科学文献中获取有价值的科学知识。中国的北京、上海、深圳等主要的科创中心，也正在加紧建造各种大科学设施，而 AI 驱动的科学探索，已经成为其中的重点。科学家的利器。不管科学界如何批评大模型的不完善之处，世界各地越来越多的科研人员，正在以大模型为科研工具，除了用于日常的文本、文献、计算等，还可以设计和执行科学实验，验证既有的科学理论，发现新的研究方向。生命科学成为最活跃的领域。AlphaFold 已经能用生成式人工智能预测蛋白质结构，已经应用于科学家张锋的项目中。AI 能使研究人员更快更高效地找到药物候选物，有可能加快创新药的研发，并降低昂贵的失败风险。AI 有可能革命性地改变药物发现过程。有一些药物通过 AI 的帮助，已经进入临床阶段。越来越多的科学家，利用生成式 AI 模型和强化学习来探索抗癌药物的潜在化合物，评估它们的可合成性，或模拟它们在目标肿瘤中的反应。群体基因组学数据，可以用来了解复杂性状的基础，以及发现或构建自动化微生物和植物细胞逆向设计的工作流程。化学与新材料。一直以来，发现新材料和化学反应的能力是通过直觉、设计规则、模型和理论，从实验和模拟产生的科学数据推导出来的。可以得到的材料和化合物数量是天文数字级别的，因此找到所需的材料就像大海捞针一样困难。目前，各种机器学习方法被用来帮助科学家探索复杂的信息和数据集，以获得新的洞见，从图 8：电池材料技术从发现到商业化 AI 在未来科学将日益走向中心的位置，而数据在其中扮演着核心角色。为此需要将领域知识纳入到 AI 方法中，以提高模型的质量和可解释性；需要开发软件环境，使 AI 能力能够与大规模 HPC（高性能计算）模型无缝集成；需要自动化大规模创建“FAIR”（可找到、可访问、可互操作和可重复使用）数据。 2 通用技术 ChatGPT 的问世，被称为浏览器时刻，iPhone 时刻；GPT-4 推出后，微软和 OpenAI 很快发布了两篇论文，认为 GPT-4 已经冒出“通用人工智能的火花”，而大语言模型正在成为“通用技术”，通过对就业市场影响的初步分析，预示将会引发广泛的产业与经济变革。 2.1 电力与 IT 20 世纪公认的两大通用技术，电力技术和信息技术，在上半世纪和下半世纪分别推动了第二次和第三次技术革命，大幅提升了生产效率，加速了社会财富增长。 7 / 23 通用技术迅速得以规模化采用的时期，就是通用技术时代。电力技术和 IT 技术渗透进多个行业领域；随着时间推移，它们能不断改进，使用成本不断降低；它们能让应用部门的发明和生产变得更容易，后者反过来又推动前者进步。有学者将通用技术在全社会的中位行业（median sector）渗透率超过 1%视为起点，将净采用率（net adoption）不再增长的那一刻视为终点。专利数量的变化反映了这一趋势。快速电气化时期，市场涌现了一大批需要电力驱动的新产品。同样，IT 时代的发明活动空前高涨。这种趋势是全球性的，市场化的。图 9：从 1874 年到 2002 年的劳动生产率变化。 NBER（2005） 2.2 人工智能作为通用技术正如电力之于当时正在兴起的工业，人工智能之于数字经济，是一种潜在的通用技术。从通用技术观察人工智能，起点应该是 2012 年，标志性事件是人类利用深度神经网络技术，在图像及声音识别中接近或者达到了人类的水平。 ChatGPT 的推出，是人类近年来大模型研究不断突破的结果。以往，人工智能带来的大部分益处，都分散在上千种不同的地方，产品每增加一项智能任务，就要专门定制一个模型；人们在受益于人工智能，但甚至可能都没有意识到所获得的产品体验中，有多少来自机器学习系统。现在一个模型可以用在很多地方，因为它们拥有了很强的泛化性。随着规模扩展而变得更强大的模型，还能不断改善，可以让所有构建在模型之上的应用同步受益。模型与模块。大模型已经初步展示出了通用技术的一些特征。它使互联网上的智能组件之间能够无缝整合，获得更好的通用性，并且实现彼此增强。在计算机上通常执行的任何任务，大模型都有可能完成。大模型还是创建其他工具的多功能模块。今后大模型会像内燃机安装入各种汽车和动力装置一样，集成到各种软件与硬件系统中，成为数字产品的基本能力单元，部署在各行各业。这一过程需要时间，也需要重新配置现有工作及业务流程。尽管会遇到各种现有范式的限制，以及模型本身并不完善，但采用趋势正在扩大，大模型越来越多地被集成到写作辅助、艺术设计、营销推广、编程服务、法律研究等领域的专业应用中，而越来越多的专业应用程序允许企业和个人将大模型纳入其工作流程中。图 10：1979 年以来美国生产效率与劳动者时薪的鸿沟。EPI（2020）从目前的研究来看，通用技术似乎并不能立即带来生产效率的提升。在英国工业革命、电气革命和信息技术革命的初期，总是出现劳动生产率提升不明显甚至下降，或者说是劳动力收入的增速低于劳动产生率的提升。技术平台。大模型能发挥出平台的作用，连接互补的技术，与人类建立起新型的协作关系。随着大模型超越特定性能阈值，可能会出现积极的反馈循环，使它们能够协助构建工具，增强其在各种场景中的作用，并且降低创建此类工具所需的成本和专业知识门槛，进一步加速大模型的采用和整合。大模型本身还可以帮助机器学习开发新的模型，为研究人员提供编码辅助、数据标注服务或合成数据。 8 / 23 通用技术（如印刷、蒸汽机、内燃机）的特点是普及范围广、不断改进，并且产生了互补创新。实现通用技术的全部潜力，需要更加广泛的共同发明，因而也可能是一个昂贵而耗时的过程。因此，对于许多公司来说，组织系统可能需要重新设计，才能有效地利用新的大模型技术。 2.2.1 生成式人工智能应用所产生的内容，从文字、图片、视频到游戏，迅速占据网络空间。图像生成模型 Stable Diffusion 拥有的 A100 芯片，从去年的 32 个增加到今年 3 月的 5400 个，算力支持的访问量翻了超过 168 倍。这种将人工智能用于消费而非生产的用户行为，正是通用技术渗透入生活的缩影。市场渗透 2.2.2 整体渗透。近年来，主导人工智能发展的力量，已经从政府和学术界，完全转向产业界。从 2015 年起，产业界发布的机器学习系统的数量，就已经超过了学术界，而且差距越来越大。它不再只是实验室里的点子和原型，而是更密切地与科技企业的创新结合在一起的产品。推动研发的不仅仅来自 AI 行业，它在向具体应用转化。在过去十年的下半叶，每项专利的技术类别（尤其是三级行业分类或四级行业分类）数量不断增加。AI 相关专利正在越来越多地涉及其他行业。一些主流大型企业已经开始投资及采用大模型技术。摩根士丹利首家正式接入 GPT-4，改变其财富管理人员查询和使用相关信息的方式。彭博则利用自己强大的数据资源，训练出 BloombergGPT，一个有 500 亿参数、基于 BLOOM 模型的金融大语言模型（LLM for Finance）。普华永道宣布将投资 10 亿美元采用大模型技术。成本下降得益于模型的改进、算法的优化、硬件性能的提升，大模型的训练与推理的单位成本正在持续下降。自 2014 年以来，AI 芯片性能以每年 93%的速度提高，这意味着成本每年下降 48%，比摩尔定律还快。如果这一趋势继续，那么，完成同等质量的任务的硬件成本，将从 2014 年的 11000 美元，惊人地下降到 2030 年的 5 美分。此外，自 2012 年以来，人工智能模型在 ImageNet 分类中训练神经网络达到相同性能所需的计算量，每 16 个月减少 2 倍。 2020 年 GPT-3 发布的时候，单次训练成本是 460 万美元，而现在价格是 140 万美元，约下降了 70%。今年初，OpenAI 提供的 API 服务价格下降了 90%。而开源模型的兴起，可能提供免费的模型服务，挑战 OpenAI 的闭源模型。消费者的接受。 ChatGPT 有很多缺点，却仍然是史上用户接受最快的科技产品。今年 3 月，它吸引了全球近 16 亿次用户访问，是 1 月时访问量（5.9 亿次）的近 3 倍。图 12：人工智能训练成本持续下降。从 2020 年到 2022 年，GPT-3 水平的人工智能成本年均下降 70%，降幅大于此前预测的 60%。按这个趋势，到 2030 年，同等表现的人工智能的训练成本将降至 30 美元。Ark Invest 图 11：ChatGPT 全球月访问量激增。含桌面端与移动端流量，全球数据。Similarweb 用于生成图画的模型与语言模型有所不同，开源为主，鼓励多样化的数据集和训练方法，训练成本更低至几十万美元，训练 Diffusion 模型本身可以成为产品甚至作品。 9 / 23 2.2.3 催生创新风险资本热点。近两年来，仅生成式人工智能领域，风险投资机构（VC）就分别投入了 48 亿美元与 45 亿美元。2022 年，尽管多数领域的估值出现了下滑，但这一领域逆势提升。今年一季度，在风险资本投资大幅度下滑的情况下，生成式人工智能的融资额高达 100 亿美元。图 13：全球生成式人工智能初创企业季度融资额。2023 年一季度宣布融资的总金额达到了 100 亿美元，超过前两年已完成的总融资额。科技巨头“大象起舞” 。无论是搜索、云服务、数据库服务、SaaS 服务、电商、社交，甚至包括软硬件一体的科技公司，在裁员的同时，都认准了业务全面 AI 化的战略方向，一方面在研发通用的或者领域大模型，另外一方面，也在积极投资新物种公司。图 14：苹果、谷歌、亚马逊、Meta 与微软等五大科技巨头职位列表中提及人工智能的占比。三月移动平均数值。PredictLeads Pitchbook 这只是冰山一角。据 CB insights 统计，约 33%的生成式人工智能尚无外部股权融资，它们尚未纳入统计，这将推升全年的融资总额继续上涨。截至今年一季度，全球生成式 AI 企业的估值达到总计约 480 亿美元，在 2 年里增至 6 倍；除了占一半以上的 OpenAI（估值预计为 290 亿美元）以外，Jasper.ai 等 5 家企业已成为估值在 10 亿美元以上的“独角兽企业”。还有更多企业野心勃勃。Anthropic 计划两年内筹集 50 亿美元，争取取代 OpenAI。科技和数据服务企业正掀起新的热潮，投资初创生成式 AI 企业。如彭博是最活跃的企业风险投资机构（CVC）。SaaS 云服务巨头 Salesforce 旗下企业风投已参与 140 起 AI 相关初创企业融资，占其总投资的 20%，今年更是新设立了 2.5 亿美元的基金。创造新行业，改变众多行业。通用技术的一个重要性质，是其本身能形成一个新行业，摧生众多新物种，产生辅助共生的技术，又能吸引众多行业拥抱这一技术。大模型的训练和运营，用来训练大模型和进行加速推理的云计算，相应的芯片和服务器，架构及软件环境，这些底层技术和基础设施，架成了 AI 产业化，将支撑大量应用的出现。另外一方面，是产业 AI 化，其中最大的领域，就是机器人和自动驾驶的汽车。但变革之风，首先吹向现代服务业，将掀起一场白领工业革命。就像电力驱动起所有的机器，AI 也将驱动起所有的计算。白领工业革命。每位知识工作者都需要一个 AI 助手。微软已经为很多工作配备了副驾驶（Copilot）。基于 GPT-4 的 Microsoft 365 Copilot，可以在 Word、Excel、PowerPoint、 Outlook 等应用中快速生成内容，提高案头工作的效率。它还有编程副驾驶 GitHub Copilot、工作流程副驾驶 Dynamics 365 Copilot 以及安全副驾驶 Microsoft Security Copilot。 10 / 23 使用 AIGC 工具，游戏美术设计的原画概念图，从开始到结束，已经从 3 周减少到一个小时。AI 花 15 秒生产的电影海报，比请专业海报公司 1 个月时间画得还好。 App Store 时刻。随着 OpenAI 等大模型拥有者开放 API，并将其连接到互联网，开发这样的生产力工具也会变得越来越容易。基于 AI 与模型的新物种将大爆发，正如当年智能手机和应用商店推出后，那一大波应用开发的热潮。 AI 云计算及大模型成为新型基础设施。英伟达希望从算力的代工厂，一跃成为大模型的代工厂。目前，它已开放以下三大代工业务：文本生成模型构建服务的 NeMo，视觉语言模型构建服务的 Picasso，生命科学服务的 BioNeMo。人工智能正在吃掉软件。几乎所有的互联网应用都产生了重新做一遍的机会。目前，围绕 OpenAI 构建起来的下游应用的商业模式，主要是订阅模式，而不是广告模式。美国商业市场经历了且还在经历云服务对业务的提升，但 AI 化比云化有更大的想象空间，传统的 SaaS 服务商会迅速拥抱人工智能。 AI 可能“拯救”其他潜在的通用技术。生成式人工智能正在让元宇宙中的虚拟人更加生动逼真，产生 3D 游戏的效率得到提升；各种新型协作和权益关系的产生，也可能为 web3 的应用带来场景。人工智能也在加快渗透先进精密的制造业。当前用于芯片制造的人工智能，一个是 EDA 的人工智能化，一个是极紫外光刻技术。英伟达在人工智能算力硬件 GPU 之上，构建了 cuLitho 计算光刻技术，能设计制造更强大的 GPU，比以往更快上市。革命性的技术出现的时候，会为自己创造新的需求，甚至是大多数人当时无法想象的。正如第一次看到智能手机时，很少会有人想到，这个产品重新塑造了出租车行业；又或者冰箱诞生后，食品饮料保鲜技术的迅速普及，最赚钱生意之一却是可口可乐。图 15：大模型在各行各业广泛应用。影响了美国各行业 40%的工作时间。主要基于该行业所有工作任务中语言类任务的占比。埃森哲(2023) 2.3 人工智能的经济分析在历史上，通用技术为提升了商业效率，形成了新的生产力，但在经济的层面，自动化对全劳动生产率、就业和收入分配带来的影响，往往是非线性的。 2.3.1 鲍莫尔病与索洛悖论鲍莫尔病。经济学家鲍莫尔在 1960 年代就发现，技术提升制造业与科技等部门的劳动生产率，需要的劳动力越来越少，这些部门的单位产品成本越来越低，其产品价格越来越便宜。但技术很难提升教育、医疗、政府等依靠人力或深度匠艺的服务部门的劳动生产率，这些部门的单位产出成本会越来越高，推动价格上涨。整体来看，技术进步对劳动生产率提升的效应并没有那么明显。 11 / 23 这就产生了索洛悖论。信息技术革命发展这么快，但是为什么表现在统计数据上，总体劳动生产率增长放缓。相对合理的解释是，以往的通用技术，提升劳动生产率的往往是制造业和科技产业，随着服务业占比提升，低劳动生产率部门抵消了高劳动生产率部门，经济整体生产率提升不明显，甚至有所下降。这一点在通用技术开始大规模颠覆既有行业的初期都发生过。人工智能所带来的生产力革命，能否的提升整个经济的劳动生产率，取决于它能否治得了“鲍默尔病”，提升服务行业的劳动生产率，同时创造更多的就业机会，从而打破索洛悖论。这对中国经济也至关重要。2012 年，服务业在中国经济总量中所占比重超过制造业， 2015 年，服务业在中国经济总量中的比重首次超过 50%，服务业的比重持续上升，中国进入了服务经济时代。 2.3.2 白领危机与就业逆差从历次工业革命来看，通用技术的大规模部署，早期劳动生产率提升带来的效果并不明显，而进入生产率的增长期后，它带来的劳动力的薪酬收入又落后于生产率的增长。随着人工智能这一更加有效率的通用技术与经济全面结合，尤其是 AI 背后更加强大的资本，它带来的就业及社会财富分配的效应，可能对生产关系带来更大的冲击。经济学家们假设一种经济“奇点” ，就是一种极端情况，财富完全由 AI 创造，也可能主要由支持 AI 的资本所拥有。人工智能作为通用技术，已经展示出冲击知识工作的端倪。这种冲击可能是正向的，知识工作者借助人工智能，提升工作效率，促成白领工业革命；也有可能是逆向的，部分工作任务被人工智能彻底取代，人类工作岗位消失。历史上曾经发生过这种情况。当年，Excel 等电子表格出来之后，淘汰了一些数据录入和表格维护类的职业，但是它又造就了基于数据分析的新职业，而且新生的比淘汰的职业数量更多。图 16：咨询机构估算 AI 带来的经济增长。埃森哲的为中国与 12 个发达经济的 GVA 增量总量，其余为全球数据。埃森哲预测目标时间为至 2035 年，普华永道与麦肯锡为至 2030 年，高盛的为 10 年内，分析集团的至 2026 年。就全球范围而言，高盛预测，在近十年内，人工智能将推动生产率每年提高 1.4 个百分点，使全球 GDP 增长 7 万亿美元。普华永道与麦肯锡认为，至 2030 年，人工智能将为全球 GDP 带来 13 万亿或 15.7 万亿美元的增量。图 17：电子表格出现时减少的工作岗位与创造的工作岗位。美国劳工统计局 12 / 23 图 18：从硅谷到华尔街，今年一季度裁员 16 万，已超去年。LayoffsTracker OpenAI 的研究发现，大约 80%的美国劳动力的工作内容中至少有 10%会受到 GPTs 的影响，而大约 19%的劳动力可能会看到至少 50%的工作内容受到影响。上述影响跨越所有工资水平，其中高收入的工作可能面临更大的风险。此外，这种影响不仅限于近期生产率增长较高的行业。大模型显露出强大的编程辅助能力，甚至每个人都有望用自然语言提示人工智能生成想要的程序。从去年 12 月 ChatGPT 出来之后，美国在知识最密集的三个领域，硅谷、华尔街和咨询行业，2023 年一季度的裁员数量初步统计 16 万，数量已经超过了去年一整年。这固然有经济衰退方面的原因，但它首先表现为“白领衰退”，在一定程度上反映出就业市场对人工智能替代一些工作岗位，已经开始产生预期。IBM 正考虑用 AI 取代 7800 个岗位。在中国的就业市场，那些更具成长性的职业，恰恰是首先被替代掉的。每增加一年从业年限工资增长低于 8%的职业，相对最不容易被 AI 替代的，往往是制造业或服务业的蓝领；但如果一个职业每工作一年工资增长超过 20%，被 AI 替代的可能性平均将大于 60%，它们往往是律师、程序员或其他知识工作者。人类后天艰辛习得积累的技能，正在成为人工智能最拿手的本事。技术让部分岗位消失，也会创造新的岗位需求。在美国人口普查局的职业描述中，现在有超过 60%的岗位，在 1940 年不存在。但问题在于，需求的消失与创造，在同一时期并不平衡。在二战结束后早期，技术变革以大致相同的速度取代了工人并创造了新的就业机会，但自 1980 年代以来，员工的流失的速度，快于创造新机会的速度。人工智能的广泛应用，会不会加剧这一趋势，值得观察。 13 / 23 图 19：美国 80 年代以来自动化造成了工作数量净减少。高盛（2023）这一次会不一样？首个真实应用场景的研究，发现在人工智能应用最前沿的用户服务领域，分阶段部署的结果，正与许多预言相反。该研究使用了 5179 名客户支持代理的数据。使用这种工具平均可以使每小时解决的问题数量增加 14%。AI 模型传播了熟练员工可能具有的隐性知识，并帮助新员工进步。研究还表明，AI 辅助改善了客户情感，减少了对管理干预的要求，并提高了员工保留率。但研究也认为，这只是单个企业的初步调查结果，不能代表整个就业市场的情况。 2.3.3 新的数据要素数据之于人工智能，重要性毫不逊色于煤炭之于蒸汽机，石油之于内燃机，煤炭与天然气之于电力。当前的机器学习模型，依赖于不断增长的巨大数据集。获取数据越来越难，高质量的数据更难获取。人们担心自然语言作为 “原料”供应，是不是终有一天像石油一样，被人类开采枯竭。人工智能的广泛应用，需要重新认识大数据，超越大数据。大模型从设计上能调动起人类所有语言数据，提供给神经网络，产生了一种概率性的大知识，进而提供智能化服务，所以，如果把数据定义为一种生产要素，人工智能是实现其价值的最重要技术。未来越来越多的数据，将来自人工智能的合成。合成数据是人工智能生成的，但在统计上可视为真实的数据，近年来备受市场追捧。 Gartner 预测称，到 2030 年合成数据将彻底取代真实数据，成为训练 AI 的主要数据来源。图 20：AI 工具不同访问权限对于解决客户问题数量的影响。先给 AI 再处理问题的结果，比先不给 AI 与全程不给 AI 都要好。基于开源大模型精调出来的较小模型，其领域性能已经与大模型相当，而成本已经降至数百美元。使用先进大模型的对话作为精调的语料数据，其质量甚至优于来自高质量公共数 14 / 23 据集的人工标注数据。可以期待的是，随着大模型越来越普及，人工智能产生的合成数据所占的比重会越来越大，又成为训练新的大模型的语料数据，这样往复下去，直到成为主流的数据来源。因此，大模型训练面临信息的准确性、可靠性和真实性问题会更加迫切需要解决。 3 中国之路中国能像互联网应用那样追上美国吗？从短期来看，中国需要以 GPT3.5 为起点，推出自己面向消费者的通用大模型，这样与目前最先进的 GPT-4 相比，推出时间点和模型的规模可能会有一些差距。但就在国内争论是两个月还是三年赶上 OpenAI 的时候，当下的主要问题，可能是大模型的可靠性，而不是一味追求规模。主要大厂都不再公布大模型的技术参数，直接可比的可行性也在弱化。 3.1 ChatGPT 的推出和大模型风靡全球，仿佛是遇上了一次“技术突袭”。 OpenAI 是一个罕见的初创企业类型。它经历了从非盈利到盈利，从独立的初创企业到把自己 “租”给微软，借助科技巨头的力量进行创新，获得了充沛的资金、算力、应用场景。它能按照自己对 AGI 的信仰，以及对大模型“涌现”的渴望，坚定持续地进行了一场大航海。对于微软来说，这也是一个企业战略与商业逻辑的一次完美结合，战略性押注一个未来的技术方向，同时推动自己云服务和软件服务的战略转型。在商业层面，微软以资金和云服务投入 OpenAI，促进了 Azure 云服务，又在资本市场上获得更高的估值。中国主要的科技企业，百度、阿里、腾讯、字节、华为等，都会推出自己的大模型，将大模型与自己的产品和服务结合起来。它们将首先满足国内对于大模型服务的需求。而那些初创企业，许多是训练一些特定领域的大模型，在此基础之上推出垂直应用和 AI 工具。更多的企业则是开始推出百花齐放的应用产品。脱钩时代从互联网的兴起，到移动互联网的普及，正逢全球化创新的高潮时期，中国在互联网时代很快就赶上了美国。互联网的底层技术，基本源于美国，但最贴近现实应用的那一层，中国也掌握了。软件的应用技术扩散非常快，开发起来也更为敏捷。中国互联网企业从模仿硅谷起步，接受美元基金的投资，面向庞大新兴的国内市场，在美国股票市场上市。当时各方面基本上不存在卡脖子问题，现在则不同了，中国与美国进入脱钩时代。中国与美国在人工智能方面的总体差距已经不明显，各有千秋。中国在一些应用方面已经走到美国前列，如计算机视觉、算法推荐、智能风控、智能物联网，等等。但是人工智能最领先的领域深度学习方面，生成式人工智能主要的技术和算法突破都在美国，如 Transformer 已经成为生成式人工智能全球通用的架构。美国也最先从工程实践中发现了“涌现”的现象，掌握了做大模型的工艺。美国的创新机制方面也出现了一些新的迹向。中国刚刚走出三年疫情，即遇上表 1：中国企业的大型语言模型。左：今年已经发布的，仅重点列举，正式召开发布会或公开测试的时间，不包括此前发布的。右：即将发布的。不包括大学或研究机构。 3.1.1 算力落差无论是追着美国训练通用大模型，还是部署领域应用大模型，对于中国企业来说，算力是一个瓶颈。先进芯片是人工智能的算力基础设施。英伟达的 GPU 是大模型的标配，占据了可用于机器学习的 GPU 市场的 95%。3 年前发布的 A100，是中美 15 / 23 算力重要的分水岭。到目前为止，1 万美元的 A100，以及建议价格 20 万美元的 DGX A100，还是生成式 AI 的算力的主力。而新推出的 H100，在美国的售价达到了 4 万美元。去年，美国宣布对中国限售英伟达 A100 与 H100 等先进算力芯片，此后，美国政府还限制了先进制程代工产能，并要求日本与荷兰停售用于制造先进制程芯片的光刻设备。没有人能给出中国目前有多少 A100 的确切数据。在 2022 年 10 月限售令前，A100 已经发布 2 年，中国企业还有时间囤卡，H100 则尚未正式发布。来自国内科技巨头的访谈纪要，透露了有限的细节：国内可用于大模型研发和运行的人工智能存量算力，阿里第一，字节、百度与腾讯等紧随其后；增量方面，多家巨头仅在今年就各下单了上万张能买到的最先进的芯片，英伟达收到的订单或高达 300 亿元人民币。速，或随着存量 A100 陆续折旧——一般是 2-3 年，最长不超过 5 年——中美之间以 GPU 衡量的算力落差会继续加大。近五年来，中国科技巨头经营出现波动，但研发支出整体仍呈增长趋势。如果再加上搭建算力基础设施等的研发相关资本支出，阿里巴巴最近一个财年技术相关投入达到了 1200 亿人民币，是研发支出的 2 倍多。但与当前美国大模型相对领先的微软与谷歌相比，无论是研发支出还是资本支出，中国科技巨头的差距在加大。图 21：2022 财年中美科技巨头研发投入及研发强度对比。亚马逊的研发投入统计口径略有不同，为“科技与内容” ；字节的研发强度沿用 2021 财年，研发投入根据 2022 年收入推算。谷歌指谷歌母公司 Alphabet。表 2：中国 AI 算力的企业分布现状。在科技巨头中，阿里巴巴的 A100 等先进 AI 存量算力最高，金融机构幻方也超过万张 A100。科技巨头增量算力主要仍然来自英伟达。由于确切数据不可得，表格展示的并非中国企业算力的全部。公司访谈纪要等无论是英伟达的定制版，还是国产替代版，性能都与美国领跑企业拥有的存在显著的算力落差。A800 芯片数据传输速率为每秒 400GB，低于 A100 的每秒 600GB；H800 相对 H100 的降幅相似。国内已经批量生产的 AI 算力硬件，基本都落后于 A100 一代；对标 A100 的尚未量产上市。尽管很多初创企业充满壮志雄心，立志要做中国的 OpenAI，但市场更好看大模型最终会出自科技巨头，或者成为巨头的“代理人” ，如谷歌投资的美国的独角兽公司 Anthropic。这不仅是算力基础设施投入巨大，还因为算力差距不能简单地以堆叠芯片或延长时间来弥补。芯片越多，时间越长，稳定性越重要，不能轻易掉线。这取决于软件与工程能力。科技巨头在大规模集群调度与部署上积累了丰富经验。初创企业也在思考，能否从大模型裁剪出稍小一点的模型，应用到特殊场景，以解决算力问题。而 OpenAI 在训练 GPT-4 的 3 个月里，花了 3 万张 A100 芯片的算力。如果英伟达更新迭代加 16 / 23 3.1.2 语言数据，非对称的汉语与英语优质、多元、丰富的语言数据，对于大模型的智能水平至关重要。全球知识的主要载体是英语，最活跃和自由的知识体系，主要以英语表达。全球最好的大模型，都会以英语为主要的语言数据来训练。英语具有全球的“开源性”，众多的公共语料库包括了图片、文字、视频、音频等，构成了全球知识的公共品。而且语言与语言之间的界限，在大模型所发现的语言基本结构中将消弭，越来越准确的通用翻译将成公共品。仅以语种建立起通用大模型的壁垒，在大模型时代可能并不那么明显。中国学者总结了在开发大模型时常用的语料库，包括图书、网络文本、社交问答、维基百科、开源代码等。它们几乎全部都是外文。为了训练出越来越聪明的大模型，ArXiv 等科学文本越来越多，全球学术又主要以英语为载体。例如，国外一家名为 Common Crawl 的非营利组织，每月爬网一次，向公众免费提供网络文本数据集。为过滤掉质量不佳的文本，国外还基于这些数据，形成了 CCnet 等干净的数据集。中国拥有庞大互联网用户群体，每天都在生产海量数据，但它们封存在不同的数据孤岛之间，且缺乏高质量标注的合规的开源数据集。近期，北京智源更新了 WuDaoCorpora，这是当前全球最大的经处理的纯文本、多模态图文和中文对话的数据集，开放了商业合作。中国可以充分利用海外开源数据，让大型语言模型涌现出通用的语言能力，不分中文与外文。但过于偏向海外数据，会导致统计的偏见，丢掉了中国特色。未经清洗的中文数据，可能因大量重复文本，给本已捉襟见肘的算力平添压力，还会干扰大模型把注意力停留在正确的地方，甚至生成出不那么正能量的内容。这增加了干预与调优的工程量。如果英语作为最大的来源，其优质的原生语料最快可能于 2026 年耗尽，对中国来说，优质汉语语料的持续供给，更是一个值得关注的问题。图 22： “匿名聊天机器人竞技场”排名前 15 的语言的对战次数。这是加州大学伯克利分校主导的大型语言模型基准平台，通过众包的方式，用户对与其匿名聊天的两个大型语言模型打分，评估孰优孰劣。排名采用电子竞技通行的 Elo 等级分制度。 17 / 23 3.2 中国大模型，大力出奇迹大模型让 AI 发生了一次“范式转移” ，也将引领数字经济进一步向 AI 化发展。大模型技术在美国率先突破，中国在学习和追赶的同时，也要走出一条自己的道路。 3.2.1 源的最优利用。 ” 视频大模型。相比语言大模型，视频大模型对于中国与美国都是较新的领域。字节跳动入局大模型稍晚于其他巨头，今年初才正式组建专门的大模型团队。但字节引起了竞争对手的重视，因为它已经是全球最大的短视频平台，拥有高质量的图片或视频，大量已经标注现成。字节还是国内巨头中海外战略最成功的，它有可能更好地获取和利用全球人才。算力多元化和集约化 3.2.2 随着中国大模型的研发和应用渐入高潮，训练和运营大模型的 AI 算力出现了短缺。中国一些企业试图开发大模型服务，但无论在应用层还是在模型层，都已经遇到了算力瓶颈。短期内为了解决 AI 算力短缺的问题，先进算力的一体化、集约化、多元化供给是一种选择。多元化，就是不完全依赖英伟达的先进 GPU 芯片。一方面支持 CPU、GPU、ASIC、FPGA 等多种芯片的混合部署，充分发挥不同体系架构的优势；另一方面，模型训练、边缘推理、数值模拟的不同场景需要不同的算力，AI 算力、通用算力、高性能算力等综合配给，才能很好地支撑各类行业 AI 训练和应用。让更大的模型训练更长的时间，意味着“不仅需要拥有最大的基础设施，还必须能够长期可靠地运行它” 。只要在全国建立起长期可靠运行的算力，基本可以满足需求。调度算法是有可能把分散在全国甚至海外的各种算力统筹起来去训练大模型的。算力短缺，训练阶段可能比推理阶段要缓和些，可以借助东数西算、东数西存、东数西训、东视西渲等。目前正在推进的全国超算互联网，有助于在全国进行算力的统筹，支持算力驱动科学学研究，云计算向云服务转型，降低人工智能的使用门槛。国家的计算需求密集地区，政府统一调配，成为市场之上的算力资源配置方式。如上海发出《上海市推进算力资源统一调度指导意见》，提出了“实现多地算力资源的共享和全市算力资大模型与大科学大模型可能将科学探索带入“第五范式” ，对于中国来说是更加值得重视的。这方面需要持续和巨大的资金投入。在美国 AI 研究日益由科技巨头和风险资本所支持，而学术机构的 AI 研究资源不足。谷歌 DeepMind 在 AI for Science 方面走在前列，微软+OpenAI 在科学研究方面的潜力巨大。把科学研究与企业和长期战略结合起来，这是美国在 AI 方面的机制优势之一。而中国则更需要国家的力量。在现有的超算中心之上，又需要发展大模型这样的新型的科学研究基础设施。大数据，大算力，大模型，大科学已经紧扣在一起，构成了“AI 举国体制”。 3.2.3 汉语+ 中国目前可用于大模型训练的悟道语料库，包括文本、图文和对话数据集，最大的仅 5TB，其中开源的文本部分仅为 200GB。另外一个开源的中文本数据集 CLUECorps 为 100G。相比之下，GPT-3 的训练数据量，以英语为主，达到了 45TB。谷歌也拥有庞大的语料数据，包括汉语。国内的十多个大学等机构，各自拥有自己的语料库；中国的数据要素市场逐步形成，定制和加工语料数据的企业大量出现。中国的大模型和 AI 训练，需要更丰富通用的开源语料库。以汉语为主的通用语料库，同时获取英语的开源和授权使用的数据集，才能建立起立足中 18 / 23 国、汇集全人类智慧的大模型。世界几百亿、千亿以上参数规模的大模型数量，中国占三分之一，美国占了一半，这个比例可能很快会反转为中国数量领先。 3.2.4 但自从 GPT-3 不再开源之后，中国的速度就慢了下来。一方面是尚未看到既有成功案例，不确定性的风险太大。另一方面则是缺乏底层技术创新的经验，需要花时间去摸索模型结构的理论创新，如对于涌现的理解，以及对实现涌现的工程的掌握。不输在应用中国在大模型的应用创新方面，有机会很快发现并发挥自己的优势。中国企业家和创业者的学习能力很强，善于尝试新技术推出新产品，中国的消费者乐于使用新产品。美国的许多新技术，哪怕只是进入早期的消费市场，后来的推广和验证，都会以更快的速度和更大的规模在中国展开。中国工业门类齐全，消费互联网发达，拥有多数国家无法比拟的垂直领域的数据，拥有巨大的提升效率和创造需求的潜力。中国科技企业赶超美国的机会，目前并不在通用语言大模型方面，而是在通用大模型的能力边界之外进行创新，如多模态的技术创新，以及中国比美国更大的应用与市场空间。中国的一系列政策，也预示了在中国发展垂直模型的空间，将远远大于通用语言大模型。中国也将在不同的领域、不同的层面上训练出比美国数量更多的大模型。最近出台的《生成式人工智能服务管理办法（征求意见稿）》，也初步预示了中国大模型的发展方向。中国弱在公共数据，而强在垂直场景数据。互联网、消费、实体经济中，蕴藏和生成着丰富的数据量，垂直领域模型的训练成本不断降低，一些开源的大模型可以进行灵活的精调训练，迅速降低了人工智能的使用门槛，千行百业都将会获得 AI 的加持，迎来一波新的创业高潮。当年安卓开源，中国大量智能手机厂商崛起。但这次，中国团队都需要在开源的 GPT-2 的基础上从头开始，各家开发自己的大模型，方向一致，但路线与细节会存在较大差异。但可以肯定的是，开源与闭源的大模型，在中国都有可能获得广阔的发展机会。图 23：全球各国发表的 AI 论文的数量。中美在 AI 领域整体的差距本来并不是很大。从发布的论文数量来看，中国已经超过了美国，而且，中国和美国，各自都超过了后面所有国家总和。中国这几年一直在炼制自己的大模型。全中国通用大模型的发展还不是最快的，但在应用上可能是最快的，尤其是在媒体、电商、游戏、营销等领域。如果将人工智能技术使用频次分为高频与低频，将结果宽容度分为高容忍与低容忍，那么高频高容忍度的象限，会最快最具黏性地用上大模型。在中国，跨境电商的小卖家就是这个群体。他们提供大量 SKU（库存控制的最小单位）的货品，卖给说着不同语言的客户，没有太多时间一一沟通。用不同语种撰写不同货品还过得去的介绍文案，甚至配上图片，可以帮上他们的大忙。买家也不会太在意那些小错误，他们追求物美价廉。 19 / 23 图 24：中国与美国发表论文侧重点不同。StateofAI（2022）低容忍度的地方，往往蕴藏着大生意。这也是中国 SaaS 行业面临的困局，通用软件没有发展起来，大客户需要他们提供重度定制化的产品。这是垂直一体化的中模型的挑战所在，也是机遇所在。低 SaaS 渗透率的企业服务创新创业，重新获得了一次跃升的机会。 “幻觉” ，另外一种可能，则是需要一次范式革命。我们相信范式革命，但它可能会需要广泛行业的工作流程和协作关系的改变，甚至更广泛的生产关系的调整，才能最终实现，而这一切中，政策选择起到至关重要的作用。我们相信 ChatGPT 是人工智能一次里程碑式的突破，它是对人类语言深层结构机制的一次重要发现，也是对智能的一次重要发现。正如当代几乎所有初现的科学发现和技术突破一样，这些发现是通过持续的、大型的和精密的工程来实现的，即自然语言大模型工程。关于通用人工智能带来的生产力革命，可能对于就业、劳动收入、生产关系带来的影响，理论上有一些假设和探讨，如通用人工智能基本实现时，可能产生的经济“奇点”效应，以及基于 “无知之幕”等社会正义与道德理论产生的新型生产关系的设置。与历次通用技术革命相比，这次有什么不同，仍然需要观察。人工智能大规模应用对人类福祉可能产生的影响，引发出广泛的不安与担忧。人类是使用一种新的智能帮助自己解决诸多急迫的问题与挑战，并且调整和适应新的生产力的变革，还是在研发和应用更先进的人工智能的过程中失控于新的超级智能，导致灾难性后果的发生，这是一个极为重大的时代命题，我们会继续研究。大模型中的确产生了智能，一种与人类智能对照的智能，一种用“碳基”智能一时还无法完全解释的智能，如概率性的知识、涌现的机制，等等。但是，科学进步的历史表明，当既有的理论无法解释新的发现时，一种可能是新的发现是与硅谷所追求的普适的智能不同，相比基础大模型，中国的比较优势在大模型的应用。硅谷在人工智能底层技术的突破，极大降低了技术和应用的不确定性，也降低了试错的成本。开源的技术也帮助中国企业加快应用和部署。中国自主结论与讨论 20 / 23 的大模型中，创新的比较优势在特定领域的应用，以更快的速度与各行各业的应用场景结合起来。与互联网兴起时的全球化不同，这一轮脱钩时期的人工智能创新应用，将会进一步推动中美之间竞争，并且在相对平行的市场中各自发展出特征与优势。 [10] GPTs are GPTs: An Early Look at the Labor Market Impact Potential of Large Language Models, Tyna Eloundou et al. https://arxiv.org/pdf/2303.10130.pdf [11] LLM as A Robotic Brain: Unifying Egocentric Memory and Control, Jinjie Mai, et al https://arxiv.org/pdf/2304.09349.pdf [12] CLUECorpus2020: A Large-scale Chinese Corpus for Pre-training Language Model, Liang Xu et al https://arxiv.org/pdf/2003.01355.pdf （全文完） [13] CLUE: A Chinese Language Understanding Evaluation Benchmark , Liang Xu et al https://aclanthology.org/2020.coling-main.419.pdf 引用及参考文献： [1] 《深度学习》， Ian Goodfellow ， Yoshua Bengio, Aaron Courville [2] What is ChatGPT doing...and Why Does it Work, Wolfram https://writings.stephenwolfram.com/2023/02/whatis-chatgpt-doing-and-why-does-it-work/ [3] On the Opportunities and Risks of Foundation Models, Rishi Bommasani et al. https://arxiv.org/abs/2108.07258 [4] On the Principles of Parsimony and SelfConsistency for the Emergence of Intelligence, Yi Ma et al https://arxiv.org/abs/2207.04630 [5] Emergent autonomous scientific research capabilities of large language models, Daniil A. Boiko et al https://arxiv.org/ftp/arxiv/papers/2304/2304.05332. pdf [6] PaLM-E: An Embodied Multimodal Language Model， Danny Driess, et al. https://arxiv.org/abs/2303.03378 [7] Finetuning Large Language Models, SEBASTIAN RASCHKA https://magazine.sebastianraschka.com/p/finetuninglarge-language-models [14] Can GPT-4 Perform Neural Architecture Search?, Mingkai Zheng et al. https://arxiv.org/pdf/2304.10970.pdf [15] A New Era of Generative AI for Everyone， Accenture https://www.accenture.com/usen/insights/technology/generative-ai [16] Sparks of Artificial General Intelligence: Early experiments with GPT-4，Microsoft Research https://arxiv.org/abs/2303.12712 [17] Vertical Snapshot: Generative AI，Pitchbook https://pitchbook.com/news/reports/2023-verticalsnapshot-generative-ai [18] Artificial Intelligence Index Report 2023， Stanford HAI https://aiindex.stanford.edu/wpcontent/uploads/2023/04/HAI_AI-IndexReport_2023.pdf [19] Economic Impacts of Artificial Intelligence (AI)，European Parliamentary https://www.europarl.europa.eu/RegData/etudes/BRIE/ 2019/637967/EPRS_BRI(2019)637967_EN.pdf [20] Revisit the Classification of General Purpose Technologies (GPTs) in Corporate Innovation Research Using Patent and Patent Citation Data，Ranfeng Qiu et al https://doi.org/10.58729/1941-6679.1043 [8] Language Models (Mostly) Know What They Know, Saurav Kadavath, et al https://arxiv.org/abs/2207.05221 [21] Does Electricity Drive Structural Transformation? Evidence from the United States， Paul Gaggl et al http://www.nber.org/papers/w26477 [9] Why Does ChatGPT Fall Short in Questions Faithfully, Shen Zheng, et L https://arxiv.org/abs/2304.10513 [22] Exploring Artificial Intelligence as a General Purpose Technology with Patent Data, Kerstin Hötte Answering 21 / 23 et al https://arxiv.org/abs/2204.10304 [23] General Purpose Technologies, & Peter L. Rousseau http://www.nber.org/papers/w11093 Boyan Jovanovic [24] A Survey of Large Language Models, Zhao et al https://arxiv.org/abs/2303.18223 Wayne Xin [25] Big Ideas 2023，ARK Invest https://ark-invest.com/big-ideas-2023/ [26] The State of Generative AI in 7 Charts, CBInsights https://www.cbinsights.com/research/generative-aifunding-top-startups-investors/ [27] U.S. Outbound Investment into Companies，Emily S. Weinstein et al https://doi.org/10.51593/20210067 Chinese AI [28] The Potentially Large Effects of Artificial Intelligence on Economic Growth, Goldman Sachs https://www.goldmansachs.com/insights/pages/generat ive-ai-could-raise-global-gdp-by-7-percent.html [29] 《生成式人工智能服务管理办法(征求意见稿)》, 国家互联网信息办公室 http://www.moj.gov.cn/pub/sfbgw/lfyjzj/lflfyjzj/202 304/W020230411552347475413.doc [30] 《上海市推进算力资源统一调度指导意见》, 上海经信委 https://sheitc.sh.gov.cn/cmsres/9c/9c4ffba94ba24944 9581b3510f99898e/a8a228e0d7fdb9c81421a7eafd90453a.p df 22 / 23 想了解我们都在研究什么，是如何研究的，先关注我们的微信公众号：未尽研究。未尽研究希望在每年结束的时候，做一份有助于 “看到”来年新兴技术趋势的报告，看 DAO XXXX。也很乐意随时抛出更多新思考。我们不是在深奥的层面关注技术，而是技术能拿来产生对常人有用的工具、产品与服务，让常人能理解其价值。这就是创新的过程。我们关注的也不是孤立的技术，而是把它放在技术、资本与国家的三元互动中所产生的创新。我们的研究方法是数据分析、企业调研、专业研讨、关键技术角色的追踪观察。我们在报告准备的过程中，得到了各相关技术领域的专家、机构、创业者、投资人分享的看法，在此对他们表示感谢。我们也如饥似渴地满世界阅读新兴领域的最新报告、论文和各种知识形式的分享。报告不是投资建议。 23 / 23

通用AI与通用技术：发展方向研究报告

Products

Support

通用AI与通用技术：发展方向研究报告

Add this document to collection(s)

Add this document to saved

Suggest us how to improve StudyLib