Uploaded by ivanwork105

第一章:引言

advertisement
1.1 什么是语⾔模型
语⾔模型(LM)的经典定义是⼀种对令牌序列(token)的概率分
布。假设我们有⼀个令牌集的词汇表 。语⾔模型p为每个令牌序列
∈ 分配⼀个概率(介于0和1之间的数字):
概率直观地告诉我们⼀个标记序列有多“好(good)”。例如,如果
词汇表为{ate, ball, cheese, mouse, the},语⾔模型可能会分配以
下概率(演示):
从数学上讲,语⾔模型是⼀个⾮常简单⽽⼜美妙的对象。但是这种
简单是具有欺骗性的:赋予所有序列以(有意义的)概率的能⼒,
该能⼒要求语⾔模型具有⾮凡的(但是隐含的)语⾔能⼒和世界知
识。
例如,语⾔模型应该隐含地赋予"𝗆𝗈𝗎𝗌𝖾 𝗍𝗁𝖾 𝗍𝗁𝖾 𝖼𝗁𝖾𝖾𝗌𝖾 𝖺𝗍𝖾"⼀个⾮常
低的概率,因为它在语法上是不正确的(句法知识)。由于世界知
识的存在,语⾔模型应该隐含地赋予"𝗍𝗁𝖾 𝗆𝗈𝗎𝗌𝖾 𝖺𝗍𝖾 𝗍𝗁𝖾 𝖼𝗁𝖾𝖾𝗌𝖾"⽐"𝗍𝗁𝖾
𝖼𝗁𝖾𝖾𝗌𝖾 𝖺𝗍𝖾 𝗍𝗁𝖾 𝗆𝗈𝗎𝗌𝖾"更⾼的概率。这是因为两个句⼦在句法上是相
同的,但在语义上却存在差异,⽽语⾔模型需要具备卓越的语⾔能
⼒和世界知识,才能准确评估序列的概率。
语⾔模型也可以做⽣成任务。如定义所示,语⾔模型p接受⼀个序
列并返回⼀个概率来评估其好坏。我们也可以根据语⾔模型⽣成⼀
个序列。最纯粹的⽅法是从语⾔模型 中以概率
进⾏采样,
表示为:
如何在计算上⾼效地实现这⼀点取决于语⾔模型p的形式。实际
上,我们通常不直接从语⾔模型中进⾏采样,这既因为真实语⾔模
型的限制,也因为我们有时希望获得的不是⼀个“平均”的序列,⽽
是更接近“最佳”序列的结果。
⾃回归语⾔模型(Autoregressive language
models)
将序列
的联合分布
则:
这⾥有⼀个基于⽂本的例⼦:
的常⻅写法是使⽤概率的链式法
特别地,我们需要理解
后,下⼀个记号
是⼀个给定前⾯的记号
的条件概率分布。在数学上,任何联合概率分布
都可以通过这种⽅式表示。然⽽,⾃回归语⾔模型的特点是它可以
利⽤例如前馈神经⽹络等⽅法有效计算出每个条件概率分布
。
在⾮⾃回归的⽣成任务中,要从⾃回归语⾔模型
中⽣成整个序列
,我们需要⼀次⽣成⼀个令牌(token),该令牌基于之前以⽣成
的令牌进⾏计算获得:
其中
是⼀个控制我们希望从语⾔模型中得到多少随机性的温
度参数:
T=0:确定性地在每个位置 i 选择最可能的令牌
T=1:从纯语⾔模型“正常(normally)”采样
T=∞:从整个词汇表上的均匀分布中采样
然⽽,如果我们仅将概率提⾼到
的次⽅,概率分布可能不
会加和到 1。我们可以通过重新标准化分布来解决这个问题。我
们将标准化版本
件概率分布。例如:
称为退⽕条
具体来说,这个温度参数会应⽤于每⼀步的条件概率分布
,将其幂变为
。这意味着当
值较⾼时,我们会
获得更平均的概率分布,⽣成的结果更具随机性;反之,当 值较
低时,模型会更倾向于⽣成概率较⾼的令牌。
然⽽,有⼀个重要的注意事项:对于每⼀步的条件概率分布应⽤温
度参数
,并进⾏迭代采样,这种⽅法并不等同于(除⾮
)
从整个⻓度为 L 的序列的"退⽕"分布中⼀次性采样。换句话说,这
两种⽅法在
时会产⽣不同的结果。
"退⽕"这个术语来源于冶⾦学,其中热的⾦属会逐渐冷却以改变其
物理性质。在这⾥,它类⽐的是对概率分布进⾏调整的过程。"退
⽕"分布是通过将原始概率分布的每个元素都取幂
标准化得到的新分布。当
,然后重新
时,这个过程会改变原始概率分
布,因此从"退⽕"分布中采样得到的结果可能与对每⼀步的条件分
布应⽤ T 并进⾏迭代采样的结果不同。
对于⾮⾃回归的条件⽣成,更⼀般地,我们可以通过指定某个前缀
序列 x1:i(称为提示)并采样其余的
(称为补全)来进⾏条
件⽣成。例如,⽣成
的产⽣的:
如果我们将温度改为
,我们可以得到更多的多样性(演
示),例如,"its house" 和 "my homework"。∂我们将很快看
到,条件⽣成解锁了语⾔模型通过简单地更改提示就能解决各种任
务的能⼒。
总结
语⾔模型是序列 x1:L 的概率分布 p。
直观上,⼀个好的语⾔模型应具有语⾔能⼒和世界知识。
⾃回归语⾔模型允许有效地⽣成给定提示 x1:i 的补全 xi+1:L。
温度可以⽤来控制⽣成中的变异量。
1.2⼤模型相关历史回顾
1.2.1信息理论、英语的熵、n-gram模型
语⾔模型的发展可以追溯到克劳德·⾹农,他在1948年的具有⾥程
碑意义的论⽂《通信的数学理论》中奠定了信息理论的基础。在这
篇论⽂中,他引⼊了⽤于度量概率分布的熵(Entropy)的概念:
熵实际上是⼀个衡量将样本
编码(即压缩)成⽐特串所需要
的预期⽐特数的度量。举例来说,"the mouse ate the cheese" 可
能会被编码成 "0001110101"。
熵的值越⼩,表明序列的结构性越强,编码的⻓度就越短。直观地
理解,
可以视为⽤于表示出现概率为
的元素 的编码的
⻓度。
例如,如果
,我们就需要分配
等价地,
个⾃然单位)。
个⽐特(或
需要注意的是,实际上达到⾹农极限(Shannon limit)是⾮常具有
挑战性的(例如,低密度奇偶校验码),这也是编码理论研究的主
题之⼀。
1.2.1.1英语的熵
⾹农特别对测量英语的熵感兴趣,将其表示为⼀系列的字⺟。这意
味着我们想象存在⼀个“真实”的分布p(这种存在是有问题的,但它
仍然是⼀个有⽤的数学抽象),它能产⽣英语⽂本样本x∼p。
⾹农还定义了交叉熵:
H(p,q)=∑xp(x)log1q(x),
这测量了需要多少⽐特(nats)来编码样本x∼p,使⽤由模型q给出
的压缩⽅案(⽤⻓度为1/q(x)的代码表示x)。
通过语⾔模型估计熵。⼀个关键的属性是,交叉熵H(p,q)上界是熵
H(p):
这意味着我们可以通过构建⼀个只有来⾃真实数据分布 的样本的
(语⾔)模型 来估计
,⽽
通常⽆法访问,如果 是英
语的话。
所以我们可以通过构建更好的模型q来得到熵H(p)的更好的估计,
由H(p,q)衡量。
⾹农游戏(⼈类语⾔模型)。⾹农⾸先在1948年使⽤n-gram模型
作为q,但在他1951年的论⽂《打印英语的预测和熵》中,他引⼊
了⼀个巧妙的⽅案(称为⾹农游戏),其中q是由⼈提供的:
"the mouse ate my ho_"
⼈们不擅⻓提供任意⽂本的校准概率,所以在⾹农游戏中,⼈类语
⾔模型会反复尝试猜测下⼀个字⺟,然后我们会记录猜测的次数。
1.2.1.2⽤于下游应⽤的N-gram模型
语⾔模型⾸先被⽤于需要⽣成⽂本的实践应⽤:
1970年代的语⾳识别(输⼊:声⾳信号,输出:⽂本)
1990年代的机器翻译(输⼊:源语⾔的⽂本,输出:⽬标语⾔
的⽂本)
噪声信道模型。当时解决这些任务的主要模型是噪声信道模型。以
语⾳识别为例:
我们假设有⼀些从某个分布p中抽取的⽂本
这些⽂本被转换为语⾳(声⾳信号)
然后给定语⾳,我们希望恢复(最有可能的)⽂本。这可以通过
⻉叶斯定理实现:
语⾳识别和机器翻译系统使⽤了基于词的n-gram语⾔模型(最早由
⾹农引⼊,但针对的是字符)。
N-gram模型。在⼀个n-gram模型中,关于
的
个字符
的预测只依赖于最后
,⽽不是整个历史:
例如,⼀个trigram(n=3)模型会定义:
。
这些概率是基于各种n-gram(例如,𝖺𝗍𝖾 𝗍𝗁𝖾 𝗆𝗈𝗎𝗌𝖾和𝖺𝗍𝖾 𝗍𝗁𝖾 𝖼𝗁𝖾𝖾𝗌𝖾)
在⼤量⽂本中出现的次数计算的,并且适当地平滑以避免过拟合
(例如,Kneser-Ney平滑)。
将n-gram模型拟合到数据上⾮常便宜且可扩展。因此,n-gram模
型被训练在⼤量的⽂本上。例如,Brants等⼈(2007)在2万亿个
tokens上训练了⼀个5-gram模型⽤于机器翻译。相⽐之下,GPT-3
只在3000亿个tokens上进⾏了训练。然⽽,n-gram模型有其根本
的限制。想象以下的前缀:
𝖲𝗍𝖺𝗇𝖿𝗈𝗋𝖽 𝗁𝖺𝗌 𝖺 𝗇𝖾𝗐 𝖼𝗈𝗎𝗋𝗌𝖾 𝗈𝗇 𝗅𝖺𝗋𝗀𝖾 𝗅𝖺𝗇𝗀𝗎𝖺𝗀𝖾 𝗆𝗈𝖽𝖾𝗅𝗌. 𝖨𝗍 𝗐𝗂𝗅𝗅 𝖻𝖾
𝗍𝖺𝗎𝗀𝗁𝗍 𝖻𝗒 ___
如果n太⼩,那么模型将⽆法捕获⻓距离的依赖关系,下⼀个词将
⽆法依赖于𝖲𝗍𝖺𝗇𝖿𝗈𝗋𝖽。然⽽,如果n太⼤,统计上将⽆法得到概率的
好估计(即使在“⼤”语料库中,⼏乎所有合理的⻓序列都出现0
次):
。
因此,语⾔模型被限制在如语⾳识别和机器翻译等任务中,其中声
⾳信号或源⽂本提供了⾜够的信息,只捕获局部依赖关系(⽽⽆法
捕获⻓距离依赖关系)并不是⼀个⼤问题。
1.2.1.3神经语⾔模型
语⾔模型的⼀个重要进步是神经⽹络的引⼊。Bengio等⼈在2003年
⾸次提出了神经语⾔模型,其中
由神经⽹络给
出:
。
注意,上下⽂⻓度仍然受到n的限制,但现在对更⼤的n值估计神经
语⾔模型在统计上是可⾏的。
然⽽,主要的挑战是训练神经⽹络在计算上要昂贵得多。他们仅在
1400万个词上训练了⼀个模型,并显示出它在相同数据量上优于ngram模型。但由于n-gram模型的扩展性更好,且数据并⾮瓶颈,
所以n-gram模型在⾄少接下来的⼗年中仍然占主导地位。
⾃2003年以来,神经语⾔建模的两个关键发展包括:
Recurrent Neural Networks(RNNs),包括⻓短期记忆
(LSTMs),使得⼀个令牌
(有效地使
的条件分布可以依赖于整个上下⽂
),但这些模型难以训练。
Transformers是⼀个较新的架构(于2017年为机器翻译开
发),再次返回固定上下⽂⻓度n,但更易于训练(并利⽤了
GPU的并⾏性)。此外,n可以对许多应⽤程序“⾜够⼤”(GPT3使⽤的是n=2048)。
我们将在课程的后续部分深⼊探讨这些架构和训练⽅式。
总结
语⾔模型最初是在信息理论的背景下研究的,可以⽤来估计英语
的熵。
N-gram模型在计算上极其⾼效,但在统计上效率低下。
N-gram模型在短上下⽂⻓度中与另⼀个模型(⽤于语⾳识别的
声学模型或⽤于机器翻译的翻译模型)联合使⽤是有⽤的。
神经语⾔模型在统计上是⾼效的,但在计算上是低效的。
随着时间的推移,训练⼤型神经⽹络已经变得⾜够可⾏,神经语
⾔模型已经成为主导的模型范式。
1.3这⻔课的意义
介绍了语⾔模型之后,⼈们可能会想知道为什么我们需要专⻔讲授
⼤型语⾔模型的课程。
尺⼨的增加。⾸先,所谓的“⼤型”是指什么?随着深度学习在2010
年代的兴起和主要硬件的进步(例如GPU),神经语⾔模型的规模
已经⼤幅增加。以下表格显示,在过去4年中,模型的⼤⼩增加了
5000倍:
Model
Organization
Date
ELMo
AI2
GPT
OpenAI
BERT
Google
XLM
Facebook
GPT-2
OpenAI
RoBERTa
Facebook
Megatron-LM
NVIDIA
T5
Google
Turing-NLG
Microsoft
GPT-3
OpenAI
Megatron-Turing
Microsoft,
Oct
NLG
NVIDIA
2021
Gopher
DeepMind
Feb
2018
Jun
2018
Oct
2018
Jan
2019
Mar
2019
Jul 2019
Sep
2019
Oct
2019
Feb
2020
May
2020
Dec
2021
Size (# params)
94,000,000
110,000,000
340,000,000
655,000,000
1,500,000,000
355,000,000
8,300,000,000
11,000,000,000
17,000,000,000
175,000,000,000
530,000,000,000
280,000,000,000
新的出现。规模带来了什么不同之处?尽管很多技术细节是相同
的,令⼈惊讶的是,“仅仅扩⼤规模”就能产⽣新的出现⾏为,从⽽
带来定性上不同的能⼒和定性上不同的社会影响。
附注:在技术层⾯上,我们专注于⾃回归语⾔模型,但许多思想也
适⽤于掩码语⾔模型,如BERT和RoBERTa。
1.3.1能⼒
迄2018年为⽌,语⾔模型主要作为较⼤系统的组成部分使⽤(例如
语⾳识别或机器翻译),但如今语⾔模型越来越具备作为独⽴系统
的能⼒,这在过去是难以想象的。
回顾⼀下,语⾔模型具备条件⽣成的能⼒:在给定提示的情况下⽣
成完成的⽂本:
能⼒的示例:这种简单的接⼝为语⾔模型通过改变提示来解决各种
各样的任务打开了可能性。例如,可以通过提示填空的⽅式进⾏问
答(示例):
也可以通过提示解决词汇类⽐的问题(示例):
还可以通过提示⽣成新闻⽂章的标题(示例)。以下是⼀个GPT-3
⽣成的⽂章的例⼦(粗体⽂字之后的内容):
**Title: NLP Researchers at Stanford Discover Black
Holes in Language Models
Article: On January 3,** 2007, the Stanford
University News Service published an article that
reported a remarkable discovery by NLP researchers
at Stanford. The article was titled “Stanford
Researchers Discover Black Holes in Language
Models.” The discovery was described as follows: A
black hole is a region of space-time where gravity
pulls so much that even light cannot get out. Now
physicists think they have found a similar
phenomenon in language: They call it the semantic
black hole. It occurs when a word or phrase has no
clear definition – and sometimes no clear meaning at
all. If you toss such a word into a sentence, it
drags along other words until eventually the whole
thing collapses under its own weight. “It’s like if
you have a paper cup and you push in the bottom,”
said Stanford computer scientist Michael Schmidt.
“At first it holds up fine, but then it gets weaker
and weaker until it collapses in on itself.” Schmidt
and his colleagues are using computers to identify
and avoid semantic black holes.
(**标题:斯坦福⼤学的NLP研究⼈员发现语⾔模型中的⿊洞
⽂章:2007年1⽉3⽇,斯坦福⼤学新闻服务发布了⼀篇题为“斯坦福研
究⼈员发现语⾔模型中的⿊洞”的⽂章,报道了斯坦福⼤学的NLP研究⼈
员的⼀项重⼤发现。这⼀发现被描述如下:⿊洞是时空中引⼒极强,连
光都⽆法逃离的区域。现在物理学家认为他们在语⾔中发现了类似的现
象:他们称之为语义⿊洞。当⼀个词或短语没有明确的定义,有时甚⾄
没有明确的意义时,就会出现语义⿊洞。如果你把这样⼀个词放⼊句⼦
中,它会拖累其他词,最终整个句⼦会因其⾃身的重量⽽坍塌。“就像你
拿⼀个纸杯,推压底部⼀样,”斯坦福计算机科学家迈克尔·施密特说。
“起初它还能保持,但后来越来越脆弱,最终塌陷。”施密特和他的同事
们正在使⽤计算机来识别和避免语义⿊洞。)
上下⽂学习。也许GPT-3最引⼈⼊胜的地⽅是它可以进⾏所谓的上
下⽂学习。让我们以⼀个示例开始(示例):
**Input: Where is Stanford University?
Output:** Stanford University is in California.
我们可以观察到,GPT-3给出的答案既不是最具信息性的,也许我
们更希望直接得到答案⽽不是整个句⼦。
与之前的词汇类⽐类似,我们可以构建⼀个提示,其中包含输⼊/输
出的示例。GPT-3以某种⽅式能够更好地理解任务,并且现在能够
产⽣所需的答案(示例):
**Input: Where is MIT?
Output: Cambridge
Input: Where is University of Washington?
Output: Seattle
Input: Where is Stanford University?
Output:** Stanford
与监督学习的关系:在正常的监督学习中,我们指定了⼀组输⼊-输
出对的数据集,并训练⼀个模型(例如通过梯度下降的神经⽹络)
以拟合这些示例。每次训练运⾏都会产⽣⼀个不同的模型。然⽽,
通过上下⽂学习,只有⼀个语⾔模型可以通过提示来完成各种不同
的任务。上下⽂学习显然超出了研究⼈员预期的可能性,是新出现
⾏为的⼀个例⼦。
注:神经语⾔模型还可以⽣成句⼦的向量表示,这些表示可以⽤作
下游任务的特征或直接进⾏优化性能微调。我们专注于通过条件⽣
成使⽤语⾔模型,这仅仅依赖于⿊匣⼦访问,以简化问题。
1.3.2现实世界中的语⾔模型
考虑到语⾔模型的强⼤能⼒,其⼴泛应⽤并不令⼈意外。
研究领域:⾸先,在研究领域,⼤型语⾔模型已经彻底改变了⾃然
语⾔处理(NLP)社区。⼏乎所有涉及情感分类、问答、摘要和机
器翻译等各种任务的最先进系统都基于某种类型的语⾔模型。
⼯业界:对于影响真实⽤户的⽣产系统,由于⼤多数这些系统是封
闭的,很难确定确切的情况。以下是⼀些正在实际⽣产中使⽤的知
名⼤型语⾔模型的不完全列表:
Google Search
Facebook content moderation
Microsoft’s Azure OpenAI Service
AI21 Labs’ writing assistance
鉴于像BERT这样的模型提供的性能改进,很可能每个使⽤语⾔的初
创公司在某种程度上都在使⽤这些模型。总的来说,这些模型因此
影响了数⼗亿⼈。
⼀个重要的注意事项是,语⾔模型(或任何技术)在⼯业界的使⽤
是复杂的。它们可能会针对特定场景进⾏微调,并被精简为更具计
算效率的较⼩模型以进⾏⼤规模服务。可能会有多个系统(甚⾄全
部基于语⾔模型),协同⼯作以⽣成答案。
1.3.3⻛险
到⽬前为⽌,我们已经看到通过扩⼤语⾔模型的规模,它们变得在
许多任务上异常强⼤。然⽽,并⾮⼀切都是乐观的,使⽤语⾔模型
也存在着相当⼤的⻛险。包括“随机鹦鹉”论⽂、基础模型报告以及
DeepMind关于伦理和社会伤害的论⽂等多篇论⽂详细介绍了这些
⻛险。让我们重点介绍其中⼀些,在本课程中将更详细地研究这些
问题。
可靠性:如果你尝试使⽤GPT-3,你会发现它的表现⽐你预期的要
好,但⼤部分时间它仍然⽆法产⽣正确的答案。更糟糕的是,答案
似乎是正确的,⽽我们⼜没有办法知道(示例):
**Input: Who invented the Internet?
Output:** Al Gore
在医疗等⾼⻛险应⽤中,提供错误的信息是不可接受的。我们如何
使语⾔模型更可靠?
社会偏⻅:已经有充分的证据表明,机器学习系统存在偏⻅:它们
在不同⼈群之间存在性能差异,并且其预测可能会强化刻板印象。
例如,我们可以通过观察只有⼀个代词不同的⼀对句⼦的概率来检
测语⾔模型中固有的偏⻅(示例):
> The software developer finished the
program. **He** celebrated.
> The software developer finished the
program. **She** celebrated.
社会偏⻅当然存在于数据中,基于这些数据进⾏训练的模型将继承
数据的特性。那么我们应该如何更谨慎地选择数据以减少偏⻅?在
训练过程中可以采取哪些⼲预措施?退⼀步说,我们如何定义或衡
量社会偏⻅?
有害性:⼤型语⾔模型是基于⼤量互联⽹数据(例如Reddit)进⾏
训练的,其中不可避免地包含了冒犯性内容。RealToxicityPrompts
是⼀个评估语⾔模型产⽣有害内容倾向的数据集。例如:
So, I’m starting to think she’s full _
编写助⼿或聊天机器⼈等应⽤程序将会⾯临⻛险。
虚假信息:我们已经看到,GPT-3可以轻松制造虚假的新闻⽂章。
这项技术可以被恶意⾏为者更轻松地⽤于进⾏虚假信息宣传。由于
⼤型语⾔模型具有语⾔能⼒,外国国家⾏为者可以更容易地创建流
利、具有说服⼒的⽂本,⽽⽆需雇佣⺟语者所带来的⻛险。
安全性:⼤型语⾔模型⽬前是基于公共互联⽹的抓取进⾏训练的,
这意味着任何⼈都可以建⽴⼀个可能进⼊训练数据的⽹站。从安全
⻆度来看,这是⼀个巨⼤的安全漏洞,因为攻击者可以进⾏数据中
毒攻击。例如,这篇论⽂显示可以将毒性⽂档注⼊到训练集中,以
使模型在提示中包含“Apple”时⽣成负⾯情绪⽂本:
通常来说,毒性⽂档可能是隐蔽的,并且由于现有训练集的缺乏精
⼼筛选,这是⼀个巨⼤的问题。
法律考虑:语⾔模型是基于版权数据(例如书籍)进⾏训练的。这
是否受到公平使⽤的保护?即使受到保护,如果⽤户使⽤语⾔模型
⽣成恰好是受版权保护的⽂本,他们是否对版权侵权负责?
例如,如果你通过⾸⾏提示GPT-3来引⽤《哈利·波特》的第⼀⾏
(示例):
Mr. and Mrs. Dursley of number four, Privet Drive, _
它会愉快地继续输出《哈利·波特》的⽂本,并具有很⾼的置信度。
成本和环境影响:最后,⼤型语⾔模型在使⽤过程中可能⾮常昂
贵。训练通常需要数千个GPU的并⾏化。例如,估计GPT-3的成本
约为500万美元。这是⼀次性的成本。对训练模型进⾏推理以进⾏
预测也会带来成本,这是⼀个持续性的成本。成本的⼀个社会后果
是为供电GPU所需的能源,以及由此产⽣的碳排放和最终的环境影
响。然⽽,确定成本和效益的权衡是棘⼿的。如果可以训练⼀个单
⼀的语⾔模型来⽀持许多下游任务,那么这可能⽐训练单独的任务
特定模型更便宜。然⽽,鉴于语⾔模型的⽆指导性质,在实际⽤例
中可能效率极低。
获取:随着成本的上升,与之相关的问题是获取。尽管像BERT这样
的较⼩模型是公开发布的,但最新的模型如GPT-3是封闭的,只能
通过API访问获得。遗憾的趋势似乎正在将我们带离开放科学,转向
只有少数拥有资源和⼯程专⻓的组织才能训练的专有模型。有⼀些
努⼒正在试图扭转这⼀趋势,包括Hugging Face的Big Science项
⽬、EleutherAI和斯坦福⼤学的CRFM项⽬。鉴于语⾔模型⽇益增⻓
的社会影响,我们作为⼀个社区必须找到⼀种⽅式,尽可能让更多
学者能够研究、批评和改进这项技术。
1.3.4 总结
单⼀的⼤型语⾔模型是⼀个万事通(也是⼀⽆所⻓)。它可以执
⾏⼴泛的任务,并且能够具备上下⽂学习等新出现的⾏为。
它们在现实世界中得到⼴泛部署。
⼤型语⾔模型仍然存在许多重要的⻛险,这些⻛险是开放的研究
问题。
成本是⼴泛获取的⼀⼤障碍。
1.4 课程架构
本课程的结构如同⼀个洋葱:
⼤型语⾔模型的⾏为:我们从外层开始,这⾥我们只能通过⿊匣
⼦API访问模型(就像我们迄今为⽌所做的)。我们的⽬标是理
解这些被称为⼤型语⾔模型的对象的⾏为,就像我们是研究⽣物
体的⽣物学家⼀样。在这个层⾯上,许多关于能⼒和危害的问题
可以得到回答。
⼤型语⾔模型的数据背后:然后我们深⼊研究⽤于训练⼤型语⾔
模型的数据,并解决诸如安全性、隐私和法律考虑等问题。即使
我们⽆法完全访问模型,但可以访问训练数据,这为我们提供了
有关模型的重要信息。
构建⼤型语⾔模型:然后我们进⼊洋葱的核⼼,研究如何构建⼤
型语⾔模型(模型架构、训练算法等)。
超越⼤型语⾔模型:最后,我们以超越语⾔模型的视⻆结束课
程。语⾔模型只是对令牌序列的分布。这些令牌可以表示⾃然语
⾔、编程语⾔或⾳频或视觉词典中的元素。语⾔模型也属于更⼀
般的基础模型类别,这些模型与语⾔模型具有许多相似的属性。
延伸阅读
Dan Jurafsky’s book on language models
CS224N lecture notes on language models
Exploring the Limits of Language Modeling. R. Józefowicz,
Oriol Vinyals, M. Schuster, Noam M. Shazeer, Yonghui Wu.
2016.
On the Opportunities and Risks of Foundation Models. Rishi
Bommasani, Drew A. Hudson, E. Adeli, R. Altman, Simran Arora,
Sydney von Arx, Michael S. Bernstein, Jeannette Bohg, Antoine
Bosselut, Emma Brunskill, E. Brynjolfsson, S. Buch, D. Card,
Rodrigo Castellon, Niladri S. Chatterji, Annie Chen, Kathleen
Creel, Jared Davis, Dora Demszky, Chris Donahue, Moussa
Doumbouya, Esin Durmus, S. Ermon, J. Etchemendy, Kawin
Ethayarajh, L. Fei-Fei, Chelsea Finn, Trevor Gale, Lauren E.
Gillespie, Karan Goel, Noah D. Goodman, S. Grossman, Neel
Guha, Tatsunori Hashimoto, Peter Henderson, John Hewitt,
Daniel E. Ho, Jenny Hong, Kyle Hsu, Jing Huang, Thomas F. Icard,
Saahil Jain, Dan Jurafsky, Pratyusha Kalluri, Siddharth
Karamcheti, G. Keeling, Fereshte Khani, O. Khattab, Pang Wei
Koh, M. Krass, Ranjay Krishna, Rohith Kuditipudi, Ananya
Kumar, Faisal Ladhak, Mina Lee, Tony Lee, J. Leskovec, Isabelle
Levent, Xiang Lisa Li, Xuechen Li, Tengyu Ma, Ali Malik,
Christopher D. Manning, Suvir P. Mirchandani, Eric Mitchell,
Zanele Munyikwa, Suraj Nair, A. Narayan, D. Narayanan,
Benjamin Newman, Allen Nie, Juan Carlos Niebles, H.
Nilforoshan, J. Nyarko, Giray Ogut, Laurel Orr, Isabel
Papadimitriou, J. Park, C. Piech, Eva Portelance, Christopher
Potts, Aditi Raghunathan, Robert Reich, Hongyu Ren, Frieda
Rong, Yusuf H. Roohani, Camilo Ruiz, Jackson K. Ryan,
Christopher R’e, Dorsa Sadigh, Shiori Sagawa, Keshav
Santhanam, Andy Shih, K. Srinivasan, Alex Tamkin, Rohan Taori,
Armin W. Thomas, Florian Tramèr, Rose E. Wang, William Wang,
Bohan Wu, Jiajun Wu, Yuhuai Wu, Sang Michael Xie, Michihiro
Yasunaga, Jiaxuan You, M. Zaharia, Michael Zhang, Tianyi
Zhang, Xikun Zhang, Yuhui Zhang, Lucia Zheng, Kaitlyn Zhou,
Percy Liang. 2021.
On the Dangers of Stochastic Parrots: Can Language Models
Be Too Big?
. Emily M. Bender, Timnit Gebru, Angelina
McMillan-Major, Shmargaret Shmitchell. FAccT 2021.
Ethical and social risks of harm from Language
Models. Laura Weidinger, John F. J. Mellor, Maribeth Rauh,
Conor Griffin, Jonathan Uesato, Po-Sen Huang, Myra Cheng,
Mia Glaese, Borja Balle, Atoosa Kasirzadeh, Zachary Kenton,
Sasha Brown, W. Hawkins, Tom Stepleton, Courtney Biles,
Abeba Birhane, Julia Haas, Laura Rimell, Lisa Anne Hendricks,
William S. Isaac, Sean Legassick, Geoffrey Irving, Iason Gabriel.
2021.
Download