第 42 卷第 2 期 2012 年 3 月 浙 江 大 学 学 报(人文社会科学版) J ou rna lo fZh e i angUn i v e r s i t Human i t i e sandSo c i a lS c i enc e s) j y( Vo l. 42,No. 2 Ma r.2012 DOI:10. 3785/ i s sn. 1008 942X. 2012. 01. 011 j. 主题栏目:跨文化语言文字研究 计量语言学的现状、理论与方法 刘海涛1 黄 伟2 ( 1.浙江大学 外国语言文化与国际交流学院,浙江 杭州 310058;2.北京语言大学 汉语水平考试中心,北京 100083) [摘 要]计量语言学以真实语言交际活动中呈 现 的 各 种 语 言 现 象 、语 言 结 构、结 构 属 性 以 及 它 们 之 间的相互关系作为研究对象,通过概率论、随 机 过 程、微 分 与 微 分 方 程、函 数 论 等 数 学 的 定 量 方 法 对 其 进 行精确的测量、观察、模拟、建模和解释,寻找语言现象背后的数理规律,揭 示 各 种 语 言 现 象 形 成 的 内 在 原 因,探索语言系统的自适应机制和语言演化的动因。对计量语言学现 状、理 论 与 方 法 进 行 分 析,厘 清 该 学 科进一步发展的走向,旨在推动中国语言学的国际化与语言学研究的科学化水平。 [关键词]计量语言学;汉语;语言定律;Z i f;数理语言学 p t i t a t i v eL i ngu i s t i c s:S t a t eo ft h eAr t,Th e o r i e sand Me t hod s Quan 1 2 L i u Ha i t ao Huang We i ( , , 1. Sc h o o lofIn t e r na t i o na lS t ud i e s Zh e i angUn i v e r s i t ou310058,Ch i na;2. Ch i n e s e j y Hangzh ( ) , , , Pr of i c i e n c e s tCe n t e r HSK Be i i ngLanguageandCu l t u r eUn i v e r s i t i i ng100083 Ch i na) yT j y Be j Ab s t r a c t:Quan t i t a t i vel i ngu i s t i c sconc e rnsi t s e l fwi t ht heva r i ousl anguagephenomena, l anguage , , s t ruc t ur e ss t ruc t ur a l pr ope r t i e s andt he i ri n t e r r e l a t i onsi nr e a l l i f ecommun i c a t i vea c t i v i t i e s. Thr ough va r i ous quan t i t a t i ve t e chn i s,i t conduc t sa c cur a t e me a sur emen t,obs e r va t i on, que s imu l a t i on, mode l i ngandexp l ana t i ono ft he s ephenomenai no rde rt od i s cove rt he ma t hema t i c a l l awsunde r l i ngt hel anguagephenomena, r eve a lt hei n t r i ns i cr e a sonsf o rt he s ephenomena, and y exp l o r et hes e l f adap t i ve me chan i sms o ft hel anguagesys t em andt he dynami c so fl anguage evo l u t i on. Quan t i t a t i vel i ngu i s t i c si sat i c a lcomb i na t i ono fna t ur a landsoc i a ls c i enc e s,wi t h yp d i s t i nc ti n t e rd i s c i l i na r r a c t e r i s t i c s.The s echa r a c t e r i s t i c sd i s t i ngu i sh quan t i t a t i vel i ngu i s t i c s p ycha a st hebr anch o fl i ngu i s t i c s wi t ht hebe s tadhe r enc et ot he pa r ad i f mode rns c i enc e.The gm o l anguagel awsi td i s cove r scon t r i bu t et o mo r ea c cur a t ede s c r i t i onandexp l ana t i ono fr e l evan t p l anguagephenomenaanda r ev i t a l l r t an tandne c e s s a r o rt hee s t ab l i shmen to fat f yimpo yf ypeo l i ngu i s t i ct heo r nt he mode rns c i en t i f i cs ens e.Asanemp i r i c a ld i s c i l i neba s edonau t hen t i c yi p l anguageda t a, t hemodeo ft h i nk i ngandr e s e a r chme t hodo l ogypr a c t i c edi nquan t i t a t i vel i ngu i s t i c s [收稿日期]2012 01 01 [本刊网址·在线杂志]h //www. t t our na l s. z u. edu. cn/s o c p: j j [在线优先出版日期]2012 02 29 [基金项目]国家社会科学基金一般项目( 09BYY024);国家社会科学基金重大项目( 11&ZD188) [作者简介]1.刘海涛,男,浙江大学外国语言文化与国际交流学院教授,博士生导师,文学博士,主要从事计量语言学、语言复 杂网络、配价理论与依存语法等方面的研究;2.黄伟,男,北京语言大学汉语水平考试中心助理研究员,文学硕士,主要从事计量语 言学、语言测试等方面的研究。 第2期 刘海涛 黄 伟:计量语言学的现状、理论与方法 179 a r e gene r a l l nl i ne wi t ht hos ei no t he r emp i r i c a ld i s c i l i ne s.The mos tr epr e s en t a t i ve yi p a c comp l i shmen t so fquan t i t a t i vel i ngu i s t i c sa r et heva r i ousl anguagel awsconc e rn i ngt hes t ruc t ur e i chcons t i t u t et heba s i so fr e l evan tt heo r i e s.Syne r t i c andevo l u t i ono fhumanl anguage s,wh ge l i ngu i s t i c s, an ou t come o ft heapp l i c a t i on o fs r t i c st ol i ngu i s t i cs t ud i e s,ma rks a mo r e yne ge advanc eds t ageo ft hedeve l opmen to fquan t i t a t i vel i ngu i s t i c s. Unde rt het heo r e t i c a lf r amewo rko f , syne rge t i cl i ngu i s t i c s wec ani n t eg r a t et hes epa r a t edl anguagel awsi n t oal i ngu i s t i ct heo r t h y wi r e a t e rexp l ana t o r apa c i t t t emp tt oso l vet heequ i l i br i um be twe en va r i ousl anguage g yc y.An a , rge t i cl i ngu i s t i c si st hei ns t an t i a t i onandmode rn i z a t i ono f r e l a t eddemandsi ncommun i c a t i on syne Z i f sl e a s te f f o r tpr i nc i l e. I nt hef o r e s e e ab l ef u t ur e, r e s e a r che r si nquan t i t a t i vel i ngu i s t i c sa r ound p p :( t hewo r l da r eexpe c t edt oconduc ti n dep t hs t ud i e sa l ongt hef o l l owi ngl i ne so fr e s e a r ch 1) t he me chan i smsandl awsgove rn i ng how wo rdsf o rm s en t enc e s;( 2) t hes e a r chf o r mo r eun i ve r s a l syn t a c t i cf o rma l i smsf o rt hes akeo fc r os s l i ngu i s t i cve r i f i c a t i ono fva r i ouss t a c t i cru l e s;( 3) t he yn syne rge t i cr e l a t i onsbe twe end i f f e r en tl eve l so fhumanl anguage s,wi t hf ocusp l a c edonsyn t ax; ( 4) t heapp l i c a t i ono fva r i ousnew me t hodst o mo r ee f f i c i en tands t ema t i cexp l o r a t i ono ft he ys ru l e sgove rn i ng t he s t ruc t ur e and evo l u t i on o f human l anguage s; ( 5)a t t emp t sa tapp l i ng y t i t a t i vef a c t so fs t axt o syn t a c t i cana l i s ba s ed on au t hen t i cl anguage da t a; ( 6) t he quan yn ys r e l a t i onsh i twe enquan t i t a t i vef a c t so fs t axandcogn i t i vepr oc e s s i ngo fs en t enc e s;( 7) t he psbe yn s e a r ch f o rs r t i cl i ngu i s t i c mode l s mo r e compa t i b l e wi t h emp i r i c a lf a c t so f cogn i t i ve yne ge oc e s s i ngo fl anguage;( 8) t hecons t ruc t i on o f mo r eexp l ana t o r i l t el ex i c a l s t a c t i c pr y adequa yn o r t h.The s ei s sue sno ton l e f l e c tt hegapsi nt hecur r en tbody o f syne rge t i cmode l s;andsof yr t i t a t i vel i ngu i s t i cr e s e a r chbu ta l soi nd i c a t epos s i b l ed i r e c t i onsf o rf u t ur er e s e a r ch. quan : ; ; ; ; an t i t a t i v el i ngu i s t i c s Mand Ke r d s qu a r i nCh i n e s el angu a el aw Z i f ma t hema t i c a ll i ngu i s t i c s g p ywo 语言研究的科学化是现代语言学家的一个主要努力方向和重要目标 。现代自然科学成功的原 因主要在于可验证的结论、精准的预测能力以及丰富的实际应用,而这些均需通过各种实验方法与 恰当的模型来获得。因此,测(计)量方法和实验手段的改进是自 然 科 学 得 以 持 续 发 展 的 根 本 保 证 之一。在人文社科领域中,除心理学、经济学、社会学等学科外,计量手段却鲜有运用。如果计(定) 量是一门学科科学化的有效方法,那么,在语言学中引入计量方法可能是语言研究科学化的必要途 径和有效手段。 在索绪尔之后,现代语言学的早期兴趣主要在语言结构方面。为此,语言学家采用了一些定性 的数学方法,如逻辑、代数、集合论等。遗憾的是,对结构的过分强调导致了研究者将语言看做是一 种静止的系统,系统中那些无法纳入结构的内容则几乎被完全抛弃。为了弥补这个缺陷,有必要在 语言研究中将数学的定量与定性方法结合起来使用。这种结合催生了计量语言学的出现。 计量语言学( t i t a t i vel i ngu i s t i c s)以真 实 的 语 言 交 际 活 动 中 呈 现 的 各 种 语 言 现 象、语 言 结 quan 构、结构属性以及它们之间的相互关系作为研究对象,通 过 概 率 论、随 机 过 程、微 分 与 微 分 方 程、函 数论等数学的定量方法(与代数等数学的定性方法 相对)对其 进 行 精 确 的 测 量、观 察、模 拟、建 模 和 解释,寻找语言现象背后的数理规律,揭示各种语言现 象形 成 的 内 在 原 因,探 索 语 言 系 统 的 自 适 应 机制和语言演化的动因 [12]。简言之,计量语言学是以 真实 语 料 为 基 础、用 精 确 的 方 法 来 研 究 语 言 结构与发展规律的语言学分支学科。 本文将对计量语言学现状、理论与方法进行分析,旨 在 厘 清 该 学 科 进 一 步 发 展 的 走 向;文 章 对 180 浙江大学学报(人文社会科学版) 第 42 卷 针对汉语的计量语言学研究给予了特别关注,希望能引起国内学者对语言计量研究的重视,进而推 动中国语言学的国际化与语言研究的科学化水平。 一、计量语言学的历史与现状 (一)计量语言学的建立与发展 [ 3] 1935 年,美国语言学家 G. K. Z i f有关语言统计的著作出版 ,标志了一个新的语言 学 分支学 p 科和一种新的语言研究方法的诞生。Z i f认为,利用统计方法可以定量研究语言中的各种现 象,这 p 样语言学便可成为一门精确科学。Z i f这本书的标题 ThePs Bi o l ogyofLanguage(《语言的 p ycho 心理生物学》)表达了结合人类的经验与功能来研究语言的愿望,该书的副标 题 AnIn t r oduc t i ont o Dynami cPh i l o l ogy(《动态语文学导论》)则强调了这种方法与其他方法的 主 要 区 别 在 于 研 究 采 用 的是真实的语言样本。由于语言应用的变化也会导致 理论 研 究 结 论 的 变 化,因 此 这 是 一 种 动 态 的 语言学研究方法。Z i f所倡导的这种用精确的方法 来 研 究 语 言 结 构 与 发 展 规 律 的 学 科,今 天 称 之 p 为“计量语言学”。 在Z i f之后, 20 世纪五六十年代有不少语言学 家 开 始 使 用 数 学 方 法 来 进 行 语 言 规 律 的 探 索, p [ 45] 其中尤为突出的是英国学者 Gus 。此后, t avHe rdan 出版的几本有关计量(数理)语言学的著作 计量语言学在德国和东欧得到了快速发展。目前这一 领域 的 主 要 代 表 人 物 大 多 来 自 德 国、奥 地 利 及东欧国家,其中最著名的是德 国 波 鸿 大 学 的 Gabr i e lAl tmann 教 授。 他 在 计 量 语 言 学 的 诸 多 领 [ 6] 域均有重要贡献,是 Z i f 之 后 最 重 要 的 计 量 语 言 学 家,被 誉 为 现 代 计 量 语 言 学 的 奠 基 人 之 一 。 p 另外 一 位 重 量 级 人 物 是 特 里 尔 大 学 的 Re i nha rd Kh l e r 教 授,现 任 国 际 计 量 语 言 学 学 会 ( I n t e rna t i ona l Quan t i t a t i ve L i ngu i s t i c s As soc i a t i on,IQLA )会 长 及 该 学 会 会 刊 Journa lof Quan t i t a t i veLi ngu i s t i c s( JQL,为 SSCI与 A&HCI源刊)主编。他对计量语 言 学 最 大的 贡 献 是 提 出了协同语言学( syne r t i cl i ngu i s t i c s)的理论,通过这种理论架构,我们可以将零散的语言定律整 ge 合为一个更具解释力的语言理论。国际著名的语言学出版社 deGruy t e r 正在 出 版 一 个“计 量 语言 学”( Quan t i t a t i veL i ngu i s t i c s)图书系列,目前已出版 65 种。德国的 RAM 出版社不仅出版计量语 言学 的 名 刊 《语 言 计 量 学 》( Gl o t t ome t r i c s),也 在 出 版 一 个 “计 量 语 言 学 研 究 ”( S t ud i e si n Quan t i t a t i veL i ngu i s t i c s)书系,目前已出了 12 种。 计量语言学研究不只是以上国家和地区的一个局部现 象 ,它 的 研 究 方 法 和 对 象 已 涉 及 多 国 学 者与 多 种 语 言。 这 方 面 的 情 况 可 见 Re i nha rd Kh l e r 主 编 的 《计 量 语 言 学 研 究 文 献 目 录 》 [ 7] ( Bi b l i ographyof Quan t i t a t i veLi ngu i s t i c s) ,这本 800 多 页 的 文 献 目 录 收 录 了 6341 个 计 量 语 言学的重要文献信息。这本书所收录文献的截 止 时 间 为 1990 年 左 右,而 1990 年 以 后 才 是 计 量 语 言学发展的黄金时期,因此,计量语言学已有大量研究成果应是一个不争的事实 。 2005 年, deGruy t e r在其久负 盛 名 的 “语 言 与 交 际 研 究 全 书”(HSK)书 系 中 出 版 了 由 Kh l e r [ 1] 等人主编的《计量语 言 学 研 究 全 书》( : ) 。 Quan t i t a t i veLi ngu i s t i k e i nIn t e rna t i ona l e sHandbuch 这本书不仅反映了现代计量语言学在音位学、形态学、句 法 学、词 汇 学、语 义 及 语 用 学、地 理 语 言 学 及方言学、类型学与语言的历时研究等领域所取得的成果,也 用 计 量 语 言 学 中 的 主 要 模 型、假 设 及 定律形象地介绍了计量语言学研究所用的主要手段和方法 ,讨论 了 计 量 语 言 学 与 其 他 科 学 研 究 领 域的关系,介绍了计量语言学的方法、模型及成果在多个领域(包 括 自 然 语 言 处 理、机 器 学 习、语 音 处理、基于概率的句法分析、信息论、神经语言学、计算 机 辅 助 学 习、文 本 的 可 理 解 性、语 言 自 动 机、 音文转换、术语学及心理分析等)的应用前景。由此可 以看 出,计 量 语 言 学 不 但 已 经 深 入 到 语 言 研 第2期 刘海涛 黄 伟:计量语言学的现状、理论与方法 181 究的各个领域,而且其研究成果与方法也已被用于其他相关领域。 目前国 际 上 已 有 专 门 的 计 量 语 言 学 学 术 团 体 ( IQLA)、学 术 刊 物 ( JQL,Gl o t t ome t r i c s, Gl o t t o t he o ry)以及众多的学术著作。国际计量语言 学 会 议( QUALICO)始 于 1991 年,每 三 年 召 开 一次。国外语言学家已对多种语言进行了多层次、全方位的计量研究,发现了许多语言系统的结构 和演化规律。这些研究不仅有助于人类对语言系统的精确认识,加深了对人的认知机理的理解,也 极大地提升了语言研究的科学价值,同时也对自然语言处理、自动文本分类、摘要及关键词提取、语 言教学与测试等领域具有很高的实用价值。 (二)计量语言学的特点与学科地位 不同于一般的采用代数、集合、逻辑等方法对语言的结构特征 进 行 (静 态)定 性 描 述 的 形 式(代 数)语言学,也不同于通过语料库来研究语言结构与运用的语料 库 语 言 学 ,计 量 语 言 学 关 注 的 是 语 言的定量特征以及这些特征之间的协同关系。因此,计量语言 学 与 其 他 语 言 学 分 支 的 差 别 主 要 是 方法上的差别。采用从真实文本中抽象出的数量关系描述与理解语言系统及其组成成分的发展和 运作规律,当是计量语言学的根本任务。“精确、真实、动态”是 计 量 语 言 学 研 究 的 三 大 特 点。 计 量 语言学认为,语言是一种生物—认知现象,也是 一 种 心 理—社 会 现 象。 语 言 系 统 是 一 个 自 组 织、自 适应的动态系统,也是一个复杂系统。计量语言学研究涉及语言学、数学、统计学、社会学、心理学、 物理学、系统科学和计算机科学等多个学科领域,是一 个典 型 的 文 理 交 叉 学 科,具 有 鲜 明 的 跨 学 科 研究特质。这些特点使计量语言学成为语言学诸多分 支中 最 具 现 代 科 学 特 点 的 一 个 研 究 领 域,而 它所发现的语言规律也有助于更精确地描写与解释相应的语言 现 象 ,对 于 构 建 一 种 现 代 科 学 意 义 上的语言学理论是非常重要的。 在学科分类上,日本学者伊藤雅光将计量语言学视为数理语言学的一个分支,与狭义的数理语言 学(形式语言学、代数语言学等)及计算语言学并列 [8]4。伊藤的这个分类与我国学者冯志伟早在 1985 年出版的《数理语言学》(知识出版社)一书中所述分类极为相似。冯志伟认为,数理语言学包括代数 语言学、统计语言学及应用数理语言学。在统计语言学一章中,介绍的内容基本就是早期计量语言学 的一些成果和方法,而 应 用数理语言学一章的内容在今天大多可归到计算 语 言 学 中。 我 们 基 本 同 意冯志伟及伊藤的这种三分法,因其体现了数理语言学的几个重要特性:系统 性 与动 态性(计 量语 言学),精密性与基础性(代数语言学),实用性与可操作性(计算语言学)。计算语言学代表实用性, 并不意味着它不具备系统性或精密性,但就实用方面而言,现代计算语言学毫无疑问是这三个分支 中最突出的。计量语言学的系统性则体现在其研究的重点是通过真实语料和统计手段来探究语言 系统各个成分的构成规律及它们之间的协同关系,进而加深我们对语言系统运作的理解。 从研究对象和研究方法上来说,计量语言学以语言结构和演化规律等为研究对象,以统计检验 和其他定量数学方法为研究方法;代数语言学以语言结构背后抽象出来的数学形式为研究对象,以 定性的数学方法为研究方法;计算语言学以语言结构的理解与生成为研究对象或目标,以统计和规 则为基本研究方法。 综上所述,计量语言学可视为数理语言学的一个分 支,与 计 算 语 言 学、代 数 语 言 学 一 起 构 成 了 采用数理手段探究人类语言的一个语言学分支学科。 (三)汉语计量语言学研究现状 世界各国的计量语言学学者已经发现了不少具有 普适 性的 语 言 定 律 (见 本 文 第 二 部 分),并 被 多种语言所验证,通过这些定律我们可以更好地了解语言的结构与演化规律。然而遗憾的是,在这 些定律中几乎没有我们中国人 的 发 现,就 连 真 正 从 计 量 语 言 学 角 度 研 究 汉 语 的 成 果 也 极 为 罕 见 。 182 浙江大学学报(人文社会科学版) 第 42 卷 例如,在以上提及的计量语言学研究书目中,与汉语有关的文献只有 15 个,占比不到 0. 3% 。 为了尽可能对国内学者的有关研究成果有个全面了解 ,我们用相关词语对 CNKI的《中国学术 期刊网络出版总库》进行了快速检索(检索时间:2011 年 10 月 1 日)。用“汉 语 + 频率”检 索出 911 项,用“计量语言学”检索出 114 项,用“定 量 语 言 学”检 索 出 9 项,“汉 语 + 计 量”检 索 出 63 项,“词 频”检索出 11365 项,“汉语 + 词 频 ”检 索 出 178 项,“汉 语 + 定 量 ”检 索 出 43 项,“字 频 ”检 索 出 1 529 项,“句法 + 频率”检索出 4 项,“汉语 + 定律”检索出 1 项,“ Z i f”检索出 2271 项,“汉语 +Z i f” p p 检索出 0 项,“词频 +Z i f”检 索 出 2 项。 我 们 对 这 些 检 索 结 果 进 行 了 大 致 分 析,发 现 国 内 目 前 对 p (上述)现代计量语言学的方法还比较陌生,基本不了解现代计量语言学的文献和成果,有关语言计 量的方法或研究内容也大多停 留 在 字 词 频 统 计 层 面。 这 与 Co rne l i aSch i nde l i n 在 上 述 《计 量 语 言 学研究全书》中所撰写的有关中国计量语言学一章的结论基本吻合。 国外关于汉语的计量语言学研究主要有以下几项:Br e i t e r有关汉语词长与词频的关系及词类、 [ 9] 语体的研究是典型的、时间较早的汉语计量语言学研究 ,其研究的问题和研究方法对现在的汉语计 量语言学研究具有指导作用,但研究的精细程度尚需加强。Bohn 提出了用汉字的笔画数量表示汉字 复杂度的方法 [10]。Al tmann认为这种方法在不同类型文字的普适性方面局限性太大,并指出字符的 复杂程度不可能只涉及笔画的数量,继而提出了基于字符所包含的不同符号(笔形)和连接类型的复 杂度的表示方法 [11]。虽然这两种方法都能够满足一定的研究目的,但却很难从语言学和文字学角度 对文字复杂度的相关研究进行解释。以笔画数定义复杂度的方法虽然保持了语言文字学的研究习 惯,但笔画数只是汉字结构复杂程度的不完全度量,这种方法涉及的语言学知识又显得过于单薄。此 [ 1213] 外,德国哥廷根大学的 Be 。 s t等人也对汉语短篇小说及信件的词长分布进行了一些探索性研究 从事计量语言学研究的学者主要集中在德国与东欧地区 ,研究对象主要是印欧语、斯拉夫语和 拼音文字。以汉语和汉字为对象 的 计 量 语 言 学 研 究 无 论 从 研 究 范 围 还 是 研 究 深 度 来 说 都 还 很 不 够。为数不多的国外学者关于汉语和汉字的计量语言学研究由于缺乏汉语语言学和汉字学的学者 及研究成果的介入,研究方法(主要指概念的操作性定义和量化过程)和 结 论 自 然 也 都 很 难 从 汉 语 语言学、汉字学的角度来理解、解释和应用。再加上汉语、汉字在形式上与印欧语、拉丁文字有较大 差别,那些从印欧语和拉丁文字等语言材料中发现的计量语言学理论 (定 律)和 方 法 是 否 适 用 于 汉 语和汉字的研究,仍需进一步检验。 我国学者采用数理方法研究汉语现象主要是随着语言文字改革和语言教学以及语料库语言学的 发展而展开的。然而,将数理统计方法运用于语言研究并不等同于计量语 言 学研究。采 用 代数、图 论、算法学、拓扑学、数理逻辑等方法进行的语言研究仍然是一种定性的、静态的描写研究,计量语言 学更注重的是语言的定量与动态特征及其在描述、理解语言系统及其组成成分的发展与运作中的作 用。除了汉字的熵 [14]、汉字效用递减率 [15]及汉字效用函数 [16]、常用字笔画趋简率 [17]、术语形成的经 济律与生词增幅递减律 [18]等外,大多数汉语计量研究属于定性的计量描写研究。比如,汉字的计量研 究主要集中在现代汉语用字的字频统计、汉字属性研究和现代汉字规范化方面;词汇方面的计量研究 主要是基于语料库进行的词频统计及其方法的研究;汉语语音层面的计量研究以 基 于 词典等 材 料 进 行的音节和声调的静态分布研究为主;句法等其他层面的汉 语 计 量 研 究 并 不 多 见。 实 际 上 汉 字 效 用递减率和常用字笔画趋简率仍是根据计量描写研究提出的有 待 量 化 和 验 证 的 理 论 假 设 ,尚 未 公 式化,还不能算严格意义上的计量语言学规律(定律)。尽管如此,上述研究对现代汉语中的字、词、 语音等进行了比较全面和深入的计量描写,不仅在辞书编纂、教 学 大 纲 的 制 定 和 教 材 编 写、汉 字 及 汉语信息处理等方面发挥了重要作用,也为汉语的计量语言学研究提供了一定的研究基础。 由此 可 见 ,计 量 语 言 学 在 国 内 仍 然 是 一 个 鲜 为 人 知 的 领 域 ,为 数 不 多 的 有 关 汉 语 的 计 量 语 言学研究大多是由一些外国学者进行的。这种 状 况 与 中 国 作 为 人 口 大 国 和 汉 语 作 为 一 种 使 用 第2期 刘海涛 黄 伟:计量语言学的现状、理论与方法 183 者 众 多 的 语 言 的 事 实 是 极 不 相 称 的 。 如 果 我 们 继 续 忽 视 汉 语 的 计 量 语 言 学 研 究 ,极 有 可 能 导 致 大 多 数 的 汉 语 结 构 和 演 化 规 律 是 由 外 国 人 发 现 的 尴 尬 境 况 ,也 可 能 出 现 由 于 国 外 学 者 对 汉 语 本 身 了 解 不 深 ,进 而 得 出 一 些 不 太 可 靠 结 论 的 情 况 。 因 此 ,有 必 要 在 国 内 尽 快 开 展 更 深 入 、更 广 泛 的汉语计量语言学研究。 二、计量语言学中的定律与理论 作为一门基于真实语言材料的实证学科,计量语言学最 具 代 表 性 的 成 果 是 有 关 语 言 结 构 及 其 演化的各种定律。按照科学哲学的观点,定律是构成理论的基础。换言之,没有定律也就没有真正 意义上的理论。 (一)计量语言学的定律 经过几十年的努力,各国计量语言学学者已经发现 了 不 少 具 有 普 适 性 的 计 量 语 言 学 定 律。 这 些定律可以分为三类:分布定律、函数定律、演化定律。分布定律描述了语言结 构 在 语言系 统 和 语 言使用中的定量特征。函数定律用于描述不同的语言结构(及其属性)间的相互关系。演化定律则 建立 了 相 关 语 言 性 质 变 化 的 动 力 学 模 型。Z i f 定 律、Menz e r a t h Al tmann 定 律、P i o t r owsk i p Al tmann 定律分别是这三类定律的代表。 1.Z i f定律 p 。20 世纪 20 年代,哈佛大学语言学家 Z i f在研究人 类 语 言 的 真 实 文 本 时 发 p [ 3, 19] 现,词出现的频数与其 频 数 秩 (序 号)之 间 具 有 反 比 例 关 系,这 一 关 系 后 来 被 称 为 Z i f定 律。Z i f p p 定律是计量语言学最早提出的统计规律之一,也是一个在计量语言学中具有核心地位、与诸多语言 性质和语言过程密切相关的语言规律。就应用价值来看,与 Z i f定律有关 的语 言 研 究不仅 对 计 算 p 语言学、语言信息处理、语料库语言 学、语 言 教 学 与 测 试 等 领 域 有 重 要 意 义,而 且 Z i f定 律 中 的 某 p 些参数还能够作为语言分类的指标。更为重要的是, Z i f定律不仅仅是自然语言的一条基本 法 则, p 也适用于物理学、社会学、经济学、生物学等人类社会的诸多领域。 据不完 全 统 计,截 至 2011 年 12 月,已有九百多篇与 Z //www. /z /)。 刊 登 i f定律 相 关 的 文 献 问 世 ( h t t ns l i t i c s. o rg/wl i i f p p: j gene p 这些研究的除了语言学书刊外,几 乎 涉 及 人 类 科 学 所 有 领 域 的 出 版 物,还 包 括 Na t ur e、 Sc i enc e等 顶级学术刊物。这不仅说明了计量语言学的科学性,也说明采 用 计 量 方 法 来 研 究 人 类 语 言 是 极 具 学术价值的一个研究方向。 [ ] 2.Menz e r a t h Al tmann 定律 2021 。1928 年,德国心理学 家、语音学 家 Pau lMenz e r a t h在研究 词和音节的长度关系时发现,随着一个词所含音节数的增加,这些音节的平均长度会减小。他将此 种现象概括为“整体越大,其组成部分就越小”。为了用数学公式 建 立 语 言 学 单 位 间 的 这 种 部 分 与 整体的关系, Al tmann 于 1980 年对此进行了数学描述,将 其 更 精 确 地 假 设 为“一 种 语 言 结 构 越 长, 则构成它的 成 分 越 短 ”,即 部 件 长 度 是 结 构 长 度 的 函 数。 今 天 人 们 将 这 一 定 律 称 为 Menz e r a t h Al tmann 定律。其基本形式的推导过程如下:设 x 为部件尺寸, y 为结构 尺 寸,则 以 上 假 设可 以 描 述为部件的相对变化 dy/y 与结构的相对变化 dx/x 的反比关系: dy dx ∝ x y 按照假设,比例系数为负,这样就得到以下方程: dy dx =-b x y 浙江大学学报(人文社会科学版) 184 第 42 卷 两边积分后得: l ny =-b l nx +c 令 A =e ,就得到了 Menz e r a t h Al tmann 公式(定律)的基本形式: c -b y = Ax 式中的 A 和b 为常数,在同一种语言的不同文本里,这两个常数的值会有不同,可作为一种文本特征 来使用。 从形式上看,Menz e r a t h Al tmann 定律是一 种 幂 律 ( rl aw),在 其 他 领 域 也 有 这 种 规 律 存 powe 在。世界各国的计量语言学家已经考察过多种语言,发现表 1 所 列 的 语 言 结 构 单 位 及 其 成 分 间 的 长度关系均符合 Menz e r a t h Al tmann 定律。 表 1 符合 Menz e r a t h Al tmann 定律的语言单位 结构(整体) 成分(部分) 因变量(y ) 句子 子句 子句长度 句子 词 词长度 句子 音节 音节持续时间 句子 音节 音节长度 节奏单位 音节 音节持续时间 词 词素 词素长度 词 音节 音节长度 词 音 音的持续时间 音节 音 音的持续时间 [ 22] 3.P i o t r owsk i Al tmann 定律 。如何用数学手段来描 述 语 言 中 的 变 化 是 计 量 语 言 学 家 所 关 心的问题之一。1974 年,苏联语言学家 R. P i o t r ovsk i及其夫人提出用反正切函 数 来 描述语 言 的 演 化规律。1983 年, Al tmann 等人在 P i o t r owsk i夫妇发现的基础上,结合 Labov 等人的研究成果,提 出了语言演化规 律 的 三 种 变 体。 因 此,后 人 将 语 言 变 化 规 律 称 为 P i o t r owsk i定 律 或 P i o t r owsk i Al tmann 定律。这一定律认为,“所有语言变化都是新 老 形 式 交 互 作 用 的 结 果”。 这 种 交 互 作 用 可 以用下式来描述: dpt = ktpt( C -pt) d t ( 1) 其中 pt 表示新形式所占的比例, kt 表示一个时间函数(也可为常量), C 表示变化区间, t 表 示时间, t> 0, dpt 表示比例变化。式( 1)说明新形式的比例变化是与新旧形式的交 互成 比 例 的。解 此 式,可 得到三个解: ( a)完全变化,此时 C=1,并且 kt=b 为常量。 p= 1 1+a e-bt ( 2) 其中 a 为积分常数。式( 2)所表示的逻辑斯蒂曲线在许多领域均存在,一般用来描述增长现象。 ( b)部分变化,此时 kt=b 常量, C 为渐近线。 p= C 1+a e-bt ( 3) 第2期 刘海涛 黄 伟:计量语言学的现状、理论与方法 185 其中 a 为积分常数。 ( c)可逆变化,此时kt=a ′-b ′ t, C 为常量。 p= C t+c t -b 1+a e 2 ( 4) 其中 a、 b、 c 是a ′、 b ′、 C 的简单函数。 除了上述定律外,计 量 语 言 学 在 多 种 语 言 的 文 本 中 还 有 诸 多 重 要 发 现 [1,23],如:文 本 中 词 长 (通常 以 音 节 数 计 )的 分 布 符 合 泊 松 分 布 ( Po i sond i s t r i bu t i on),包 括 超 泊 松 分 布 ( hype r Po i son d i s t r i bu t i on)、单位 移 超 泊 松 分 布 ( 1 d i sp l a c edhype r Po i sond i s t r i bu t i on)、单 位 移 混 合 泊 松 分 布 ( 1 d i sp l a c edmi xedPo i sond i s t r i bu t i on);词类 的 频 率 在 文 本 中 的 分 布 因 语 言 的 不 同 而 服 从 Z i f p 截尾分布( Z i f t runc a t edd i s t r i bu t i on)、单 位 移 超 泊 松 分 布 或 单 位 移 超 几 何 分 布 ( 1 d i sp l a c ed p ) 。 hype r t r i cd i s t r i bu t i on geome 除了关于语言结构和系统的公式化描写与解释研究外 ,还 有 一 些 计 量 语 言 学 研 究 与 应 用 领 域 紧密结合,如英语文本中限定词的分布具有文本分类的作用,文本的某些计量特征可应用于语言类 教材的评估,文本的计量特征与文本的可理解性有密切关系,等等。 (二)协同语言学 以上这些定律的发现对于我们更精确地理解语言的结构和语言的发展无疑有极大的帮助 。语 言的计量研究不但有益于提升语言研究的精确性和科学性 ,也有助于弥补传统方式的不足。然而, 采用计量语言学的方式所发现的各种定律虽然有助于人们认识 单 个 语 言 现 象 的 本 质 ,但 如 何 将 这 些不同层面的语言学定律结合在一起却不是一件容易的事情 。如果我们要对语言进行一个全面的 描述,那么就有必要将这些定律结合在一起概括成更高层面的原则,形成一个基于普适定律的语言 学体系或理论架构。这也是 Kh l e r提出协同语言学的初衷。 1986 年,Kh l e r 出 版 了 《语 言 协 同 学: 词 汇 的 结 构 以 及 动 力 学 》( Zur Li ngu i s t i s chen [ 24] : ) 一 书 , 这 标 志 着 协 同 语 言 学 的 诞 生。 协 同学 ruk t urund Dynami kde rLexi k Syne rge t i k St [ 25] ( syne rge t i c s)是由德国学者哈肯(He rmann Haken)在 20 世纪 70 年代 提出 的 ,它 是 一 个研 究 不 同事物共同特征及其协同机 理 的 新 兴 学 科。 协 同 论 认 为,各 种 系 统 尽 管 属 性 不 同,但 在 整 个 环 境 中,各个系统间存在着相互影响而又相互合作的关系。协同学 的 主 要 特 点 是 通 过 类 比 为 从 无 序 到 有序的现象建立一整套数学模 型 和 处 理 方 案。 协 同 语 言 学 是 将 协 同 学 应 用 到 语 言 研 究 领 域 的 产 物,是计量语言学发展的更高阶段。 Kh l e r认为,理论是由普遍规律(定 律)组 成 的 系 统,没 有 定 律 就 无 法 进 行 解 释。 协 同 语 言 学 的主要任务是提供一套构建语言学理论的架构,即这套建模方法可以用来建立普适的假设,测试假 设,并将这些假设组合起来形成定律和类似于定律的描述网络,以便解释所观察到的现象。这种方 法也有益于重构近几十年来正在丧 失 的 语 言 观:语 言 既 是 一 种 心 理—社 会 现 象,同 时 也 是 一 种 生 物—认知现象。 协同语言学的基本公理是:语言是一个自组织和自适 应 的 系统,是 一 个 特殊 的 动 态系统。 首 个 协 同 语 言 学 的 模 型 是 由 Kh l e r于 1986 年 建 立 的 ,这 是 一 个 有 关 词 汇 的 语 言 子 系 统 (图 1)。 在 Kh l e r的 模 型 图 中 ,长 方 形 表 示 的 是 系 统 变 量 (如 状 态 或 控 制 变 量 );圆 形 代 表 的 是 系 统 需 求 ;正 方 形 表 示 的 是 运 算 符 ,在 大 多 数 情 况 下 ,运 算 符 是 一 些 带 有 正 负 号 的 比 例 算 子 。 在 阅 读 分 析 这 个 语 言 系 统 图 时 ,要注意 图 中 所 表 示 的 关 系 实 际 上 是 对 最 初 假 设 进 行 对 数 转 换后的结果。 浙江大学学报(人文社会科学版) 186 第 42 卷 图 1 Kh l e r的词汇子系统结构示意图 ① [ ] 从 Kh l e r的词汇子系统结构示意图(图 1)中可以得到下列等式(或公式)26 768: ( 1)LS = CodVPS-L 词库大小( l ex i cons i z e)是编码需求(这里特指需要编码的意义数量)和多义词的函数。量V 是 需求 Spc、 Va r和 I nv 的函数,这些需求反映的是形义关系稳定性和灵活性之间的平衡和折中 。 ( 2)PN = mi nDY1 mi nC-Y2 h l e r, ″Syne r t i cL i ngu i s t i c s, ″i n R.Kh l e r,G.Al tmann & R.G.P i o t r owsk i(Hr s t i t a t i ve ① 图 1 摘 译 自 R.K ge g.),Quan Li ngu i s t i k:e i nIn t e rna t i ona l e s Handbuch,Be r l i n & New Yo rk:de Gr uy t e r,2005,p.768.[R.Kh l e r, ″Syne r t i c ge L i ngu i s t i c s, ″i nR. Kh l e r, G. Al tmann & R. G. P i o t r owsk i( eds.), Quan t i t a t i veLi ngu i s t i c s:AnIn t e rna t i ona lHandb ook, Be r l i n & New Yo rk:deGr uy t e r, 2005, 768.](经原作者同意,图 1 修改了原图中的少量印刷错误。) p. 第2期 刘海涛 黄 伟:计量语言学的现状、理论与方法 187 音素的数量( r)是平衡反映编码和解码需求的结果。 phonemenumbe A Z -P -N ( 3)L = LS RedPH F 词长( l eng t h)是词库大小、冗余、语音总藏大小( l og i c a li nven t o r i z e)及频率的函数。 phono ys Q -Q -T ( 4)PL = mi nC 2 mi nD 1L 多义词( l emy)是需求 mi nC、 mi nD 和词长之间折中的结果,量 -T 是 Spc的函数。 po ys S G -S ( 5)PT = CE 2CS 1PL 多文度( l t ex t ua l i t po y y,即可能的上下文数量)是 多 义 词 以 及 上 下 文 全 局 化 和 上 下 文 集 中 化 过 程相互作用的函数。 R K ( 6)F = App lPT 一个词项的频率( f r equenc y)取决于它的意义的交际关联度和它的多文度。 VW -LM ( 7)SN = Cod PL 同义词( synonymy)是多义词和编码需求的函数,它是灵活性需求和稳 定的 形 义 关系之 间 折 中 平衡的结果。 以上这些等式中的 mi nP、 mi n I、 mi nD 和 mi nC 等符号反映的是语言交际中的需求。语言交际 包括说话人和听话人,在交流的过程中,两者都想用最省力的方式来完成交际,因此,交际过程是一 种说话人和听话人之间的折中。换言之,在一个探讨语言交际的模型中,是不能忽略这些因素的作 用的。协同语言学模型中的 mi nP 表示的是言语生成方面的最小化, mi n I 是语 言 单 位 总 藏 的 最 小 化(这是与人的记忆密切相关的), mi nD 表示的是解码方面的最小化, mi nC 是编 码方 面 的 最 小 化。 由此可见,旨在解决 这 些 因 素 和 交 际 需 求 平 衡 的 协 同 语 言 学 是 Z i f“省 力 原 则 ”( t hel e a s te f f o r t p i nc i l e)的具体化和现代化。 pr p 以上模型中的每一个假设均得到过实际数据的验证,其 中 许 多 假 设 更 是 通 过 了 类 型 各 异 的 语 言的验证。这些实证研究说明,采用协同学的原理来研究语言系统是可行的、值得进一步努力的。 (三)句法计量研究 应该承认,与语音、词汇等层面的计量语言学研究成果相比,句法计量研究还缺乏相对成熟、经 过多种语言验证的定律。考虑到句法对于人类语言的 重要 性,世 界 各 国 的 研 究 者 正 在 加 大 这 一 方 面的研究投入。 近年来,随着各种句法标注语料库(树库)的出现,采用标注语料库进行句法计量研究正成为计 量语言学 领 域 的 一 个 研 究 热 点,句 法 计 量 研 究 方 面 也 出 现 了 一 些 有 意 义 的 成 果。 Kh l e r和 [ 27] Al tmann 使用短语结构树库( Sus anneCo r pus)对英语的句法现象进行了 计 量 分 析 ,建 立 了 基 于 短语结构句 法 计 量 研 究 的 基 础。 在 此 基 础 上,Kh l e r等 人 构 拟 了 句 法 子 系 统 的 协 同 语 言 学 模 型 [28]。句法子系统的基本单位是句法构式,基础是句法成分关系。 句法子 系统 研 究 的主要 计 量 特 征有:频率(构式在语料库中出现的频率),长度(某 个 构 式 中 终 极 结 点 “词”的 数 量),复 杂 度 (某 个 构式的直接成分的数量),位置(在上层构式或句子 中的位置,从左到 右 计 算),嵌 入 深 度(从 起 始 符 号到该构式的生成步骤),信息度(这是信息论意义上的概念,相当于储存这个构式的语法关系所需 要的短时记忆空间),功能度(一个构式有多少不同的功能),共功能度(某一个功能和多少其他功能 共享一个句法表达方式),以及相关构式类型的数量,包括句法构式类型的数量(成分类型)、句法功 能的数量、句法范畴的数量、功能等价物的数量(可满足某个功能的不同句法构式的数量)。 与词汇层面的语言计量研究不同,句 法 层 面 的 语 言 计 量 研 究 涉 及 两 个 特 殊 问 题:一 是 句 法 体 188 浙江大学学报(人文社会科学版) 第 42 卷 系问题,二是研究所需的句法资源问题。尽管目前有许多 句 法 理 论,但 就 其 本 质 而 言,可 将 句 法 理 论分为两大类:短语结构 句 法 与 依 存 关 系 句 法。 短 语 结 构 关 注 句 子 各 成 分 之 间 的 部 分 与 整 体 关 系,而依存分析侧重的是构成句子的各个成分之间的关系。在选定句法体系之后,就需要对研究语 料进行句法标注,形成带有句法结构信息的语料库,也称 树 库。 换 言 之,句 法 计 量 模 型 不 仅 与 句 法 模型本身密切相关,而且也会受到所用资源的约束。Kh l e r等人构拟的句 法协 同 子 系统是 建 立 在 短语结构语法理论之上的。为了更好地揭示人类语言的句法(结 构)规 律,仅 使 用 短 语 结 构 是 不 够 的。与短语结构句法理论相比,依存句法更易于实现从句法层面到语义层面的转换,更具普适性以 及更能体现语言处理机制的心理 现 实 性 [29],因 此 有 必 要 开 展 基 于 依 存 句 法 理 论 的 语 言 计 量 研 究。 刘海涛采用汉语依存树库研究了依存关系、支配词与从属词、动 词 作 为 支 配 词、名 词 作 为 从 属 词 等 [ 30] 的概率分布,发现它们大多 符 合 Z i f Al eks e ev 分 布 。 刘 海 涛 也 研 究 了 自 然 语 言 与 随 机 语 言 的 p 依存距离分布,发现自然语言符合 右 截 尾 Ze t a 分 布( Ri t t runc a t edZe t ad i s t r i bu t i on),随 机 语 言 gh 则没有这样的特点,在三类语言 中,自 然 语 言 的 平 均 依 存 距 离 最 小 [31]。 刘 海 涛 的 这 两 项 研 究 为 构 建基于依存句法的句法协同子系统作了一些有意 义 的 探 索。 乐 明 与 刘 海 涛 采 用 一 个 RST 标 注 的 汉语树库研究了修辞关系的概率分布,发现在篇章层面语言的发展也是遵循多样化原则的 [32]。 配价不但是现代句法理论中一个重要概念,更是与依存语法密切相关的一个语言学概念,对其 进行计量研究有助于理解人类语言的某些句法语义特征 。Kh l e r以德语 配价词 典 为 基础,研 究了 德语动词配价的某些计量特征 [33]。Če ch 和 MaČu t ek 研 究 了 捷 克 语 配 价 框 架 的 分 布,并 验 证 了 有 关配价框架数与词 长 之 间 关 系 的 假 设 [34]。Če ch 等 提 出 了 不 用 区 分 补 足 语 和 说 明 语 的 “全 配 价 ” ( f u l lva l enc y)概念,并从布拉格依存树 库 中 提 取 了 捷 克 语 的 全 配 价 对 以 下 假 设 进 行 了 验 证:全 配 价模式的概率分布;动词配价模 式 数 与 动 词 词 频 的 关 系;配 价 模 式 数 与 动 词 长 度 的 关 系 等 [35]。 刘 海涛采用英语配价和频率词典对英语动词配价进行了计量研究后发现 :英语动 词 的 义项服 从 正 负 二项式分布;英语动词和形容词的补足语模式服从幂律,而名词则符合 Z i f Mande l br o t分布;动词 p 的配价越大,则其词长越短;常用的动词有更大的配价;一个词的词义越多,其配价也越大 [36]。 在 汉 语 句 法 计 量 研 究 方 面 ,刘 海 涛 等 人 采 用 了 多 个 标 注 方 式 和 语 料 等 均 不 相 同 的 汉 语 句 法 标 注 语 料 库 研 究 了 现 代 汉 语 的 某 些 句 法 计 量 特 征 ,发 现 汉 语 的 依 存 距 离 均 值 约 为 2. 84,汉 语 中 40% —50% 的 依 存 关 系 不 是 在 相 邻 的 词 之 间 形 成 的 ,汉 语 是 一 种 支 配 词 置 后 略 占 优 势 的 混 合 型 语言 ;汉语支配词居前的依存距离均值要明显大于支配词置后的依存距离均 值 [37]。 刘 海 涛 等人还 提出了一种基于依存句法树库计算依存距离的方法,并发现 在 所 研 究 的 20 种 语 言 中,汉 语 的 依 存 距离最大。他们还进一步提出并采用 20 种 语 言 的 真 实 语 料 研 究 了 以 下 三 个 假 设:人 类 语 言 分 析 机制倾向于能最小化处理句子平均依存距离的语序;人类语言存在一个平均依存距离的阈值;语法 与认知的协作使语言的依存距离保持在此阈值内 [3839]。这些研究说明,以 汉 语(依 存)树 库 作 为 研 究资源对汉语的句法结构进行计量研究不但充实了国际句法计 量 研 究 的 成 果 ,也 有 助 于 发 现 使 用 短语结构树库发现不了的语言属性,同时也为进一步构拟依存语 法 的 句 法 协 同 子 系 统 打 下 良 好 的 基础。 计量语言学研究的实质是通过人类语言活动的产物来 挖 掘 人 类 语 言 的 结 构 与 演 化 规 律 ,这 些 规律应该具有足够的普适性。观察现有计量语言学研 究成 果 不 难 发 现,目 前 大 多 数 研 究 采 用 的 语 料都来自欧洲语言,鲜有非欧 洲 语 言 的 研 究。 随 着 计 量 语 言 学 方 法 的 普 及,这 种 情 况 正 在 得 到 改 善,但发展速度仍有些缓慢。这 种 过 于 注 重 欧 洲 语 言 的 现 状,对 计 量 语 言 学 的 进 一 步 发 展 是 不 利 的。我们需要用更多类型的语言来验证语言定律的普 适性,否 则 很 难 把 某 个 定 律 视 为 人 类 语 言 的 普遍规律。同时,扩大计量语言学研究的语种的数量和类型不仅有益于发现普适性的定律 ,也有助 第2期 刘海涛 黄 伟:计量语言学的现状、理论与方法 189 于发现每种语言的特殊性。 另外一个值得注意的问题是语料的形态。上述计量语言学研究所用的语料大多是未经标注的 自然语言文本,这样的文本虽然是人类语言运用的一种真实 反 映,但 在 这 样 的 文 本 中,人 类 语 言 的 所有知识和规律都是隐含的,这也使得从这样的语料中很难挖掘出更深层次的结构与演化规律 。 综合考虑,我们认为未来一段时间,世界各国的计量语言学学者们将会在以下几个方面展开深 入研究:( 1)由词成句的机理与规律;( 2)寻求更普适的句法模型,以 便 采 用 多 种 语 言 来 验 证 各 种 句法规律;( 3)以句法为中心,探 求 语 言 各 层 面 的 协 同 关 系;( 4)采 用 各 种 可 用 的 新 方 法,更 有 效、 更全面地探求人类语言的结构及演化规律;( 5)探 求 如 何 把 句 法 计 量 的 成 果 用 于 真 实 语 料 的 句 法 分析之中;( 6)探索句法计量规律与句子认知之间的关系;( 7)寻求与语言 认知 实 验 结果结 合 更 紧 密的协同语言模型;( 8)构拟更具解释 力 的 词 汇 句 法 协 同 系 统 等。 这 些 问 题 既 反 映 了 当 前 国 际 计 量语言学的不足,也为进一步研究指明了方向。 三、计量语言学的方法 科学研究不仅仅是对现象的观察与描写或把观察与描 写 中 得 到 的 知 识 加 以 应 用 ,科 学 的 本 质 在于解释现象。就语言研究而言,寻找可以解释语言现象及其 相 互 关 系 的 语 言 和 文 本 的 普 遍 定 律 是其基本目的。有了这些普遍定律与模式,我们就可以判断某些现象、事件以及相互关系存在的可 能和条件,并有可能预测某些现象的出现或消失。 作为一门实证学科,计量语言学研究所遵循的思路和研究方法与其他实证学科基本相同 ,大致 包括以下五个步骤(如图 2 所示)[1]116: 图 2 计量语言学研究方法流程图 语言学假设是关于语言本质或贯穿于语言中的普遍规律的猜想,需以断言的方式表达出来。假 设以何种方式产生并不重要,但假设的形式与内容应符合一定的要求。假设 必须 具 有 实证相 关 性 与 可验证性。对于计量语言学中常用的概率假设而言,只有在充 足 的 数 据 和 数 学 检 验 的 基 础 上 才 能 证伪假设,而仅用一个反例并不能做到这一点。同理,一个 假 设 也 不 可 能 被 完 全 证 实,即 使 全 部 已 有的数据都支持这个假设,也仍然可以对其进行进一步检验。 从 理 论 中 得 出 的 假 设 如 果 在 经 验 中 得以证实并可融入到一个有效的(定律和定律假设)理论体系中,那么这个假设就可能成为定律。 概率假设只能用统计方法检验。任何假设,无论是以语言形式还是微分方程形式表述的,都需 要转换为可以进行统计检验的表述形式。因此,我们需要了解统计模型以及应用这些模型的条件。 实践证明,在这个转换的过程中极易犯错,进而得出无效的结论。如果没有与假设的类型及数据性 质匹配的现有模型,就必须新建一个合适的模型。从可操作的角度来说,用来检验模型的那些结构 和性质必须与模型的结构和性质一致。尽管有时经过 这一 过 程 得 出 的 定 义 看 起 来 有 些 不 自 然,甚 至与我们的直觉有较大冲突,但这些 定 义 具 有 客 观 以 及 可 检 验 的 优 点。 需 要 强 调 的 是:无 论 是 直 觉性的定义还是操作性的定义,没有一个是绝对“真”的。定义以 及 研 究 结 果 的 正 确 与 否 只 是 相 对 浙江大学学报(人文社会科学版) 190 第 42 卷 于所选模型的条件和性质而言的。 在将假设的表述方式用统计学语言进行转换之后,我们 需 收 集 尽 可 能 大 的 语 言 样 本 作 为 数 据 基础,以便以较高的可信度来证实或拒绝假设。这个阶段与语言本身没有关系,我们只是将统计分 析技术加以应用,涉及的是经验事实的理论对应物(抽象的数值)。 使用统计方法处理完数据之后,通常会得到一个数值作为判断检验结果是否显著的标准,即假 设是否应被拒绝。但这样的结论不是一成不变的,如果有了新的证据,是可以对其进行修正的。 最后一步是根据最初研究的语言问题来解读统计检验 的 结 果 ,即 把 数 学 形 式 的 结 果 用 自 然 语 言的形式解读为对所研究的语言问题的回答。统计学是一个用来检验假设的演绎性语言研究辅助 工具,帮助从样本中得出与普遍性问题有关的、可适用 于语 言 整 体 的 概 括 性 结 论,这 个 过 程 是 归 纳 的。由此可见,在计量语言学研究中,演绎和归纳这两种方法是互为补充的,缺一不可。 以上所述计量语言学采用的一般研究方法类似于其他一些语言学家所倡导的语言学科学研究 方法 [ 40] 。 值得注意的是,随着人们对复杂系统的深入研究,出现了许多行之有效的复杂系统研究方法和 工具。如何用这些新的方法从计量的角度探究人类语 言问 题,已 成 为 当 代 计 量 语 言 学 家 的 一 个 重 要任务。例如,复杂网络方法由于能够从整体的角度研究语言复杂系统的某些性质 ,便也进入了语 言学家的工具箱,并正在成为语言 研 究 的 有 力 工 具 [4142];系 统 仿 真 手 段 由 于 能 够 模 拟 一 些 语 言 发 展过程中难以观察到的现象,适用于研究语言的演化过程,也逐渐走上舞 台,开 始 发 挥作用 [43]。 正 如我们在本文开篇所言,方法的创新是与科学的发展紧密相连的。因此,计量语言学只有敞开胸怀 接纳那些可以更有效地研究语言规律的新方法,才会在奔向科学化的征途中继续前行。 四、结 语 本文总结介绍了现代计量语言学的现状、理论、方法 以 及 进 一 步 发 展 的 方 向,旨 在 引 起 学 界 对 这个极有潜质的语言分支学科的重视,并尽快加入到汉语计量语言学研究的行列中来。我们认为, 在中国开展计量语言学研究不但可以更精确地了解汉语的结构 特 征 ,而 且 可 以 通 过 与 其 他 语 言 的 比较,更深入地理解汉语所具有的特殊性和普遍性。更为重要的是,此类研究是真正从系统科学的 角度来全面理解汉语系统的基础,对建立在科学哲学基础之上的汉语语言学理论具有极大的意义。 语言是一个复杂的自适应系统。随着人类对复杂系 统 认 识 的 不 断 提 高,出 现 了 许 多 新 的 研 究 手段和方法。计量语言学应该从其他相关学科中借鉴 学习 这 些 方 法,并 将 它 们 应 用 到 语 言 研 究 中 来。这些方法包括:物理学中的复杂网络研究方法、社会学中的社会网络分 析方 法、心 理 学 与认知 科学中的各种实验方法、系统科学中的计算机仿真方法等。 总的说来,汉语计量语言学研究是对国际计量语言学的全面补充与发展 ,有助于提高中国语言 学界在国际学界的声望和话语权,是一个值得更多语言学家参与和投入的领域。 [参 考 文 献] [1 ]R. Kh l e r, G. Al tmann & R. G. P i o t r owsk i(Hr sg.), Quan t i t a t i v eLi ngu i s t i k:e i nIn t e rna t i ona l e sHandbuch, Be r l i n & New Yo r k:de Gr uy t e r, 2005.[R.Kh l e r,G.Al tmann & R.G.P i o t r owsk i( eds.), Quan t i t a t i v e Li ngu i s t i c s:AnIn t e rna t i ona lHandb o ok, Be r l i n & New Yo r k:deGr uy t e r, 2005.] [2 ]K. H. Be s t, Quan t i t a t i v eLi ngu i s t i k:e i neAnnaehe rung, G t t i ngen:Peus t& Gu t s chmi d t, 2006.[ K.H. Be s t, Quan t i t a t i v eLi ngu i s t i c s, G t t i ngen:Peus t& Gu t s chmi d t, 2006.] 第2期 刘海涛 黄 伟:计量语言学的现状、理论与方法 191 [3 ]G. K.Z i f, ThePsycho Bi o l ogy of Language:AnIn t r oduc t i ont o Dynami c Ph i l o l ogy,London:Geo r p ge Rou t l edge & SonsLt d., 1936. [4 ]G. , He r dan Quan t i t a t i v eLi ngu i s t i c s, London:Bu t t e rwo r t hs, 1964. [5 ]G. He r dan, TheAdvanc edThe o ryof Languagea sCho i c eandChanc e, Be r l i n:Sp r i nge r Ve r l ag, 1969. [6 ]P. Gr z l e r( eds.), Exac tMe t hodsi nt heSt udy of Languageand Text,Be r l i n: Mou t onde ybek & R.Kh Gr uy t e r, 2007. [7 ]R. Kh l e r( ed.), Bi b l i ographyof Quan t i t a t i v e Li ngu i s t i c s,Ams t e r dam & Ph i l ade l i a:J ohn Ben ami ns ph j Pub l i sh i ngCompany, 1995. [8 ] 伊藤雅光:『计 量 言 语 学 入 门』,东 京:大 修 馆 书 店, 2002。[ I t o Ma s ami t su, AnIn t r oduc t i ont oQuan t i t a t i v e Li ngu i s t i c s, Tokyo:Ta i shukanPub l i sh i ngCompany, 2002.] , [9 ] M.A.Br e i t e r″Leng t ho f Ch i ne s e Wo r dsi n Re l a t i on t o The i r Ot he r Sy s t emi c Fe a t u r e s, ″Journa lof Vo l. 1, No. 3( 1994), 224 231. Quan t i t a t i v eLi ngu i s t i c s, pp. [ ] , 10 H. Bohn″Un t e r suchungenzu rCh i ne s i s chenSp r a cheundSchr i f t, ″i nR. Kh l e r(Hr sg.), Ko rpu s l i ngu i s t i s che //ub / Un t e r s uchungenzurQuan t i t a t i v enundSys t emt he o r e t i s chenLi ngu i s t i k,2002,h t t t. opus. hb z n rw. de p: /2004/279/, vo l l t ex t e 2011 12 13.[H. Bohn, ″A S t udyon Ch i ne s eLanguageand Wr i t i ng, ″i n R.Kh l e r ( //ub ed.), Co rpu sSt udi e si nQuan t i t a t i v eandSys t emsThe o r e t i ca lLi ngu i s t i c s, 2002, h t t t. opus. hb z n rw. p: /vo /2004/279/, de l l t ex t e 2011 12 13.] [ 11]G. Al tmann, ″Sc r i tComp l ex i t ″ Gl o t t ome t r i c s, Vo l. 8( 2004), 68 74. p y, pp. [ 12]K. H. Be s t& ZhuJ i nyang, ″Wo r t l a engenha eu f i i t eni nCh i ne s i s chenKu r z s ch i ch t en, ″As i anand Afr i can gke ge St udi e s, Vo l. 7( 1998), 45 51.[ K. H. Be s t& ZhuJ i nyang, ″Wo r dLeng t hi nCh i ne s eSho r tNove l s, ″As i an pp. andAfr i canSt udi e s, Vo l. 7( 1998), 45 51.] pp. [ 13]K.H.Be s t & ZhuJ i nyang, ″Wo r t l a engeni n Ch i ne s i s chen Tex t en und Woe r t e r bue che r n, ″i n K.H.Be s t (Hr sg.), Haeufigk e i t s v e r t e i l ungeni nText en,Ge t t i ngen:Peus t & Gu t s chmi d t, 2001, 101 114.[K. pp. H. Be s t& ZhuJ i nyang, ″Wo r dLeng t hi nCh i ne s eTex t sand Di c t i ona r i e s, ″i n K.H. Be s t( ed.), Fr e quency t t i ngen:Peus t& Gu t s chmi d t, 2001, 101 114.] Di s t r i bu t i on si nText s,Ge pp. [ 14] 冯志伟:《汉字的熵》,《语 文 建 设 》, 1984 年 第 4 期,第 12 17 页。 [ FengZh iwe i, ″TheEn t r opyo fCh i ne s e Cha r a c t e r s, ″ LanguagePl ann i ng, No. 4( 1984), 12 17.] pp. [ 15] 周有光:《现代汉字学发 凡》,《语 文 现 代 化 》 1980 年 第 2 辑,第 94 103 页。[ Zhou Youguang, ″A S t udyon Mode r nCh i ne s eCha r a c t e r s, ″ YuwenXi anda i hua, No. 2( 1980), 94 103.] pp. [ 16] 周晓文、李勇:《汉字效用函数研究》,《语文研究》 2009 年第 1 期,第 62 65 页。[ ZhouXi aowen & L iYong, ″TheUt i l i t t i ono fCh i ne s eCha r a c t e r s, ″ Li ngu i s t i cRe s ear che s, No. 1( 2009), 62 65.] yFunc pp. [ 17] 王 凤阳:《汉字频率与汉字简化》,《语文现代化》 1980 年第 3 辑,第 83 103 页。[WangFengyang, ″Fr e quency ″ YuwenXi anda i hua, No. 3( 1980), 83 103.] o fCh i ne s eCha r a c t e r sandS imp l i f i edCh i ne s eCha r a c t e r s, pp. [ 18] 冯志伟:《现 代 术 语 学 引 论 (增 订 本 )》,北 京:商 务 印 书 馆, 2011 年。 [ FengZh iwe i,AnIn t r oduc t i ont o Mode rnTe rmi no l ogy( Rev i s edandEn l arged), Be i i ng:TheComme r c i a lPr e s s, 2011.] j [ 19]G. K. Z i f, HumanBehav i o randt hePr i nc ipl eof Lea s tEffo r t:AnIn t r oduc t i ont o HumanEc o l ogy,New p Yo r k & London:Ha f ne rPub l i sh i ngCompany, 1965. [ 20]G. Al tmann, ″Pr o l egomenat o Men z e r a t h sLaw, ″Gl o t t ome t r i ka, Vo l. 2( 1980), 1 10. pp. [ 21]G.Al tmann & M.Schwi bbe,Da s Menz e ra t h s che Ge s e t zi n Info rma t i on s v e rar b e i t enden Sys t emen, Hi l de she im:Olms, 1989.[G.Al tmann & M.Schwi bbe,Th e Menz e ra t h Law i nInfo rma t i on Pr o c e s s i ng Sys t ems,Hi l de she im:Olms, 1989.] [ s s en s chaft, 22]E. Be t hy & G.Al tmann, ″Da sP i o t r owsk i Ge s e t zundde rLehnwo r t s cha t z, ″Zs. fürSprachwi Vo l. 1( 1982), 171 178.[ E. Be t hy & G.Al tmann, ″TheP i o t r owsk iLaw and Loanwo r d, ″Journa lof pp. Vo l. 1( 1982), 171 178.] Li ngu i s t i c s, pp. ] , [ 23 I. I. Pope s cu G. Al tmann & P. Gr z e ta l( eds.), Wo rd Fr e udi e s, Be r l i n:Mou t ondeGr uy t e r, ybek, quency St 2009. 浙江大学学报(人文社会科学版) 192 第 42 卷 [ 24]R. Kh l e r, ZurLi ngu i s t i s chenSyne rge t i k:St ruk t urund Dynami kde rLexi k, Bo chum:Br o ckmeye r, 1986. [ R. Kh l e r, Syne rge t i cLi ngu i s t i c s:St ruc t ur eandDynami c sof Lexi c on, Bo chum:Br o ckmeye r, 1986.] [ 25][德]赫尔曼 · 哈 肯:《协 同 学:大 自 然 构 成 的 奥 秘 》,凌 复 华 译,上 海:上 海 译 文 出 版 社, 2001 年。 [H. Haken, Syne rge t i c s, t r ans. byL i ngFuhua, Shangha i:Shangha iTr ans l a t i onPub l i sh i ng Hous e, 2001.] [ 26]R.Kh l e r, ″Syne r t i cL i ngu i s t i c s, ″i n R.Kh l e r,G.Al tmann & R.G.P i o t r owsk i(Hr sg.), Quan t i t a t i v e ge Li ngu i s t i k:e i nIn t e rna t i ona l e sHandbuch, Be r l i n & New Yo r k:deGr uy t e r, 2005, 760 775.[ R. Kh l e r, pp. ″Syne r t i cL i ngu i s t i c s, ″i nR. Kh l e r, G.Al tmann & R. G. P i o t r owsk i( eds.), Quan t i t a t i v eLi ngu i s t i c s:An ge In t e rna t i ona lHandb o ok, Be r l i n & New Yo r k:deGr uy t e r, 2005, 760 775.] pp. [ 27]R.Kh l e r & G.Al tmann, ″Pr obab i l i t s t r i bu t i ons o f Syn t a c t i c Un i t s and Pr ope r t i e s, ″Journa lof y Di Vo l. 7, No. 3( 2000), 189 200. Quan t i t a t i v eLi ngu i s t i c s, pp. [ 28]R. Kh l e r, ″Quan t i t a t i veAna l s i so fSyn t a c t i cS t r uc t u r e si nt heFr amewo r ko fSyne r t i cL i ngu i s t i c s, ″ St udi e s y ge i nFuzz i ne s sandSoftCompu t i ng , Vo l. 209( 2007), 191 209. pp. [ 29] 刘海涛:《依存语法的理论与实践》,北京:科学出版社, 2009 年。[ L i u Ha i t ao, DependencyGrammar:Fr om The o ryt oPrac t i c e, Be i i ng:Sc i enc ePr e s s, 2009.] j [ 30] H. L i u, ″Pr obab i l i t s t r i bu t i ono fDependenc i e s Ba s edona Ch i ne s e Dependency Tr e ebank, ″Journa lof y Di Vo l. 16, No. 3( 2009), 256 273. Quan t i t a t i v eLi ngu i s t i c s, pp. [ 31] H. L i u, ″Pr obab i l i t s t r i bu t i ono fDependencyDi s t anc e, ″ Gl o t t ome t r i c s, Vo l. 15( 2007), 1 12. yDi pp. [ 32] M.Yue & H.L i u, ″Pr obab i l i t s t r i bu t i on o f Di s c ou r s e Re l a t i ons Ba s ed on a Ch i ne s e RST anno t a t ed y Di Co r ″ Journa lof Quan t i t a t i v eLi ngu i s t i c s, Vo l. 18, No. 2( 2011), 107 121. pus, pp. [ 33]R. Kh l e r, ″Qu a n t i t a t i v eUn t e r s u c hung e nz u rVa l e n zDeu t s che rVe r ben, ″ Gl o t t ome t r i c s, Vo l. 9( 2005), 13 20. pp. [ R. Kh l e r, ″Quan t i t a t i veS t ud i e so fVa l enc fGe rmanVe r bs, ″ Gl o t t ome t r i c s, Vo l. 9( 2005), 13 20.] yo pp. Če ch & J.MaČu t ek, ″Ont heQuan t i t a t i veAna l s i so fVe r bVa l enc nCz e ch, ″i nP. Gr z E. Ke l i h& [ y yi ybek, 34]R. J.MaČu t ek( eds.), Textand Language:St ruc t ur e, Func t i on s, In t e r r e l a t i on s,Wi en:Pr e a s en Ve r l ag, 2010, 21 29. pp. Če ch,P.Pa a s & J.MaČu t ek, ″Fu l l Va l ency.Ve r b Va l ency wi t hou t Di s t i ngu i sh i ng Comp l emen t sand [ j 35]R. Ad unc t s, ″ Journa lof Quan t i t a t i v eLi ngu i s t i c s, Vo l. 17, No. 4( 2010), 291 302. j pp. [ 36] H. L i u, ″Quan t i t a t i vePr ope r t i e so fEng l i shVe r bVa l enc ″ Journa lofQuan t i t a t i v eLi ngu i s t i c s, Vo l. 18, No. 3 y, ( 2011), 207 233. pp. [ 37] H. L i u,Y.Zhao & W.L i, ″Ch i ne s eSyn t a c t i cand Typo l og i c a lPr ope r t i e s Ba s edon Dependency Syn t a c t i c Tr e ebanks, ″PoznańSt udi e si nCon t empo raryLi ngu i s t i c s, Vo l. 45, No. 4( 2009), 509 523. pp. [ 38] H.L i u,R,Huds on & Z.Feng, ″Us i ng a Ch i ne s e Tr e ebank t o Me a su r e Dependency Di s t anc e, ″Co rpu s Li ngu i s t i c sandLi ngu i s t i cThe o ry, Vo l. 5, No. 2( 2009), 161 174. pp. [ 39] H. L i u, ″Dependency Di s t anc ea sa Me t r i co fLanguage Comp r ehens i on Di f f i cu l t ″Journa lof Cogn i t i v e y, Sc i enc e, Vo l. 9, No. 2( 2008), 159 191. pp. [ 40]D.Edd i ng t on, ″L i ngu i s t i c s and t he Sc i en t i f i c Me t hod, ″i nQuan t i t a t i v e and Expe r imen t a l Li ngu i s t i c s, Muenchen:L i nc om GmbH, 2009, 1 16. pp. [ 41] 刘海涛:《语言网络:隐喻,还是利器?》,《浙江大学学报(人文社会科 学 版)》 2011 年 第 2 期,第 169 180 页。 [ L i u Ha i t ao, ″L i ngu i s t i c Ne two r ks:Me t apho ro rToo l? ″Journa lof Zhe i ang Un i v e r s i t i t i e sand j y (Human So c i a lSc i enc e s), No. 2( 2011), 169 180.] pp. [ kg/Humankyb 42] H. L i u, ″L i ngu i s t i cComp l e xNe two r k s:A New App r o a c ht oLa ngu a eExp l o r a t i on, ″ e r n e t i k, Vo l. g gr 52, No. 4( 2011), 151 170. pp. [ 43]T. Gong, Compu t a t i ona lSimu l a t i oni nEvo l u t i onaryLi ngu i s t i c s:ASt udyonLanguageEme rgenc e, Ta i i: pe I ns t i t u t eo fL i ngu i s t i c s, Ac ademi aS i n i c a, 2009.