基于时间序列的词义演化计算

advertisement

基于时间序列的词义演化计算

唐旭日 1 曲维光 2 陈小荷 2

1 华中科技大学

2 南京师范大学

词义演化及其研究的意义

研究现状

基于时间序列的词义演化计算框架

实验与讨论

研究展望

提纲

什么是词义演化

词义演化计算

研究的意义

词义演化及其研究意义

例 1

◦ 男性“美丽”产业正流行。《生命时报》

例 2

◦ The last update bricked my phone

例 3

简静,就是不生活在热闹。《生命时报》

例 4

◦ 老外也这么墨迹。 假借

例 5

◦ A :航班晚点了。 B: 啊,这什么节奏! 转喻?

转喻

隐喻

新词

词义演化的实例

词义演化计算是一个分类问题

◦ 新词

屌丝  新出现词语

 新词词义演变

◦ 隐喻

◦ 转喻

◦ 已有词汇

 词义变化

◦ 词义扩展

 隐喻

 转喻

◦ 词义缩小

 词义不变

板块

大锅饭

缩水

灰色收入

低落

房屋

词义演化计算

在互联网日益普及的背景下词义演化加速。互联

网用户在旧词新用、新词创造方面更加活跃。各

种自然语言处理系统需要更快地更新词义知识。

人工词义知识编撰耗时、耗力、一致性差、且受

制于自身知识,无法满足上述需求。

词义演变的自动侦测、分类以及语义判断成为重

要任务。

研究的意义

基于并置比较的方法

基于时间序列的方法

研究现状

男子 跳水

双人 跳水 比赛

1. Cavallin, K.: Automatic extraction of potential examples of semantic change using lexical sets. In: Proceedings of the 11th Conference on Natural Language Processing, pp.

370 –377 (2012)

2. Gulordava, K., Baroni, M.: A distributional similarity approach to the detection of semantic change in the google books ngram corpus. In: Proceedings of the GEMS 2011

Workshop on GEometrical Models of Natural Language Semantics, pp. 67 –71 (2011)

3. Lau, J.H., Cook, P.,McCarthy, D., Newman, D., Baldwin, T.:Word sense induction for novel sense detection. In: Proceedings of the 13th Conference of the European Chapter of the Association for Computational Linguistics, pp. 591 –601 (2012)

4. Cook, P., Hirst, G.: Automatic identification of words with novel but infrequent senses. In:

无法判断词语的规约化程度

无法判断演变类型

语料依赖性强

基于并置比较的方法

1. Hilpert, M., Gries, S.T.: Assessing frequency changes in multistage diachronic

优势:

给出了全局性的描

问题:

非自动, semantic change by visual analytics. In: Proceedings of the 49th Annual Meeting of

305–310 (2011)

当前仅用于人工判断 the Association for Computational Linguistics: Human Language Technologies, pp.

3. Sagi, E., Kaufmann, S., Clark, B.: Semantic density analysis: comparing word meaning across time and phonetic space. In: Proceedings of the Workshop on

Geometrical Models of Natural Language Semantics, pp. 104–111 (2009)

4. Sanchez-Marco, C., Evert, S.: Measuring semantic change: The case of spanish participial constructions. In: Proceedings of Quantitative Investigations in Theoretical

Linguistics,vol. 4, pp. 79–83 (2011)

基于时间序列的方法

计算框架

词义表征方式

词义变化模式判断

词义变化模式与类型

基于时间序列的词义演化计算框架

计算框架

Word-Context Model

◦ 重组 使 自己 的 股份 缩水: c=< 股份,缩水 >

Identification

◦ Likelihood Ratio Test

词义表征

语义状态是在单位时间语料中词语 T 的各种义项

的使用概率的总体描述。

由此,语义状态可以表述为义项的熵:

单位时间词语的语义状态描述

词义变化表述为语义状态的时间序列:

词义的变化模式也就是时间序列的变化模式。

假定语言的变化,包括词义的变化模式遵循如下

指数函数:

(Kroch, 1989 )

词义变化模式判断(

1

不同的词义变化模式体现为不同的 s 值与 k 值

之组合

词义变化模式判断(

2

通过曲线拟合,在词义状态时间序列基础上,可

以获取 k 值与 s 值,从而获得不同的变化模式。

词义变化模式判断(

3

变化模式与类型

◦ S 值较大  隐喻性词义变化

◦ S 值较小  转喻性词义变化

◦ S 值 约为 0  词义无变化

◦ S 值 为负  词义缩小

词义变化模式与类型

实验设置

实验结果

实验与讨论

Key words: 33 words

Corpora:

◦ 59 years of People’s Daily

◦ Segmented and POS tagged with ICTCLAS

Corpora divided on yearly basis

实验数据

链接至 paper

实验结果

新词

未变词语

词义缩小

隐喻性变化(透明)

1. 构建词义变化测试数据,应用 SVM 进行分类

2. 更好的词义变化时间序列模型?

3. 侦断“新词义”?

研究展望

Further information found in the paper:

◦ Semantic change computation: A successive approach presented at BSICS workshop with

IJCAI 2013

Download