唐旭日 1 曲维光 2 陈小荷 2
1 华中科技大学
2 南京师范大学
词义演化及其研究的意义
研究现状
基于时间序列的词义演化计算框架
实验与讨论
研究展望
词义演化及其研究意义
例 1
◦ 男性“美丽”产业正流行。《生命时报》
例 2
◦ The last update bricked my phone
例 3
◦ 简静,就是不生活在热闹。《生命时报》
例 4
◦ 老外也这么墨迹。 假借
例 5
◦ A :航班晚点了。 B: 啊,这什么节奏! 转喻?
转喻
隐喻
新词
词义演化计算是一个分类问题
◦ 新词
屌丝 新出现词语
新词词义演变
◦ 隐喻
◦ 转喻
◦ 已有词汇
词义变化
◦ 词义扩展
隐喻
转喻
◦ 词义缩小
词义不变
板块
大锅饭
缩水
灰色收入
低落
房屋
在互联网日益普及的背景下词义演化加速。互联
网用户在旧词新用、新词创造方面更加活跃。各
种自然语言处理系统需要更快地更新词义知识。
人工词义知识编撰耗时、耗力、一致性差、且受
制于自身知识,无法满足上述需求。
词义演变的自动侦测、分类以及语义判断成为重
要任务。
研究现状
男子 跳水
…
双人 跳水 比赛
…
1. Cavallin, K.: Automatic extraction of potential examples of semantic change using lexical sets. In: Proceedings of the 11th Conference on Natural Language Processing, pp.
370 –377 (2012)
2. Gulordava, K., Baroni, M.: A distributional similarity approach to the detection of semantic change in the google books ngram corpus. In: Proceedings of the GEMS 2011
Workshop on GEometrical Models of Natural Language Semantics, pp. 67 –71 (2011)
3. Lau, J.H., Cook, P.,McCarthy, D., Newman, D., Baldwin, T.:Word sense induction for novel sense detection. In: Proceedings of the 13th Conference of the European Chapter of the Association for Computational Linguistics, pp. 591 –601 (2012)
4. Cook, P., Hirst, G.: Automatic identification of words with novel but infrequent senses. In:
无法判断词语的规约化程度
无法判断演变类型
语料依赖性强
1. Hilpert, M., Gries, S.T.: Assessing frequency changes in multistage diachronic
优势:
给出了全局性的描
写
问题:
非自动, semantic change by visual analytics. In: Proceedings of the 49th Annual Meeting of
305–310 (2011)
当前仅用于人工判断 the Association for Computational Linguistics: Human Language Technologies, pp.
3. Sagi, E., Kaufmann, S., Clark, B.: Semantic density analysis: comparing word meaning across time and phonetic space. In: Proceedings of the Workshop on
Geometrical Models of Natural Language Semantics, pp. 104–111 (2009)
4. Sanchez-Marco, C., Evert, S.: Measuring semantic change: The case of spanish participial constructions. In: Proceedings of Quantitative Investigations in Theoretical
Linguistics,vol. 4, pp. 79–83 (2011)
基于时间序列的词义演化计算框架
Word-Context Model
◦ 重组 使 自己 的 股份 缩水: c=< 股份,缩水 >
Identification
◦ Likelihood Ratio Test
语义状态是在单位时间语料中词语 T 的各种义项
的使用概率的总体描述。
由此,语义状态可以表述为义项的熵:
词义变化表述为语义状态的时间序列:
词义的变化模式也就是时间序列的变化模式。
假定语言的变化,包括词义的变化模式遵循如下
指数函数:
(Kroch, 1989 )
1
不同的词义变化模式体现为不同的 s 值与 k 值
之组合
2
通过曲线拟合,在词义状态时间序列基础上,可
以获取 k 值与 s 值,从而获得不同的变化模式。
3
变化模式与类型
◦ S 值较大 隐喻性词义变化
◦ S 值较小 转喻性词义变化
◦ S 值 约为 0 词义无变化
◦ S 值 为负 词义缩小
实验与讨论
Key words: 33 words
Corpora:
◦ 59 years of People’s Daily
◦ Segmented and POS tagged with ICTCLAS
Corpora divided on yearly basis
链接至 paper
1. 构建词义变化测试数据,应用 SVM 进行分类
2. 更好的词义变化时间序列模型?
3. 侦断“新词义”?
Further information found in the paper:
◦ Semantic change computation: A successive approach presented at BSICS workshop with
IJCAI 2013