Expressive Meaning and Information Credibility:
New Frontier in Lexical Semantics
黄居仁 Huang Chu-Ren, FHKAH
香港理工大学
The Hong Kong Polytechnic University
President, Hong Kong Academy of the Humanities churen.huang@polyu.edu.hk
言表真情达深意
感,動人心也
长安不见使人愁
天若有情天亦老
天知地知你知我知
衆里寻他千百度
7/28/2009 CLSW 2009, Yantai, Shandong, China 2
词汇语意的多面向
意义的内容
语言符号直接表徵的意义内容 representational meaning
语言符号(直接或间接)表达的情感内容 expressive meaning
从表达内容到实情真意
说话者的态度与意向
用来标示态度与对信息内容评价的语言要素
7/28/2009 CLSW 2009, Yantai, Shandong, China 3
To Represent or to Express
以表徵方式表达感情
我很生气,我真的很生气
你去死啦!
以表达感情的方式表徵信息
Coffee or Tea? I prefer tea.
很遗憾!真可惜!
7/28/2009 CLSW 2009, Yantai, Shandong, China 4
-----
粗粒度表情表达----情感(Sentiment)
关注人们表情表达的倾向性
一般分为正、负两类,例如:正面、负面;积极、消极等
相关的研究热点
资源建设
情感分类
情感信息抽取
……
细粒度表情表达----情绪(Emotion)
关注人们表情表达的具体情绪表现
一般为多类信息,例如:喜、怒、哀、惊等
相关的研究热点
情绪的本体、资源建设
情绪识别和分类
情绪相关事件识别
……
─ 說文解字
Emotion (Canon, 1927)
The felt awareness of bodily reactions to something perceived or thought
情感是人们感知到某种事物后有生理反
应时这个反应的知觉
6
6
之
肇因事件
7
秋风秋雨 愁煞人
念天地之悠悠 ,独怆然而涕下
7
情感通常有相伴的反应行动
心动不如行动
Humans are known to ‘ act on ’ their emotions post-events - instigated by emotion events
7/28/2009 CLSW 2009, Yantai, Shandong, China 8
情感并非单一心理状态,而是以心理状态
连接肇因事件与反应事件的复杂事件架构
这些事件架构将人类重要经验分类
Emotion as a pivot: cognitively salient mental states linking natural pre- and post events
Cause events e
1
Emotion state e
2
Elicited events e
3
Figure 1: Event Representation of an Emotion
9
9
Telic Interpretation of Emotion
10
Fear 惧怕:避凶
Awareness of external conditions which necessitate action taken to avoid harm for survival
Happiness 幸福:趋吉
Awareness of desirable external conditions which improve life quality
10
-----
情感资源(特别是情感词典)构建
人工标注
自动标注
自动标注
出发点:从“自然标注”标注的篇章级资源(例如带打星的评论)
到词典资源
方法:利用特征提取方法,提取篇章级中好的词语,自动标注为
情感词 (李和黄,CLSW-2010)
篇章级“自然”
标注资源
特征提取方
法
情感词典
----
情感分类方法
全监督 ,半监督 ,非监督
基于Personal/Impersonal的全监督和半监督情感分类方
法(Li等,ACL-2010)
将文本划分为Personal和Impersonal两个视图
Personal视图-----从人出发的观点
E1:
E2:
I love this breadmaker!
I disliked it from the beginning.
Impersonal视图-----从物出发的观点
E7: They are too thin to start with.
E8: This product is extremely quiet.
融合和协同训练(Co-training)分类方法
----
基于情感转移的情感分类方法(Li等,COLING-2010)
情感转移
否定,转折等(还可以参考我们CLSW-2013文章)
对情感转移部分和情感非转移部分分别建模
其他情感分类方法研究
不平衡情感分类方法研究 (Li等,IJCAI-2011)
面对样本的不平衡
主动学习方法研究(Li等,EMNLP-2012)
如何减少标注代价
-----
情绪分类语料库建设
非监督的汉语情绪语料建设(陈等,计算语言学联合会议-2009;
Chen等,LAW III-2009)
情绪分类体系
喜、哀、恐、怒、驚
以“喜”为例子:
情绪原因语料库建设
汉语情绪原因语料库标注(Lee等,LREC-2010)
例: [*01e] 你 遗弃 我 [*02e] 后 , 我 <emo id=0>伤心欲绝</emo>。
[*01e] 你 遗弃 我 [*02e]---------------原因
-----
枚举型 or 分解型
(Enumerable or Decomposable)
枚举型
情绪类别之间没有联系,单独对待
分解型
情绪类别之间存在联系,有些情绪是其他两种或多种情绪
的组会,例如:“惊喜”是“惊讶”和“喜悦”的组合
将情绪类别作为可分解型利于提高情绪分类性
能(Chen等,PACLIC-2009)
-----
基于规则的方法(Lee等, Computational
Intelligence-2012)
利用大量语言学规则进行识别
例如:一些功能词(“因为”,“由于”)后面出现的
子句一般为情绪原因
基于机器学习的方法(Chen等,COLING-2010)
统计信息结合语言学规则
词义内 容包括表情与达意
感情是根据经验的复杂事件结构分类
表真情与达深意:情与意兼顾才能掌握意
义的全貌与价值
7/28/2009 CLSW 2009, Yantai, Shandong, China 17
词汇语意学的另壹个面向:词汇信息内容的
品质判定
所知内容是否相同
立场与观点是否有差异:
个人/公众观点
信息可靠度 trustworthiness of information
信息来源
言据性
7/28/2009 CLSW 2009, Yantai, Shandong, China 18
言据性传递说话者对于命题中信息可靠与否的信
心度,并或显性或隐性地在句子中指明信息来源
听者接受到这些言据线索后,就可以自行对信息
的可靠性予以判断(Fitneva 2001:402)。
信息的可靠性是他们尤为关注的部分。听众对信
息可靠性的构建会随着信息来源证据和认知证据
的不同而变化,依可靠性的高低形成一个连续的
层级系统。 (Su等2011:207)
7/28/2009 CLSW 2009, Yantai, Shandong, China 19
Gricean maxims
Maxim of Quality: be Truthful
Maxim of Quanlity: one makes his/her contribution as informative as is required, and at the same time does not make the contribution more informative than is required.
The Maxim of Quantity predicts that good answers are plain statements without evidential markers.
何 谓 众包 技 术 = 将工作分配 给一组分散(在
互 联网上)的志愿员工
(Howe 2006) 。
不 仅局限于简单的工作,也可以用于征集意见
、想法、 创意。
众包的 优势
迅速,平价
跨越地理、社会 阶层的阻隔
目前主要有两个众包 专用的网络平台,都
建于境外。
Mechanical Turk by Amazon (MTurk)
https://www.mturk.com/
Amazon 下属的网站
需要有美国的信用卡才能注册使用
Crowdflower
http://crowdflower.com
可以使用国 际信用卡
注册以后,使用者
就可以发布新的任
务,或是参与完成
已经发布的任务。
语言学以语言资料为研究对象
这类数据的特点
不要求数据提供者具有任何 专业知识
只要是普通的 语言使用者或学习者即可
很多 语言数据的收集任务可以轻易在计算机上
进行
例如, 对语言材料的辨认、判断、分析,甚至是写
作、 录音、翻译等等
运用众包技术收集语言数据
?
标注意大利语句子中的事件结构
( Tommaso and
Huang , 2012 )
发布 平台: Crowdflower
任 务
对所给句子进行事件类型的标注(如: STATE, PROCESS,
TRANSITION )
参与者 46 人,任 务开放两星期
质量控制
通 过在任务中插入黄金标准( gold standard ) 问题来辨
识最可靠的数据提供者
可以将 标注的准确性从 62% 提高到 93%
研究者在社交媒体上定向 发布广告,帮助招募可靠的参
与者
汉语中词的边界与语义透明度的关系
正在 进行中的一个香港 GRF Grant
任 务
“ 收件箱 ” 是一个 词还是两个词?
“ 西瓜 ” = “ 西 ” + “ 瓜 ” ?
关注的 问题
能否用众包的方式采集母 语者对汉语中词的边界和
语义透明度的感知?
用众包方式所取得的数据和 实验室实验所采集的数
据是否一致?
能否找到一个高效又可靠的众包方式来收集 汉语语
言学数据?
众包技术提供了一个接触普通语言使用者
的途径
提供对表情与达意内容的提供,判定,与标注
对信息内容可靠度的判定,与标注
是否需要一个主要为汉语言学研究服务的
众包平台?
李寿山 , 黄居仁 . 基于特征提取方法的 词语情感倾向计算 . 第十一届 汉语词汇语
义学研讨会
, CLSW-2010.
Li S., C. Huang, G. Zhou, and S. Lee. Employing Personal/Impersonal Views in
Supervised and Semi-supervised Sentiment Classification. ACL-10, 2010, 414-
423.
Li S., S. Lee, Y. Chen, C. Huang, and G. Zhou. Sentiment Classification and
Polarity Shifting [C]. COLING-10, 2010, 635-643.
Shoushan Li, Shengfeng Ju, Guodong Zhou, and Xiaojun Li. Active Learning for
Imbalanced Sentiment Classification. EMNLP-12, 2012.
Shoushan Li, Zhongqing Wang, Guodong Zhou and Sophia Yat Mei Lee. Semisupervised Learning for Imbalanced Sentiment Classification. IJCAI-11, 2011.
陈瑛,李逸微,黄居仁。非监督的汉语感情语料库的建设及分析, 全国 计算
语言学联合会议
, 2009.
Sophia Yat Mei Lee, Ying Chen, Shoushan Li, Chu-Ren Huang: Emotion Cause
Events: Corpus Construction and Analysis. LREC 2010.
Sophia Yat Mei Lee, Ying Chen, Chu-Ren Huang and Shoushan Li. Detecting
Emotion Causes with A Linguistic Rule-based Approach. Computational
Intelligence, 2012.
Ying Chen, Sophia Yat Mei Lee, Shoushan Li, Chu-Ren Huang: Emotion Cause
Detection with Linguistic Constructions. COLING 2010.
Ying Chen, Sophia Yat Mei Lee, Chu-Ren Huang: Are Emotions Enumerable or
Decomposable? And its Implications for Emotion Processing. PACLIC 2009.
Chen, Ying, Sophia Y. M. Lee, and Chu-Ren Huang. 2009. A Cognitive-based
Annotation System for Emotion Computing. The Third Linguistic Annotation
Workshop (The LAW III), ACL 2009.
Caselli, Tommaso and Huang, Chu-Ren. (2012). Sourcing the crowd for a few good ones: Event type detection. In
Proceedings of COLING 2012, 1239 – 1248.
Yao, Yao and Chang, Charles B. (2012). Reversal of a merger via cross-language influence: The case of Shanghainese and
Mandarin. Poster at the 13th Conference on Laboratory
Phonology (LabPhon 13).
This work was partially supported by a General Research
Fund (GRF) sponsored by the Research Grants Council
(Project No. 543810) and the studentship of The Hong
Kong Polytechnic University.