Uploaded by mandyxuxiaochen

基于汉语儿童语料库构建的儿童语言发展测评系统 周兢

advertisement
2020 年第 6 期
(总第 306 期)
学前教育研究
XUEQIAN JIAOYU YANJIU
No.6,2020
Serial No.306
基于汉语儿童语料库构建的儿童语言发展测评系统*
周 兢 1** 张义宾 2
(1 华东师范大学教育学部,上海
200062 ;2 华东师范大学脑科学与教育创新研究院,
上海
200062)
[摘 要] 汉语儿童语料库的创建与发展为国际儿童语料库系统(CHILDES)提供了丰富的研
究语料,为促进汉语儿童语言发展研究做出了突出贡献。为回应当前有关儿童语言障碍诊断工具和
语言干预效应监测严重缺乏可靠工具的问题,本研究基于汉语儿童语料库构建了汉语儿童语言发展
测评系统。该系统基于汉语儿童的大量语料,构建了正常儿童语言发展常模,探索了可以预期和发现
不同年龄儿童语言障碍的指标系统,基本形成符合汉语文化情境的儿童语言发展监测体系,可以为
儿童语言障碍诊断和干预提供有价值的基础信息。从儿童语言发展研究走向儿童语言发展评价,有
助于拓展儿童语料库的功能,推动有关儿童早期语言发展诊断与干预的科学研究。
[关键词] 汉语儿童语料库;儿童语言发展评价;常模;词汇;语法
DOI:10.13861/j.cnki.sece.2020.06.010
一、汉语儿童语料库的发展与儿童语言发展研究
汉语儿童语言研究起步较晚,从 20 世纪 30 年代陈鹤琴先生追踪记录自己的孩子的语言起始,
有关汉语儿童语言研究逐渐进入研究者的视野,但直到 80 年代之后才得到研究者们的重视。在探讨
汉语儿童语言发展的过程中,人们认识到儿童语言发展有着一定的共同规律,但是每一种语言都有
其独特性,因而也就造成儿童语言学习的特殊性。因此探讨汉语儿童语言发展的规律,可以为汉语儿
童的语言教育提供充足的信息,同时为人类儿童语言研究理论增加重要的内容。
借助位于美国匹兹堡卡内基梅隆大学国际儿童语言中心的 CHILDES 系统,近年来,汉语儿童语
料库已经形成初步规模,集聚了大量 0~8 岁汉语儿童的语言发展数据。
(一)CHILDES 系统与儿童语言发展
20 世纪 80 年代,卡内基梅隆大学的布莱恩·麦克维尼(Brian MacWhinney)教授和哈佛大学的凯
瑟琳·斯诺(Catherine Snow)教授,倡导建设一个理想的儿童语料库,真正研究储存儿童在实际生活中
使用的语言。立足于卡内基梅隆大学计算机专业的领先技术,以相应的工具软件和适合语料库语言
学的语言研究理论为基础,软件工程师们合作开发完善了 CHILDES 系统。 [1] 这套针对儿童语言的全
新技术由三个部分组成:CHAT 计算机储存格式、CLAN 计算机分析系统和 DATA BASE 在线交流方式。
CHILDES 计算机化语料库的诞生对国际范围内的儿童语言发展研究产生了巨大的影响。
首先,CHILDES 系统在儿童语言研究方法的开拓上具有深远影响。它使我们有办法利用语料库
提供的数据将我们对儿童语言规律的朴素认识,上升为语言学理论,或者用这些数据来纠正我们常
稿件编号:
202004030004;作者修改返回日期:
2020- 04- 07
* 基金项目:
国家社科基金一般项目
“基于汉语儿童语料库的语言障碍诊断系统研究”
(编号:
17BYY093)
** 通讯作者:
周兢,华东师范大学教育学部教授,博士,博士生导师,E- mail:jzhou@spe.ecnu.edu.cn
72
识中对于语言规律理解的种种谬误。通过对数据库进行统计分析,并对照原始的语料和录像等定性、
定量分析,使儿童语言研究的结果更具有说服力。
其次,CHILDES 系统本身的应用具有极大的灵活性。该语料库包含的数据是根据儿童语言研究
的要求和原则,搜集或取样并按照一定的方法分类集合起来的一批儿童语言材料。该语料库具有语
言样本大、语域广等特征,其收集的语言材料具有很强的代表性。利用 CHILDES 语料库研究儿童语
言的特征,已成为该语料库最重要的应用之一,它为各国的儿童语言研究者提供了充足可信的数据
资源。比如,该语料库可用来研究特定语域儿童的词频、语言结构、意义表达以及语用等特征。而语料
库的检索功能和统计手段更是为句法研究、语篇分析、会话分析和语音研究提供了方便。
第三,依托互联网优势,设置开放性共享,各国的研究者都投入精力,建设和扩充该语料库,并共
同使用该语料库的资源,获得了一大批具有重要科研价值的成果。自人类社会进入 21 世纪之后,计
算机技术的飞速发展,将儿童语言研究带入了多媒体同步记录分析阶段。研究者利用计算机多媒体
技术,实现了儿童语料的声音、图像和文本同步运作,从而为儿童语言研究提供了更为自然、真实和
丰富的工具条件,它可以清晰地让研究者将抽象归纳出来的理论和实际的语言运用情景联系在一
起,通过观察情景中非声音的部分,能够得到更多的信息,帮助研究者进一步探索。
(二)汉语儿童语言发展语料库形成
在 中 国 大 陆 , 华 东 师 范 大 学 ESEC 儿 童 语 言 研 究 中 心 成 为 国 际 儿 童 语 言 研 究 资 源 交 换 系 统
(CHILDES)的中国站点。这个中心旨在团结各方面力量,推动汉语儿童语言发展与教育研究和培训
的工作,加快中国儿童语言研究与世界接轨的步伐,开展有关汉语儿童语言发展和教育的研究,提供
与国际儿童语言研究沟通交流的窗口,建立儿童语言研究成果转换为教育实践的桥梁。迄今为止,汉
语儿童语料库的建设,已经为 CHILDES 系统提供了最大容量的汉语儿童语言发展的语料,丰富了
CHILDES 语料库的语域,也为有志研究汉语儿童语言发展的学者提供了宝贵的资料。 [2]
在将近二十年的研究过程中,我们已经参照国际儿童语言研究交换系统的工作模式,将汉语儿
童语言发展研究所收集的语料建成符合国际规范的语料库。以“www.childes.cn”存在的汉语儿童语言
研究中心,一方面实现了与国际儿童语言研究交换系统的对接,成为国际儿童语言研究交换系统
CHILDES 的中文平台;另一方面,我们的汉语儿童语言发展语料库,已经是国际范围内最大的汉语儿
童语料库,这个可以独立运作的汉语儿童计算机语言分析系统,可供以下有关 0~8 岁儿童语言发展
的教学和科研的持续使用。
第一,共享的汉语儿童语言发展研究语料。儿童语料库建立的一个作用是实现研究资料的共享。
已经积累并在不断发展的汉语儿童语言研究语料,可以为后来的研究者提供从不同角度研究分析的
实际材料,打破传统的研究者独自占有部分语料的局限,让更多的研究者省时省力地开展研究,将研
究的工作重点放到真正深入的研究分析上去,从而实现具有科学研究价值的交流和分享。
第二,共享的亲子社会交往研究资料。我们的儿童语料是在半结构化的开放状态下的录像资料
和长期跟踪拍摄的自然状态儿童语言活动,因此可以成为从社会、认知、亲子关系等不同角度研究观
察分析的基本材料,供研究者进一步分析探讨。
第三,共享的儿童语言发展和教育教学资料。汉语儿童语料库的建立,同时也为我们的专业教学
提供了良好的条件,专业学生可以登录我们的儿童语言网站,根据自己的学习和研究需要选择适当
的文档,通过指令运行 CLAN 自动分析语料,获得研究所需要的信息。学生也可将自己采集的语料与
之进行比较研究,取得新的认识。
截至 2020 年初,该数据系统已囊括了中国不同省市儿童语言的数据近 60000 分钟,语料库同时
收集大中华文化情境中儿童华语学习与发展的语料数据,比如新加坡华语儿童语言发展、马来西亚
华语儿童语言发展的语料均有储存(见表 1)。据此发表的有关儿童语言发展的科研论文和学术报告
已达 100 多篇,国际学界利用数据所撰写的文章亦有 30 多篇。这些研究成果涉及儿童语法发展、词
73
汇发展、语用发展,以及关于儿童阅读干预与学业语言发展、叙事语言发展、说明性讲述语言发展等。
在语料库构建过程中,所有储存的汉语儿童语言语料发挥了重要的研究作用,成为汉语儿童语言研
究走向世界的桥梁。
表 1 汉语儿童语言发展语料库
样本群体
语料
年龄
数量
语料介绍
该语料的对话参与者是儿童及其母亲。采用哈佛大学研究设计,收集母亲与儿
童在四个盒子情景下的自由游戏语料,四个盒子分别为一个皮球、一个变形金
一本书。研究共涵盖 50 个数据,
包括横断数据和纵向数据。其中
刚、画笔和纸、
0~3 岁亲子游
0~3 岁 50 份
横断数据包括 14 个月儿童 10 个,20 个月儿童 15 个,26 个月儿童 10 个,32 个
戏互动语料
月儿童 10 个;纵向数据为一个儿童在 14、
20、
26、
32、
48 个月时与母亲游戏互动
的语料,
每一段语料的时长为 30 分钟
该语料的对话参与者是儿童及其母亲。采用哈佛大学研究设计,收集母亲与儿
童在四个盒子情景下的自由游戏语料,四个盒子分别为一个皮球、一个变形金
3~6 岁亲子游
3~6 岁 140 份
戏互动语料
刚、画笔和纸、
一本书。研究共涵盖 140 个数据,
覆盖 36、42、
48、
54、
60、
66、
72 个
月儿童,
每个年龄段各 20 人,
每一段语料的时长为 30 分钟
该语料的对话参与者为一对母女。采用哈佛大学研究设计,收集母亲与女儿在
8 个月~
四个盒子情景下的自由游戏语料,
四个盒子分别为一个皮球、一个变形金刚、画
雪雪游戏语料
30 份
笔和纸、一本书。研究为个案追踪研究,
共追踪数据 30 次,
每一次所收集语料的
4.5 岁
时长为 30 分钟
该语料的对话参与者是儿童和教师。采用半结构化的谈话方法收集语料,谈话
新加坡汉族儿
的材料包括各种与农场相关的动物、
人物、配件和交通工具。研究共涵盖 67 个
童师幼互动游 3~6 岁 67 份
中班幼儿 22 人,大班幼儿 22 人,每一段语料的时长
数据,覆盖小班幼儿 23 人,
戏语料
为 20 分钟
该语料的对话参与者是儿童和教师。采用半结构化的谈话方法收集语料,谈话
汉语儿童师幼
3~6 岁 219 份 的材料包括森林大屋以及其他添加的玩具等。研究共涵盖 3~4 岁儿童 79 人,
4~
互动游戏语料
每一段语料的时长为 20~30 分钟
5 岁儿童 70 人,
5~6 岁儿童 70 人,
该语料的对话参与者是新疆儿童和教师。采用哈佛大学研究设计,收集母亲与
新疆学前儿童
儿童在四个盒子情景下的自由游戏语料,四个盒子分别为一个皮球、一个变形
师幼互动游戏 3~6 岁 80 份
一本书。研究共涵盖 3、
每一段语料的时
金刚、画笔和纸、
4、5、
6 岁儿童各 20 人,
语料
长为 30 分钟
该语料的对话参与者是儿童与其同伴。通过玩具引发儿童的合作装扮游戏互动
普通儿童 同伴游戏互动
来进行语料收集,装扮游戏主题包括“娃娃家”和“医生”两大主题,包括若干玩
3~6 岁 80 份
语料
每一段语料的时长为
具。研究共涵盖 3、
4、
5、
6 岁四个年龄段各 10 对游戏同伴,
20 分钟
该语料的对话参与者是儿童与其同伴们。通过玩具引发儿童的合作装扮游戏互
动来进行语料收集,装扮游戏主题包括“娃娃家”和“小医院”两大主题,包括若
同伴小组互动
涉及 4 岁、5 岁
4~6 岁 192 份 干玩具。语料收集来自 4~6 岁儿童角色游戏情境中的互动话语,
语料
和 6 岁组儿童各 64 名,其中每 4 位儿童(2 男 2 女)为一个游戏小组,每一段语
料的时长为 30 分钟
该语料的对话参与者是来自上海以及外地家庭的儿童与其家人。语料收集来自
晚餐谈话语料 4~6 岁 75 份 4~6 岁儿童与其家人的晚餐谈话,涉及中班 36 人,大班 39 人,每一段语料的平
均时长为 18.5 分钟
该语料的参与者是儿童本人。语料收集来自汉语儿童学业语言评估工具的说明
学业语言语
3~6 岁 116 份 性讲述任务,共涵盖小班儿童 39 人,中班儿童 38 人,大班儿童 39 人,每一段语
料-新疆
料的时间大概 5 分钟
《番茄的旅行》
该语料的参与者是儿童及成人。语料为新疆伊犁学前儿童讲述科学知识图画书
说明性讲述语 4~6 岁 180 份 《番茄的旅行》的语料,成人帮助儿童完成拓展性会话任务,涵盖小班儿童 48
料
人,中班儿童 60 人,
大班儿童 72 人,
每一段语料的平均时长为 15 分钟
该语料的参与者是儿童。语料为汉语学前儿童讲述科学知识图画书《血的故事》
《血的故事》说
4~6 岁 90 份
的语料。涵盖小班、
中班、
大班儿童各 30 人
明性讲述语料
该语料的参与者是儿童本人,
主要是儿童阅读科学知识图画书《好饿的毛毛虫》
《好饿的毛毛
虫》说明性讲 3~6 岁 116 份 的说明性讲述语料,包括 3 岁儿童 28 人,
4 岁儿童 29 人,5 岁儿童 29 人,6 岁
述语料
儿童 30 人
该语料的参与者是儿童,为新疆学前儿童语言发展 4 次追踪语料,追踪时间分
学业语言追踪
别为 2012 年 4 月、
2012 年 9 月、2013 年 3 月以及 2013 年 6 月;语料主要通过
4~8 岁 800 份
语料-新疆
汉语儿童学业语言评估工具的说明性讲述任务来获取,4 次追踪的数据数量分
别为 221、207、
264、
108
74
续表
样本群体
语料
年龄
数量
语料介绍
该语料的参与者是儿童,语料是儿童讲述《青蛙故事》的语料,涉及 3 岁儿童 20
《青蛙故事》叙
3~5 岁 60 份
人,4 岁儿童 20 人,
事语料
5 岁儿童 20 人
该语料的参与者是儿童,语料是儿童阅读故事图画书《三个强盗》的叙事性讲述
《三个强盗》叙
3~6 岁 123 份
语料,
涉及 3 岁儿童 19 人,
事语料
4 岁儿童 32 人,
5 岁儿童 36 人,
6 岁儿童 36 人
普通儿童
该语料的参与者是儿童,语料来自新疆学前儿童语言发展 4 次追踪语料,追踪
ENNI 叙事语
4~8 岁 886 份 时间分别为 2012 年 4 月、
2012 年 9 月、
2013 年 3 月以及 2013 年 6 月;以 ENNI
料
叙事性讲述任务为主,
被试数量分别为 254、
199、
258、175
学习故事语料 3~5 岁 90 份
该语料的参与者是儿童,以学习故事作为叙事性讲述的诱发任务,被试数量分
别为 3 岁儿童 30 人,
4 岁儿童 30 人,
5 岁儿童 30 人
该语料的对话参与者是特定型语言障碍儿童及其母亲。采用哈佛大学研究设
特定型语言障
计,收集母亲与儿童在四个盒子情景下的自然互动语料,四个盒子分别为一个
碍儿童游戏互 3~6 岁 126 份
皮球、一个变形金刚、
画笔和纸、一本书。包括纵向追踪数据 6 人共 107 段语料,
动语料
每一段语料收集时间为 30 分钟
横断数据 19 段,
语言
障碍儿
该语料的对话参与者是听障儿童及其母亲。采用哈佛大学研究设计,收集母亲
听障儿童游戏
与儿童在四个盒子情景下的自然互动语料,四个盒子分别为一个皮球、一个变
3~6 岁 36 份
互动语料
形金刚、画笔和纸、一本书。包括纵向追踪数据 4 人共 21 段语料,横断数据 15
段,每一段语料收集时间为 30 分钟
该语料的对话参与者是自闭症儿童及其母亲。采用哈佛大学研究设计,收集母
自闭症儿童游
亲与儿童在四个盒子情景下的自然互动语料,四个盒子分别为一个皮球、一个
3~6 岁 124 份
戏互动语料
变形金刚、画笔和纸、
一本书。研究包括 6 个自闭症儿童,
共 124 段语料,
每一段
语料收集时间为 30 分钟
该语料的对话参与者是弱智症儿童及其母亲。采用哈佛大学研究设计,收集母
弱智儿童游戏
亲与儿童在四个盒子情景下的自然互动语料,四个盒子分别为一个皮球、一个
3~6 岁 55 份
互动语料
变形金刚、画笔和纸、一本书。包括纵向追踪数据 6 人共 40 段语料,横断数据
每一段语料收集时间为 30 分钟
15 段,
二、从汉语儿童语言发展研究走向语言发展评价系统构建
在探讨汉语儿童语言发展基本规律的过程中,我们日益深切地关注到,有关儿童语言障碍(语言
发育迟缓)的研究,已经有了来自教育和医疗实践的广泛需求,同时也是近年国际儿童语言发展研究
的一个重点范畴。已有国际研究表明,约 6%~8%的学前儿童不能达到预期的语言发展里程碑,从而
成为早期儿童语言障碍的工作对象。 [3][4][5] 早期儿童语言障碍,往往并行产生诸多其他方面的发育问
题,成为不同类型特殊儿童障碍发生的标志。 [6] 大量研究业已证明,儿童语言障碍会影响儿童的读
写、情绪和行为等多方面的发展,[7] 影响他们后期发展的学业和测验成绩。[8] 因此,语言障碍的早期监
测和干预,对于每一个儿童的全面发展具有重要意义,也是一个社会提升教育水平的重要标志。 [9]
我国儿童语言障碍的研究近年得到日益增长的关注。金星明(2002)指出,语言障碍是临床最为
多见的儿童残疾之一;已有研究发现,中国儿童语言障碍的发生率超过 4%,并且在近年呈逐渐上升
趋势,因而儿童语言障碍的诊断和干预具有非常迫切的现实需要。 [10] 有关汉语儿童语言障碍的诊断
与干预的相关研究发现,需要尽早对潜在的儿童语言障碍进行诊断,并且积极开展早期干预。分析我
国儿童语言研究的现场,有关儿童语言障碍的诊断工具和语言干预效应监测严重缺乏可靠的工具。
一方面,儿童语言障碍的诊断和干预使用的工具,基本都借用基于英语环境产生的婴幼儿发育量表
等国外量表进行诊断,上述工具未能进行在中国文化和语言情境下的信效度检验,国内也还未开发
出具有中国文化背景的语言发育评价工具;[11] 另外一方面,适合于更大范围不同工作人群使用的非
正式儿童语言障碍诊断评价方式尚属空白,因此创建一个符合中国语言文化情境特点的、具备年龄
发展常模的早期儿童语言样本数据库和诊断指标体系,将之免费提供给各种研究者和临床干预工作
使用,已经成为十分必要的研究任务。
75
(一)基于儿童语料库构建语言发展评价与监测系统
在早期儿童语言障碍的监测和诊断方面,国际研究一直存在着两种不同的思路。一类采用标准
化的语言测验工具进行正式评估,如英语国家通过语言发展调查(Language Development Survey),发
现儿童语言落后状况及存在问题,从而为障碍儿童安排进行早期语言干预方案。 [12] 另外一种不同的
早期儿童语言障碍监测诊断,是通过非正式评估进行儿童语言发展评价。这种思路下的语言障碍监
测与诊断,一般通过收集语言样本、口述、填空测验和访谈儿童等方法进行。[13] 近期的研究发现,收集
儿童自然状态下的语言样本并进行分析(language sample analysis,LSA),通常比标准化测验更具有生
态效度。与标准化的语言测验相比较,语言样本分析对于鉴定临床语言发育迟缓更加具有敏感度,对
于治疗或干预计划的制订以及结果的监测更加有效,而且能够更加有效地反映出儿童日常生活中的
语言使用情况。 [14] 研究者同时指出,借鉴语言样本分析指标作为儿童语言发展水平和儿童语言障碍
诊断的评估标准,在早期儿童语言障碍诊断的临床中具有较强的应用价值,但通常具有样本量小、缺
乏适当参考值、对于方言缺乏敏感性等局限。[15][16] 因此,创建一个具备年龄发展常模和多层儿童比较
的早期儿童语言样本数据库,便成为当今国际儿童语言研究界十分重视的研究任务。位于美国卡内
基梅隆大学的国际儿童语言数据交换平台(CHILDES),已经率先开展了这样的研究工作。
尽管近几年我国汉语儿童语料库的研究与建设已经获得了突破性的进展,在计算机处理分析儿
童语言成为国际儿童语言学界通用方式的前提下,汉语儿童语料库已经建成与国际儿童语言语料交
换系统(CHILDES)同步互动的平台,编码储存了 0~8 岁汉语儿童不同年龄阶段的大量语料,其中包
括不同情境下汉语儿童与成人互动的语料、同伴互动的语料、不同类型特殊儿童语言发展和少数民
族双语儿童的语料等,成为世界范围内最大的、国际同行充分认同的汉语儿童语料库。 [17][18] 但是,汉
语儿童语料库从儿童语言发展研究走向语言发展评价,我们需要在建立符合计算机标准的正常儿童
语言发展模型的基础上,研究可以预测和发现不同年龄阶段儿童语言障碍存在的指标系统,使得儿
童语料输入后可以产生与计算机分析标准对应的分析结果,从而形成实实在在的符合汉语文化情境
的儿童语言发展评价的监测体系,为儿童语言障碍诊断和干预的工作者提供有价值的基础信息。因
此,我们面临的是下列重要研究任务。
第一,构建基于汉语儿童语料库的正常儿童语言发展常模。将采用得到现代科学技术支持的儿
童语料库研究方法技术,采用不同互动对象不同语言运用方式的儿童语言发展场景语料,分析汉语
儿童语言习得若干范畴的发展阶段特点。重整分析汉语儿童语料库中的已有儿童语料,在发现形成
汉语儿童语言发展一般水平和特点的基础上,建立正常汉语儿童语言发展的常模。
第二,建立早期儿童语言障碍预测、诊断与干预的指标体系。研究将对汉语儿童语料库中已有的
特殊儿童语料进行数据分析,建立对特殊儿童语言发展的特征指标的认识。在此基础上,研究团队将
对特殊儿童群体语言与正常儿童形成对照,构建起早期儿童语言障碍的指标体系。通过临床面对面
运用于潜在语言障碍儿童的诊断评估上,建立预测、诊断与干预相应语言障碍的评估指标体系。
第三,进行国际同类儿童语言障碍评价指标体系和相关标准测查工具的效度检验。在前两个问
题的研究过程中,始终关注与国际儿童语言发展常模和儿童语言障碍评估指标系统的比较,同时通
过临床面对面评估应用,进行系统的相关效度检验,同时据此形成对在中国文化和语言环境下儿童
语言发展与语言障碍诊断特点规律的认知。
(二)依托国际儿童语料库建设规则构建汉语儿童词汇发展常模与指标体系
在研究中,我们依托国际儿童语料库建设的规则,进一步提升了汉语儿童语料分析的分词、词法
的规范性,建立起自动化的语法分析层,构建了跨越 3~6 岁年龄段的、基于计算机和大数据的、免费
的、多用途参考语料库。针对汉语儿童词汇发展的常模研究,我们重点关注汉语儿童词汇整体发展变
化如何,哪些指标能够反映汉语儿童整体的词汇发展水平。在三种常用词汇多样性分析TTR、vocD 以
及 NDW 中,[19][20][21] 仅有 vocD 在均值上既能反映出汉语儿童的词汇发展梯度趋势,同时在汉语背景
下呈现出显著的年龄主效应(见图 1)。因此,我们认为简单的拿来主义无法行得通,而经过大数据检
76
验的 CvocD 值(汉语儿童词汇多样性),可以作为衡量汉语儿童词汇整体发展水平的重要指标。
CvocD
60
均 40
值
20
0
3岁
4岁
5岁
年龄
图 1 不同年龄段汉语儿童词汇多样性(CvocD)发展直方图
进一步探讨汉语儿童不同词类发展的指标,通过对不同年龄阶段汉语儿童语料的数据分析,具
体而言,就数据库不同年龄段汉语儿童语料中不同词类内部的词型数、词频数以及具体的词汇产出
和发展情况,获得对汉语儿童词汇习得过程中不同词类的产出和发展特征的认识,由此建构汉语儿
童不同词类产出的参考数据(见表 2)。
表 2 不同年龄段汉语儿童不同词汇发展的参考数据
词类
名词词型
名词词频
动词词型
动词词频
副词词型
副词词频
量词词型
量词词频
年龄
平均值
标准差
3~4 岁
4~5 岁
5~6 岁
总计
3~4 岁
4~5 岁
5~6 岁
总计
3~4 岁
4~5 岁
5~6 岁
总计
3~4 岁
4~5 岁
5~6 岁
总计
3~4 岁
4~5 岁
5~6 岁
总计
3~4 岁
4~5 岁
5~6 岁
总计
3~4 岁
4~5 岁
5~6 岁
总计
3~4 岁
4~5 岁
5~6 岁
总计
30.83
33.90
38.95
34.59
54.92
60.72
73.37
63.11
31.16
30.83
36.09
32.78
67.10
66.54
80.82
71.72
10.57
12.56
14.25
12.46
27.41
31.04
38.03
32.21
3.83
4.01
5.04
4.31
18.83
20.59
24.97
21.51
9.463
10.178
12.978
11.505
19.937
24.282
35.945
28.728
10.094
9.300
12.801
11.139
25.535
23.849
37.604
30.532
4.293
4.188
6.019
5.158
13.653
13.890
24.319
18.659
1.879
1.763
2.468
2.137
9.849
13.743
16.932
14.028
77
续表
词类
年龄
3~4 岁
4~5 岁
5~6 岁
总计
3~4 岁
4~5 岁
5~6 岁
总计
3~4 岁
4~5 岁
5~6 岁
总计
3~4 岁
4~5 岁
5~6 岁
总计
连词词型
连词词频
介词词型
介词词频
平均值
2.05
2.85
3.37
2.75
3.75
5.87
8.62
6.09
2.35
2.50
3.03
2.63
6.88
6.85
10.92
8.28
标准差
1.692
1.746
2.239
1.989
4.061
5.231
9.790
7.168
1.232
1.171
1.131
1.212
6.534
5.272
9.270
7.532
通过对不同词类的发展进行分析和探索,我们发现在儿童不同词类发展的语料库评价方面,名
词、动词、副词、量词、连词、介词的词频数是具有发展敏感度的指标。会同 CvocD 数值,我们据此建立
起不同年龄段汉语儿童词汇发展的参考数据。
(三)构建符合汉语语法发展特征规律的儿童语法发展常模与指标体系
词汇是构成汉语语言的基础单位,在国际儿童语言临床干预中,已有较多有关词汇干预的研究
和实践;[22] 但是,我们必须认识到,语法是理解语言障碍的关键,[23] 儿童语言发展评价与干预无法回
避这个问题。建构汉语儿童的语法评价系统,我们首先面临的问题是:汉语儿童语法发展是否具有与
国际儿童语法发展的普适性特征?汉语语法构成规律是否带来汉语儿童语法发展的特殊性?这是探
讨儿童语法发展评价的基础。
在将近 20 年的汉语儿童语法发展与相关语料库研究中,诸多汉语儿童语言研究者证实了平均
句法长度 MLU 在汉语儿童语法发展研究中的普适性,因而 MLU 已经成为汉语儿童语法发展的一种
基本评量手段。 [24][25][26][27][28][29][30][31][32] 因为语料库计算机处理语言信息的特殊性,汉语儿童语料的录入
分析,根据张显达对拉杰·布朗的 14 个语素规则有所修订。[33][34] 与此同时,在语料库运算的语言研究
中,诸多研究同时发现,平均最长五个句子的数值对于汉语儿童语法发展,也具有较好的发展评价的
指标意义。 [35][36][37][38][39] 此外,在汉语儿童语法发展研究中,也已发现汉语儿童在进入 3 岁左右出现复
合的句式,[40]到 4 岁时呈现联合关系、因果关系、递进关系、转折关系等,这些汉语语法要素如何融入
语法发展评价?因此,此次研究将语料的复合句子状态形成计算机标注连接,并让计算机分析汉语平
均句法长度 MLGU 和平均最长的五个句子长度 MLGU5,就成了我们工作的重点。
15
MLGU
MLGU5
10
均
值
5
0
3岁
图2
4岁
5 岁 年龄
不同年龄段汉语儿童平均句子长度的直方图
78
如图 2 所示,通过对不同年龄段汉语儿童语料的平均句子长度进行运算和分析,我们发现,儿童
3 岁时汉语平均句子长度为 3.66,4 岁时为 4.31,5 岁时为 4.81,数量由少及多。由直方图可以看出,
儿童平均句子长度的发展呈现较好的年龄发展趋势,自 3 岁开始逐年递增,其中 4 岁时发展速度最
快。就汉语儿童不同年龄段最长五句话的平均句子长度来看,儿童 3 岁时为 8.69,4 岁时为 10.68,5
岁时为 11.56,整体上随着年龄递增逐渐增长。通过直方图,我们也发现这一趋势,其中 4 岁是儿童
MLGU5 增长最快的阶段。为了更好地比较不同年龄段儿童的差异,我们对数据进行了方差分析,结果
显示,儿童平均句子长度的发展具有非常显著的年龄主效应(F=25.018,P<0.001),多重比较显示,5
岁组显著高于 4 岁组(P<0.05)和 3 岁组(P<0.001);4 岁组显著高于 3 岁组(P<0.001)。这一研究结果可
以基本认定,汉语情境下 MLGU 和 MLGU5 评量儿童语法发展具有较好的敏感性,可以作为汉语儿童
语法发展的整体水平指标。
在语法发展整体水平指标获得认定的前提下,我们需要进一步考虑汉语语法结构发展的指标。
在 CHILDES 系统中的语法发展分析,依赖于英语语素语法的诸多要素,使用 IPSyn(Index of Productive
Syntax)评量系统自动运算判断儿童语法发展的数量值。 [41] 而汉语语言学研究告诉我们,不同于英语
拼读语言体系,除了汉语方块字的形式之外,我们的母语语言自身的语法结构具有非常独特的规律
特点。由此,我们的研究视线不得不转向汉语儿童语料中的语法结构数量值。在分析已有文献和初步
运算语料系统的过程中,我们初步建构起了一个综合性的语法复杂度分析指标——
—汉语儿童语法结
构数量值,这个指标中基本囊括了汉语儿童的重要语法现象(表 3)。经过反复研究验证,我们最终确
定数量结构、宾语短语、宾语从句和连动结构句作为语法结构诊断指标,基于如下指标建构起不同年
龄阶段汉语儿童语法发展的参考数据。
表3
汉语儿童语法结构数量值计算所纳入的指标
维度
指标
数量结构
量词短语
数量名结构
代数量结构
名词-的-名词
的字结构
动词-的-名词
介词短语
介词短语
宾语为短语
宾语复杂度
宾语从句
把字动词修饰
把字句
把字动补
连动结构句
连动结构句
兼语句
兼语句
并列
补充
承继
复合关系句
条件
转折
因果
79
表4
不同年龄段汉语儿童语法结构数量值的描述性结果
个案数
平均值
标准差
最小值
最大值
3~4 岁
4~5 岁
119
83.55
41.908
1.000
250.000
103
98.87
49.031
1.000
515.000
5~6 岁
总计
119
128.31
72.826
0.000
487.000
341
103.80
59.436
0.000
515.000
基于上述的分析系统,我们计算了语料库中不同年龄段汉语儿童语法产出,获得儿童语法结构
数量值具有显著的年龄主效应的若干指标;与此同时,对语料中儿童语法结构产出总分,与平均句子
长度和平均五个最长句子长度水平做相关分析,结果显示,汉语儿童语法结构数量值与 MLGU(r=0.735,
P<0.001)和 MLGU5(r=0.504,P<0.001)均存在显著相关。研究发现,采用语法结构数量值作为儿童语
法发展评量的具体指标系统,3~4 岁时儿童的语法结构数量值为 83.55,4~5 岁时为 98.87,5~6 岁时
为 128.31,可见 5~6 岁时儿童语法结构数量产出更多。方差分析显示,儿童语法结构数量值具有显著
的年龄主效应(F=19.248,P<0.001),多重比较显示,5~6 岁组儿童的语法结构数量值要高于 4~5 岁
组和 3~4 岁组(PS<0.001),4~5 岁组也显著高于 3~4 岁组(P<0.05)。
应当说,我们在研究中依托国际儿童语料库建设的规则,进一步提升了汉语儿童语料分析的分
词、词法的规范性,建立起自动化的计算机词汇和语法分析层,构建了跨越 3~6 岁年龄段的大数据儿
童语言发展常模和评价指标系统。
三、基于语料库的汉语儿童语言发展评价指标运用
如前所述,已有国际研究证实,通过非正式评估进行儿童语言发展评价,收集儿童自然状态下的
语言样本并进行分析,具有较好的生态效度并对鉴定临床语言发育迟缓更具敏感度,因而有利于儿
童语言障碍治疗或干预计划的制定以及结果的监测。[42]研究者同时指出,借鉴语言样本分析指标作为儿
童语言发展水平和儿童语言障碍诊断的评估标准,在早期儿童语言障碍诊断的临床中具有较强的应用
价值。确立了汉语儿童语言发展的词汇与语法整体系统指标后,我们需要将此运用于语言障碍儿童的
实际语料运行中去,考察汉语儿童词汇和语法发展的整体指标对于预测语言障碍儿童的敏感性。
(一)汉语儿童词汇发展多样性水平指标的应用
汉语儿童词汇多样性(CvocD)发展常模,为我们构建了不同年龄段汉语儿童词汇多样性的基本
发展水平,从而展现汉语儿童语言发展过程中词汇成长的阶梯状态。尝试对语料库的智力落后儿童、
高功能和低功能自闭症儿童的语料进行评估,我们可以看到不同类型的汉语儿童在词汇发展方面的
差异。
CvocD
60
***
4 40
岁
均
值 20
0
CvocD
60
***
CvocD
正常儿童
***
低功能自
闭症儿童
40
均
值
20
正常儿童 弱智儿童
儿童类型
a
0
图3
正常儿童
60
高功能自
闭症儿童
40
均
值
20
0
4岁
5岁
年龄
b
4岁
5岁
年龄
c
汉语儿童词汇多样性水平比较图
80
考虑到儿童语言发展的基本规律,语言发展迟缓问题往往在 3 岁之后才有比较明显的症状呈
现,我们对 4 岁之后的两类儿童语料进行了诊断性分析。图 3-a 展示了普通儿童语言发展过程中词
汇多样性数量值与弱智儿童的发展差异,可以检测出弱智儿童在词汇水平上存在着发展障碍。运用
汉语 CvocD 对语料库收录的低功能儿童语料进行分析,同样地发现了低功能自闭症儿童存在着词汇
发展的困难,在 4 岁时的词汇发展落后情况,进入 5 岁后呈现愈加下降的态势(图 3-b)。与此同时,
我们运用汉语 CvocD 词汇多样性标准,对高功能自闭症儿童语料进行检测,发现高功能自闭症儿童
词汇多样性发展水平与普通儿童相比并不存在数量值的差异(图 3-c)。
(二)汉语儿童平均句法发展水平指标的应用
在数据库里运行 MLGU 指标,我们尝试进行汉语儿童句法发展水平的监测评估。研究发现,弱智
儿童和低功能自闭症儿童的平均句法发展水平与正常儿童发展常模均存在较为明显的差异,因而显
现出比较落后的发展态势(图 4-a 和图 4-b)。高功能自闭症儿童尽管在词汇多样性发展水平方面接
近正常儿童,但是他们的平均句法发展水平明显落后于正常儿童(图 4-c)。
MLGU
***
5
MLGU
6
***
***
4
4
4 3
岁
均2
值
正常儿童
5
低功能自
闭症儿童
4
MLGU ***
***
正常儿童
高功能自
闭症儿童
3
均
值2
均
值
2
1
1
0
正常儿童 弱智儿童
儿童类型
a
0
0
4岁
5岁
年龄
b
图4
4岁
5岁
年龄
c
汉语儿童平均句法发展水平比较图
(三)汉语儿童平均最长五个句子的句法发展水平指标的应用
如前所述,汉语儿童最长五个句子的平均句子长度(MLGU5)在评量儿童语法发展上具有较好的
敏感性,将此运用于特殊儿童的语言障碍检测,我们发现弱智儿童和低功能自闭症儿童与正常儿童
的差异(图 5-a 和图 5-b),与此同时,高功能自闭症儿童同样展现出与正常发展儿童的差异(图 5c),由此可以建议自闭症儿童语言干预的关注点。
15
15
MLGU5
***
***
4 10
岁
均
值 5
MLGU5
***
正常儿童
低功能自
闭症儿童
10
均
值
5
0
正常儿童 弱智儿童
儿童类型
a
图5
0
4岁
5岁
年龄
b
正常儿童
MLGU5
15
***
***
10
均
值
5
0
4岁
高功能自
闭症儿童
5岁
年龄
c
汉语儿童最长五个句子的平均句法发展水平比较图
(四)汉语儿童词汇类型和语法结构发展水平的分析应用
当我们进行语料库运算从而检测发现语言障碍的主要问题时,我们希望可以进一步评价监测语
言障碍的具体问题。如表 2 和表 3 所示,汉语儿童词汇类型和语法结构水平在不同年龄段也有成长
变化。运用这样的发展评价指标深入分析弱智儿童个案,我们发现在这名 4 岁弱智儿童的 1 年追踪
81
数据中,名词和动词的产出非常有限,缺失时间名词和抽象名词、存现动词和具体动作动词;量词、副
词、连词和介词方面,均未见使用。从句法结构上分析,这位弱智儿童在数量结构、宾语短语、宾语从
句这三类语法结构的产出上,与正常儿童存在明显差异;连动结构句法处于萌芽状态;复合句式基本
未见。因而与 CvocD、MLGU 和 MLGU5 结果相结合,可以判定该位儿童处于比较明显的语言发展落
后状况。这些问题的发现应当考虑纳入对这位儿童语言障碍的干预计划之中。
综上所述,我们的研究立足于计算机处理分析儿童语言的国际通用方式,基于 0~8 岁汉语儿童
不同年龄阶段的大量语料,构建了符合计算机标准的正常儿童语言发展的常模,探索了可以预测和
发现不同年龄儿童语言障碍存在的词汇发展与语法发展的指标系统,使得儿童语料输入后可以产生
与计算机分析标准对应的分析结果,基本形成符合汉语文化情境儿童语言发展评价的监测体系,为
儿童语言障碍诊断和干预的工作者提供有价值的基础信息。从儿童语言发展研究走向语言发展评
价,这个方面的研究仍然处于起步阶段,未来的道路漫长,期待更多的同行者一起继续前进。
参考文献:
[1] [17]MACWHINNEY B. The CHILDES project:tools for analyzing talk,volume I:transcription
format and programs[M]. New York:Psychology Press,2000:11-16.
[2][18][33]周兢.汉语儿童语言发展与语料库研究方法[M].北京:教育科学出版社,2009:1-39.
[3]COLLISSON B A,GRAHAM S A,PRESTON J L,et al. Risk and protective factors for late
talking:an epidemiologic investigation[J]. The Journal of Pediatrics,2016,172:168-174.
[4]TOMBLIN J B,RECORDS N L,BUCKWALTER P,et al. Prevalence of specific language im -
pairment in kindergarten children[J]. Journal of Speech,Language,and Hearing Research,1997,40(6):
1245-1260.
[5]NORBURY C F,GOOCH D,WRAY C,et al. The impact of nonverbal ability on prevalence and
clinical presentation of language disorder:evidence from a population study[J]. Journal of Child Psychology
and Psychiatry,2016,57(11):1247-1257.
[6]BISHOP D V M,LEONARD L B. Speech and language impairments in children:causes,charac-
teristics,intervention and outcome[M]. New York:Psychology Press,2000:115-130.
[7]WHITEHURST G J,ARNOLD D S,SMITH M,et al. Family history in developmental expressive
language delay[J]. Journal of Speech,Language,and Hearing Research,1991,34(5):1150-1157.
[8]RESCORLA L. Age 17 language and reading outcomes in late-talking toddlers:support for a di-
mensional perspective on language delay[J]. Journal of Speech,Language,and Hearing Research,2009,52
(1):16-30.
[9]LAW J C. The early identification of language impairment in children[M]. London:Springer Science
Business Media,2013:1-19.
[10]金星明.儿童言语语言障碍的临床治疗进展[J].中国儿童保健杂志,2002(05):328-329.
[11]张义宾,蒋忠心,张鸿启,等.我国单纯性语言发育迟缓/障碍儿童干预效果的元分析及其启示
[J].中国特殊教育,2016,196(10):19-25.
[12]RESCORLA L. The language development survey:a screening tool for delayed language in tod-
dlers[J]. Journal of Speech and Hearing disorders,1989,54(4):587-599.
[13]盖笑松,杨薇,邰宇.儿童语言样本的分析技术[J].心理科学进展,2009,17(6):1242-1249.
[14] [42]PAUL R,NORBURY C. Language disorders from infancy through adolescence:listening,
82
speaking,reading,writing,and communicating[M]. St Louis:Elsevier Health Sciences,2012:22-60.
[15]VAN DIJK M,VAN GEERT P. Disentangling behavior in early child development:interpretability
of early child language and its effect on utterance length measures[J]. Infant Behavior and Development,2005,
28(2):99-117.
[16]BERNSTEIN R N,MACWHINNEY B. Your laptop to the rescue:using the Child Language
Data Exchange System archive and CLAN utilities to improve child language sample analysis[C]//Seminars
in Speech and Language. New York:Thieme Medical Publishers,2016,37(2):74-84.
[19]HESS C W,SEFTON K M,LANDRY R G. Sample size and type-token ratios for oral language
of preschool children[J]. Journal of Speech,Language,and Hearing Research,1986,29(1):129-134.
[20]MALVERN D,RICHARDS B. Investigating accommodation in language proficiency interviews using
a new measure of lexical diversity[J]. Language Testing,2002,19(1):85-104.
[21]KLEE T. Developmental and diagnostic characteristics of quantitative measures of children’s lan-
guage production[J]. Topics in Language Disorders,1992,12(2):28-41.
[22]WRIGHT L,PRING T,EBBELS S. Effectiveness of vocabulary intervention for older children
with developmental language disorder[J]. International Journal of Language & Communication Disorders,
2018,
53(3):480-494.
[23]CRYSTAL D. On origin of LARSpecies[C]//BALL M,CRYSTAL D,FLETCHER P. Assessing grammar:
the languages of LARSP. Abington:Multilingual Matters,2012:4-11.
[24]朱曼殊.儿童语言发展研究[M].上海:华东师范大学出版社,1987:1-8.
[25]MIAO X,ZHU M. Language development in Chinese children[J]. Advances in Psychology,1992,
90:237-276.
[26][34]张显达.平均语句长度在中文的应用[J].听语会刊,1998(13):36-48.
[27]金志娟,金星明.学龄前儿童普通话平均句子长度和词汇广度研究 [J].中国循证儿科杂志,
2008,3(4):261-266.
[28]金志娟,金星明.学龄前儿童普通话平均句子长度的多因素研究[J].中国儿童保健杂志,2009,17
(1):24-25.
[29]孙悦.幼儿英语浸入式中儿童第二语言获得特征及发展水平的研究[D].陕西:陕西师范大学,
2010:29.
[30] 杨 琼 . 基 于 CHILDES 的 故 事 类 图 画 书 教 育 活 动 中 师 幼 话 语 分 析 [D]. 陕 西 :陕 西 师 范 大 学 ,
2014:11-36.
[31]黄雪云.新加坡英语家庭华族学前儿童的华语词汇和句法发展研究[D].上海:华东师范大学,
2017:126-160.
[32]王娟,薛梦,魏千惠.汉语聋生与健听生口语叙事和书面叙事发展特征的比较研究[J].心理科
学,2019,42(1):232-238.
[35]杨晓岚.4~6 岁儿童角色游戏情境中的同伴互动语言研究[D].上海:华东师范大学,
2018:60-100.
[36]李琳.汉语普通话语境下学前幼儿语言叙事能力发展研究[D].上海:上海外国语大学,2014:
113-124.
[37]王海娟.5~6 岁幼儿叙事能力发展特点及其语言影响因素研究[D].陕西:陕西师范大学,2017:
19-27.
[38]蒋忠心.新疆伊犁地区学前儿童学业语言发展研究[D].上海:华东师范大学,2019:178-239.
83
[39]周兢,李传江,杜丽君,等.新疆学前双语教育情境中民族儿童的汉语发展研究[J].华东师范大
学学报(教育科学版),2014,32(1):11-19.
[40]周兢.汉语儿童语言发展阶段新说[J].南京师大学报(社会科学版),1997(1):58-64.
[41]ALTENBERG E P,ROBERTS J A,SCARBOROUGH H S. Young children’s structure production:
a revision of the Index of Productive Syntax[J]. Language,Speech,and Hearing Services in Schools,2018,
49(4):995-1008.
The Computerized Child Language Analysis :Building a Non-standardized
Child Language Measuring System Based on Chinese Language
Development Corpus
Jing Zhou ,1 Yibin Zhang2
(1Faculty of Education,East China Normal University,Shanghai 200062 China;2Institute
of Brain and Education Innovation,East China Normal University,Shanghai 200062 China)
Abstract:This article presents a series of research results on Chinese language development evaluation
based on Chinese children’
s corpus. In recent years,different from using the traditional standardized language
assessment tools,CHILDES has begun to develop KidEval,a corpus-based evaluation system for children’s
language development to meet the practical needs. Based on Chinese children’s corpus,this study uses
the same computing model to develop the norm and evaluation index system ,in order to evaluate the
vocabulary and grammar development in children aged 3 ~6 years. This system including CvocD,MLGU
and MLGU5,can systematically predict and discover the vocabulary development and grammar development
problems of children with language disorders of different ages. The diagnostic results of language development
in both young mentally retarded children and autistic children are reported in the article. Researchers suggest
that the corpus -based language measuring system can provide valuable information for the diagnosis and
intervention of children’s language disorders.
Key words:corpus of child Mandarin,child language assessment,norm-referenced dataset,vocab-
ulary,grammar
84
Download