来源:心理与认知科学学院

蔡清教授团队在实验与认知心理学国际知名期刊Behavior Research Methods发表研究成果

来源:心理与认知科学学院发布时间:2022-07-07浏览次数:423

首个大规模汉语儿童分级字词数据库CCLOWW上线

阅读能力是儿童认知发展中的一项关键能力。儿童在达到一定认字水平后,将通过阅读来学习大部分知识,阅读能力也因此与学业成就和多种认知能力紧密相关。儿童阅读障碍问题近年来也越来越受到关注,在中国,检出率大约为3.5%-9.7%,并且阅读障碍儿童的抑郁和焦虑症状发生率分别为正常儿童的2倍和3倍。可见,阅读如果出现困难和障碍,将对儿童的学业发展和个人成长产生深远的负面影响,并带来一系列其他广泛的社会问题,例如就业困难、精神健康问题等。

阅读能力的发展受到语言环境的巨大影响,儿童发展早期所接触的各类读物是重点信息输入来源,因此在了解与研究儿童阅读发展的规律时,一个重要角度就是了解不同发展阶段的儿童读物中语言文字的特征。但由于中国儿童阅读分级体系尚未完善,儿童教育市场现存的读物门类繁多,导致阅读发展的数据基础建设遇到诸多阻碍,故当前亟需建设针对性的分级字词数据库,为儿童阅读发展相关研究提供基础素材。

近日,华东师范大学心理与认知科学学院蔡清教授团队在实验与认知心理学国际知名期刊Behavior Research Methods发表题为CCLOWW: A grade-level Chinese children’s lexicon of written words的论文,介绍了课题组搭建的目前最大规模汉语儿童分级字词数据库CCLOWW。该数据库基于教育部指导课外书目、人教版教科书、童书销售榜单、绘本库等语料来源,收集了共计2131本、超过3400万汉字的儿童读物,涵盖文学、艺术、科学、历史、数学、生物等多种主题,按照二年级及以下 (G2)3-4年级 (G34)5-6年级 (G56)三个阶段,进行了字词频、上下文多样性、词性等字词语言特征数据的详尽分级统计分析。



1. CCLOWW数据库分级方案


通过对该数据库的分析,我们发现了以下几个儿童阅读文字的发展性特点:13-4年级之前的阅读习得以汉字为主,5-6年级的阅读习得以词语为主。这与汉语文字体系中以字为基础而词为主要表意单位的特征相符。2)随着年龄发展,儿童阅读的单字词占比逐渐下降,而多字词占比逐渐上升,表明儿童学习的词汇复杂性逐年增加。3)极低频字词(每百万出现频率低于1次)占比逐渐上升,到5-6年级与成人词频分布趋近。4)词汇的平均上下文多样性随年级递减,多样性极低词汇占比增加(上下文多样性指标衡量词汇出现的文本数量,与词频相比,排除了同一文本中词汇多次出现的冗余信息,关注词汇蕴含的语义主题)。词频和上下文多样性的变化表明随着年龄发展,儿童阅读内容范围的扩大,开始接触只在某些特定主题中出现的词汇,比如,相较于2年级及以下,3-4年级出现了“国君”、“诸葛亮”,表明了更多人文历史类文本的出现,而相较于3-4年级,5-6年级出现的“ 蛺蝶”、“智能体”则表明了更多生物和科技类文本的出现这些分析揭示了汉语儿童读物中语言文字的发展性规律。

此外,在心理语言学研究中,词频是词汇表征强度的关键影响因素之一,常被用来预测词汇加工的效率。在词汇识别任务中,相较于低频词,人们对高频词汇识别的正确率更高、反应时更短(即速度更快),因而高频词被认为在心里辞典中具有更强的表征。通过一系列儿童字词加工实验任务,我们首先验证了CCLOWW数据库中字词频对儿童字词加工效率的良好预测效果,其预测力优于其它基于小规模语料的儿童字词库。此外,我们还发现,CCLOWW词频也能显著预测成人的词汇加工效率。更重要的是,在成人词频 (SUBTLEX-CH数据库,Cai & Brysbaert, 2010的影响之外,CCLOWW儿童词频也有显著额外贡献,这表明成人词汇表征的强度也受早期阅读经验的影响,进一步证明了儿童早期阅读教育的重要性。

为了方便研究者、家长和教育工作者使用,促进汉语儿童阅读的研究与实践更好地发展,我们已将CCLOWW进行了公开线上发布(https://www.learn2read.cn/database/)。用户可根据需要,选择分级的子数据库或完整数据库 (Corpus),字、词或词元 (Category),词长 (length)、字词频 (Freq.million)、上下文多样(logCD)的分布范围,进行字词语言数据的搜索和下载。搜索页面提供了对以上选项的说明 (How to use)。在论文中,对上述指标进行了更详细的介绍和特征数据分布情况的分析。CCLOWW数据库后续将纳入更多的字词语言特征指标,如语义丰富度、语义多样性、句法分析等。


2. CCLOWW数据库搜索页面


此外,蔡清教授团队正在搭建基于动画语言的字词数据库,关注学前和低年级儿童的语言输入,该数据库将与CCLOWW数据库结合,揭示覆盖儿童前阅读阶段到阅读全面发展阶段的完整发展轨迹,进而推动契合语言发展规律的教育方法,以及提升相关教材、读物及课程设计的规范化、适应性及科学性。

华东师范大学心理与认知科学学院蔡清教授为本文的通讯作者,博士后李鸾为第一作者,硕士生杨阳、宋明、方思怡为本研究做出了重要贡献。南京师范大学陈庆荣教授参与了本研究。研究得到了国家自然基金面上项目(31970987)和上海市科学技术委员会(19JC1410100)的资助。

论文信息:

Li, L., Yang, Y., Song, M., Fang, S.-Y., Zhang, M.-Y., Chen, Q.-R., Cai, Q. (2022). CCLOWW: A grade-level Chinese children’s lexicon of written words. Behavior Research Methods. DOI: 10.3758/s13428-022-01890-9.

Cai, Q., & Brysbaert, M. (2010). SUBTLEX-CH: Chinese word and character frequencies based on film subtitles. PloS one5(6), e10729.

                                                  撰文:李鸾