汉语监测研究十年_语料库论文

中国语言监测研究十年,本文主要内容关键词为:中国论文,语言论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

      语言监测是一项以语言学和应用语言学以及相关理论为指导、信息处理技术为主要手段、田野调查为基本方法的多学科学者参与的大规模的社会性语言工程,目的是及时反映语言生活状况,描述语言使用实态,以便对语言这种资源进行更好的开发和利用,实现保护语言生态、创建和谐语言生活的目标。中国的语言监测工程实施是从2005年开始的,迄今为止已经走过了十年。

      一 机构和资源

      中国的语言监测是在政府的支持和指导下开展工作的。2004年在教育部语言文字信息管理司的指导下,成立了国家语言资源监测与研究中心,教育部语信司分别与北京语言大学、中国传媒大学、华中师范大学、厦门大学、中央民族大学、暨南大学共建了平面媒体、有声媒体、网络媒体、教育教材、少数民族语言、海外华语六个分中心①。语言监测对象涵盖了最能代表大众语感的大众媒体和对一个民族语言发展影响最大的基础教育,既包括国家通用语言,也包括少数民族语言。

      语言监测工作主要是在国家语言监测语料库上展开。国家语言监测语料库包括三个子库:通用语媒体语料库、教育教材语料库和少数民族语言语料库。教育教材语料库已搜集了1900万字的教材语料;少数民族语料目前包含藏语、维吾尔语、哈萨克语、柯尔克孜语、蒙古语等语种,各语种的语料以每年2亿字词的规模增长;通用语媒体语料库分为平面媒体、有声媒体、网络媒体三个子库,每年以10亿字次的规模滚动建设,根据流通度来选择那些具有典型性和代表性的不同媒体中的语料。这些具有动态、流通特性的语料,记录了大众传媒的语言实态,反映了语言生活,是实施语言监测各项任务的基础资源。

      这些反映语言生活的语言资源是语言监测的基础,是语言监测的生命所在。正是在国家语言监测语料库的基础上,我们完成了一个又一个语言监测项目,获得了语言监测的成果。

      二 实践与成果

      在大规模语料库的基础上,我们做了一系列语言使用实态的调查,包括通用语媒体用字用语调查、新词语调查、字母词调查、网络新媒体语言调查、教材语言调查、少数民族语言调查,获得了很多宝贵的语言数据,发现了一些语言使用的规律。

      (一)通用语媒体用字用语调查

      2005年开始,每年都在10亿字次②的通用语媒体语料库上开展大规模的年度用字用语调查。尽管每年社会生活都发生很大的变化,但汉字使用表现了很强的规律性:每年大众媒体上使用的汉字在1万个左右;覆盖语料80%的汉字数量在600左右,覆盖语料90%的在1000以内,覆盖语料99%的在2400左右。这就给出了常用汉字不同等级的数量标准。汉语用词也表现出很强的规律性:每年大众媒体上使用的词语数量是跟语料规模成正相关关系的,语料规模越大,所用词语越多;10亿字次规模的语料大约使用词语220万左右;覆盖语料80%的词语数量在4700左右,覆盖语料90%的在13000左右。这也给出了汉语常用词语不同等级的数量标准。覆盖率达到90%,汉语最常用的字词数量可以概括为一个四字格——“千字万词”。

      随着社会的变化,不同年度所使用的字词也会发生变化,这可以从共用、独用角度看出。从汉字来看,各年度共用汉字都在65%以上,而各年度独用汉字基本都不到5%。如果用一个字来概括说明各年度汉字的使用状况,那就是“稳”。跟汉字相比,词语使用情况发生了相当大的变化。各年度共用词都不到10%,而独用词都占将近一半。相邻的两年来比较,共用词占30%左右,独用词占70%左右。如果也用一个字来概括说明各年度词语的使用状况,那就是“变”。看来,字是以稳为主,稳中有变,稳是主流;词是以变为主,变中有稳,变是主流。那么比词更大的单位句子呢,显然是变数更大,而比字更基本的单位——音节,要比字更稳定。这也证明了一个规律:语言单位越小,其稳固性越强,种数越少;语言单位愈大,其稳固性越差,种数越多。语言事实印证了洪堡特和乔姆斯基的语言观:语言以有限的形式实现了无限的表达。

      在通用语媒体语料库每年10亿字次规模语料得到的200多万词种中,出现最多的是人名,几乎占全部词语的三分之一,其次是机构名、地名、其他专名以及时间、数字表达式等;而普通词语,即语文词,仅占10%。但这些词语使用的频率是不一样的。普通词使用次数占91%,而人名、地名仅各占2%。如果把普通词以外的词语都归结为“命名实体”,那么“普通词语”和“命名实体”在词种分布和词次分布上有着巨大反差。占词种10%的普通词语覆盖了语料的91%,而占词种90%的“命名实体”仅覆盖语料的9%。这说明,普通词语的使用频度要远远高于各种命名实体。这就是语言使用的一种实际状态。

      2013年6月5日,国务院正式公布《通用规范汉字表》,调查通用规范汉字的使用情况成为当年的一项监测任务。我们将2013年度媒体所使用的11408个汉字与《通用规范汉字表》进行比对,获得通用规范汉字在媒体中的使用分布。调查发现,8105个规范汉字,在10亿字次的媒体语料中共出现7478个,这些规范汉字的使用频率总和覆盖了全部语料的99.992%。从通用规范汉字在语料中的分布情况来看,《通用规范汉字表》的分级、定量符合汉字使用规律。627个没有在媒体语料中使用的规范汉字,有217个是新收录的类推简化字,不可能出现在当年的语料中,其余的多是文言、地名、姓名、科技和方言用字。此项调查为社会用字规范提供了参考,也为通用规范汉字表随时间的动态微调提供了数据支持。③

      (二)新词语调查

      年度新词语调查是从2006年开始,已做到2014年。其间共提取出5264个年度新词语。④这些新词语记录下了社会发展的历史进程,从中也可以看出近些年来新词语产生、发展以及消亡的规律。

      与汉语现有词语以双音节居多不同,这5264个新词语以三音节居多,占46.26%,二音节和四音节的分别占21.56%和22.89%。三音节占优势与这些年来多利用词语模造词有关,以后缀“族”造成的词语有333个,“~门”162个,“~哥”69个,“~客”65个,“微~”212个,“被~”66个,“云~”57个,所有新词语中利用词语模造成的有1300多个,占整个新词语的25%左右。

      2006-2014年是社会转型期,又是网络文化,尤其是自媒体开始盛行的时期,出现数量多、使用小众化成为新词语的一个特点,而传播快、消亡快、生命周期短也是这一时期新词语的特点。年度新词语往往在第二年时就有三分之一不再出现,成为“隐退词”。另外,表达事件的词语多、表达新概念的词语多也是这一时期新词语的特点,这也是相当一部分新词语很快隐退的原因之一。

      (三)字母词调查

      字母词大量使用是新时期汉语书面使用系统最大的一个变化。关于字母词的使用问题,一直争议不断。有人提出了“汉语危机论”,认为像NBA、WTO、GDP这些外文缩略词的使用会使得汉语在300年后消亡,提出要打一场“汉语保卫战”。⑤汉语真的会消亡吗?字母词的使用到底是怎样的情况?应如何看待它?本着问题驱动的原则,我们对1990-2012年《人民日报》字母词的使用情况进行了调查。图1是23年间字母词词种使用变化趋势。

      

      图1显示,以2000年为界分成两段,前一段的11年间字母词数量上升较快,从每年使用300多个一直升到1000多个;2000年以后的12年间字母词数量略有上升,但基本上是在1000个左右波动。这似乎告诉我们:出于语言工具性的需要,汉语对字母词的吸收和使用不是无限制的,到达一定的量就会处于饱和状态。再看下页图2。

      图2实际是两幅图,下面是字母词词种使用变化的比例图,上面是词次使用变化比例图。这两张图与图1显示了同样的变化曲线和趋势。要注意的是数轴上的比例,词种比例是“千分之几”,1990年是千分之二,2000年是千分之五;而词次比例则是“万分之几”,1990年还不到万分之一,2001年几乎最高,也仅仅是万分之六。这说明字母词大部分是低频词,使用频次大大低于汉字词。

      字母词使用的稳定性如何,也可以通过年度间共用的统计数据来说明。《人民日报》23年间一共使用了近1万个不同的字母词,共用的字母词只有23个:ABC、BBC、B超、CAD、CCTV、CNN、CT、DNA、GE、IBM、NEC、NHK、PC、PVC、SOS儿童村、T恤、T恤衫、X光、X光机、阿Q、卡拉OK、维生素A、维生素C。而人们很熟悉的APEC、NBA、GPS、MBA、MTV等是1992年以后才开始使用的。GDP是23年《人民日报》语料中使用频次最高的字母词,1990年用过1次,1991年用了12次,但1992年没有出现。

      

      这个调查证明:(1)汉语不存在危机,不会因字母词的使用300年后消亡;(2)字母词使用很不稳定,绝大部分字母词是低频使用的,对大多数人是陌生的,应尽量少用;(3)应推动外文缩略词的汉化工作。

      我国已在2012年6月20日成立外语中文译写规范部际联席会议专家委员会,专门负责这项工作。在国家语言资源监测与研究中心数据的支持下,经过专家论证,2013年4月19日已公布PM2.5的中文名称为“细颗粒物”,9月13日发布了包括PM2.5、IT、IQ、WTO、WHO在内的10个外文缩略词的中文名称。2014年发布了两批外文缩略词的中文名称。相信随着这样的工作,汉语会朝着越来越健康的方向发展。

      (四)网络新媒体语言调查

      十年来互联网飞速发展,各种新媒体相继出现,从网络论坛,到搏客、微博,最后发展到微信,媒体的变化也带来了语言的变化。在调查博客语言使用状况时我们发现了一些很有意思的现象,比如不同性别的博客用户在使用词语上各有特点,下面是男性和女性使用最多的前10个名词⑥:

      男性:社会 问题 国家 政府 学生 文化 政治 历史 学校 大学

      女性:女人 男人 时候 女性 爱情 朋友 孩子 美女 明星 妈妈

      从这些词可以看出,男性更关注的是社会、政治;女性更关注的是家庭、生活。不知道这能不能说明:如果想回到—个人本社会的话,女性管理者、女总统可能更有优势。21世纪以来国家和地区领袖性别比例的变化似乎在证明着这一点。

      再如在微博语言调查⑦中发现,有68%的话题标签只使用一次,话题标签标示微博帖讨论的话题,这说明微博帖讨论的内容十分广泛,带有明显的个性化特点。另外,从“晒头像”“分享图片”“分享音乐”“空间照片”“漂流瓶”“街景微博”“QQ圈子”“云游四海”“分享高清MV”这样一些带有微博行为和活动特点的标签中也可以看出微博之所以受到年轻人喜爱的原因。

      (五)教材语言调查

      通用语方面主要做了基础教育教材以及汉语作为第二语言教学教材的调查,描写了教材语言使用的实态,对教材的进一步合理使用及改进有重要意义。比如对小学语文教材中的字种、字量、字序调查⑧,发现不同版本教材字量大致相同,基本在《全日制义务教育语文课程标准(实验版)》(以下简称《标准》)要求的2500字左右,但字种差别很大,调查的8套教材生字字种共计3855个,比《标准》要求掌握的2500字多出53.4%,其中有些还超出了3500常用字的范围。8套教材第1册共用生字只有33个,只占第1册生字总数773个的4.27%,这说明在汉字教学的最初阶段,应该选择哪些汉字来作为教学对象,即字序问题,还值得深入研究。

      再如对大陆与台湾地区小学语文教材的对比调查⑨,结果显示,无论是总字数、课文总篇数,还是每篇课文的长度,大陆地区的小学语文教材都要多于或长于台湾地区的小学语文教材。在相同的学制学时下,大陆的教材厚、课文多、教学内容多,导致学生负担较重。因此,需要对中小学语文教材的教学内容、教材容量加强研究,以改变教学内容愈教愈深、教材越来越厚的趋势,把中小学生的“减负”真正落到实处。

      对民国时期小学语文课本的调查⑩说明,民国教材有其理念的先进性,但作为现代汉语形成过程的产物,语言变异的痕迹还是比较明显,不宜直接照搬使用。

      (六)少数民族语言调查

      对少数民族语言使用状况进行调查,也是国家语言资源监测与研究中心的重要任务。从2009年开始,主要做了维吾尔语、藏语和哈萨克语的媒体用语和中小学语文教材语言使用状况的调查,其中大部分都是国内首次对该民族语言使用状况进行的实态调查,对了解民族语言实际使用状况有着重要意义。比如对现代维吾尔文网站用词情况进行调查(11),在550万词次的语料中获得了维吾尔文词尾、词干使用的基本状况,首次给出了维吾尔文网站高频词尾列表(32个),发布了维吾尔文网站高频词干表(1000个)。

      除此之外,还对海外华语使用状况进行调查,主要调查了东南亚地区媒体和小学语文教材的语言使用状况。

      上述语言监测的成果大都收录在各年度的中国语言生活绿皮书《中国语言生活状况报告》中。目前,这个绿皮书系列已经被译为英文在德国德古意特出版社出版,在全世界发行;韩文版也即将面世,为中国学术走向世界做出了有益的探索和尝试。2006年开始在商务印书馆出版新词语编年本,每年一本,记录当年的新词语,以反映社会历史的变化。此外,国家语言资源监测与研究中心还做了一系列的发布工作:

      (1)中国主流报纸十大流行语的发布(2003-2006)

      (2)中国媒体十大流行语的发布(2007-2014)

      (3)中国媒体十大新词语的发布(2011-2014)

      (4)中国十大网络流行语的发布(2012-2014)

      (5)汉语字词盘点(2006-2014)

      这些都在社会上产生了很大影响,引起广泛的关注,主流媒体包括《新闻联播》《焦点访谈》等都给予了相关的报道。从2003年发布报纸流行语开始,经过十几年的坚持,现在,用语言盘点社会生括已经成为一场盛宴、一种新的年俗。每到年底,人们都会期待着、猜测着:能代表今年的是哪些字、哪些词?

      语言监测还应包括对语言文字舆情的关注和把握。2013年1月1日开始,利用我们自己研发的语言文字舆情监测系统(程南昌,2013)实时监测语言文字舆情动态,抓取相关信息,经过筛选提炼,形成半月期的内部参考《语情信息》。教育部语信司与武汉大学共建的“中国语情监测与社会发展中心”也在密切关注语言文字舆情,从2010年开始,每季度发布带有一定深度分析的内部刊物《中国语情》。

      三 理论与技术

      作为一项语言工程,语言监测有三个支撑点:资源、理论、技术。资源是语言监测的基础,是语言监测获得生命的源泉;理论是语言监测的指导,使之科学健康地发展;技术是语言监测得以实现的保障。

      在语言监测的实践中,除了使用现有的语言理论,我们还提出了一些理论模型,如语言动态-稳态理论、相对时间理论(张普,2009)、词汇时空运动模型(何伟等,2007)、语言监测框架体系等等。

      “历时中包含有共时,共时中包含有历时”(张普,2003)是动态语言知识更新的核心观点,也是实施语言监测的理论基础。历时,就是以确定的、连续的时点或时段(比如,一天、一个月、一年……)作为观察语言的窗口,以年度媒体语言数据作为语言监测的基础资源,进行字、词语、新词语、流行语等的调查与比较,历时强调的是语言数据按照时间分布的情况;共时,是对应历时时点、时段上的任意一个横切面,在这个切面上要考虑语言的空间分布,语言监测中每一个年度的语料,都要考虑媒体、地域、领域等分布,指导实施语言监测的语言数据资源建设。在历时、共时的维度下,语言中的每一个元素都具有历时、共时的属性。历时与共时的相互包含和融合,是寻找、发现以年度为节点的语言动态与稳态现象的哲学思想。

      建立词汇时空运动模型的根据是,词汇系统中的每一个词语都有自己的运动轨迹,都可以从时间和空间这两个维度去考察。词汇的时空运动可以通过它在词汇系统中分布空间在时间上的变化来表示。可以用归一化使用率、使用率比、速度函数作为词汇时空运动模型的特征集。这样就可以将常用词、流行语、新词语、字母词、术语、突发事件用词等各类不同词汇现象纳入一个统一的理论模型中,满足了各年度《中国语言生活状况报告》发布任务的需要。

      下页图3是我们提出的语言监测框架体系图。

      语言监测框架体系将语言监测分为自底向上、前后衔接的四个模块:语言资源—技术平台—监测数据—实现服务。其中语言资源是基础,为语言监测提供原料;技术平台是支撑,语料经过技术平台的处理才能变成有用的数据;数据是监测的结果,它们要通过一定的平台发布出去,才能实现服务国家、服务社会、服务学术的功能。语言监测通过共享机制实现它的服务功能,又通过评测机制不断改进完善。

      除了语言理论指导,语言监测还需要现代技术的支持,如果没有一个能支持下述各项功能的技术平台,语言监测就无法实现。

      (1)文本语料的自动采集、分类、标注、储存;

      (2)语音语料的采集、存储、检索,方便查找词语读音;

      (3)提取分类语料形成子语料库;

      (4)大规模语料的自动分词、词性标注;

      (5)字频、词频统计功能;任意字符串、词串的检索;

      (6)凸显语言新现象,以便于提取新词语、流行语;

      (7)凸显特定词语,以便于提取与社会发展变化密切相关的词语(机构名、人名、姓氏、字母词、文化元素等);

      (8)语言文字舆情检测、分类、跟踪及分析;

      (9)热点话题识别与跟踪;

      (10)对舆情文本进行倾向性分析;

      (11)……

      历年的语料采集、字词语调查、新词语、流行语、网络用语等提取,已经形成了成熟的支持海量语料数据处理的技术路线和流程(杨尔弘,2010)。

      

      语言监测研究属于交叉学科性质,在调查报告撰写中使用了不少术语。这些术语及定义多数学术界本已有之,但因分属于不同学科而不便查找使用,有的是基于监测研究实践中的某些新认识而逐渐形成的一些专门的、比较凝固的、需要经常使用的词语,也姑且称之为“术语”。为了解决术语不统一所带来的困惑,同时也为了方便读者阅读和使用语言监测的调查报告和数据,我们搜集、整理并公布了《语言资源监测与研究相关术语》,每年都出一个新的版本,不断补充、修改,使其逐渐完善(12)。

      四 语言服务

      语言服务是语言监测的终极目标,包括为国家服务,为社会服务,为学术服务。

      为国家服务主要是为政府决策服务。中国语言资源监测与研究中心承担着语言智库的责任。语言监测提供的一系列数据,如常用字词数据、字母词使用数据、网络词语使用数据、外文人名地名使用数据、火星文使用数据等,为国家语委语言文字规范和标准的制定提供了有力的支撑;我们撰写的一系列咨政报告,如《外文缩略词的使用状况及对策建议》《台湾地区小学语文教材容量只有大陆教材一半》《小学语文教材不宜回到民国时代》《政府应加大对民族语文网站的支持力度》(13)等,为国家制定语言政策及语言教育政策提供了重要的参考。

      为社会服务主要是为公众服务。国家资源,要取之于民,还之于民。每年的数据发布可以引导民众关注语言生活,把握语言国情,冷静客观地看待和应对语言生活中的各种新变化和歧异现象,以构建和谐的语言生活。

      为学术服务可以分为在线和线下两个渠道进行。

      在线:主要是利用各中心的网站公布语言资源、技术资源及文献资源,实现最大限度的资源共享。如有声媒体语言资源网的在线共享资源“媒体语言语料库(MLC)”“媒体语言在线分词标注系统”“新词语研究资源库”“新词语公示系统”,以及“同音字汇自动生成系统”“平行语料检索系统”多语种语料检索系统”等免费下载的语言研究软件工具(14)、平面媒体中心网站的“DCC动态流通语料库”(15)等等。

      线下:采用合作研究的方式,用语料、数据及工具支持兄弟院校和科研机构承担的研究项目以及国内外语言研究人员,尤其是一些博士生、硕士生以及本科生的研究课题。

      综上可以看出,语言监测工作包括三个基本元素:语言+计量+社会,它的目标就是运用计量的方法,了解语言生活,把握语言生活;用语言这把尺子来丈量社会,从语言这面镜子中观察社会,反映社会生活,进而借助语言的力量推动社会朝着和谐健康的方向发展。珍爱中华语言资源,力图把语言研究与社会生活、国家发展、语言服务紧密联系起来,就形成了生长于中国大地的、不同于以往、也不是跟在洋人后面的语言学流派——语言生活派。这个学派的研究特点是接地气、求真知、重实用。我们将会沿着这个方向继续前行。

      ①因考虑海外华语不宜作为监测对象,海外华语研究中心单设,国家语言资源监测与研究中心只含其余五个分中心.

      ②2005年因第一次做调查,规划不周,语料为7亿字次,2006年开始每年为10亿字次,包括报纸、广播电视、网络新闻,语料量的比例为5:1:4.

      ③参见参考文献[1]至[10].

      ④参见参考文献[11]至[19].

      ⑤傅振国《英语蚂蚁在汉语长堤打洞》,人民网-强国社区,2009年11月25日,http://www.people.com.cn/GB/32306/33232/10449570.html;傅振国《300年后汉语会消亡吗?》,《文汇报》2010年2月28日.

      ⑥教育部语言信息管理司组编《中国语言生活状况报告2012》第276-277页,商务印书馆,2012.

      ⑦教育部语言信息管理司组编《中国语言生活状况报告2014》第294-296页,商务印书馆,2014.

      ⑧国家语言资源监测与研究中心编《中国语言生活状况报告2009》下编第435-458页,商务印书馆,2010.

      ⑨教育部语言信息管理司组编《中国语言生活状况报告2013》第234-240页,商务印书馆,2013.

      ⑩教育部语言信息管理司组编《中国语言生活状况报告2014》第101-108页,商务印书馆,2014.

      (11)国家语言资源监测与研究中心编《中国语言生活状况报告2009》下编第465-483页,商务印书馆,2010.

      (12)参见参考文献[3]至[8].

      (13)参见参考文献[25]、[26].

      (14)网址:http://ling.cuc.edu.cn.

      (15)网址:http://dcc.blcu.edu.cn/main.action.

标签:;  ;  ;  ;  

汉语监测研究十年_语料库论文
下载Doc文档

猜你喜欢