汉语新词和流行语的收集与定义_语料库论文

汉语新词与流行语的采录和界定,本文主要内容关键词为:汉语论文,流行语论文,新词论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

近年来汉语新词研究已成热点课题,并已出版多种新词词典,如《新华新词语词典》[1]、《新词语大词典》[2]、《21世纪华语新词语词典》[3]。同时,怎样界定新词、采录新词?如何研究新词?如何看待新词?也成为学界、媒体甚至社会大众关注的论题。本文拟就新近在《中国语言生活状况报告(2006)》中公布的《2006年汉语年度新词语》和笔者所编《21世纪华语新词语词典》[4,5],探讨这些问题。

一 语料库、新词的源流和采录的科学性

研究词汇与研究语音、语法有所不同。一种语言中的语音或语法系统是封闭性的,找一个合适的发音合作人(informant),来提供语音和语法资料,如果问题表(questionnaire)或调查项目得当,所得的资料可能有较高的代表性。但是词汇是开放性的,难以穷尽的,词汇牵涉社会生活可以说是全方位的。从个人或少数人收集的语料,其代表性令人怀疑。尤其在社会变革剧烈的年代和不同文化频繁接触的时代,更是如此。词汇变化本来就比语音和语法快,在这样的时代变化更快。如果研究者采用自身反省、推理的方法来探讨一个语言现象,难免有遗漏。以个人或少数人的语料为依据,可靠性不够。如果采用随机抽样的实地调查方法,简单地把结论延伸到整体,也往往缺少说服力。不过,如果我们把焦点放宽,以具有代表性的平面媒体作为一个群体,并以它的语言现象的总和作对象,就会使结论较为可信。现代信息科学为社会语言学研究提供了更为有利的、方便的条件,使我们有可能处理大量的群体语言资料,也可以有计划地按照自己的意图去抽样。

可以用于比较研究的语言资料,新闻报章是相当合适的,尤其是那些在当地有代表性的受欢迎的综合性报章,它们能最直接、最迅速地用书面语言传送现实社会及大众所关注的信息。也正是由于这个原因,这些报章文字也最能反映其时其地读者所处的社会及其所使用的语言,即能全方位反映时代面貌和当前的社会生活。大众媒体的长期过滤,对新词能否存活,也是很好的考验。

基于上述认识,香港城市大学语言资讯科学研究中心于1994年建立了《各地中文共时语料库》(LIVAC:A Synchronic Corpus of Linguistic Variation in Chinese Communities),已有10多年的历史。每隔数天定时、定点、定版(范围)、定量采录一次香港、北京、上海、深圳、台北、澳门和新加坡七地主要报刊的语料。内容包括社论、第一版的全部内容、国际和地方版的主要内容、文娱、体育、经济新闻以及一些特写和评论。至今储存的语料已有经机器分析和人工处理的2亿多字、内部词库1百多万词条,可供上网初步检索,也可用作多方面研究与开发IT的基础。请参阅我们的网址:http//www.livac.org[6]。这样的语料库具有连续性和惯常性的特点,最适合收录和研究新词。

这个语料库有3个基本分库:新词词库、复合词(短语)库和一般词库。

有了这样的语料库,就可以就不同的专题,选取相应的资料,把它们展现在同等的“视窗”内。“视窗”式的社会语言学研究方法是我们首倡的,并付诸实施,结果十分理想。我们采用定时间定地点的“视窗”式抽取语料的方法,把同一个镜头对准同一时限各群体的语言现象,获得较为全面的文字资料及丰富的词例,据此进行全面的统计分析。有了视窗式的研究方法,既可以在同等可靠的客观条件下观察到同一时期不同地方的群体语言使用情况,又可以观察到同一地方不同时间的群体语言使用情况。通过视窗来搜集和观察语料可以避免研究工作的盲目性、随意性和收录者个人的任意性,并且可以实现定量、定性、定点研究。通过这种比较科学地采录样本的方法,大大提高新词收录的科学性。正如研究鱼类的分布,就要在同样的地方、同样的时间,用同样的方法来观察鱼的种类、数量等。要收集雨量与雨水的质素,就要做到定点定时定性。例如在北美洲北部区域,有一种蝉的生命周期为17年,被称为“17年蝉”(17-Year Cicada),如果科学家的研究年限少于17年,就不可能知道这种蝉的生命周期了。

新出现的词汇是否入选,作为有资格“新词”,一个重要的依据即是是否已达到一定的使用频率。而语料库是频率统计的最好帮手。主要根据频率的多寡,可以把新出现的词汇分成四类:常用新词、准常用新词、准边缘新词、边缘新词。以香港为例,从1997年至今,10年以来产生的新词汇就可以分为以下四类:

(一)常用词

使用频率已稳定,并成为香港常用词语,如“归属感”和“黄金周”。

1 归属感

指一个人对某一事物的从属感觉。香港自回归以后,很多人都谈论港人对国家的认同,如究竟视自己为“中国人”还是“香港人”;对国家的感情又有多少等。有人也称为“认同感”。

2 黄金周

2000年开始,内地统一调整春节、劳动节和国庆节的三个假期,把前后的两个周末和法定的三天假期集中,形成连续七天的假期。目的是推动假日经济,鼓励市民消费。由于商家能够从中制造赚钱商机,因此称为“黄金周”。黄金周吸引很多内地游客趁着黄金周到香港旅游,而有利于香港经济。

表1 归属感

表2 黄金周

(二)准常用词

使用频率逐年递增,呈现上升的趋势,如“香熏:水疗”和“HDTV:30”。

3 香熏:水疗

“香熏”以植物的挥发油为医疗和美容方法,“水疗”以温水冲击按摩或治疗身体。它们都是近年香港新兴的医疗方法,可舒缓身体疲劳及调剂紧张生活,据说也有美容作用。而“水疗”因更为时髦流行,又渐取代“香熏”。

4 HDTV:3D

“3D”是“Three Dimension”的简称,意指“三维空间”,采用了立体空间的概念,比起“2D”更有立体感及真实感。“HDTV”是“High Definition Televsion”的简称,意为“高清晰度电视”,是新一代的电视科技,可提高影像质素及效果,比现在电视更清晰。

表3 香熏:水疗

表4 HDTV:3D

(三)准边缘词

曾达到相当的使用频率,近年词频大减,如“冰鲜鸡”和“流感针”,它们今后会否消失,拭目以待。

5 冰鲜鸡

由于禽流感袭港,香港曾经一度停止输入活家禽,只容许输入“冰鲜鸡”。“冰鲜鸡”指的是屠宰后的鸡只立即在摄氏0度至4度下处理,妥善包装后,才可输港出售。

6 流感针

为了预防大型爆发流行性感冒(流感),香港政府呼吁市民及早接受疫苗,俗称“流感针”,以增强抵抗力。2004年香港政府输入了约一百万支流感针,只足够不到六分一香港人使用。

表5 冰鲜鸡

表6 流感针

(四)消亡词

近年已经被边缘化,甚至已从人们的记忆中消失,如“千年虫:千禧年”和“抗炎:零感染”。

7 千年虫:千禧年

电脑内部系统采用两位数字来表示年份(即98表示1998年)。当踏入千禧年(1999年12月31日后),“00”则会被计算机理解为“1900”年,计算机的运作因而倒退100年,由此可以触发数码世界的灾难性混乱。这种问题被称为“千年虫”(millennium bug)。曾引起世界各国的特别关注。

8 抗炎:零感染

2003年,香港爆发非典,全城恐慌。幸好全港市民上下一心,合力对抗非典型肺炎疫症(抗炎),使香港在短短几个月内,已经回升至零感染,并且获得世卫组织把香港从疫区名单中除名。

表7 千年虫:千禧年

表8 抗炎:零感染

这四类中只有第一和第二类才能取到“新词”的资格。第三类有待考察,例如“擒人节”。第四类是不能采录的,例如“维港汇”。

利用现代信息技术手段自动提取“新词”,技术手段和研究成果都已成熟,我们利用上述语料库,已经成功实现“自动提取”。即首先通过机器,选取在某一时间段内(例如2006年全年),在某一地区首先出现、或若干地区同时出现、或之前已曾在其它地区出现而渗透转移至另一地区出现的词语,再通过人工论证、查阅出处及对比等多种方法,以决定是否属“新词”。附录A和B就是用LIVAC语料库提取的2005年度和2006年年度汉语新词语选目。其中有一大部份已经入选笔者所编《21世纪华语新词语词典》。

二 汉语新词的多元化倾向和新词鉴定的科学性

“现代汉语”是在各地华人地区通用的语言。以往对“普通话”词汇的定义是“以北方方言为基础”。近30年来出现很多来自港台的新词,再者,现代汉语也是世界性主要语言,故应以更广阔的视野来发掘新词, 目光不宜只局限于以北京为中心的大陆北方地区。

新词在始生阶段大多有多元化倾向。

第一,一个新的外来概念输入初期在不同地区,甚至同一地区往往有两个或多个词汇来表达。例如Internet10多年来共有9个相对应的词:国际联网、网际网路、互联网络、互联网、信息网、交互网、网际网络、递讯网、因特网。每一个词都用于两个以上地区。这9个词互相竞争的结果,是“互联网”取得明显的优势,它在各地的出现频率逐年提高,从2000年开始,除台湾仍继续使用“网际网路”外,其它地区最常用词,经时间磨练,己趋向一致使用“互联网”,京沪两地“互联网”与“因特网”的使用比率也从6:4,渐变为7:3和8:2。以至到2001年在香港、澳门、新加坡、上海和北京5地都已高居首位。只是在台湾“网际网络”最常用,“互联网”是次常用词。这种情况一直延续到2006年。见表9。

年份 香港 澳门 台湾 新加坡上海 北京

1

95-96

最常用 国际联网 国际联网 网际网路 网际网络 互联网络 互联网络

次常用 互联网互联网络 - 国际联网 信息网交互网

2

96-97

最常用 互联网互联网络 网际网路 网际网络 互联网络 互联网络

次常用 互联网络 国际联网 网际网络 递讯网互联网互联网

3

97-98

最常用 互联网互联网网际网路 网际网络 因特网因特网

次常用 互联网络 因特网互联网信息网互联网互联网

4

98-99

最常用 互联网互联网网际网路 网际网络 因特网互联网

次常用 网际网路 因特网互联网互联网互联网因特网

5

99-00

最常用 互联网互联网网际网路 网际网络 因特网因特网

次常用 互联网络 因特网互联网互联网互联网互联网

6

00-01

最常用 互联网互联网网际网路 互联网互联网互联网

次常用 互联网络 因特网互联网网际网络 因特网因特网

7

01-02

最常用 互联网互联网网际网路 互联网互联网互联网

次常用-

因特网互联网网际网络 因特网因特网

B

02-06

最常用 互联网互联网网际网路 互联网互联网互联网

次常用-

因特网互联网 -

因特网因特网

表9 互联网(Internet)(资料来源:香港城市大学语言资讯科学中心LIVAC语料库)

第二,在不同地区产生的新词在地区之间往往互相渗透。例如“的士”本是港澳粤语词,今北京和上海也用,并已衍生出多个新词“打的、残的、的哥”等。“计程车”本是台湾地区词,今香港、澳门、新加坡也用。“泊车”(park)本是港澳粤语,今新加坡、上海也用。“拍拖”本来是粤语,今台湾、新加坡也用。“资讯”本是海外汉语,今大陆也用。只有“德士”仅用于新加坡,“差头”仅用于上海(旧时上海的出租汽车按时付费,20分钟为“一差”。“一差”意谓“出一次差”。故称出租汽车为“差头”)。方言词汇的地域界线越来越模糊。

在《21世纪华语新词词典》所收各地1539个新词中,各地普遍使用的只有635个,占41.26%,大半都是一地独有,或两三地都流行的词。见表10。

表10 各地新词数量百分比表

三 “新词”界定的原则

词汇是一个开放的系统,不同的个人、人群(如医生)、一般社区、多元社区所能掌握和使用的词汇也不甚相同,所以不同的个人、人群或社区感受到的新词也会不同。如果把个人、某一人群或某一社区以前没体验的词算作新词,那么新词的界定会有太大的任意性,而缺少科学依据。我们认为界定新词可以遵循以下原则。

(一)地区性。同一种事物,不同地区有不同的叫法,例如“沙士”(港台地区)与“非典”(京沪内地)。另外,某些地区的已有词语,通过渗透或转移进入其它地区,变成其它地区的新词语。例如粤语区的“埋单”、“搞掂”,传入内地非粤语地区成为“买单”、“搞定”。

(二)时间性。不见于以往的年代,新近出现,指称新事物、新概念。例如:假唱。有可能在某一地区是旧词,但新近在另一地区使用并流通,在另一地区则是新词。例如:埋单、炒鱿鱼、房车、摆上台(香港旧词进入大陆);分析、体认、威权、背书(台湾旧词进入大陆);劳模、特困、演播、窝心(大陆旧词进入香港)。

(三)广用性。社会各阶层广泛使用,并不是限于某一社会阶层的“社会方言”(与“地域方言”相对)。例如有的科技词汇只用于科技界,许多网络词汇只用于年轻的网民。

(四)频用性。有比较高的使用频率。使用频率过低的词语,应该还没有为社会大众所接受,是否能成为汉语的一员,还有待时间的考验。

(五)稳定性。有些新出现的词稳定性不明朗。例如语义不显豁的缩略词:癌母(患癌病的母亲)、完庭(法庭审讯结束);或故意谐音词:钢丝(郭德纲的粉丝)、弦途(谐音“前途”)。

四 新词与“地区词、流行语”等的辨别

新出现的任何词语不是都有资格入选“新词”行列,特别是对似是而非的“新词”的资格必须经过慎重审定。

(一)新词与流行语的异同。流行语是某一时段在社会大众中流行的词语,其中有一部分稍用即逝,没有生命力,不过也有经得起时间考验,有了稳定性,从而成为现代汉语新词。流行语可以是词,也可以是短语或句子,甚至口号。例如“上海社保基金案、福寿螺患者、2时歇业令”等似乎还没有取得“新词”资格。

(二)新词与义项增加的旧词。义项增加的旧词可视为新词。例如“下岗”,本义为“离开执行守卫、警卫等任务的岗位”,新义为“失去职位”。

(三)新词与词义扩大的旧词。以前已有的旧词,现在又重新赋予新的意义,或是意义有所转变的词可视为新词。例如“福娃”,原指民间泥塑小娃娃,今又指北京2008奥运会吉祥物。

(四)网络词语与新词。网络词语缺少稳定性和广用性,大多生命短暂,或只用于网民这一特殊阶层的社会方言。例如“晒客”,网络词语,特别是词源,值得进一步深入研究。目前可酌收己进入平面媒体的词语,如“博客”。未流行的不收,如“骨性、晒、晒客、网络晒衣族、轻熟女”。

(五)字母词和新词。字母词可分两大类:一是纯粹字母词,如AA制(费用均摊);二是用字母和汉字复合而成的词,如IP电话(网络协议电话)。已经行开的字母词是汉语的一员,应收。未流行还需讨论的待收,如“PK(单挑)、DV”(数字录像摄录机)等。

(六)新词与新短语(复合词)。“族、吧、节”等后缀词可酌收个别有代表性的。

(七)新词与词性变化的旧词。有些词近年来词性有所变化,我们不视为新词,不予收录。例如“清洁”、“服务”原是形容词,今也用作动词,如“清洁环境,人人有责”。有些词近年来搭配关系有所变化,我们不视为新词,不予收录。例如“打造”作为及物动词,所搭配的宾语原来都是具体的对象,例如“打造黄金戒指”。现在也可以后接表示抽象事物的宾语,例如“打造城市形象”。

五 试评《2006年汉语年度新词语》

《中国语言生活状况报告(2006)》有《2006年汉语年度新词语》一节,列出该年度新词选目171个。按年度公布新词,对于社会语言学、词汇学和语言规划研究都是很有意义的,也是值得倡导的。

初看这171个“新词”,其中有一部分媒体罕见,其新词资格颇可疑,似可从不同途径重新检验。上述《2006年汉语年度新词语》(下称《06年新词》)所依据的语料取自《新京报》、《北京晚报》等30多种报纸和网络文字。为了重新检验这些新词的资格,我们选取网上载录的21种有代表性的平面媒体(见表11),其中有11种与《06年新词》所据报纸相同。

北京晚报 北京青年报

中国商报 中国青年报

大河报光明日报

新京报南方周末

今晚报羊城晚报

法制日报 扬子晚报

南方日报 新民晚报

人民日报 新周刊

深圳晚报 华西都市报

深圳特区报文汇报(上海)

表11 已上网的21种平面媒体

检查结果如下:

在这171个词语中出现频率为0的就有32个,占18.71%。这些0频率的词语是:半糖夫妻、笔替、村证房、盗版党、等额配比基金、丁宠家庭、冻容、独二代、二奶专家、返券黄牛、飞鱼族、复古学堂、海缆断网、节奴、啃椅、垄奴、慢活族、迷卡、暖巢管家、陪拼族、轻熟女、润滑经济、试药族、囤房捂盘、捂盘惜售、压洲、洋飘族、移动商街、职粉、众包。

出现频率在1-10次之间的有83个,占48.54%。

频率在100次以上的虽然有15个,但是其中有四个:“空调”、“世宗”、“晒”、“断背”大多例句并无新义项。

这171个词语的频率分级统计见表12。

频率

词语数所占百分比

0

32 18.71

1-1083 48.54

11-20

12

7.01

21-309

5.26

31-406

3.51

41-504

2.34

51-604

2.34

61-703

1.75

71-802

1.17

81-901

0.58

91-100

00

100以上 15 8.77

表12 171词频率分级统计表

将上述频率为0的32个词语,扩大搜集范围至300种报刊杂志,频率仍然不高。检索结果表明,频率为0的还有13个词语,它们是:笔替、博斗、冻容、独二代、二奶专家、复古学堂、海缆断网、啃椅族、润滑经济、试药族、囤房捂盘、捂盘惜售、压洲。其他词语的频率也不高,见表13。

新词 文本数 新词 文本数

笔替0

博斗 0

盗版党 1

半糖夫妻 7

等额配比基金4

暖巢管家 4

丁宠家庭5

陪拼族2

冻容0

卡拼 8

独二代 0

轻熟女7

二奶专家0

润滑经济 0

返券黄牛3

试药族0

飞鱼族 3

众包 9

复古学堂0

囤房捂盘 0

海缆断网0

捂盘惜售 0

节奴1

压洲 0

啃椅族 0

洋漂族4

垄奴1

移动商街 14

慢活族 1

职粉 11

迷卡

10

村证房8

表13 300种报章所见32个词语的频率

再用我们的语料库LIVAC来检索,有63个词如“饭替、房魔”和57个词组如“二奶专家、科研包工头”的出现频率为0,两项相加共120个,占总数百分比高达70%。

从以上的检索数据和分析来看,其中一部分词频率过低,入选新词,资格令人怀疑。不知采录新词时如何顾及频率,初看颇不合理。这些在报章上频率低的词语,也许在网络上有较高的频率,但是网络语言因为使用者年龄、社会背景有所局限,代表性可疑,未必适合作为新词采录对象,也许可以视为流行语对象。

《06年新词》采录新词的方法是“先人工后机器”,即“先由课题组成员按分工从报刊和网络上查找新词语,然后课题组定期研讨交流。”(《中国语言生活状况报告(2006)》下编249页)待确定备选词条后,再用语料库回查、验证。这种方法带有很大的主观任意性,漏选应选词和误选低频词的可能性都很大,这样的语料基础缺少客观性,是否可靠是令人怀疑的。较好的办法是“先机器后人工”,先用语料库自动抽取新出现的词语,然后由人工审阅,剔除那些不合“新词”资格的词语。我们的LIVAC正是这样做的。

因为汉语新词的始生阶段有很明显的多元化倾向,所以“年度新词”最好能对新词在各地使用的频率有所说明。《06年新词》的语料库虽然也利用南北各地的报章,但是由于没有象LIVAC那样采取定点、定时、定量的方法,所以不可能客观说明新词的地区差异,这是令人遗憾的。

《06年新词》选目中有些稍纵即逝的词语,例如“熊猫烧香、复古学堂、福寿螺患者”已边缘化,正在走向消亡,不宜入选“新词”,但可视为流行语。

《06年新词》选目中有一半左右是词组或短语,而不是词。词与词的组合千变万化,随时产生,所以不能无限制地收录,只可以酌情收录。例如,如果两词组合,各自词义依旧,组合后也无新义,如“红楼选秀”,可不收,除非有其它意义或作为参考性质强的百科全词词语。有的词组表示当时发生的引人注目的事件,但时过境迁,并无生命力,也不宜收,如“汉芯造假事件、上海社保基金案”。LIVAC的做法是将此类词组放在“复合词词库”里,备查、备用。

与此类似的是带后缀或类后缀“族、吧、节、秀、替”等的词语,也只能选些有代表性的。这些后缀有很强的构词能力,每年大量产生,无法尽收。《06年新词》选目收录的“族”字后缀词多达15个,例如“奔奔族、吊瓶族、飞鱼族、合吃族、啃椅族、装嫩族”等,占约9%,显然过多。LIVAC的做法是将此类词放在“词库”里,备查、备用。

此外,我们利用LIVAC语料库,通过比较科学的方法,也发现了为数不少的比较值得考虑收录而《06年新词》又没有收录的词,兹摘录部分词条,请参见附录B。

六 结语

如上所述,新词的采录和界定,宜以具有连续性和惯常性的语料库为基础,它具有时间、空间、频量的依据,可大大提高研究成果的科学性和准确性。采录新词时,根据新词在始生阶段大多有多元化倾向的特点,可适当扩大视野。但在界定新词时,则应注意其地区性、时间性、广用性、频用性和稳定性,尤其是地区词、流行语、网络词语、字母词等,须在客观原则下,经细心甄别和鉴定,才能赋以现代汉语新词语的资格,使其不与“新词语”相混淆。

现代汉语新词语的采录、界定和公布,不仅有可能对大众视听、社会语言运用起到引导作用,而且可能影响国家语言政策,甚至语文教学。新词的采录和界定是值得重视的工作,其中的理论和方法问题,目前还有不同意见,仍亟待学术界开展进一步讨论和研究。

附录A 2000-2005年高频新词语(17个):

反恐、短信、申奥、高致病性、文化年、申博、彩民、西气东输、西电东送、3G、韩流、CEO、问责制、蓝军、旗舰店、空警、双规

附注:2000至2005年在北京及上海均出现的较高频的新词(共17个),这些新词也是《21世纪华语新词语词典》都收录的。

附录B.1 2006年北京出现的高频词语(5个):

限价房、直购、认植、平改立、一证通

附录B.2 2006年上海出现的高频词语(5个):

巴迪熊、绿电、独播剧、炫客、清点费

附录B.3 2006年京沪同时出现的高频词语(4个):

征信、QQ群、乡村游、八艺节

附录B.4 2006年在京沪港台新地区出现的词语(5个):

荣辱观、天下围攻、房讯、黄金书、暴利税

附录B.5 2006年由其它地区转移入北京、上海两地的词语(5个):

国片、一姐、恶搞、快闪、卡奴

标签:;  ;  ;  ;  ;  ;  

汉语新词和流行语的收集与定义_语料库论文
下载Doc文档

猜你喜欢