字母词跟踪的研究_文本分类论文

字母词语跟踪研究,本文主要内容关键词为:词语论文,字母论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

零 引言

字母在汉语中的使用,已经从表示序号、代号、编号,发展到字母词语在汉语中不断涌现。目前,这种语言现象在汉语中的使用范围如何,发展趋势如何,存在哪些问题,怎么对待等,都是有待探讨和解决的问题。本文以大规模真实文本的考察为基础,以量化数据为依据,对这种语言现象进行定性+定量的分析和讨论,希望对这些问题的解决有所裨益。

报纸不仅是大众所广泛接受的文字媒体,而且在用词语的规范性上也比网络和口头媒体严谨,因此,本研究根据时间和经费等的可行性,首先,选择2002年三种主流报纸(网络版)《人民日报》《北京青年报》《羊城晚报》全年一亿多字的文本语料,进行了计算机辅助的拉网式考察,希望考察结果可以反映字母词语在汉语文本中使用的一个共时性轮廓。其次,选择比较注重语言文字应用规范的全国性报纸《人民日报》作为跟踪考察的对象,对其2002年、2005年、2006年(网络版)三年的文本语料进行了历时的考察分析,以考察字母词语的走势和稳定性。

本文将从三个方面介绍我们对字母词语的跟踪研究:第一,基于2002年三种主流报纸媒体的考察结果,探讨字母词语在汉语文本中的共时使用情况;第二,基于我们对网络版《人民日报》2002、2005、2006三个年份的跟踪考察,探讨字母词语的历时演化情况;第三,以大规模真实文本字母词语考察结果为根据,探讨字母词语来源、用法等方面的问题,并据此给出我们对字母词语现象的一些思考和建议。

一 字母词语的共时分布情况

以下关于不同报纸媒体字母词语共时分布情况的描述源于我们对2002年(网络版)《人民日报》《北京青年报》《羊城晚报》三种主流报纸媒体中字母词语的考察结果。

(一)2002年三种主流报纸中字母词语的总体使用情况

表1 三种报纸字母词语的总体使用情况概括

总体而言,表1说明字母词语的使用比例虽然不大,但从数量看还是比较明显的。其中《人民日报》字母词语的用量较少,《北京青年报》用量较大,《羊城晚报》居中,这种用量情况与报纸的特色基本相符。《人民日报》以国际国内的新闻和经济类文本为主要内容(约占66%),生活文化类占14%左右,设有教育科技栏目,没有广告版,用词语较规范,因此字母词语的用量相对较少;《北京青年报》新闻和经济类文本占总文本的不足36%,文化娱乐生活类文本的比例约占36%,另外专设有8版左右的广告,故字母词语使用较多;《羊城晚报》属于开放地区媒体,受港澳台影响较大,用词前卫,地方特色突出,如:阿B(Boss)、阿Sa(蔡卓妍的昵称)派、阿sir、阿Joe、阿明·M、阿KEN等,这些词语都是其他两种报纸所没有的。其国际国内新闻约占17%,经济类文本约占16.7%,内容上本地新闻约占33%,其他(多为地方内容)占33%多,地方内容合计占66%以上,生活娱乐文本较多,所以字母词语使用量居中。

(二)字母词语共时分布中的一次性使用情况

表2 2002年全年三种报纸字母词语一次性使用情况

表2数据显示,字母词语的一次性使用率非常高,这种现象说明,字母词语在汉语中的使用临时性强,稳定性差。浏览三种媒体中一次性使用的字母词语,最明显的感觉是产品名称或代号、技术名称、公司名、品牌名、术语等特别多;而观察为数不多但使用频度高的字母词语,会发现它们大多与百姓日常生产生活相关性较高,如:CDP、NBA、CCTV、DVD、B超、MBA、T恤衫、G股……;另外根据我们对2005年《人民日报》字母词语的主题归类考察发现,名称、编码、术语、单位和标准5种用法的词语占了字母词语的90%以上;这种现象说明,大多数字母词语还是应用于行业、学科领域,能够被广泛使用的、与百姓生活密切相关的为数并不多。

(三)三种报纸两两相交的情况

表3 三种报纸两两相交情况

从三种报纸的一次性出现和两两相交的结果看:字母词语在不同媒体、不同地区间的使用情况的差异性较明显。同为北京地区的《人民日报》和《北京青年报》交集词语数明显多于《人民日报》和《羊城晚报》的交集词语数,说明南北方用词用语有差异,事实也的确如此,如《羊城晚报》有“DVD光碟”而其他两种报纸只有“DVD光盘”;《北京青年报》和《羊城晚报》交集词语数明显高于它们分别与《人民日报》的交集词语数,这可以从两个方面解释,一是《人民日报》本身字母词语的用量较少,所以交集词语自然要少一些,二是从报纸自身特点而言,《北京青年报》和《羊城晚报》因为面向的人群不同,一个主要面向青年,一个处于沿海开放地区,用词用语上都具时尚性和放得开、新潮的特点,所以交集词语自然要多一些。

(四)三种报纸共有字母词语情况

表4 三种报纸交集字母词语(544种)在各报纸中所占比例的情况

人民日报北京青年报羊城晚报

10.71% 1.17% 5.14%

从表4三种报纸交集字母词语所占比例看,各媒体共有字母词语只占字母词语大军的很少一部分,可以预见,能够进入汉语词汇系统被人们理解并使用的将更少。作者曾指导研究生就字母词语的使用情况在中学生、大学生、城乡居民中进行过调查,人们确实在用字母词语,但只有少数与人们生活密切相关的字母词语可以被理解和使用,大部分的字母词语都不为人知晓,被使用的则更少。

我们对三种报纸共有词语集进行了人工分类,结果见图1。该图横轴不同类别的排列以其所含的字母词语种数的多寡由高到低排序,左纵轴刻度为词语的种数,右纵轴为累计百分比刻度。柱状图为各类别字母词语的种数,折线图为各类的累计百分比曲线。从图1可以看到,三报共有集中字母词语的主要出现领域首先是科技,其次是经济,科技与经济两类合计已经占到了共有集的50%,体育用语和公司名称位居第三梯队,产品名称处第四梯队,教育文化娱乐处第五梯队,累计到这里共有集已被覆盖90%多,其余信息、网络用语、网址等合在一起占不到10%。这些数据从一个侧面说明字母词语的主要应用域是科技、经济两大领域。若把各种专有名称字母词语看成一个类的话,它们将会是字母词语中的主要类别。

图1 三种报纸交集(544种)字母词语的分布情况

(五)小结

总之,字母词语的使用比例不大,但绝对数量还是比较多的。字母词语种类和使用次数与媒体相关性较强,随着媒体的不同,字母词语使用率明显不同,用词语的差异也较大,共用字母词语比例虽不到总体的10%,但数量还比较可观,达到了544条。共有集词语还告诉我们,字母词语主要来源是领域用词语(主要是科技、经济领域)和各种专有名称。

二 字母词语历时演化情况

我们从四个方面考察字母词语的历时变化:第一,从出现文本数、使用的总次数、日均用量和平均文本用量等角度观察字母词语的总体变化情况;第二,从字母词语的种数、变化程度上,考察其历时5年的变化趋势;第三,从三个年份字母词语一次性使用情况分析字母词语和汉语传统词语分布的异同;第四,共有词语集的情况分析。

(一)总体使用情况对比

表5数据反映了《人民日报》字母词语在2002、2005和2006年的总体变化情况。由于《人民日报》新增加了四个栏目,所以从表5看,2005、2006年文本数量比2002年有所增加,导致字母词语绝对出现次数和日均使用字母词语数的增加;从含字母词语文本所占比例和每个文本平均使用字母词语次数上看,字母词语的使用率只是略有增加,基本保持稳定。这是否说明字母词语已经具有了某种程度的稳定性,已经成了汉语语汇中的一个词语类了呢?下面我们从另一个角度观察它们的变化。

表5三个年份字母词语的总体出现情况

(二)字母词语变化程度及变化趋势

表6 三个年份《人民日报》字母词语种数①对比情况

表7 三个年份《人民日报》字母词语对比百分比情况

表6中“06∩05∩02”指三个年份字母词语的交集,即共有词语集合。“双语对照字母词语”指国际货币基金组织(IMF)、中国质量认证中心(CQC)这样的字母词语;“计算机词语”指人民网www.people.com.cn、Word杀手变种C(Trojan.Dockiller.c)、jjbgyz@pd.people.com.cn这样的用法;“一般字母词语”指除了双语对照字母词语、计算机词语、序号和外文原词之外的字母词语,如:A型血、Bi病毒、DAX指数等。表7的百分比数据来自于表6。表7中“06∩05/06”指用06和05年交集词语数除以06年的词语数。

表6未列出序号和外文原词的使用情况,因为字母用作序号只有26个英文字母或罗马数字加或者不加括号、带顿号还是带点号几种用法(如:a)A)(a)a.a、),而外文原词指“Green Desert”(绿色荒漠)、“On Sale”(减价)这样的用法,它们不能算作汉语字母词语,因而不属于本文重点考察内容。事实上,02年序号使用为890次,05、06约为02年的1/3;三个年份每年约有230个左右原外文词语,三个年份共有的外文原词是6个,两两交集是10个左右。

表6从字母词语使用种数的多少方面揭示了字母词语的发展态势。表7从字母词语的变化率上反映了字母词语三个年份的变化程度。虽然表5在使用率上字母词语变化不明显,但表7告诉我们三个年份中每一年都有80%左右的字母词语产生和消亡,历时5年能够存活下来的不足10%。通过观察表7第二至第七列数据,读者不难发现,一般词语的稳定性稍好于双语对照字母词语和计算机词语,计算机类的词语更新速度最快,变化最大,5年时间其内容几乎完全更新。表7的最后三列数据反映了字母词语的另一个规律,即相近年份字母词语的变化率低于相去较远的年份,以一般词语为例,2006年和2005年相比有18.57%的词语得以保留,2006年和2002年相比只有12.29%词语被保留。似乎说明随着时间的推移能够沉淀保留下来的字母词语会愈来愈少,经过大浪淘沙,也许沉淀下来的才是字母词语中的“金子”,才可以汇入汉语词汇。

(三)三个年份字母词语一次性使用情况

表8 三个年份字母词语一次性使用情况

表8说明,历时5年字母词语的一次性使用率仍居高不下,年份间变化不大。这种居高不下的情况与传统汉语词汇的使用情况有相似之处。我们曾对上海市九年义务教育阶段的1~12年级语文教材的词语进行过统计,发现语文教材中一次性出现的词语所占的百分比也高达57.46%。这说明文本中用词确实存在大量一次性使用的情况。但应该引起注意的是,表8最后一列数据告诉我们:总体上看,这些大量一次性出现的字母词语只有5.4%的词语出现在共有集中,约95%一次性出现的字母词语每年更新,这个现象说明,字母词语作为新词语不仅一次性出现率高,而且基本是用了就丢掉。这个特性也许是我们读不懂大多数字母词语的一个因素,当然字母词语读不懂的本质因素应该是字母不像汉字,其本身一般没有语义。

(四)共有词语集的情况分析

共有词语集中的词语生存下来的可能性较大,考察它们的组成特征有助于我们对字母词语的认识。

我们首先观察三个年份共有词语集中的双语对照字母词语,该类词语共有35个,它们基本上都是国际通用语。语形上除了“DNA(脱氧核糖核酸)”一个例外,其余都是汉字在前,后面括号里跟对应的字母词语,如“世界贸易组织(WTO)”,这种用法定为规范比较合适。根据语感,这种双语对照的汉注词语一般应该使用全称,但实际情况却并非如此,观察三个年份中三组常用双语对照词语:①全球定位系统(GPS)用了4次,全球卫星定位系统(GPS)用了3次;②亚太经合组织(APEC)用了51次,亚太经济合作组织(APEC)用了6次;③世界贸易组织(WTO)用了20次,世贸组织(WTO)用了7次。我们无法说明简称或全称哪个更常用或者谁应该定为规范。把共有集的前10个词语与三个年份的前10个词语比较(表9),可以发现每个年份的前10名中都会有新的面孔出现,这说明每年都有新高频字母词语。当然也有字母词语常青树,如“国内生产总值(GDP)、国际货币基金组织(IMF)等。

表9 三个年份共有的双语对照字母词语与各年字母词语的前10名列表

其次,观察三个年份一般字母词语共有集的279条词语,发现能够历经5年保存下来的字母词语基本上语形规范,使用度好,为有一定文化程度的人所熟悉。

表10 五年共有的一般字母词语与各年字母词语的前10名列表

结合表9和表10来看三个年份共有词语,我们发现:①能够历经5年留存下来的高频字母词语基本上语形规范,应用面较广,较为我们所熟悉。②从词语种数上看,带汉字的字母词语数量虽然远多于光杆字母词语,但一般情况下,光杆字母词语在文本中的使用率高于其带汉字的字母词语的使用,如共有集中,带“IP”的字母词语有3个,其中“IP”用了103次,散布文本66个,“IP卡”用了9次,散布文本5个,“IP电话”用于22次,散布文本16个。也有少数例外,比如“IC卡”(180次)就比“IC”(16次)常用。

表10中的“IAEA”指“国际原子能机构”,“CBA”指“全国男篮甲A联赛”,“NBA”指“美国职业篮球协会”,“APEC”指“亚太经合组织”。事实上,光杆字母词语往往有些语义不明,不如带汉字的字母词语容易理解。

(五)小结

综上所述,字母词语虽然在总体使用率上变化不明显,但字母词语的种数在不同年份分布差异很大,这种现象也说明字母词语的使用极不稳定,只有少数(约10%左右)国际通用、贴近我们日常生活的字母词语有一定的存活力。据我们对三个年份共有集中的字母词语的观察分析,那些三个年份都高频出现,而且结构上、形式上规范的字母词语,属于字母词语中的常用词语,也可以称为核心字母词语;另一些虽然三个年份都出现,但每年都只有一两次出现,这些字母词语为低频长效词语,但长效能有多长,还有待时间的检验。

三字母词语分类分析

根据对三个年份约1亿7千万字真实文本的考察结果,我们从使用特性上把字母在汉语中的用法分为四个大类,每个大类还可继续细分为次类:

(1)带编号性质的字母词语。可细分为次类:序号、代号、组号、类号、车牌号、证件号、证券号、车次航班号、产品型号等,如:F字签证(访问类签证)、A型乙肝、B瓶、A1组、4A级、K151次、L15猎鹰、LS443数码相机、CECTV199型手机、CDMA2000EV-DO系统、M-8T直升机、奔驰E280、CA4137航班、“联盟TMA-9”载人飞船等。

(2)带专名性质的字母词语。可细分为:机构名、人名、商标品牌名、协议规定名、会议名、研究项目名、活动名、考试名、网络地址、邮箱名、计算机文件名等,如:3M公司、ABI集团、APEC峰会、G·A·潘、Boulaos区、BMX(小轮车)锦标赛、CBS电视台、CBA-KBL全明星对抗赛、ISO9000认证、《RE/SO2007信息社会数字共和国规划》、“FFF”行动、“e龙”队、“DER德尔”品牌、ChinaGrid项目、“LOUIS VUITFON”商标、CNT蠕虫变种B(Worm.cnt.b)等。

(3)词语性质的字母词语。可分为学科术语(主要是原文缩略语)、借形成词等次类,如:H5N1禽流感病毒、B超、DVD机、HA基因、S形弯道、T型台等。

(4)其他。起修辞作用、用作描述性说明或洋泾浜用法的原词等,如:OK、环境(Environment)、PARTY、Internet。

其中,第一、二类用法在生产、生活中常见,但一般不作为语文词语收入通用型汉语词典。这类词语会随着时间的推移大量产生,这也是造成外文字母使用量居高不下的一个重要因素。但作为行业用代码,用汉字表示比较繁琐,保留为宜;第三类用法是字母词语中最符合汉语构词规律,易于被接受和收入各类词典,可以保留,但能够且方便使用汉语词语表达的,应尽量不用字母词语;而第四类用法不应该归为字母词语,它们是语言表达系统的临时借用现象。

四 字母词语的词性问题

根据我们的考察,字母词语在汉语中不仅产生了构词能力,还发生了词性转化,如:“都WTO了”“让我们E起来”。也有直接借用外语介词、形容词原词的现象,如:

介词借用,VS:摩托罗拉VSAC米兰、埃因霍温VS费耶诺德……,VS在汉语中表现出较强的动词性;

形容词借用,HIGH、in:“正是大家唱到HIGH的时候,……”“很in”;

动词用法,E、mail、WTO、E(一下)、mail(我)……;

名词的用法是字母词语的主流。

我们认为,这些直接借用的介词、形容词原词,完全可以用汉语表达,它们可能起到了标新立异的修辞作用,但不应该提倡。名词动化的现象是语言应用中不可避免的现象,这种现象可能看作修辞用法更好。

关于字母词语不规范现象,作者在《汉语真实文本字母词语考察》(2005)中曾予以探讨,此不赘述。

五 字母词语与汉语系统

汉语历史上,曾经有三次外来语高潮。但这三个时期,汉语词汇系统在吸收外来词语时不论意译、音译还是半音半意译,基本上都用汉字来表示,没有受到外民族文字的影响。

1958年《汉语拼音方案》通过之前,虽然汉语中也有过“X光线”“阿Q”,但一直没有形成像现在这样字母词语不断涌现的状况。1958年全国人民代表大会通过了《汉语拼音方案》,拉丁字母组成的拼音字母逐渐被国人熟悉,一定程度上为字母词语进入汉字系统提供了一个感性的基础。在互联网络、国际交流的推动下,许多新技术、新观念一旦产生就迅速蔓延开去,进入不同的语言,现代媒体的传播速度使得借入语言的一方来不及产生对应的新词语,于是直接使用国际通用的一些词语,如CD、VCD、DVD、IT、PC、CT等等。这种信息的传播为字母词语的产生提供了一个共同来源。而今字母词语中不乏国产品种(非外来语),如国产的外语缩略词,如:CCTV(中国中央电视台)、PET5(公共英语5级考试)、WPS(金山办公处理软件)、CET4(大学英语四级测试);纯粹来自汉语拼音的缩略,如:GB(国标)、HSK(汉语水平考试)、WSK(外语水平考试)、CC(餐车)、JK1号(假卡1号);字母构词语,如:阿Q、G看台;等等。这些字母词语因为媒体关系与某范围人士生活密切相关,已经约定俗成,不易改变。

词语的形成和变化离不开人们生活的社会文化环境,我们正处在一个国际交流频繁、文化科技日新月异的时代,语言的变异现象不但在所难免,而且迅速增加。字母词语的出现是现代汉语词汇发生变异的一个表征。其实,字母词语出现之前曾有阿拉伯数字进入汉语系统。9世纪、13世纪由印度数字进化来的阿拉伯数字曾两次与汉语系统发生接触,均由于中国的筹算记数法与该记数法完全一致而没有被采用。直到“19世纪末,现代教育传入中国,阿拉伯数码才作为现代教育体系的一部分得到了推广”(王立《“说数”来自网络》,http://www.mondlango.com/.kulturo/w128.htm)。如今阿拉伯数字在汉语中广泛使用,既丰富了汉语的表达方式,又提高了汉语的表达效率。

字母词语现象的出现是否标志着汉语已经具备了直接借用拼音文字语言的词形、语形能力?我们认为,汉语字母词语的产生、发展有其社会发展的需要,语言之间的互相吸收与融合也是一种正常的语言现象,只要有了合适的方式、方法,汉语一样可以使用字母作为一种特殊的构词成分构造某些新词语,这就是字母词语。事实上,恐怕不是汉语系统无法接纳字母词语,而是汉字系统无法表示字母词语。

六 关于字母词语的几点建议

最后,总结一下我们对字母词语规范的几点建议:

(1)异形同义字母词语是字母词语中急需规范的部分,应选择其中使用程度高、流通度高的作为标准,予以引导。

(2)字母词语中的大部分是专名或者术语,应该考虑对外来的专名和术语是否翻译和怎样翻译进行规范。从字母词语的使用现状看,不加翻译或只加汉语义标的趋势正在悄悄上升。

(3)有中文对应词语的字母词语,若中文词语更经济、准确的,应坚决要求使用中文,尽量减少字母词语数量。

(4)语言的根本功能是交际,为方便交际,采用国际通用的形式,有利于国际交流,因而,字母词语中外文缩略与国际通用缩略不同的,应采用国际通用的缩略形式。

(5)字母词语用于各行各业的分类、排序、编号等,已愈来愈普遍,这种用法在词形上最好与国际接轨。

(6)外文原词作汉语词语使用的情形,我们认为应该坚决杜绝。

总之,字母词语的产生和发展是一种正常的语言现象。汉语中有字母词语出现并不可怕,可怕的是不做分析研究一味地否认或者拒绝语言发展中的变化。分析字母词语的使用现状,有助于了解汉语词汇的现状和变化趋势,引导汉语词汇的正确发展,这正是语言工作者的职责之一。

本文虽然在大规模真实文本语料上对字母词语在汉语中的使用情况做了统计考察,勾勒了外文字母使用的大致范围、领域,并且采用历时的方法探讨了字母词语的走势问题,得到了一些结果,但由于时间、人力、物力所限,还有许多问题需要进一步探讨和解决。

注释:

①词语种数这里指词形不同的词语个数。

标签:;  ;  ;  ;  ;  

字母词跟踪的研究_文本分类论文
下载Doc文档

猜你喜欢