关于社会用字调查的研究,本文主要内容关键词为:用字论文,社会论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
一、社会用字调查
什么是社会用字?1990年仲哲明先生在社会用字管理现场会上的总结发言中说:“所谓‘社会用字’,是指流通于社会,用于社会交际领域的文字,例如国家法律法令、政府公文用字,出版印刷用字,计算机用字,影视用字,人名、地名用字,商业用字(企业、商店的牌匾、商标、商品包装、广告),等等。概括地说,社会用字的范围大致包括四个方面:出版印刷用字、影视用字、计算机用字、城镇街头用字。这四个方面,相互之间又有些交叉。影响最大、最能反映社会用字面貌而且起主导作用的是前三个方面。当然,城镇街道用字也很重要,它具有更强的直观性、形象性,观感上给人的印象更强烈更深刻。”①沙宗元在《文字学术语规范研究》一书中说:“社会用字是流通于社会、用于社会交际领域的汉字,它与个人用字相对而言,其范围包括出版印刷用字、教育用字、影视屏幕用字、计算机用字和公共场所用字等这样几个方面。”②社会用字所具有的最大特点是其所具有的流通性和社会性,而流通性和社会性决定了社会用字必定具有稳定性和变异性的双重特质。变异性是指社会用字在流通过程中会发生不同性质的变化;稳定性是指为了满足社会交际的实际需要,使交际畅通,社会用字会保持相对稳定。流通于社会的社会用字,被社会共同使用,必须有被社会共同遵守的法则,必须在一定的时期内保持稳定,正因为是被社会共同使用的,而社会是由众多的个体组成的,有个体必然存在差异,差异的累积产生变异,用数学的语言描述就是“差异”对时间求积分等于“变异”,“变异”是时间的函数。因此,变异性又来自它的个体性及时代性。从宏观上看,汉字是被全社会共同书写使用的,由于社会的发展,时代的变迁,在汉字的形体上也会打上时代的烙印,如:甲金文字的原始、战国文字的缤纷、小篆的正统、隶楷的实用,如此种种都是时代性的表现;从微观上看,具体的汉字是由个体的人书写使用的,每个人书写出来的汉字必定带有个人的个性,众多个性产生的变异将导致汉字整体发生变异。变异性与稳定性是相对的,两者相互作用、相互制约,变异是绝对的,稳定是相对的。当变异性凸显到影响了汉字的使用效率,而稳定性对其的制约力度难以达到平衡时,就必须在适当的时候借助权威机构的力量对两者进行协调,接受部分稳定了的变异结果,形成新的稳定点。
新中国成立以来,为了提高社会用字的使用效率,规范社会用字,我国制定发布了一系列有关语言文字的规范和标准,从字种、字形、字音、字量等方面对汉字进行了大规模的整理和规范。1956年1月28日国务院全体会议第23次会议通过了《关于公布〈汉字简化方案〉的决议》,1956年1月31日《人民日报》全文发表了国务院的《关于公布〈汉字简化方案〉的决议》和《汉字简化方案》,国务院在决议中指出:已经公布的简化字,“在全国印刷的和书写的文件上一律通用,除翻印古籍和有其他特殊原因的以外,原来的繁体字应该在印刷物上停止使用”。1964年5月中国文字改革委员会出版了《简化字总表》,1986年10月10日重新发表《简化字总表》,共收2235个简化字。1955年12月文化部和中国文字改革委员会联合发布《第一批异体字整理表》,该表整理了809组异体字,文化部和文改会在发布该表的联合通知中明确规定:“从1956年2月1日起在全国实施。从实施日起,全国出版的报纸、杂志、图书一律停止使用表中括弧内的异体字。但翻印古书须用原文原字的,可作例外。”1965年1月文化部和中国文字改革委员会联合公布了《印刷通用汉字字形表》,表中规定了印刷宋体字形6196个,在文化部和文改会发出的《关于统一铅字字形的联合通知》中指出:“我们现在把汉字字形整理组所编的《印刷通用汉字字形表》印制成样本,随文送去,请各地逐步推行。各地字模制造单位,应即大力组织力量,以该表为范本,有计划、有步骤地尽早刻制各种印刷字体的新的铅字字模,供应各地需要。报纸、杂志、图书出版、印刷方面可视需要和字模供应情况逐步加以采用。采用后,书写报纸、杂志标题和图书封面的美术字,亦应以该本为范本,以求一致。……翻印古籍和有其他特殊需要者,可以不受范本限制。”这些规定虽然并不都是国家最高权力机构发布的,但是在实际上,它们已是群众公认的规范标准,在现代语文生活中取得了应有的规范地位。自1956年以来,根据上述各项工作的有关规定,社会用字的规范化程度得到极大提高,成果的推行范围逐步扩大,在广大群众中,使用规范汉字的观念不断加强,特别是中小学教材,从上述规范标准发布以来一直使用规范的简化字和标准字形,不用被淘汰的繁体字、异体字和旧字形。傅永和说:“1975年,我们曾对全国二十几个省、市、自治区地区以上的报纸及出版物上使用规范简化字和标准字形的情况进行了调查统计,统计结果表明,除边远省区外,绝大部分省、市、自治区地区以上的报纸、印刷物上均使用了《简化字总表》中的规范简化字和《印刷通用汉字字形表》规定的标准字形,对《第一批异体字整理表》中被淘汰的异体字基本上不再使用。可以说,简化字和标准字形已经在全国印刷物上普遍得到推行。”③
但是,随着社会的发展,社会用字所具有的变异性得以凸显,20世纪60年代至80年代社会用字曾出现十分混乱的现象,“可以用‘错、乱、差’三个字来概括:‘错’,错字、别字触目皆是;‘乱’,规范字、繁体字、异体字、自造的简化字并存混用;‘差’,书写水平相当低下”④。80年代初社会用字的混乱现象引起了学者们的广泛关注,很多报刊纷纷发表文章,就社会用字问题展开讨论。1984年11月12日,《文汇报》发表了华实的《莫让错字成公害》,文中提到,“当前为数相当多的一些图书、刊物、报纸差错太多,几乎成了文化出版界的一大‘公害’”。吕叔湘先生曾在《读书》杂志上写文章,大声疾呼“要向错字宣战”⑤。与此同时,有关社会用字的调查研究也逐步开展起来。1984年年底至1985年年初,费锦昌、齐闻等对北京、上海、广东、湖北、江苏、吉林等六个省市13条街道的商店用字情况进行了调查,他们就繁体字、不规范简化字、异体字及错别字等不规范用字作了分类统计,统计结果如下:
表1 商店用字抽样调查的概况
从表中可以看出,商店用字的不规范现象是很严重的,这主要表现在繁体字、异体字、不规范简化字和错别字的使用上。1988年陈原就北京王府井大街部分店名作了统计,发现王府井大街的牌匾用字的规范化程度不高,规范字与不规范字的比例大致是一比一,主要是繁体字滥用、拼音书写不规范等问题。1997年由北京大学中文系团委组织,北京大学中文系94、95、96级的部分同学对北京、南京、武汉、重庆四市的数十条主要干道的社会用字情况进行了调查,发现使用“二简字”、生造简化字、错别字和不规范外国文字的情况各地都普遍存在⑥。“据国际广播电台一位同志1981年11月16日信中统计,在110种报刊中,刊头和副刊使用繁体字的就有93种,占84%。”⑦周丽萍采用抽样调查的方法对嘉兴市社会用字进行抽样调查,调查的范围是嘉兴市秀城区和秀洲区的街道、机关、学校和公共场所,经过两年的抽样调查,调查总字数21666个,其中不规范字与错别字1765个,占调查总字数的8.15%,规范率为91.85%⑧。
反映社会用字状况的另一个重要方面就是字频统计,即对社会用字的用字量、常用度等状况进行测查,测查结果对指导汉字应用具有重要意义。
我国最早的现代汉字字频统计著作是陈鹤琴编著、商务印书馆1928年出版的《语体文应用字汇》,该书是对6种语料554478个字进行字频统计得到的结果,共得字种4261个。随着计算机的发展,中文信息处理对社会用字状况测查的需求越来越迫切,为了满足中文信息处理的需要,我国先后完成了几次大规模的现代汉字字频统计,主要有:(1)1974年至1984年,由国家有关部委领导的“汉字信息处理系统工程”(“748工程”)对汉字使用频率进行了大规模的统计,本次字频统计使用的语料时间范围为1973年至1975年,语料内容包括科学技术、文学艺术、政治理论和新闻通讯四类,统计方式为手工操作,动用人力1500人之多,备选语料3亿多字次,选用语料2160多万字次,统计得出6376个字种。统计成果《汉字频度表》1977年10月由北京新华印刷厂排印出版(仅作为内部出版物分送有关部门)。1980年经过对《汉字频度表》的全面核对、注音,最后按汉语拼音字母的顺序重新排列,由郑林曦、高景成主编,编印了《按字音查汉字频度表》(内部资料)。这次统计是我国第一个规模这么大的汉字使用频度统计,受到社会广泛重视及应用,我国1981年发布实施的国家标准GB2312-80《信息交换用汉字编码字符集·基本集》就是依据这一统计结果制定的。(2)从1979年10月开始至1985年7月为止,历时5年零8个月,北京语言学院语言教学研究室采用人工和计算机相结合统计方式,选用1807398个汉字语料,统计得出不同汉字4574个,编成《现代汉语频率词典》,1986年6月由北京语言学院出版社出版,词典中附有《汉字频率表》。本次字频统计使用的语料时间范围较多选用40年代至70年代的作品,语料内容包括报刊政论文章及专著、科普书刊材料、剧本和日常口语材料及各种体裁的文学作品四类⑨。(3)1981年中国文字改革委员会和国家标准局共同下达现代汉语字频统计科研项目,项目由北京航空学院计算机科学与工程系和国家语言文字工作委员会汉字处共同完成。本次字频统计使用的语料时间范围为1977年至1982年,语料内容包括自然科学和社会科学两大类,统计方式完全采用计算机自动统计,选用语料13800万字次,抽取出的统计样本语料11873029字次,统计得出汉字字种7754个。项目1985年完成,1992年出版《现代汉语字频统计表》,出版单位为国家语言文字工作委员会(原中国文字改革委员会)和国家标准局⑩(部分成果《最常用的汉字是哪些——3000高频度汉字表》先于1986年出版)。
除《按字音查汉字频度表》以外,其他已经发布的统计结果一般只列有字头、字次、字频及累计频率等信息,很少涉及其他用字现象。《按字音查汉字频度表》是在原《汉字频度表》的基础上,对其按使用频率排序的6300多个汉字进行二次整理得出的结果,这也是截至目前为止,手工完成的最大规模的反映印刷出版领域社会用字状况的第一份宝贵资料。《按字音查汉字频度表》在单字的注释说明中对包括《第一批异体字整理表》和《新华字典》上已加整理的异体字,和一些历来同用、通用的可以视作异体字的字、古僻字、文言文用字、专用字等进行了标注(见表2)。
表2《按字音查汉字频度表》数据样例
王铁琨曾经指出:“语言生活是社会生活的重要组成部分。关注语言生活实态,把握语言国情变化,是现代国家的一项重要任务,而制定和调整国家语言政策、语言规划的依据之一就是社会语言文字使用的实时调查数据。”(11)“语言文字工作的目标是构建和谐的语言生活。了解语言使用的真实状态,客观地把握语言国情,才能正确制定和稳妥实施语言规划,从而引导社会语言生活向着健康和谐的方向发展。从这个角度说,语言规划与语言使用实态考察研究有着非常密切的关系,后者既是前者的工作内容之一(即“恰当评估现实语言生活”),又是做好语言规划的基础和前提。”(12)
为了切实掌握我国当前语言国情,及时把握我国语言文字发展动态的第一手资料,为国家语言政策的调整和制定,以及语言文字规范标准的制定、修订提供参考,自2004年6月开始,教育部、国家语言文字工作委员会,陆续与有关部委和高等院校合作共建国家语言资源监测与研究中心及其各分中心,以动态流通语料库为基本监测平台,对年度内平面媒体、有声媒体、网络媒体、教育教材以及海外华语的语言状况进行监测。每年发布《中国语言生活状况报告》,分上、下两编,上编主要内容是领域篇、专题篇、热点篇、港澳台篇、背景篇等;下编相对于全书而言是“数据篇”,包括调查报告和调查数据两个部分,力图反映年内语言文字应用的实态。先后发布了中国语言生活状况绿皮书B系列《中国语言生活状况报告(2005)》至《中国语言生活状况报告(2008)》,以及《2006汉语新词语》、《2007汉语新词语》等系列报告。2006年出版的《中国语言生活状况报告(2005)》是第一批调查报告和统计数据,是国家语言资源监测与研究中心对若干媒体2005年度语言使用状况统计测查的结果,其中的《报纸、广播电视、网络用字总表》是2005年年度用字字频统计表,该表所用语料时间范围为2005年,语料介质包括报纸、广播电视和网络,统计手段采用计算机,共选择892034个文本文件,包括732143010字次,统计得出字种数8128个(13)。
以上所述各类统计调查成果,在一定程度上改变了我国以往对社会用字基本状况缺乏整体了解的状况,获取了大量第一手数据,为现代汉字学、汉字教学及语言文字应用提供了鲜活而宝贵的资料,为促进中文信息技术的发展作出了重要贡献,也为语言规划、语言政策的制定、调整和有效实施提供了不可或缺的参考依据。
二、社会用字调查存在的问题
以往无论是在字频统计还是在社会公共场所用字调查方面所取得的成果,都在汉字的理论研究、汉字规范及汉字信息处理等方面发挥了重要作用。例如周有光在字频统计成果的基础上发现了汉字效用递减率(14)。王凤阳在字频统计成果的基础上发现了汉字常用字笔画递减率(15)。《信息交换用汉字编码字符集·基本集》是在《汉字频度表》的基础上研制完成的。1988年1月26日由国家语言文字工作委员会、国家教育委员会联合发布的《现代汉语常用字表》的研制参考了《汉字频度表》(常用字部分4152字)、《社会科学、自然科学综合汉字频度表》(常用字部分3500字)和《汉字频率表》(4574字)(16)。1988年3月25日由国家语言文字工作委员会、中华人民共和国新闻出版署联合发布的《现代汉语通用字表》也参考了上述字频统计成果(17)。
社会用字主要表现在印刷出版和公共场所用字两个方面,而目前这两个主要方面的社会用字调查还存在很多问题和局限。至今为止,对公共场所诸如城镇街头、商店等用字状况的调查比较多,但是由于样本分散,个性化强,因此规模都比较小,所采用的调查方法也比较传统,主要以人工实地调查为主,通过人工实地考察、收集数据,再对数据进行统计分类,进而分析问题产生的原因。对出版印刷领域的用字状况测查,由于样本相对集中,测查规模易于扩大,至今手工调查规模最大的要数“748工程”所作的《汉字频度表》以及在其基础上二次整理出来的《按字音查汉字频度表》。我们对《按字音查汉字频度表》中的数据进行了初步统计,在1973年至1975年间的2162万字的语料中统计出来的6300多个字头中,注有〈一异表〉或〈一异〉的即《第一批异体字整理表》中的异体字,共有29个;注有〈异〉或说明中说“某某的异体”的共有94个;另外还有17个字是“古体字和查不出读音的字”,这17个字多为甲骨文、金文字的隶定楷字;还有69个字是“各字典无”,所谓“各字典无”指该书依据的《新华字典》、《辞海》、《中华大字典》、《现代汉语词典》、《大汉和辞典》等五部字词典中没有收录该字。《按字音查汉字频度表》提供了大量社会实际用字现象,但是由于原始数据保留不全,对其中很多现象无法作进一步的跟踪分析。例如:表2中的4252号“澂”字,在《一异表》中作为“澄”的异体已经被废除,统计样本出现了18次;3740号“磙”字,是“滚”的后造异体,出现39次;2696号“虫+甲”字,出现220次,却查各字典均无。诸如此类现象,从社会用字规范的角度讲,我们需要搞清楚这些字使用的背景,同一个字形在有些场合是允许使用的,在另外一些场合使用就是不规范的,应该被禁止的。2000年10月31日第九届全国人民代表大会常务委员会第十八次会议通过的《中华人民共和国国家通用语言文字法》第十七条明确规定:“有下列情形的,可以保留或使用繁体字、异体字:(一)文物古迹;(二)姓氏中的异体字;(三)书法、篆刻等艺术作品;(四)题词和招牌的手书字;(五)出版、教学、研究中需要使用的;(六)经国务院有关部门批准的特殊情况。”除此之外,“学校及其他教育机构以规范汉字为基本的教育教学用字;汉语文出版物应当符合国家通用语言文字的规范和标准;公共服务行业以规范汉字为基本的服务用字”。因此,单靠统计数据不足以推断社会用字的实际规范程度,也不足以指导社会用字规范政策的制定,只有追溯到原始出处,区分用字的所属类别,分门别类地研究处理各类统计结果,才能切实发挥统计数据的作用,有针对性地指导实践。而要实现原文回溯,就必须在调查中实现字形与出处的信息关联,保留原始语境及原始字形,这对于较大规模的手工调查来说难度很大,至今还没有能够提供可供分析研究用的带有原始出处的统计资料。
由于社会用字规范状况的测查涉及异体字、繁简字、新旧字形等复杂现象,在当前计算机的语文知识比较匮乏、语言文字处理能力还比较有限的状况下,自动化水平不高,需要大批专业人员直接参与识别、整理,至今有针对性的大规模的社会用字实际状况的调查研究几乎没有,只有几个规模较大的有关字频统计的调查。尽管用字频度也是反映社会用字状况的重要方面,但是字频统计关注的是社会用字的字数及各字的出现次数,加之受计算机编码字符集的限制,丢失了很多重要信息,并不能反映社会用字的全貌,体现不出来各种复杂的用字现象。
有了计算机以后,文字处理效率得到了极大提高,自动化带来高效率的同时,也带来了新问题。近些年来,大规模的汉字字频统计无一例外地依据电子语料库,而这些电子语料库的建库目标主要是保证语境的完整,并不要求字形保真,在把纸质文本转换成电子文本生成语料库的过程中不能保证存储文字使用的原始状态,在已经丢失了大量文字使用的原始状态的语料库上测查用字状况,测查结果必定不具有客观性。比如,在1956年1月《汉字简化方案》公布之前,国内报刊图书主要使用繁体字(偶尔也用简体字)。1956年2月《第一批异体字整理表》在全国实施之前异体字未经整理。1977年12月《人民日报》开始试用《第二次汉字简化方案(草案)》第一表的简化字,1978年7月停止试用这批简化字,在此期间《人民日报》等曾经用过“二简”的字。而北京语言学院语言教学研究所1986年编的《汉字频率表》使用了1956年1月31日前的资料,如1951年1月31日的《人民日报》,但“频率表”中却没有出现繁体字(18);使用了1956年2月《一异表》实施前的大量资料,却没有出现异体字。以1951年1月31日的《人民日报》为例,该日报原版中有繁体字“對”、“裝”、“數”、“會”等,而《汉字频率表》有“对(频序60、频次5138)”、“装(频序435、频次841)”、“数(频序286、频次1325)”、“会(频序32、频次7075)”,而没有“對”、“裝”、“數”、“會”等。该日报纸中有《第一批异体字整理表》中被淘汰的异体“遊(旧字形)”、“鎻”、“週(旧字形)”、“誌”等,而《汉字频率表》有“游”、“周”、“志”等正体,有“鎻”的正体“鎖”的简化字“锁”,而没有“遊”、“鎻”、“週”、“誌”等(19)。该日报原版中文字有旧字形,而《汉字频率表》中的字均为新字形。推测《汉字频率表》的研制者在测查文本时按当时的规范修改了原始文本,用规范字替换了不规范的字。这种测查结果显然不能准确反映社会用字的实际情况。
国家语言资源监测与研究中心编《中国语言生活状况报告(2005)》(下编)的《调查报告》中明确指出:“报纸文本是从网络下载的,没有与纸质版本作比较。”在2008年的调查报告中也指出:“报纸语料是网络版的。广播电视语料是由广播电视节目转写的文本,与原始有声语料之间存在某些差异。网络(新闻)语料来自新浪、腾讯2008年的新闻页面。上述语料均做了去除HTML标签信息和广告信息的处理。”(20)
随着计算机编码字符集的不断扩大(目前已编码汉字74588个,其中也包括已经废除的异体字、繁体字以及日本、韩国等各国用字(21)),基于电子文本的测查结果所涉及的文字现象也自然增多。例如,在国家语言资源监测与研究中心统计的2008年报纸、广播电视、网络(新闻)用字用语调查结果中,就含有大量的异体字、繁体字、印刷旧字形等数据(见表3)。
表3 (2008)报纸、广播电视、网络(新闻)用字用语调查
*表中“共用独用”项目代表汉字出现的媒体,A代表平面媒体,B代表有声媒体,C代表网络媒体。“汉字”项目中的标识符号分别表示首字的汉字类属:“)”表示繁体字,“]”表示《第一批异体字整理表》中的异体字,“>”表示旧字形,“○”表示日本汉字。
在《中国语言生活状况报告(2008)》(下编)(简称《报告》)中的表1—6“汉字使用的其他情况统计表”中,给出了本次测查中统计出来的繁体字、异体字、不规范的简化字等数据(见表4)。
表4 汉字使用的其他情况统计表
基于电子版语料的统计测查,通常会出现两种问题:一种是由于电脑缺字或“被认同掉”了,一些用字现象统计不出来;一种是统计出来了,但是没有原始资料可供复核、研究。如表3中5079号“甯”字,是“宁”的异体字,已在“一异表”中废除,仍在46个统计样本中出现;5306号“榘”字,是“矩”的异体字,在68个统计样本中出现;5324号“樑”字,是“梁”的异体字,在82个统计样本中出现。而这些早已被废除的异体字又多次出现的背景、原因则需要逐字调查研究。又对于繁体字而言,则需要区别几种情况:(1)引用文言、古书、讲解汉字;(2)打字时误写(选)成繁体字;(3)有意使用繁体字等。
《报告》选取了在2008年中出现而在2007年中未出现的部分字,考察其在报纸语料中的使用情况后分析说:“造成这些别字的原因,多为用形码输入的过程中,错误输入了相近的形码。对上述这些不规范字、别字的使用,我们逐条对照了纸版本的报纸内容,其使用完全同电子版。”此段说明了两个问题:第一,要分析各种用字现象的成因,需要“逐条对照”纸版本的报纸内容,即对用字语境进行回溯,因此,在社会用字状况测查中,查看原始出处是非常必要的。第二,回溯原始语境是必要的,但是方式方法是需要改进的。在计算机处理与存储能力均有较大发展的今天,不应再手工翻查纸质版本,应在处理电子语料的同时,将纸质版本原样扫描,进行数字化处理,有利于资料的长期、有效使用。
三、基于字料库的社会用字调查
综上所述,由于受计算机编码体系以及计算机语料库处理字形方式的限制,加之汉字自身的复杂性等因素的影响,目前的社会用字调查还存在很多问题,留有很多缺憾,远远不能满足社会用字实际状况测查的需要。究其根本是缺少对信息时代社会用字调查的理论及方法的研究,缺少适合社会用字调查的有针对性的整体方案设计,片面追求“速效”,缺少深入、细致的研究。现代的计算机技术能够带来高效率,也能为深入、细致的研究提供基础与条件,关键是人类如何利用它,如何对它提出更高的要求。
研究汉字以及掌握汉字实际使用状况必须从汉字使用中的实际事实入手,真正的科学规律首先是符合事实的规律。记录汉字生存、演变的事实就是汉字在各历史阶段中的实际使用状态,只有用计算机存储和处理大规模使用状态下的真实的汉字原始字形,才能全面真实再现汉字的本来面貌,才会作出符合实际的社会用字调查。至今基于真实文本的对汉字社会实际使用状况的大规模测查仍然很难实现,到目前为止还没有一个很好的解决方案,没有可作依据的原始字形库。字料库方法为汉字研究与汉字测查提供了一个新的思路与方法,使得对社会实际用字状况的大规模测查成为可能,只有在保存了真实字形材料的字料库及相应数据库的基础上,才有可能对社会实际用字状况作全面、客观的测查。
“字料库是指以文字的整理和文字学的研究为目标,按照语言学和文字学的原则,收集实际使用中能够代表特定文字或文字变体的真实出现过的文字书写形态,运用计算机技术建成的具有一定规模的大型电子文字资源库。字料库是在大规模真实文本的基础上生成的真实的文字书写形态的有序集合,是能够利用计算机对各种书写使用中的文字形态进行各种分类、统计、检索、综合、比较等深入研究的基础。”(22)
字料库建设以文字学研究为目的,其宗旨就是保存真实状态即文字使用的“实态”,把现实语言生活的真实状态客观地记录和反映出来,字料库不但在字形处理上追求保真,而且同时对使用字形的诸如“出处、年代、类别”等各种相关信息进行记录。为了解决目前计算机字库不能满足字形保真需求的问题,字料库以图形方式存储原始字形资料,建立相关参数数据库及汉字构形结构表达式,为文字研究及文字的社会应用提供支持。
字料库建设对弘扬中华民族传统文化,保护世界文化遗产有重要意义;能够为国家语言文字规范政策的制定、为文字学、计算机中文信息处理、计算语言学、汉字教学及辞书编纂、计算机超大字符集的研制等提供基础数据,对汉字的发展与演变规律的研究,对汉字学研究方法及手段的创新等都具有重要的理论意义与实践价值。
基于字料库的社会用字状况测查可以在大规模社会实际用字字料库建设的基础上,通过对社会实际用字情况穷尽性的测查,摸清现时社会实际用字的基本状况,切实把握语言文字发展脉络,考察期间政府发布的一系列规范标准的现实基础、科学依据以及对社会实际用字的影响,研究社会用字与规范之间的关系,探索科学的规范方法及手段。当前,研制规范汉字表、推行规范汉字已经成为国家语言文字工作中的重要任务,急需建立基于现代汉字的大规模字料库,为国家语言政策的调整和制定以及语言文字规范标准的制定、修改提供参考,这对促进文字学理论与社会用字规范理论的深入研究等都具有重要的理论意义。
基于字料库的社会用字状况测查在实践中会遇到很多问题需要解决。第一,我们面临的是新概念、新方法,有很多理论问题需要探讨。字料库虽然是在语料库的基础上提出的一个新概念,字料库涵盖语料库的某些功能,但字料库不同于语料库。我们要建设字料库,首先要在理论上创新,探索字料库建设的理论和方法,并付诸实践。第二,要测查社会用字状况就要采集测查数据,要保证采集数据的通用性、代表性,必须对实际材料进行科学的抽样、筛选,兼顾不同类别著述的用字特征、不同出版人的用字偏好等,同时,还要准确、高效、全面地将被测查字形从大量的原始文献中提取出来,并进行文字学专业的属性标注、比对、认同、整理,而所有操作都需要研究制定操作规范,在统一的操作规范下实现分散作业。第三,基于字料库的社会用字问题研究,开创了应用文字学研究的新领域,不但需要探索新方法、新思路,同时也会涉及社会用字规范的现实基础及汉字规范对社会实际用字的影响等一系列研究课题。
设计与建设字料库是一项非常艰巨而宏大的系统工程,需要做大量深入细致的工作。在对字料库的功能、充分性和规模等进行充分论证的基础上,要根据字料库的不同分类,研究制订字料属性的标注系统及标注规范,建立字形档案,建立字形间关系网,确定对字料提取的可操作方案以及对字料的组织、存储形式,给计算机灌输更多的语文知识,提高其自动化水平。
字料库所要处理的数据量大,数据结构复杂。基于真实文本的汉字原形的大规模字料库建设在国内外还属罕见,该字料库的建设对海量文字图像数据的存储、管理、筛选以及类聚等技术处理水平都是一个考验。平台的设计也需要一些技术上的突破,目前的大多数软件系统重点支持ISO/IEC 10646体系结构中的基本多文种平面(BMP)的字符,很少提供对辅助平面字符的支持。对在统一的平台上全面整理汉字的需求而言,BMP平面内的65536个编码空间远远不够,实现对非BMP平面字符的技术支持是一项必不可少的重要工作。
注释:
①仲哲明:《加强社会用字管理促进语言文字规范化——在社会用字管理现场会上的总结发言》,《语文建设》1990年第5期。
②沙宗元:《文字学术语规范研究》,第398页,安徽大学出版社,2008年。
③傅永和:《巩固整理和简化汉字工作的成果促进汉字使用的规范化》,《文字改革》1984年第1期。
④费锦昌、齐闻:《商店用字调查报告》,《文字改革》1985年第5期。
⑤吕叔湘:《错字小议》,《读书》1982年第2期。
⑥陈汝东:《当前城市社会用字中的不规范现象及其成因和对策》,《北京大学学报(哲学社会科学版)》1999年第5期。
⑦傅永和:《巩固整理和简化汉字工作的成果促进汉字使用的规范化》,《文字改革》1984年第1期。
⑧周丽萍:《嘉兴市社会用字抽样调查分析》,《绍兴文理学院学报》2001年第6期。
⑨北京语言学院教学研究所:《现代汉语频率词典》,北京语言学院出版社,1986年。
⑩国家语言文字工作委员会、国家标准局:《现代汉语字频统计表》,语文出版社,1992年。
(11)王铁琨、侯敏:《从2008年度调查数据看中国的语言生活》,《语言文字应用》2010年第2期。
(12)王铁琨:《语言使用实态考察研究与语言规划——发布年度语言生活状况报告的思考》,《语言文字应用》2008年第1期。
(13)国家语言资源监测与研究中心:《中国语言生活状况报告(2005)》,商务印书馆,2006年。
(14)周有光:《中国语文纵横谈》,第64页,清华大学出版社,1997年。
(15)王凤阳:《汉字频率与汉字简化》,《语文现代化丛刊》第3期,第92页,知识出版社,1980年。
(16)国家语言文字工作委员会、国家教育委员会:《关于发布〈现代汉语常用字表〉的联合通知》,1988年。
(17)李国英、周晓文:《汉字字频统计方法的改进》,待刊。
(18)北京语言学院语言教学研究所:《现代汉语频率词典·编辑说明》,第12—17页,北京语言学院出版社,1986年。
(19)李国英、周晓文:《汉字字频统计方法的改进》,待刊。
(20)国家语言资源监测与研究中心:《中国语言生活状况报告(2008)》(下编),第2—3页,商务印书馆,2009年。
(21)国际中日韩统一汉字编码已收录汉字74588个,分布于5个集合:CJK统一汉字20924字、CJK统一汉字扩充集A 6582字、CJK统一汉字扩充集B42711字、CJK统一汉字扩充集C4149字、CJK统一汉字扩充集D222字。
(22)李国英、周晓文:《字料库建设的必要性与可行性》,《北京师范大学学报(社会科学版)》2009年第5期。