关于数字化时代的汉字应用问题,本文主要内容关键词为:汉字论文,时代论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
在大数据、云技术和互联网+的数字化时代,人机交际已是汉字应用的主体。与过去单纯人人交际的汉字应用相比,数字化时代的汉字应用有四大特点,可用“四化”来概括。一是信息化,社会各领域的汉字应用大都离不开计算机、通信和网络等信息设备和技术,都需要进行信息处理,需要解决编码和传输、存储和检索、输入和输出等问题。二是快捷化,汉字应用受益于信息处理技术,汉字信息处理技术可为汉字应用提供便利,使汉字应用更加快捷、高效。三是复杂化,汉字应用借助信息技术虽能实现高效快捷,但因汉字是表意文字,字量大,信息处理情况复杂,难度大,汉字应用的顺利与否,受制于汉字信息处理技术水平。四是标准化,汉字信息能否高效顺利地处理,汉字能否在社会各领域方便快捷地应用,都有赖于汉字标准化的程度。可以说,汉字信息处理技术和汉字的标准化水平,直接影响着汉字的应用和发展。 一、汉字应用的标准 汉字应用涉及很多领域,主要有汉字教学、出版印刷、辞书编纂、排序检索、信息处理等领域。在人人交际时代,汉字应用标准一般多是各领域通用的标准,在人机交际的数字化时代,则不仅有通用标准,还有信息处理专用标准。 (一)汉字应用通用标准 汉字从个体说,有形、音、义三要素,如“天”字的字形为“天”,字音为“tiān”,字义为“地面以上的高空”等。汉字从系统说有字量、字序、字际关系三要素。字量有常用字量、通用字量、专用字量等,字序有音序、形序、音形序等,字际关系有简繁关系、正异关系。汉字应用在这些方面都涉及标准问题。2000年12月全国人大审议颁布了我国首部语言文字法《中华人民共和国国家通用语言文字法》,自2001年1月1日起实施。该法规定,社会各领域一般情况下要使用规范汉字,但在文物古迹、艺术作品、手书字及出版、教学、研究中需要使用等特殊方面,则可以使用繁体字和异体字,并规定各领域的汉字应用要遵循相应的汉字标准。自20世纪50年代以来,为了满足汉字在教学与研究、辞书编纂、出版印刷、排序检索、信息处理等领域的应用,国家先后制定发布了以下方面的通用标准: 1.字际关系标准 《第一批异体字整理表》(1955年文化部、文改会发布),整理了810组字,810个为正字,1055个为异体字。规定一般场合停止使用异体字,翻印古书须用原文原字的,用作姓氏的,可保留原字。《简化字总表》(1964年国务院发布,1986年国家语委重新发表),分三个表:第一表收352个简化字,第二表收132个可作偏旁用的简化字和14个简化偏旁,第三表收用第二表的简化字和简化偏旁作为偏旁类推出的简化字,共收简化字2235个。 2.字级字量标准 《现代汉语常用字表》(1988年国家语委、国家教委发布),给出了基础教育用字的字量标准3500字,分两级:常用字2500字,次常用字1000字。《现代汉语通用字表》(1988年国家语委、新闻出版署发布),涵盖《现代汉语常用字表》,给出了社会一般通用字的字量标准7000字。 3.字形标准 《印刷通用汉字字形表》(1965年文化部、文改会发布),规定了6196个印刷通用汉字的字形、笔画数和笔顺,采用的是“新字形”,给出了印刷宋体字形。该表被学界称为汉字字形规范的鼻祖。《印刷魏体字形规范》(1999年国家语委发布),规定了印刷魏体字形规范的原则,并给出了示范例字。《印刷隶体字形规范》(1999年国家语委发布),规定了印刷隶体字形规范的原则,并给出了示范例字。 4.笔顺、字序和笔画标准 《现代汉语通用字笔顺规范》(1997年国家语委、新闻出版署发布),把《印刷通用汉字字形表》隐含的笔顺显性化,给出了7000个汉字的跟随式笔顺。《GB13000.1字符集汉字笔顺规范》(1999年国家语委发布),给出了汉字笔顺规范的制定原则及20902个汉字的序号式笔顺。《GB13000.1字符集汉字字序(笔画序)规范》(1999年国家语委发布),规定了汉字的排序规则,给出了20902个汉字的排序表。《GB13000.1字符集汉字折笔规范》(2001年教育部、国家语委发布),规定了汉字折笔笔形分类、排序、命名的原则以及具体的分类、排序和名称,给出了20902个汉字的折笔笔形表。 5.部首和部件标准 《汉字部首表》(1983年文改会、国家出版局首次发布,2009年教育部、国家语委修订),规定了汉字的部首表及其使用规则,共有201个部首。《现代常用字部件及部件名称规范》(2009年教育部、国家语委发布),给出了《现代常用字部件表》和《常用成字主形部件表》,规定了现代汉语常用字的部件及其名称,共有441组、514个部件、305个常用成字主形部件。《现代常用独体字规范》(2009教育部、国家语委发布),规定了现代汉字范围的常用独体字256个,给出了《现代常用独体字表》。 6.字音标准 《普通话异读词审音表》(1985年国家语委、国家教委、广播电视局发布),审定了普通话有异读的词和有异读的作为“语素”的字的读音。《日本汉字的汉语读音规范(草案)》(2009年国家语委发布),是按绿皮书发布的软性规范(不是正式标准),规定了汉语文献中日本汉字的普通话读音的拟音规则,并为32个使用频率较高的日本汉字拟定了普通话读音。 7.集成标准 《通用规范汉字表》(2013年国务院发布),是教育部、国家语委历时13年组织研制的适应新形势下社会各领域汉字应用需要的重要汉字规范,集以往多个字表于一体,属于字级、字量、字形、字序和字际关系等标准的集成。该表收录8105个规范字,分三级:一级3500字,为常用字集,二级3000字,一、二级合计6500字,三级1605字。其中,三级字表收录姓氏人名、地名、科技术语以及中小学语文教材文言文用字中未进入一、二级字表的较通用的字。该表后以附表形式呈现了规范字和繁体字、异体字之间的对应关系。《通用规范汉字表》发布后,以往《第一批异体字整理表》《简化字总表》《现代汉语常用字表》《现代汉语通用字表》等字表停止使用。 (二)汉字信息处理专用标准 因汉字的字量大、系统复杂,其信息处理的难度远大于只有26个拉丁字母的英文的难度。汉字信息处理的主要环节是:通过编码进行交换、传输;通过输入法(音码、形码、音形码)和手写识别、语音识别进行输入;通过检字法(音序、形序、音形序)进行存储、检索;通过字库进行显示、输出。我国的汉字信息处理,一直在跟踪国际先进技术和国际标准。自20世纪80年代以来,为适应汉字信息技术的发展,满足社会应用的需要,国家先后制定发布了以下汉字信息处理标准: 1.汉字编码标准 国家标准《信息交换用汉字编码字符集基本集》(1980年国家标准总局发布),收录6763字,是20世纪80~90年代影响巨大的技术标准,解决了汉字进入计算机的问题。之后,又发布了第一至第五辅助集,不断增加编码汉字。国际标准ISO/IEC 10646《信息技术通用多八位编码字符集(UCS)》(1993年国际标准化组织首次发布,之后不断修订),收录CJK中日韩统一编码汉字20902个。后来不断扩充,有CJKA(6585字)、CJKB(42711字)、CJKC(4149字)、CJKD(222字)、CJKE(5762字),CJKF(3792)正处在投票过程中,CJKG正在研制。其中BMP基本多文种平面的CJK、CJKA收录27484个字,应用成本低,最易在应用系统实现。《GB13000.1-93信息技术通用多八位编码字符集》(1993年国家技术监督局发布),等同采用国际标准ISO/IEC 10646。 2.汉字输入标准 《信息技术通用键盘汉字输入通用要求》(1995年国家技术监督局发布)和《信息技术数字键盘汉字输入通用要求》(2000年国家技术监督局发布),分别规定了通用键盘、数字键盘汉字输入在字符数、文字和数字规范性、键位设置、系统功能等方面的要求。《汉字键盘输入用通用词语集》(1995年国家技术监督局发布)提供了汉字输入的词库,收入词语43540条。《信息处理用GB13000.1字符集汉字部件规范》(1997年国家语委发布)规定了信息处理用汉字部件拆分的规则,给出基于20902个汉字的560个部件的部件表,主要用于形码输入法设计。 3.汉字输出标准 《信息技术汉字编码字符集(基本集)》的系列点阵字型标准(1985年国家技术监督局首次发布,之后不断修订),分别规定了6763字的印刷宋体、黑体、楷体、仿宋体的16、24、32、36、48、64等的点阵字型标准。《信息技术通用多八位编码字符集(基本多文种平面)》的系列点阵字型标准(1997年国家技术监督局首次发布,之后不断修订),分别规定了27484字的印刷宋体、黑体、楷体、仿宋体的16、24、32、36、48、64等的点阵字型标准。 4.汉字存储检索标准 《GB13000.1字符集汉字部首归部规范》(2008年教育部、国家语委发布),规定了汉字部首的归部原则和规则,给出了20902个汉字的部首归部表。该标准主要用于信息处理,也可供辞书编纂参考。 以上通用标准和专用标准的发布,对汉字应用的规范化和信息处理技术的发展起到了重要作用。这些标准是国家有关部门根据应用需要组织专家学者认真研制而成,虽然不是每个标准都尽善尽美,但都凝聚着许多语言文字研究者、标准化工作者的心血,体现了当时的优秀成果和科研水平。本人有幸参与许多标准的组织及制定,特别是《通用规范汉字表》这项重大标准的研制,从中收获很大,同时也感慨颇多,深刻体会到汉字标准制定难度之大。 二、汉字应用的情况 (一)社会用字的字量 政府机关、教育、新闻媒体和公共服务行业是汉字应用的四大重点领域。各领域用字的字量不同,基础教育和文化普及基本用字在3500常用字的范围。如基础教育的考试标准在3500字以内,基础教育教材用字在4500字左右,《毛泽东选集》四卷用字有2891字。出版印刷、广播影视和网络、公共服务等领域的通用字则在6500字的范围。如新华社1986年的4000万新闻稿用字有6001字。古籍整理出版用字约3万多字,典籍数字化和数字图书馆需要应用的则是几十万字符(包括古今汉字)。人名、地名用字,是一个相当离散的集合,远远超出了通用字的范围,国际标准ISO/IEC 10646已编码的7万多字也无法涵盖。 (二)辞书编纂收字的字量 辞书编纂根据不同对象和用途有不同字量的收字。中小型规范性语文辞书收字在8000多字(指规范字的数量)的范围。如《新华字典》第11版收9400余字,《现代汉语词典》第6版收9159字。大型语文辞书则是几万字不等,其收字不仅有现代汉字,还有古代汉语用字。如《辞海》2000年版收13674字,《辞源》2010年版收12922字,《汉语大字典》2010年版收60370字,《中华字海》收85568字,《康熙字典》收47035字。辞书具有查阅使用功能,如同计算机系统的字,需要较多储存,以备查备用。信息技术产品的用字,根据不同需要也有不同,少则几千字,多则几万字。 (三)应用系统实现的字量 计算机、通信设备等系统处理汉字的字量情况是:一方面系统应用实现字量不足。虽然7万多字已有编码,但在应用系统中并没有完全实现,一般只在出版印刷系统实现了应用。由于系统更新有成本和安全问题,邮政通信、金融保险、医疗卫生、户籍管理等行业使用的仍是支撑小字量的旧系统。一般的应用系统实现的只是20902字或27484字,且各系统不能交流共享。有些系统虽然是20902字或27484字,因系统提供的输入法只支撑6763字,也发挥不了大字量系统的作用。另一方面仍有部分字特别是人名地名用字没有编码,公安部户籍部门为换发第二代身份证制作了专门系统,能够处理这些字,但与其他领域的应用系统不兼容,不能实现共享。许多人在计算机和手机上打字常会遇到一些字打不出来的困扰,主要有以下四种情况:要打的字没有计算机编码;应用系统没有及时更新升级,字不在系统字库里;应用系统的输入法没有更新,字不在输入法里;打字者不会用包含其字的输入法。 (四)汉字应用的规范性 社会各领域的汉字应用,特别是政府机关(公文)、教育(教材、教师教学)、新闻媒体(出版印刷、广播影视)、主要公共服务行业(文化、商业、邮政、交通、银行、保险、医院等)等四大重点领域方面,总体上说规范性较好,能够遵循相应标准,规范地使用汉字。但仍存在不少问题。 三、汉字应用的问题及其原因 (一)汉字应用的问题 社会各领域汉字的应用主要有三大问题: 1.应用不规范标签:汉字编码字符集论文; 现代汉语常用字表论文; 印刷行业论文; 笔顺论文; 部首论文;