中国古代史研究中的数字文学资源及其利用_gbk论文

中国古代史研究数字化文献资源与利用,本文主要内容关键词为:中国古代论文,文献论文,史研究论文,资源论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

查阅文献、摘抄卡片、添加批注、排比整理,是历史学者搜集、处理所需原始资料的常用方式。学者的首要任务是进行创造性思维,但资料工作花费了他们一半以上的时间与精力,大大缩短了其学术生命,这是史学研究中的最大浪费。随着社会信息化进程的加快,中文古典文献数字化程度迅速提高,给历史研究提供了全新的手段与工具,对几千万字文献的查询和摘抄可在数秒之内完成,非常有利于改变现状。本文试图对中国古代史研究数字化工作作一些介绍。

一、已建成和正在建设的中文古籍全文数据库

近十数年来,海内外有关机构和人士纷纷着手中文电子古籍全文数据库的建设,其中比较大的有如下一些。

(一)“汉籍电子文献”。台湾“中研院”建设。最早称“史籍自动化计划”,曾改称“汉籍全文资料库”。该库可在国际互联网上使用(注:网址为:http://www.sinica.edu.tw/ftms-bin/ftmsw3。)。

该库所收文献依该院人员研究需要而选定。目前已建成并公开投入使用的古籍约12,000余万字,主要有:“二十五史”、 “十三经”(3种(注:为《十三经注疏》、《断句十三经经文》、《点校四书章句集注》。))、“诸子”(43种(注:为《抱朴子》、《庄子集释》、《法言义疏》、《东观汉记》、《墨子城守各篇简注》、《潜夫论笺》、《国语》、《庄子集解》、《庄子集解内篇补正》、《古本竹书纪年辑校》、《墨子间诂》、《列子集释》、《晏子春秋集释》、《管子轻重篇新诠》、《点校四书章句集注》、《新语校注》、《战国策》、《八家后汉书》、《老子校释》、《庄子》、《老子》、《墨子》、《荀子》、《韩非子》、《吕氏春秋》、《商君书》、《管子》、《晏子春秋》、《孙子》、《吴子》、《尉缭子》、《六韬》、《司马法》、《公孙龙子》、《燕丹子》、《新书》、《新语》、《春秋繁露》、《淮南子》、《新序》、《说苑》、《列女传》、《盐铁论》。))、“古籍十八种”(注:为《唐令拾遗》、《新校搜神记》、《齐民要术校释》、《世说新语笺疏》、《典论》、《申鉴》、《中论》、《汉官六种》、《洛阳伽蓝记校注》、《九家旧晋书辑本》、《颜氏家训集解》、《荆楚岁时记》、《唐律疏议》、《山海经校注》、《通典》、《风俗通义校注》、《唐会要》、《后汉经校注》。)、“古籍三十四种”(注:为《邓析子》、《关尹子》、《太平经合校》、《鬼谷子》、《尹文子》、《慎子》、《孔子家语》、《鹖冠子》、《通玄真经》、《孔丛子》、《艺文类聚》、《论衡校释》、《金匮要略》、《难经本义新解》、《伤寒论》、《黄帝内经》、《前汉纪》、《汉魏南北朝墓》、《九章算经点校》、《周髀算经》、《越绝书》、《释名》、《方言校笺》、《穆天子传》、《西京杂记》、《吴越春秋》、《逸周书》、《文献通考》、《朱子语类》、《楚辞补注》、《敦煌变文集新书》、《文选》、《华阳国志校补图注》、《古小说钩沈》。)、“大正新修大藏经”(收入22卷(注:为第1~4、8~17、22~25、28、49、50、 52卷,其中有些卷只收入了部分内容。))、“台湾方志、档案、文献”(132 种(注:为《小琉球漫志》、《中复堂选集》、《平台纪略》、《巡台退思录》等。))、“文心雕龙”(3种(注:为《文心雕龙义》、《文心雕龙考异》、《文心雕龙法》。))、“清代经世文编”、“姚际恒著作集”、“新清史—本纪”、“乐府诗集”、“闽南语俗曲唱本《歌仔册》”。又从上述数据库抽出部分内容,建成“上古汉语语料库”(3,200余万字)、 “人文资料师生版”(约4,700万字)。 此外还建成“简帛金石资料库”(注:网址为:http://saturn.ihp.sinica.edu.tw/ ~ wenwu/bib.htm #2。收入各种资料的全文41种、书目3种。其主要有《中山怀王墓文子校文》、《包山二号楚墓》、《曾候乙墓》、《云梦龙6 号秦简释文》、《天水放马滩秦简甲种〈日书〉释文》、《睡虎地秦墓竹简》、《居延新简》、《居延汉简甲乙编》、《居延汉简释文合校》、《疏勒河流域出土汉简》、《敦煌汉简》、《敦煌汉简释文》、《散见简牍合辑》、《汉简〈奏谳书〉释文》、《秦汉金文录》、马王堆帛书及银崔山汉墓竹简《孙子兵法》等、马王堆《五十二病方》等、《武威汉代医简》、《张家山汉简〈引书〉释文》、《脉书》、《两汉镜铭集录》、《中国古代砖文》、《墓券》、《汉代石刻集成》、《秦汉南北朝官印徵存》、《汉印文字徵及补遗》、《汉碑集释》、《江苏东海县尹湾汉墓简牍释文选》、《台湾图书馆藏居延汉简》、 《罗布淖尔汉简释文》、《汉简书目(—1995.12)》、《石刻题跋索引(汉—隋)》、《新出石刻资料目录》。)。以上内容除“诸子”、“古籍十八种”、“古籍三十四种”、“大正新修大藏经”外,均已免费向社会开放。

除上述已公开投入使用者外,目前已完成输入,正在校对建成或已在内部投入使用者共2亿余字,为便于介绍, 人为粗略划分如下:历史类文献45种(注:为《世本八种》、《全上古三代秦汉三国六朝文》、《全唐文》、《太平御览》、《资治通鉴》、《续资治通鉴长编》、《续资治通鉴》、《建炎以来系年要录》、《三朝北盟会编》、《宋人轶事汇编》、《宋稗类钞》、《梦溪笔谈》、《挥麈录》、《能改斋漫录》、《宋朝事实类苑》、《宋大诏令集》、《建炎以来朝野杂记》、《契丹国志》、《大金国志校证》、《大元圣政国朝典章》、《元代法律资料辑存》、《吏学指南》、《庙学典礼》、《秘书监志》、《通制条格》、《元代白话碑集录》、《明实录(含附录、校勘记)》、《续文献通考》、《清朝文献通考》、《清朝续文献通考》、《清实录》、《清会典事例》、《亭林文集》、《日知录》、《朱子语类》、《宋论》、《读通鉴论》、《白虎通疏证》、《读四书大全说》、《祖堂集》、《熹庙谅阴记事》、《刘宗周全集》、《泉翁大全集》。),历代史料笔记116种(注:为中华书局新版《历代史料笔记丛刊》全套。), 台湾历史文献137种(注:为《平台纪事本末》、《台湾郑氏纪事》、 《赤嵌集》等。),医药类文献27种(注:为《肘后备急方》、《外台秘要》、《医心方》、《巢氏诸病源候总论》、《太平圣惠方》、《普济方》、《医方类聚》、《名医别录》、《东垣医集》、《丹溪医集》、《赤水玄珠全集》、《遵生八笺》、《名医类案》、《续名医类案》、《脉经》、《甲乙经》、《太平惠民和剂局方》、《子和医集》、《瘟疫论》、《神农本草经》、《千金翼方》、《妇人大全良方》、《诸源候论校注》、《卫生家宝产科备要》、《千金要方》、《洗冤集录校译》、《本草纲目》。),文学类文献37种(注:为《先秦汉魏南北朝诗》、《水浒全传》、《绣像金瓶梅词话》、《西游记》、《红楼梦校注》、《儿女英雄传》、《儒林外史》、《蒲松龄集》、《四库辑本别集拾遗》、《二刻拍案惊奇》、《三遂平妖传》、《初刻拍案惊奇》、《歧路灯》、《喻世明言》、《醒世恒言》、《警世通言》、《大唐三藏取经诗话》、《入唐求法巡礼行记》、《五代史平话》、《元刊杂剧三十种》、《王梵志诗》、《永乐大典戏文三种》、《朴通事谚解》、《老乞大谚解》、《型世言》、《桃花扇》、《训世评话》、《敦煌变文集新书》、《游仙窟》、《新刊大宋宣和遗事》、《醒世姻缘》、《镜花缘》、《关汉卿戏曲集》、《世说新语》、《四存编》、《亭林诗集》、《艺文类聚》。),宗教经典20种(注:为《长阿含经》、《增一阿含经》、《五分律》、《摩诃僧只律》、《五灯会元》、《六祖坛经》、《神会语录》、《无上秘要》、《三洞珠囊》、《上清道类事相》、《真诰》、《云笈七签》、《道枢》、《道教义枢》、《正统道藏》第1、3、5 、43、56、57册。)。其中《历代史料笔记》、《明实录》、《清实录》等大型文献全文数据库建设对中国古代史研究尤为重要。目前,该古籍数据库仍以每年输入约5,000万字的速度继续发展。 该系统使用BIG5 码编码字集,已编码汉字13,051个,可造字码位5,809个,已造4,555字。因有造字,故要更好使用,必须下载造字库文件。 鉴于可造字码位非常有限,而古籍用字数量庞大,该库今后采用“构字式”解决缺字问题。他们用3个组字符号

分别表示横连、直连、包含, 另用8个方便符号分别表示相同汉字部件如符合所示位置的排列。例如 :“澀”可用

表示等等(注:参见谢清俊《电子古籍中的缺字问题》,第一届中国文字学会学术研讨会(天津),1996年;庄德明:《汉字印刷字形的整理》,电子古籍中的文字问题研讨会(台北),1999年。)。

该古籍数据库采用“瀚典”全文检索系统,可选择库中全部或部分文献进行检索,检索条件可由一个或多个检索词组成,其间关系以逻辑运算符号和括弧予以确定。逻辑运算符号包含或(or)运算符“│”,且(and)运算符“&”,且非(and not)运算符“!”。“&”与“!”优先顺序相同,“│”次之,括号“()”则可以调整优先顺序。运算符号与检索词之间必须插入空格。另外,检索词前后可附加“排除”字集,以括号“{}”为标志,以下为两个检索条件实例。

有学者为研究汉代赈灾政策,提出如下检索条件:“减│免│减免│除│)&(租│田租│口赋)”,这样,凡是段落内出现“减”、“免”、“减免”、“除”四者之一与“租”、“田租”、“口赋”三者之一,即被检索出来。

有学者试图搜集与气象有关之“风”的资料,提出了如下检索条件:“{国扶遗乡承歌八移}风{伯后师土俗教刺谏喻}”,检索中“风”前后若发现“{}”中的任一字,便被排除,如“国风”、“扶风”、“风伯”等无关词汇便不会出现。

检索结构可以三种方式显示。“检索条列”,显示被检到的文献篇目及页码。“检索报表”,连续显示被检到的全部段落。“全段显示”,分段显示被检到的全部段落。以上显示结果均可打印输出。如果选定文本块并予复制,则可粘贴于Word或“记事本”、“写字板”文件之中,形成电脑文本文件。

(二)、“二十五史”。陕西师范大学历史系、古籍整理研究所袁林等人建设,收入《二十五史》纪、志、表、传等全部内容,共约4,000万字。已于1999年11月正式向社会推出(注:该软件演示版可在“中国历史资讯网(http://www.china-history.com)和“陕西师范大学”(http://www.snnu.edu.cn/ftp)自由下载试用,正式版可与陕西师范大学历史系联系。)。

该系统汉字采用GBK国家标准,共20,902个汉字。 为适应大陆学界目前使用电脑现状,尽量使用简体字。缺字用拼字方法解决。

使用该系统,可选择《二十五史》全部或部分书籍,对正文和注释中任意字或字串进行检索,同时统计命中文献数与检索对象出现总数。检索条件可按如下逻辑运算联结:或运算(+)、与运算(&)、非运算(-)、同段运算(&&)、同句运算(&&&)、 靠近运算(/n,即在检索者要求的n个字符间隔内两个字串同时存在),或、与、 非运算均以卷为单位。可对以前的检索结果进行再检索,系统可保留选定的此前若干步检索条件。检索完成后可选择标题、全卷、段落等方式查看。检索结果可以纯文本文件输出,也可打印输出。亦可用鼠标点开某书某卷的方式进行浏览。全文数据库保留原文正文大字和注释小字区别、保留原有表格。浏览时可将有关内容剪贴到自己的论文或书稿中。

该系统在设计伊始,就考虑到史学研究的多种需要。目前它可管理和检索各种历史资料,包括文本、图形、影像和声音,除一般历史文献外,也适合于各种文物及其他资料,如简牍、青铜器、甲骨图形与文字等等。考虑到古籍中汉字数量庞大,该系统将设计基础置于将来的全汉字平台之上,目前已可实现在9.5万汉字字集条件下的显示、 打印等功能。另外,陕西师范大学历史系、古籍整理研究所最近将有更大规模的中文古籍全文检索系统推向社会。

(三)“文渊阁四库全书”。由香港迪志文化出版公司投资,该公司与上海人民出版社合作出版,香港迪威多媒体公司与北京书同文电脑公司主持技术开发和工程实施。目前已基本完成,2000年中推向市场。该电子古籍收入文渊阁《四库全书》,分两个版本。一是“原文及标题检索版”,共168张光盘,可检索书名、卷名、卷内标题、作者, 可显示及打印输出原书页图像。一是“原文及全文检索版”,将原书约7.5亿字转变为电脑编码文字并实现全文检索,与原文图像相结合,大约共有175张光盘。其全文检索版可检索正文或注释中的任意字串, 亦可限定检索范围(如按四库分类、书名条件、著者条件等)。检索结果可按需要进行打印输出或文本文件输出。全文版部分内容已可在互联网上检索试用(注:网址为:http://skqs.unihan.com.cn/。)。

该电子古籍目前虽未完成,但其“全文检索版”有一些值得注意的技术进步。一是在字集使用上。初期文本输入以GBK为基础, 但最终字集采用UCS与Unicode之CJK、CJK__A及其可造字空间(详见第二节), 共有34,378个汉字码位可用,目前来看,这是最全面采用汉字编码国际标准的系统。一是检索中汉字关联技术的采用。即检索一字时同时检索相关异体字(广义概念,含异体、繁简、通假、古今等等)和形近异义字(如“已/己/巳”、“刺/剌”等等),例如检索“商鞅变法”一词,同时检索“商/商”、“鞅”、“ /変/变”、“法/灋/”等各字的组合,共18组;检索“自己”一词,同时检索“自己”、“自巳”。这样,原文中的异体字,因采用OCR 技术而必然产生的辨识错误,都不致于干扰检索,使漏检的可能性大大降低。

(四)“先秦两汉一切传世文献电脑化资料库”、“魏晋南北朝一切传世文献电脑化资料库”、“竹简帛书出土文献电脑资料库”(注:网址为:http://www.chant.org/scripts/main.asp。)。 香港中文大学中国文化研究所建立。其中“先秦两汉资料库”共收入103种文献, 约900万字,至1991年已全部输入电脑, 目前以光盘形式出版或近一两年内将出版者有90种(注:为《战国策》、《礼记》、《商君书》、《新序》、《韩诗外传》、《大戴礼记》、《孔子家语》、《说苑》、《淮南子》、《文子》、《孙子》、《尉缭子》、《吴子》、《司马法》、《逸周书》、《周礼》、《古列女传》、《晏子春秋》、《吴越春秋》、《越绝书》、《汉官六种》、《东观汉记》、《尚书大传》、《春秋繁露》、《山海经》、《穆天子传》、《燕丹子》、《吕氏春秋》、《仪礼》、《贾谊新书》、《盐铁论》、《周易》、《尚书》、《毛诗》、《春秋左传》、《春秋公羊传》、《春秋谷梁传》、《论语》、《孟子》、《尔雅》、《孝经》、《潜夫论》、《申鉴》、《中论》、《新语》、《法言》、《太玄经》、《京氏易传》、《焦氏易林》、《白虎通》、《论衡》、《风俗通义》、《老子》、《列子》、《荀子》、《六韬》、《鬻子》、《鹖冠子》、《文始真经》、《鬼谷子》、《申培诗说》、《世本四种》、《古三坟》、《竹书纪年》、《尹文子》、《孔丛子》、《公孙龙子》、《邓析子》、《蔡中郎集》、《忠经》、《国语》、《管子》、《太平经》、《韩非子》、《慎子》、《申子》、《尸子》、《前汉纪》、《墨子》、《庄子》、《楚辞》、《难经》、《金匮要略》、《伤寒论》、《周髀算经》、《九章算术》、《说文解字》、《释名》、《急就篇》、《方言》。)。“魏晋南北朝资料库”共收入近千种文献,约2,400万字,至1995年已全部输入电脑, 目前上网文献有45种(注:为《宋书》、《后汉书》(附《续汉志》)、《三国志》(附《校记》)、《南齐书》、《魏书》、《魏晋南北朝子部释家类文献38种》、《文心雕龙》、《曹植集》。)。“竹简帛书资料库”收入竹简帛书12种, 共约140万字,已全部输入电脑,目前以光盘形式出版者有9 种(注:为《马王堆汉墓帛书》(一)、《马王堆汉墓帛书》(三)、《马王堆汉墓帛书》(四)、《武威汉简》、《睡虎地秦墓竹简》、《银雀山汉墓竹简》(一)、《居延汉简释文合校》、《武威汉代医简》、《散见简牍合辑》。)。字集使用BIG5码,缺字用造字方式解决。均可全文检索。

(五)“续资治通鉴长编”。河北大学电子与信息工程系、宋史研究所合作研制。收入《续资治通鉴长编》全文共720万字, 汉字标准采用GB13000标准,缺字使用造字方式解决,可以全文检索。

(六)“大正新修大藏经”。目前有两个机构正在进行全面建设。一是台湾地区“中华电子佛典协会”,已完成第1~17、22~32册。 以光盘和网络两种形式发行, 可全篇自由下载(注:网址为:

http://ccbs.ntu.edu.tw/cbeta/cbeta.htm。)。可以字或字串检索并输出。使用字集为BIG5码,缺字以组字方式解决,方法与“汉籍电子文献”类似(注:其组字符号含义为:“*”,横向连接;“/”, 纵向连接;“@”,包含;“-”,去掉某部分;“-+”,去掉某部分而以另一部分代替;“?”,尚未找到合适表示者;“(”、“)”,运算分隔符;“[”、“]”,组字前后分隔符。)。一是日本“大藏经原典资料库研究会”,目前已完成20 余部佛经, 亦可全篇自由下载(注:其BIG5码网址为:http://www.l.u-tokyo.ac.jp/~sat/big-5/down.html,Shift- JIS 码网址为: http://www.l.u- tokyo.ac. jp/ ~sat/japan/down.html。)。有两个版本,使用字集分别为Shift-JIS码和BIG5码,缺字使用“文字镜字库”(详见第二节)。两佛典机构间有一定合作关系。计划先完成前85册,然后再完成第86~100 册之“图像部”、“目录部”资料库。

(七)“网路展书读”。台湾地区元智大学罗凤珠等人所建,可在国际互联网上自由使用(注:网址为:http://cls.admin.yzu.edu.tw/。)。包含《诗经》、《全唐诗》、《宋诗》、《唐宋词》、《红楼梦》等。可全文检索,检索条件可以“或(or)”、“与(and)”、 “非(not)”等逻辑运算相联结。使用字集为BIG5码, 缺字用组字等方式解决。

(八)“全唐诗电子检索系统”。北京大学中文系李铎主持开发,可在国际互联网上使用(注:网址为:http://chinese. pku. edu.cn/ang/。)。该系统可检索唐诗原文,亦可按作者、体裁进行浏览。使用字集为GBK码,原文采用繁体字形。

(九)其他。除上述中文古籍全文数据库外,还有一些系统值得注意。

1.“甲骨文全文检索及全文影像系统”,台湾成功大学图书馆所建,但网上检索系统目前尚未完成(注:网址为:http://www.lib.ncku.edu.tw/cgi-bin/ttsweb。)。

2.“数位化金文资料库”,台湾“中研院史语所”钟伯生等人所建,目前正在建设之中(注:钟伯生、季旭昇、黄铭崇《数位化金文资料库及其所遇到的文字问题》,电子古籍中的文字问题研讨会(台北)论文,1999年。)。

3.“《四库全书》原文查阅系统”,由山东济南开发区汇文科技开发中心建设,武汉大学出版社出版,共150张光盘。可按书名、 作者进行检索,查阅《文渊阁四库全书》原文图象,不能检索内容,可打印输出。目前在国际互联网上亦有主页(注:网址为:http://www. zg169.net/~skqs/skbig5.html。)。

二、相关可利用资料与工具

利用上述中文古籍全文数据库,必须使用一些工具,此外还有一些相关资源可以利用,下面予以介绍。

(一)关于跨语境使用汉字数据。目前汉字交换码不统一,使用较多的有简体中文(GB码及扩展的GBK码)、繁体中文(BIG5码)、 日文汉字(Shift-JIS码、EUC码)、韩文汉字(KSC码), 这种状况给浏览、检索和使用有关数据造成了很大麻烦。以前都要加装辅助汉字系统,如“四通利方(Richwin)”、“南极星(NJwin)”、 “汉字通”(Kanjiweb)等,通过代码页转换来解决,但由于其简体中文大多以GB码为基础,因此浏览时总会出现缺字,而且,利用有关数据时必须另用专门软件把繁体字转变为简体字,十分不便。

微软公司近年在软件开发中采用了“Single Data”策略, 即系统以国际标准UCS(注:ISO/IEC 10646.1《信息技术:UCS —通用多八位编码字符集—体系结构与基本多文种平面》,1993年。 )、 工业标准Unicode为基础,保持基本程序不变,在此基础上开发各种语言环境, 也即所谓“多平台”、“跨语境”技术,这一技术为我们使用基于多种交换码的数字化中文古籍提供了很大方便。以Internet Explorer 4.0以上各简体中文版来说,只要补充安装繁体中文、日文、韩文等多种语文支持工具,即可浏览和利用以GB、GBK、BIG5、Shift-JIS、ECU、KSC等交换码为基础的汉字数据。

Windows 95 以上版本和InternetExplorer 4.0以上版本的简体中文版,均采用GBK汉字交换码,而GBK完全兼容于国际标准UCS之CJK和工业标准Unicode2.0,另增收汉字(含偏旁)101个、图形符号232个。GB、BIG5、Shift-JIS、KSC等交换码都只是CJK和Unicode2.0编码字集的子集, 因此以这些交换码为基础的数据都可以不经过转换而在GBK基础上加以利用。浏览时, 可通过选择“编码”(或“语言”)中的“简体中文”、“繁体中文”、“日文”、“朝鲜文”,即可浏览相关文件,这不仅适应于超文本(HTML)文件,也适应于其他文件。需输入汉字时,只要确定语言种类后直接输入即可,当然,繁体字不能用简体字取代。需使用有关汉字信息时,只需选定内容,复制于“剪贴板”,然后再粘贴于Word或“记事本”、“写字板”文件之中,即形成以GBK码为基础的汉字文件,且繁简字形不改变。

(二)关于多种内码及繁简字汉字文件的转换。以前通常使用“四通利方”等专门软件来进行多种内码汉字文件的转换,其缺陷与浏览时相同,会出现缺字,繁体字被转变为简体字。使用Internet Explorer4.0以上简体中文版时,则可以更方便地进行转换。各种非GBK汉字文件,只要可以在浏览器或电子邮件中打开,且选择适当语言使用正确显示,通过选块复制再粘贴于Word或“记事本”、“写字板”文件之中,便被转换为GBK汉字文件,且繁简字形与原形统一。

由于GBK中大约有近4,000字以繁简两种字形出现,BIG5、Shift -JIS、KSC码汉字文件转换为GBK码文件时,许多字仍以繁体出现, 有时使用不便。另外,有时也需要将简体汉字文件转换为繁体汉字文件。目前笔者只见到“中、日、韩大字符集汉字系统——AW97”之“两岸通繁简自动转换系统(LAT)”可敷使用。当需要将繁体转换为简体时, 由于其间为一对一关系,故自动进行,当需要将简体转换为繁体时,由于有一多对应关系,故需人工选择。其繁简字对照表为dbf文件, 可根据情况进行调整和修改。该辅助软件LAT可脱离原有汉字平台,在Windows之DOS窗口运行。

(三)关于缺字问题。对数字化中文文献、特别是古籍来说,缺字是重要瓶颈。目前使用较广泛的几种汉字交换码,已编码汉字和可造字空间总量都十分有限:GB码8,154字,BIG5码18,860字,GBK码20,902字,显然不敷使用。在此背景之下,很多数字化中文文献采用“组字”方式,如前述“汉籍电子文献”、“二十五史”全文检索系统等,但是,组字毕竟是一种有缺陷的过渡性措施,最终出路只能是全汉字编码字集。这一时代正在来临,文史工作者应予以充分注意。

一方面,全汉字交换码编码空间从理论和标准上已经解决。1993年通过的国际标准ISO/IEC 10646.1(UCS )提供了一个全新的字符编码空间。其容量高达21亿多个码位,即使加上甲骨文、金文等历史文字,汉字也不过10余万字,完全可以容纳其中。如果考虑到技术方面的障碍,以双字节作为汉字表示基本方式,局限于“基本多文种平台”之内,该平台本身有65,536个码位,再根据有关国际组织1996年通过的UTF —16转换格式,另加1,048,576个码位,100多万个码位, 应当说已完全足以应付汉字及世界上所有文字的编码需要。

另一方面,全汉字交换码国际标准的编制接近完成。1993年批准的“中日韩统一汉字”(CJK Unified ldeographs, 简称CJK )编入20,902个汉字,1998年批准的“中日韩统一汉字扩充字集A”(CJKUnified ldeographs Extension A,简称CJK__A)编入6,582 个汉字和“康熙部首及中日韩部首补充”330个。“中日韩统一汉字扩充字集B”(CJK Unified ldeographs Extension B,简称CJK__B)1999年5 月已通过第3稿,计划2001年之前正式颁布,其中编入40,749个汉字, 以上总计编入68,563个汉字(含偏旁部首)。至此,《康熙字典》、《汉语大字典》(注:《康熙字典》收入47,035个汉字,《汉语大字典》收入54,678个汉字。)所收汉字,中、日、韩、越和台港地区正式标准所收汉字均被囊括其中,因此全汉字交换码标准的编制已接近完成。“中日韩统一汉字扩充字集C”(CJK Unified ldeographs Extension C, 简称,CJK__C)目前已经开始搜集字源。与此相应,国际标准UCS 也持续向工业标准过渡,1993年颁布的Unicode 2.0版包含了CJK全部汉字,最近将颁布Unicode 3.0版,其中将包含CJK和CJK__A (注:高天助《ISO 10646与Unicode标准发展现况》, 电子古籍中的文字问题研讨会(台北)论文,1999年。)。这一标准更新必然很快在软件领域表现出来。

对于以上情况,中国古代史研究者及其他文史研究者应有前瞻性准备,一方面,准备迎接基于全汉字编码字集的数字化中文古籍,另一方面,应根据本学科研究需要,对诸如甲骨文、金文、小篆等古文字的编码处理原则,异写字、异体字、繁简字、缺笔避讳字等变体字的编码处理原则,中文古籍数字化处理原则等问题提出自己的意见,使之更好地适应本学科研究之需。

(四)关于大规模汉字字形库的利用。目前,代表性的大规模字形库有两家,一是北京中易公司等所建95,000汉字字形库,该字库通过其开发的“全汉桥2000”汉字处理系统进行管理和使用, 采用分页(共4个分页)办法进行管理,可在Word下实现输入、 输出和排版。 该系统1998年底在香港正式公布,但并未公开发行,故其详细情况并不清楚。

另一家是日本民间组织“文字镜研究会”所建立的“文字镜字库”,该字库目前已收录90,000余字,含CJK全部汉字(保留中、日、 韩及台港字形差异)、诸桥辙次《大汉和辞典》所收全部汉字、甲骨文3,300字左右、梵文600字左右、越南字喃2,500字左右,计划在2000年之内完成金文、小篆、楚系文字、 西夏文字的收录工作, 届时收字可达110,000字以上。该字库汉字以序列号进行编码,第000001~049964号与诸桥辙次《大汉和辞典》汉字顺序相同,此后编码,则依收入顺序而定。用户若发现有未收入缺字,可直接提请其造字。同时还编制了电子字典“今昔文字镜”以利查询。该字库及“今昔文字镜”工具目前可在国际互联网上免费下载使用(注:网址为:http://www.mojikyo.gr.jp/ 。参见〔日〕古家时雄等《How 90,000 Mojikyo fonts are working at present by the extension of UTF—16》,电子古籍中的文字问题研讨会(台北)论文,1999年。),亦有光盘可供使用。以上字库及电子字典均以日文Windows为基础设计,但据笔者摸索,在Windows95以上简体中文版中,也可以很方便地加以使用,以免除中国古代史研究者写作时常会遇到的造字之苦。

(五)关于汉字输入方法。随着编码字集的扩大,输入法也相应更新。自GBK标准正式应用以来,基于GBK的输入方法已有多种,音码输入法有GBK全拼、GBK双拼、自由拼音等,形码输入法有郑码、王码9804、表形码等,习惯于GB字集输入法的用户可以过渡到相应的大字符集输入法。另外,Windows 及其他汉字输入法多有针对大字符集的自定义功能,使用者可利用Windows附带GBK.TXT文件,根据需要自行编制有关汉字的输入法。

标签:;  ;  ;  ;  ;  ;  ;  ;  

中国古代史研究中的数字文学资源及其利用_gbk论文
下载Doc文档

猜你喜欢