古籍智能整理与开发系统构建研究,本文主要内容关键词为:古籍论文,智能论文,系统论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
浙江天宇信息技术有限公司协办
1 古籍整理与开发研究现状
利用计算机技术,凭借数字化手段可以有效地保护和使用珍贵的古籍资料,这一点已经得到古籍研究者的广泛认同[1][2]。过去古籍整理专家主要凭借博学强记和手工翻检,对古籍资料进行整理和开发,因此整理出版一部古籍往往会耗尽学者毕生的精力。随着古籍数字化的兴起和发展,古籍数字化资源从最初的书目数据库,发展到后来的古籍全文数据库,直至如今的网络综合检索系统,越来越多的古籍资料拥有了可供快速查检的电子版本,这给古籍整理专家带来了极大的便利。起初,数字化的古籍资料质量并不高,缺字、错字现象时有发生,古籍整理专家对这些数字古籍资源的使用比较谨慎。近年来,经过信息技术领域学者持续的研究和试验,过去制约古籍数字化实现的一些关键性技术取得了明显进展,如海内外学者集中讨论的超大字符集、OCR识别及版面还原和全文检索等问题,开发了一系列高质量的古籍全文数据库,如文渊阁《四库全书》电子版、《四部丛刊》电子版、“中国基本古籍光盘库”、“中国历代基本典籍库”等等。这些产品的推出,增加了古籍整理专家对数字化古籍资源的信任感,不少学者认为古籍数字化是古籍整理与开发的未来发展方向。
实现文本字符的数字化,具有基于超链接的浏览阅读环境和配备强大的检索功能是古籍数字化发展的初级阶段。随着信息技术的发展和数字化成果的不断涌现,以及古籍整理专家利用数字资源整理古籍的需要,有必要在初级基础上开发研究支持功能,并实现古籍整理与开发的智能化处理,进一步加快古籍的整理、开发和研究利用。目前,计算语言学界已开发出具备一定研究支持功能的古籍数字化资源,台湾“中央研究院”及北京大学计算语言研究所一直走在这方面研究的前沿,而史学界在这方面成果不多。北京大学计算语言研究所和古文献研究所合作开发了“唐宋诗计算机辅助研究系统”,并取得了阶段性成果。该系统以唐宋诗文为研究对象,提供了丰富的统计功能,并设计了很多辅助研究功能,如实现诗文自动注音、判断诗作的押韵状况与韵脚等,并进行了词汇时代分布和意象索引技术的研究[3]。此外,一些大型的古籍数字化项目借用电子化的工具书解决异体字、繁简字等的关联显示问题。如《四部丛刊》以《康熙字典》为基础,设置了包括繁简、异体、新旧、正讹、古今、中日、通假等的关联显示[4]。
由此可见,古籍数字化在开发研究支持功能上,已经向前迈出了一大步。目前应当重新整合已有的古籍数字化资源,分专业、分学科进行古籍整理知识库的构建,同时加强智能化技术的研究,从而有计划、有组织地推动古籍整理与开发朝智能化处理方向发展。
2 古籍智能整理与开发系统框架设计
古籍整理与开发的智能化处理重点在于将全文检索的古文信息化建设转向古籍资料的数据分析和处理,且开发通用古籍整理平台以满足实际古籍整理工作需要。传统的古籍整理工作内容很多,包括古籍断句标点、校勘、注释、古籍资料辑录等,如果能搭建古籍通用整理平台,将这些工作全部由手工转为计算机操作,对于古籍整理而言实乃一件幸事。然而,目前古籍数字化仅限于提供古籍资料的全文检索和简单的统计功能,离古籍整理平台差距甚远,因此有必要研究行之有效的古籍整理与开发模式和方法,进而搭建专业的古籍整理与开发的原型系统,高效地组织、处理、利用现有文化典籍信息。
古籍的断句标点主要依靠古籍整理学家渊博的学识,根据古文的行文规范,对未标点的文化典籍加以合适的句读。如果将古籍整理专家的学识和古文的行文规范转化成知识库,指导计算机工作,古籍的断句标点实现自动化处理当有相当之可能。计算机断句标点的结果虽然暂时不能与专家句读水平相比,但是计算机可以根据一定的断句模式给出最初始的判断,然后由专家在古籍断句标点系统中逐步修改与完善,以最终形成实际可用的标点文本;这一思路应毋庸置疑。
古籍校勘和标点一样,属于古籍整理专家的智力劳动,而古籍校勘中最繁琐、最单调、最耗时的工序莫过于不同版本之间的文字比对,人工比对效率低下且容易出错,而这恰恰为计算机所擅长。一部数字化古籍,其机读形式就是一个字符串,比较两版本之异同,即比照两字符串之异同,计算机处理字符串指令中的增(insert)、删(delete)及取代(replace),恰好可对应于古籍校勘中各版本之间的衍文、脱文和错文,因此利用计算机进行自动校勘是可以实现的,至少计算机完全可以胜任版本比对和异文发现这部分工作,至于最后的勘误,可以留待校勘专家处理。
按主题分门别类地从不同古籍文本中摘录出相关资料,并编纂成册,于古籍整理不可或缺。虽然计算机无法像人那样具有判断思维能力,可以轻松判断古籍中的哪些内容是否与目标编纂主题相关,但是计算机具有高效处理大容量数据的优势,以百万汉字为单位的数据检索可在瞬间完成,因此利用计算机自动查找、筛选出与编纂主题相关的古籍资料,将会极大地提高古籍辑录工作的效率,取得令人惊叹的成果。
图1 古籍智能整理与开发系统框架图
鉴于上述分析,结合情报学领域在自然语言处理方面的技术和经验,知识工程领域在构建专家知识库中取得的成绩,以及机器学习技术和自然语言处理技术的部分成果,笔者认为行之有效的智能整理与开发古籍模式和方法是通过构建基于概念空间和人工标引经验的,用于古籍智能整理与开发的基本知识库,进而搭建专业的古籍整理与开发的原型系统。该系统的功能模块和知识库的框架如图1所示。构建该原型系统仅凭技术专家一己之力是无法完成的,因此有必要联合古籍整理专家、情报学专家、信息技术专家以及自然语言处理等领域的专家共同努力、长期合作才能完成。
3 古籍智能整理与开发系统关键技术研究
3.1 自动编纂技术
让计算机模拟人脑从大量古籍文本中判断、选择出与编纂主题相关的资料,实现古籍专题资料的自动编纂工作,是本课题的核心内容之一。自动编纂算法的难点在于如何判断句子间的紧密程度,并根据这种密切关系划分出论题句群。本研究借鉴篇章分割理论,利用两个句子包含的相同单词数来判断句子间的密切关系,即如果两个句子包含相同的单词越多,那么它们的关系越密切,然后根据句子间的密切关系划分出句群,如果发现某一句群包含编纂主题,则将其摘录出来。其主要步骤为[5]:
首先将古籍文本分割成大小相等的子句;其次利用中文最大匹配分词技术,提取子句关键词;然后根据文本块比较法,计算子句之间的紧凑度和深度值,并计算深度值的均值μ和标准方差σ,选择所有深度值高于μ-c×σ的子句间隔点作为分割点;最后按照分割点提取相关论题句群,并将编纂结果按照相关性大小排序输出。若同一编纂主题的编纂结果过多,则继续采用以词为中心的动态自动聚类技术和相关度排序输出技术,将编纂结果按相关度进行分类显示。
3.2 自动注释技术
古文较白话文难于阅读理解,不仅在于阅读者缺少古文功底,同时也在于缺乏相关专业知识。因此利用计算机技术,在阅读数字古籍文本的过程中自动提供语词注释,非常有意义。收集古籍专业词汇及其注解,构建古籍语词注解知识库,乃本研究重点所在。古籍语词注解信息来源有三:首先,从专业的工具书中收集资料,如《中国历史大辞典》、《中国历史地名大辞典》等;其次,从古籍校释本中收集词汇及其注解信息;最后,通过专家的专业知识积累,补充词汇资料。
超文本技术可以实现知识单元之间的链接,方便用户跳跃阅读,目前亦是互联网中广泛应用的一种信息组织技术。本研究利用动态生成文本链接锚点技术为古籍文本添加语词注释。具体步骤为:采用xml方式存储古籍文本资料,将古籍文本信息去匹配语词注解知识库中词语,匹配算法采用逆向最大匹配原则,匹配成功将该语词标记成超链锚点,用户点击这些锚点词后,系统激活“锚点词检索程序”,将被点击的锚点词作为检索词对古籍注解知识库进行检索,所获得的语词解释信息显示在一个新的浏览窗口中。此外,还借助相关度统计分析技术解决同一词语多重含义在上下文中的选择显示。
3.3 自动校勘技术
校勘是古籍整理的重要方式之一,以前长期以手工进行操作,而将计算机技术引入其中,实现自动校勘则可以极大地提高校勘工作的效率。古籍自动校勘是指利用计算机自动发现并标记出古籍不同版本之间的文字差异,并提供各种校勘辅助工具以帮助专家勘误。因此,研究和设计可行的计算机比对程序,是自动校勘系统的核心研究内容。
古籍校勘有对校法、本校法、他校法和理校法等多种方法,而对校为一切校勘之基础,同样也是本项研究着力之处。本研究借鉴模式匹配和中文文本自动校对技术,通过设置灵活可控的比对窗口进行版本比对。其基本原理为[6]:从底本和对校本中取出大小相等的字串进行比较,如果它们不相等,则将其切分成子串再进行比较,并根据校本串相对于底本串出现的增、删及取代的情况,分别判断为衍文、脱文和错文;如果它们相等,则跳过相等部分,重新取出底本串和校本串,重复前面的步骤进行比较。
根据现有理论和研究,自动校勘约可分为三个层次:(1)自动列出异文,不作比较和判断。异文,泛指校勘过程中出现的错文、衍文和脱文,下文所指皆同。(2)在列出异文的基础上,由机器作简单的判断,或者提供辅助工具(如避讳字表、异体字表等),帮助校勘专家进行判断和选择。(3)自动列出异文,并进行判断和选择,完全代替校勘专家的工作。本研究的目标在于达到自动校勘的第二个层次,因此古代官名表、人名表、避讳字表、异体字表等辅助工具的建设和引入是关键,具体构建方法见4.1。
3.4 自动断句标点技术
我国古籍数量繁多,全部采用人工断句、标点,费时费力,目前已经断句、标点的古籍文本只占很小一部分,而不加断句、标点又直接影响使用。因而进行古籍自动断句标点技术的研究,对于加快古籍的研究与开发有其重要意义。
本研究采用模式识别技术,构建模式识别库并将之导入相关模式识别处理程序,从而实现自动对古籍文本的自动断句和标点。具体步骤为[7]:
首先,采用句法特征词断句法、同义语标志词法进行初步断句。用于句法特征标志的词汇主要有虚词、关联词及语气词三大类。虚词在古籍中的地位众所周知,比如“也、哉、乎”等句尾词,“岂、胡、敬、苟”等句首词等,皆可以作为断句主要标记。句法关联词与句法密切相关,给汉语的断句、标点提供了很大的帮助,例如“尤、虽、如此则、要之”等均可以作为句首词处理,在其前断句,并加适当的标点。语气词同样也是古籍中重要的断句标志。比如“敬、苟、也、夫、窃”等词,均可作为新句的开始。
然后,利用反义复合词、引书标志、时序、数量词、重叠字词、动名结构及比较句法进一步对子句进行断句、标点。在中国古籍中,存在大量词素意义相对或者相反的复合词,如《道德经》“有无相生,难易相成,长短相形,高下相盈,音声相和,前后相随”一句中,“有无、难易、高下、长短、前后”即是此类,这类词可作为断句标识。“先…日”、“后…日”、“于春”、“于秋”等时序表达在古籍中比较常见,也可以作为断句、标点的重要标志。
最后,使用行文格式、各行业专用语和禁用模式表进一步提高断句、标点后古籍文本的可读性和准确性。无论是古文,还是现代文,均有独特的行文格式和行业专用语,所以,体行文格式和行业专用语也是标点断句的重要手段。当然,古文中有些词语不能被拆分,比如复合词“汲汲、勃勃、洞洞”等词,一旦误分,则表明断句错误。另外,不同断句模式的重复应用,也可能使标点出现冗余,因此建立禁用模式库,可以进一步提高断句、标点后古籍文本的可读性和准确性。
4 古籍智能整理与开发系统知识库构建
4.1 词典知识库的构建
(1)古代官名、人名和地名表。特定的官职称谓、人名和历史地名等称谓是历史沉淀的结果,已经不再变化,应该可以穷举。因此,只要有足够的时间、人力和物力,经过持续不断的努力,建成比较完整的古代官名、人名和地名表当无疑问。可参考的重要工具书有《中国历代官制词典》、《中国历代人名大辞典》、《中国历史地名大辞典》等。
(2)避讳字、异体字和繁简字对照表。所谓避讳,是指我国古代对最高统治者和家族里的长辈以及最尊崇的人的名字,在写作和讲话时,避而不用,表示不敢、不能或不愿直呼其名的意思。异体字,是指在一个正字标准下,文献上与此正字同音义而形体有异的字。历来对它的称呼很多,除异体字外,还有俗字、讹字、杂体、别体等。《汉字属性字典》、《康熙字典》、《帝王庙谥年讳谱》、《避讳录》、《历代讳字谱》、《校勘学》等工具书和专著是收集避讳字、异体字和繁简字信息的重要来源。
(3)常用古籍名称库。古籍名称目录是读书治学的门径,我国古籍目录数量多、种类多、内容极其丰富。构建常用古籍名称库可以从《中国历史博物馆藏普通古籍目录》、《新中国古籍整理图书总目录》、《中国农业古籍目录》、《中医古籍目录》、《国家珍贵古籍名录》等工具书中收集信息。
(4)专业术语词典。按专业分为历史、天文、农业、医学、宗教等多个专业词典。构建古代专业术语词典通常的做法是从古籍校释本中收集词汇,此外,可以结合中文分词和词频统计技术,从古籍原文中抽取某一专业的术语。
(5)古代关联词语表。用语义相似度计算和基于词典释义的同义词识别算法,开发古代关联词语表,用于关键词与主题词之间的转换,实现自动主题标引和术语转换服务。
(6)禁用词典。禁用词典主要由文言虚词构成,如“之、乎、者、也、夫唯”等,可参考《古汉语虚词》、《文言虚词》等工具书进行构建。
构建词典知识库主要以上述重要工具书为蓝本,采用扫描、OCR识别的方法,通过人工辅助录入,构建初始词典。不论是古代官名、人名和地名,还是古籍名称和古书中的专业术语等,它们都是古籍命名实体,因此可采用自动分词技术及相关命名实体识别技术,从古籍全文数据库中挖掘词汇,实现新词登录,逐步以完成词典知识库的构建。
4.2 模式知识库的构建
(1)异名别称模式库。构建异名别称模式有助于识别同义词,古籍中的异名别称包括别称词、避忌特称、地域特称、文献特称、物产别称和特殊行业特称等多种。本研究利用统计分析技术总结出异名别称模式为“原词〈标识词〉同义词”,其中标识词为“亦曰、亦作、亦云、又云”等,此外,“本称、彼称、另称、讹称、改称、古称、或称、简称、今称、俚称、世称、俗称、通称、土称、正称、一称、亦称、有称、又称、所称、命称、判称、因称”等可以作为物产异名别称的标识词[8]。
(2)断句标点模式库。由于本研究采用模式识别技术对古文进行断句标点,因此构建断句标点模式是研究的关键所在。本研究采用统计、归纳、分析、总结、规则、互信息的提取和处理等方法和技术构建该模式识别库,包括句法特征词法、同义语标志词法、反义复合词、引书标志、时序、数量词、重叠字词、动名结构及比较句法等多种断句标点模式。
(3)古籍分词模式库。与现代分词有显著差异,大多数古籍无标点,所以古籍分词词典、分词的长度及方法需要加以研究。初步思路采用基于词典的分词技术对古籍进行分词处理,首先利用停用词词典对文本进行过滤,设立切分标志,然后利用关键词词典,采用正向最大匹配法对切分标志之间的词串进行分词处理。最后再对分词碎片利用N元语法进行分词处理,以完成新词的识别与处理。因此古籍分词词典包括占汉语停用词词典和关键词词典。其中,停用词词典主要由文言虚词构成,如“之、乎、者、也、夫唯”等,关键词词典主要由古代人名、地名、官名、书名、节气名等古籍命名实体构成。
古籍的自动编纂、自动注释、自动校勘、自动断句标点等技术有各自的特点,所以其研究基本上相对独立,但是,各种技术所用的知识库却有很多相似之处。构建各种知识库,为古籍整理与开发的各种技术所共用,不仅极大地节省开发者的精力和时间,而且也有助于实现古籍整理与开发的“一条龙”服务。
5 结束语
古籍智能整理与开发,除了需要信息技术专家参与外,还必须以相关领域的学者,即内容专家密切合作,才可能向正确的方向发展。古籍整理与开发属于学术研究的范畴,整理一部古籍,要选择善本为底本,又要广校众本,之后精心标点和校勘,还须广徵群籍,拾遗补阙,最后提要勾玄,界定其学术地位与价值,因此古籍整理往往需要学者具有深湛的功力。如今学者可借助计算机技术,将原文献划分为若干基本单位,提取其中指向内部含义的关键词,依照它们的属性进行排序、筛选、统计和分类,比较相关文献中的关键词,寻求他们之间的相关性,这极大提高了古籍整理与开发的效率及其自动化程度。但无论是构建避讳字、异体字词典、异名别称模式库、断句标点模式库等用于古籍智能整理与开发的专用知识库,还是研究设计自动编纂、自动校勘、自动断句标点等自动化算法,都离不开相关领域学者的参与,否则仅凭技术专家的经验进行开发,势必造成数字古籍其关键词的标引和规范控制水平比不上手工整理,其存在的价值亦将受到强烈置疑。
收稿日期:2009-03-02