中国档案史知识库的全面建设--中国档案史知识库建设研究之一_出土文献论文

中国档案事业史知识库的总体构建——中国档案事业史知识库建设研究之一,本文主要内容关键词为:知识库论文,中国论文,事业论文,档案论文,总体论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

       [中图分类号]G270

       近年来,随着信息技术,尤其是数据库技术的不断发展,国家社科基金办加大对学科专题文献库及研究型数据库支持力度。[1]中国档案事业史知识库作为国家社科基金重大项目“中国档案事业史”(项目批准号10&ZD132)的子课题,即是其中之一。本文将阐述中国档案事业史知识库的构建思路,希望引起档案学界的更多关注,借以推动档案学科的信息化建设。

       1 中国档案事业史知识库的建设缘起与意义

       建设中国档案事业史知识库是学科发展的内在需求与现代信息技术的外在条件综合推动的结果。

       先看内因。史料的搜集和整理是史学研究的基础和前提条件。中国历史编纂向有修史先作长编的优秀传统。中国档案事业史学科创建伊始即重视研究资料的搜集和整理。这是构建中国档案事业史知识库直接秉承的历史大传统与学科发展小传统。尤其是后者。经过一代学者的开拓努力,中国档案事业史在资料积累方面已经具备了一定的基础,为中国档案事业史知识库的数字资源建设准备了一定的条件。

       中国人民大学信息资源管理学院是中国档案事业史的学科创建者。上个世纪50年代,韦庆远、程桂芬、曾宪楷等学者开创了中国档案事业史学科建设的初步规模,学科研究资料的搜集与整理也从那时候开始。1962年,中国人民大学历史档案系档案史教研室编印《中国档案史参考资料》,是书分为“奴隶社会和封建社会时期”、“半殖民地半封建社会时期”、“新民主主义革命和社会主义革命与建设时期”三册。“文革”后,80年代初档案系档案史教研室重印,改名为《中国档案史教学参考资料》,仍分三册。除了第三册稍有增删外,其余内容基本未变,全书56余万字。书中集中了古代、近代、现代不同研究阶段多位学者的辛勤努力,反映了自学科创建以来资料整理的整体成果。[2]《中国档案史教学参考资料》以传世文献中的基础史料为主,按照时代与问题相结合的方法编排资料,在当时条件下反映了档案史发展的基础资料面貌。是书还对选录史料作了标点和校勘,附注每一条资料出处,比较方便读者阅读。由于受篇幅限制,所录材料多有节略,读者以不得阅读全文为憾。《中国档案史教学参考资料》当时仅为教学参考用书,内部交流使用,并非公开出版物。但这部资料集自编印以来,一直是中国档案事业史研究者的案头必备参考用书,浸润涵养了几代学人。

       除了《中国档案史教学参考资料》外,与档案史研究相关的资料汇编还有《文书学参考资料》和《档案工作文件和论文选编》等。其中《文书学参考资料》由中国人民大学历史档案系文书学教研室1962年编印,第一辑为殷至国民党反动统治时期文书资料,第二辑为革命根据地和中华人民共和国建国以来文书资料。[3]前者以时代与问题相结合,重点在基础史料,旁及后人研究成果,其中个别材料作了删节,对原无标点的史料增加标点符号,附注文献出处。这部史料集约45万字,为从事中国古文书研究提供了翔实资料,当时也是供系内《文书学》课程教学的参考用书,流传并不广泛。

       《中国档案史教学参考资料》、《文书学参考资料》等早期资料汇编,为中国档案事业史学科发展提供了丰富的养料。[4]六十多年来,随着史料扩展,尤其出土文献中古代文书档案资料的不断扩展,以及中国档案事业史学术成果的不断积累,在新的历史条件下,编纂整理中国档案事业史研究资料已是学科发展内在要求。

       就外部条件而言,近年来,随着信息技术不断发展,文献数字化数量及质量持续提升,人文社会科学研究者在资源获取、数据检索以及分享交流等方面具有了前辈学者无法想象的便利条件。主动利用现代技术,革新资料整理的传统模式,根据专业需求构建学科数据库或知识库已经成为人文社会科学发展的新趋势。与社会科学相比,人文科学的学科信息化起步较晚,近年来也获得了飞跃式发展,人文科学与信息技术的结合还产生了新的学术领域。[3]

       国家社科基金重大项目“中国档案事业史”于2010年底正式立项,项目的主体是根据时代与学术发展,撰写新版《中国档案事业史》。在项目申请立项之初,课题组综合考察中国档案事业史资料编纂整理的内因与信息技术发展的外缘,将中国档案事业史知识库确定为项目子课题之一,即采用现代信息技术,整合中国档案事业史各类研究资料,构建开放的中国档案事业史数据库和学术网站,为中国档案事业史学术研究提供文献资料、学术成果、学术动态和知识支撑。中国档案事业史知识库的立项实施,是学术界第一次利用现代信息技术系统整理中国档案事业史各种知识资源,其将直接推动中国档案事业史学科信息化和学术发展。

       中国档案事业史知识库将数字资源建设与学术脉络梳理并重,通过对文献资源的科学化数字加工和系统化知识梳理,为学科研究者、学习者提供最全面的数字资源阅读检索以及互动共享平台,理清中国档案事业史学术发展脉络,并第一次从纵向历史线索出发梳理出从先秦以至近代中国历史档案发展脉络,建立起第一个中国历史文书的文种标本资源库。

       2 中国档案事业史知识库的构建原则

       我们将中国档案事业史知识库定位为研究型数据库,其构建主要遵循以下三个原则:

       全面性。以数字资源为基础,建设最大的中国档案事业史研究资料库。《中国档案史教学参考资料》与《文书学参考资料》主要以传世文献中档案史料辑录为主。中国档案事业史知识库除了继续扩大四部文献中档案史料的辑录范围并重视选本和标点校勘外,将充分利用数据库在文字、图像、视频、音频等多媒体资源海量存储的特点,根据中国档案事业史学科特点扩展资料来源。首先是,从档案(文书)视角出发,系统整理19世纪末以来出土文献中关于古代档案(文书)资料,包括文书图像、释文,以及考释研究成果。出土文书主要为宋元以前文书原件或抄件,反映了甲骨、金石、简帛、纸质等不同载体变迁,以及先秦以至宋元文种变迁,提供了文种研究的最原始资料。其次是,明清以来保存在各级地方档案馆中的历史档案资料。最后是,系统整理近代以来中国档案事业史学术研究成果,并旁及中国档案事业史隐性知识资源。通过科学数字化加工,所有资源提供全文阅览和便利检索。

       研究性。以学术研究为导向,建设融合信息技术与文献整理著录方法的研究型数据库。中国档案事业史知识库是由中国档案事业史研究者与系统研发技术人员共同开发的数据库与网站平台,具有极强的专业适用性。在资源著录方面,我们吸收了档案、图书等不同类型文献的著录标准,以及数字图书馆、数字档案馆等元数据设置规范,还吸纳了古籍著录的传统经验,在著录项目的设置上根据知识库收入的不同文献类型科学设置著录项目,准确著录。无论文书(档案)、基本史料,还是学术研究成果,均设置内容摘要与价值分析著录项目。关键词提取科学合理,这是系统将档案(文书)、史料与学术研究成果勾连起来的关键要素。在资源分类组织方面,体现对资源架构的组织能力。通过资源分类、著录项目,以及数据挖掘等技术,中国档案事业史知识库将为利用者提供史料门类、学术路径以及研究向度。

       开放共享性。以开放共享为目标,建设中国档案事业史知识库前台网站。中国档案事业史知识库系统包括后台数据库和网站展示平台。网站功能实现数字资源可视化展示、用户参与和用户资源共享。

       3 中国档案事业史知识库的数字资源组织

       数字资源是中国档案事业史知识库的基础。按照中国档案事业史学科特点和构架原则,中国档案事业史知识库分为传世文献资料库、出土文献资料库、档案馆藏资料库和学术研究成果库4个子库。传世文献资料库辑录先秦至清末传世文献中与档案事业相关史料,以原始文献为主,不包含今人论著的文字;涵盖传统四部文献以及现代整理之各类大型文集、丛书等,为中国档案事业史研究提供翔实的传世文献数字资源体系。出土文献资料库着意于出土文献中的文书部分,从档案学视角出发,先从代表性的文种入手,选择精华,逐步建立起中国宋元以前最全面的中国历史档案数字资源体系。档案馆藏资料库着意于各级各类档案馆现藏历史档案,先从特藏和文种入手,逐步建立起中国档案馆现藏珍贵历史档案数字资源体系。学术研究成果库搜集近代以来有关中国档案事业史研究的所有成果,包括中国档案学界、文史学界以及国际汉学界的研究成果,为中国档案事业史研究提供学术成果、学术进展和前沿,建立全面的中国档案事业史学术成果数字资源体系。这4个子库互相补充,从基础史料到研究成果,囊括了中国档案事业史学科所涵盖的各个面向的知识资源。

       子库资源分类与组织契合资源自身的特点与学术研究的需要。例如,传世文献资料库按照大的历史断限,分为先秦、秦汉、魏晋南北朝、隋唐五代、宋辽金元、明清六个大类,每个大类再按照专题分为档案机构与档案官吏、管理制度与政策法规、文书档案种类、档案的保藏与利用、档案的搜集与损毁及其他六个子类。这样的分类组织方式继承了中国档案事业史传统史料编纂整理的历史经验,在专题分类上进一步精细化,极便于利用者从时代与问题的角度切入各自研究的领域查找史料。

       出土文献资料库因涉及出土档案(文书)载体、文种、出土与保藏地点较为复杂,在资源分类组织上自具特点。出土文献库首先按照文献载体分为甲骨档案、金文档案、石刻档案、简帛档案、纸质档案与其他载体档案。甲骨档案,按照历史时期分为殷商甲骨档案、西周甲骨档案和汉代甲骨档案,并结合甲骨档案内容设置祭祀、阶级、征伐、田猎、疾病、天气、其他等七个专题类目。金文档案,按照历史时期分为殷商金文档案、西周金文档案、东周金文档案,以及秦汉金文档案,并结合器物特点,设置鼎、盘、簋、钟、壶、尊、卣、彝、觯、盉、鉴、镈、缶、其他等十四种器名类目。石刻档案,按照历史时期分为先秦秦汉魏晋六朝石刻档案、隋唐石刻档案、两宋石刻档案、辽金元石刻档案,以及明清石刻档案,并结合石刻类型,设置碑石、墓志、摩崖、造像题记及其他五个类目。其他载体档案包括铁券档案、砖瓦档案和玺印档案。简帛档案,按照载体分为简牍档案和缣帛档案,其中简牍档案下再按历史时期分为战国简牍档案、秦朝简牍档案、两汉简牍档案、魏晋简牍档案,并结合出土地点,设置湖南、湖北、河南、新疆、甘肃、陕西、青海、江苏、山东、安徽、江西、北京、天津、河北、内蒙古、四川等类目。纸质档案按照目前出土地点分为吐鲁番文书、敦煌文书和黑城文书,并结合文种和藏址,设置诏令文书、章奏文书、官府行移、私人文书和簿籍档案等类目,以及中国、日本、英国、法国、俄国、美国六个藏址类目。如此细致的类目设置契合了出土文书的特点。

       档案馆藏资料库按照档案藏址、时代与专题设置三个分类线索,即按照藏址分为国家级档案馆、省市县档案馆、港澳台档案馆、海外珍档、专业档案馆五类,按照专题分为政治、经济、文化、军事、名人、社会六类,按照时代分为唐、宋、元、明、清、“中华民国”、中华人民共和国七类。

       学术研究成果库,以学术研究对象的时代分期为标准,分为通史、先秦、秦、汉、魏晋南北朝、隋唐、五代十国、宋、辽西夏金、元、明、清、“中华民国”、中华人民共和国,共十四类,并按照专题分为通论、档案(文书)、文书处理、档案管理、文件保护、档案损毁、档案法规、档案机构、档案人员、学术思想、档案教育、档案宣传、对外交流及其他十四类。其优点也是便于利用者从时代与问题相结合的角度检索与浏览已有研究成果与学术前沿。另外,在朝代与专题的类目设置方面,基本按照逻辑线索展开,没有考虑到各类已有学术成果的多寡。这一方面是因数据库系统的数据容量很大,不必如纸媒介的史料编辑需考虑篇幅的均衡。更重要的原因是,学术研究成果在某一时代和专题的缺略对于研究者而言未尝不是一种研究方向的指示。

       各库著录项目各具特点。传世文献资料库著录项目有文献题名、作者、朝代、文献出处提要、文献出处链接、卷次、摘要、关键词等。出土文献资料库著录项目有题名、作者、受文者、形制、成文时间、文种、文种简介、摘要、评价、关键词、藏址等项目。档案馆藏数据库的著录项目包括:题名、档号、关键词、摘要、责任者、受文者、时间、载体类型、文种、文种简介、文件状况、摘要、史料价值等。学术研究成果库著录项目有题名、作者、作者单位、作者简介、出版单位、出版时间、发表期刊、发表卷期、原文摘要、编者辑录、编者叙录、关键词、语种、文献类型等。

       著录项目设置契合学术研究需要。如出土文献资料库和档案馆藏资料库,这两个库都设置了“文种”和“文种简介”项,系统要求著录时,对每个时代具有代表性的文书,不仅指出其文种,还将对这一文种的特点加以简要说明。因此,系统将“文种”和“文种简介”项数据聚合起来,会形成关于中国历史文书文种的知识资源库。不仅如此,现存历史档案中,宋元以前出土历史档案主要保存在各个博物馆、图书馆和学术研究机构中,而明清以后历史档案主要保存在各级各类档案馆中。信息时代给我们提供了将这些保存在不同学术文化机构的历史档案资源整合起来的学术利器。《中国档案事业史知识库》中出土文献数据库与档案馆藏数据库通过分类体系、著录项目的设计将建立起商周以来3500多年的中国历史档案的标本库和发展谱系。

       再如,传世文献资料库中的“文献出处提要”项,其中的文献出处是从中辑录出史料的源文献,即被辑录的文献。“文献出处提要”,意即为被辑录的文献撰写解题。这些被辑录文献包括经史子集各类文献,如经书、子书、正史、政书、方志、私人著作笔记,等等。系统将这些数据聚合起来,会形成一个关于史料来源的知识资源库,这就为研究者提供一个分析史料源的基本线索。

       再如,学术研究成果库中的“作者简介”项,要求著录作者学历、学术经历、研究领域、学术成果等内容,系统将这些数据聚合起来,会形成一个关于中国档案事业史专家知识资源库。而“原文摘要、编者辑录、编者叙录”等项的著录内容,将会形成一个关于中国档案事业史学术文献的著作提要库,其与研究对象的时代及专题相结合,将呈现出中国档案事业史研究发展的学术谱系。

       最后,传世文献资料库、出土文献资料库、档案馆藏资料库和学术研究成果库都设置“关键词”著录项目,这样将容纳了档案(文书)、基础史料记载与学术研究成果的关键词聚合起来,经过选择和规范化处理,从而形成中国档案事业史学科术语表或主题词表。主题词表的构建将会提高知识库的查全率和查准率。

       总之,遵循中国档案事业史知识库的构建原则,中国档案事业史知识库不仅是一个数字资源阅读和检索平台,通过资源分类与著录,还将为专业研究者提供研究方向和线索。

       4 中国档案事业史知识库的技术实现

       为保障中国档案事业史知识资源使用的便捷性和学术研究的连续性,中国档案事业史知识库项目组采用现代信息技术方法和工具架构网络化的知识库管理系统,对前期规划和收集到的各类知识资源进行数字化加工、系统化整理和精细化归类,建立管理信息系统对知识库资源进行统一管理,并通过知识库门户网站提供检索利用和查阅服务。系统门户网站主页面如图1所示。

      

       图1 中国档案事业史知识库系统门户网站分类检索页面

       中国档案事业史知识库系统的建设是紧紧围绕知识库文献资源的属性特征、管理活动和共享使用三个层级的工作要求来考虑数据库结构的设计和系统功能的实现。系统功能结构如图2所示。

      

       图2 中国档案事业史知识库系统的功能结构

       4.1 数据库结构设计是知识库系统构建的基础,它需要从三个维度考虑数据结构的布局

       第一个维度是根据知识库文献的种类进行子库的划分,由于传世文献、出土文献、档案馆藏和学术研究成果四类文献的属性特征、描述方法具有一定的差异性,难以采用同一元数据模型对这些文献资源进行统一描述,因此需要建立多个种类不同的子文献库,而每个子文献库内部也可以根据文献标引的要求进行二级子库的细分,如在本知识库系统建设过程中出土文献库又进一步划分为甲骨、金文、石刻、简帛、纸质档案等二级子数据库。

       第二个维度是从数字资源收集/加工、管理和使用的角度进行划分,分为临时文献库、文献保管库和知识关联库。这是由于一方面知识库资源的收集不仅来自课题组成员,而且随着该知识库的滚动建设,将会有更多的热衷于档案事业史研究的文献和知识贡献者,他们将通过网络渠道推荐相关的文献以丰富和完善知识库资源,但这些来源广泛的文献资源需要经过确认、鉴选和整理后方能为他人所使用,因此有必要建立临时数据库以存储未经编目整理的文献资源;另一方面文献库的建设和管理是课题组按照预先定义的门类进行划分,而知识库的使用者往往会从自身的个性化要求出发去访问所需要的文献资源,通常不是简单地访问某1到几个文献资源,而是希望得到这些文献资源之间的关联信息和碎片知识,这需要系统内部建立对文献深层次处理的方法模型和建立文献关联的知识模型,因此需要建立文献之间相互关联的粒度更细的碎片化知识资源库。

       第三个维度是从运行和维护的角度来考虑,前面两个维度是为了满足知识资源库建设、管理和使用的运行角度来考虑,而在系统建设完成后,知识资源库会是一个不断累增、滚动建设和长期被访问和使用的变化与发展过程,这就要求后续的运行维护工作能够得以重视,应从网络、系统和使用等各个方面保障知识库系统的持续可用和安全可靠,因此需要建立备份机制和备份数据库及其管理和恢复计划,这就需要建立备份库。备份库的建设需要考虑在线和离线、本地与异地、电子和纸质等多套方案综合实施。

       4.2 系统功能的实现是知识库系统构建的核心,它需要基于知识库结构设计方案,分析系统用户的使用要求,实现对知识资源库采集、处理、维护和使用的便捷性和有效性

       4.2.1 中国档案事业史知识库系统的用户至少包括四大类。一是知识文献的收集人员,包括当前课题组的成员和未来更广泛的知识库文献的贡献者。对于课题组成员可以考虑在局域网内部对预先采集到的文献进行集中或批量处理,而对于互联网上的其他用户则需要建立基于互联网的零散收集通道;二是对系统采集到的文献进行鉴选检查、加工处理、整理编目、归类维护的人员,这类用户通常在局域网范围内开展工作,将临时库文献进行加工处理、鉴定筛选,使之成为可为广大用户共享使用的正式文献资源;三是知识库的使用者,多数为互联网上的用户,要求建立统一的门户网站进行知识的访问与使用;四是系统维护人员,通常在局域网内对服务器和数据库进行后台的管理和风险的应对。

       4.2.2 系统开发方案的设计要考虑四类用户的使用要求来选择开发方式和计算模式。对于局域网用户可以采用Client/Server计算模式开发系统功能,这样既能满足数据加工处理和系统维护人员对工作效率、存取安全和网络访问等方面的要求,又能节约开发成本;而对于互联网远程用户(主要是网上文献采集和网络知识享用两类)则应采用Browser/Server计算模式开发系统功能和界面,以解决这些用户的远程访问要求,这就需要建立统一的知识库门户网站进行知识资源的呈现和提供统一的文献检索服务。

       4.2.3 系统功能的实现既要考虑用户当前的使用要求和建设资源状况,也要考虑知识库系统未来业务扩展的滚动建设需要。由于知识库系统建设的财力、人力和设施资源的限制,中国档案事业史知识库系统建设采取整体设计、分步实施的技术路线。目前主要从基础文献收集、整理、加工和分类管理角度进行系统功能开发,率先满足当前各类用户使用的基本要求;而将信息关联、数据分析和知识推动等更深层次的系统功能开发放在下一阶段进行实现,根据后期的投入逐步进行扩展。目前系统整体设计充分考虑到未来可扩展的要求而采取主流的开发平台,并留有开放的集成接口,以便未来可扩展。

       4.2.4 当前知识库系统不仅实现了局域网环境下知识库资源的收、管、存、用和维护等功能以支撑各类业务的开展,而且建立了基于Web服务的知识库门户网站,开通了网上文献收集通道,提供了知识资源共享使用的窗口,使得用户不仅能够进行分类检索,而且能够采用模糊检索、多条件查询等方式快速地找到需要使用的文献,这对我国档案事业史的研究和发展具有划时代的意义和作用。

标签:;  ;  ;  ;  ;  ;  

中国档案史知识库的全面建设--中国档案史知识库建设研究之一_出土文献论文
下载Doc文档

猜你喜欢