金字塔式知识结构数据组织--一种数字出版的体系结构与编辑方法_金字塔论文

金字塔知识结构数据组织——论数字出版的一种架构和编辑方式,本文主要内容关键词为:金字塔论文,架构论文,知识结构论文,编辑论文,组织论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

据统计,在整个出版产业中,数字出版的体量已经接近图书出版①。但数字出版产业的构成,并不与图书出版一一对接,而是在传统大出版的墙外形成了许多崭新的领域②,其中与图书出版乃至传统的书、报、刊、音像出版对接的板块,销售额只占整个数字出版产业的小部分,因而很难进行直接的产业比较。而由纸介质出版物内容演变而来的“电子”出版(这是一个老的名称,已经逐渐被“数字出版”所取代),随着数据库技术的不断提升,也已经从电子书、电纸书发展到数据库的编制出版。

从编辑角度来说,电子书和电纸书等,是传统的编辑出书与数字技术结合的产物,其编辑过程与纸介质出版物没有实质性的区别,甚至可以直接利用纸介质图书编辑成果。但当数字出版发展到数据库出版的时候,特别是在跨文本的情况下,其编辑工作就会与纸介质图书产生较大的区别。

本文所论述的“金字塔知识结构的数据组织”问题,就是数据库出版中的一种较为复杂的架构和编辑方式,提出这样一种数据组织方式,是试图为数字出版提供一种与纸介质图书的编辑有较大差异、功能多样的数据组织方案,实际上也是编辑工作在数字时代的及时提升和新形态。因为这是一个新的课题,研究还欠成熟,论述必有不当之处,敬请方家指正。

一、数据库和知识库

目前汉字文本数字化的重点,在于内容板块的选择(如《四库全书》、《中国地方志》、《中国家谱族谱》、《中国基本古籍库》、《中国学术期刊》、《中国硕博士论文》、《标准文献》、《专利文献》、科研成果等等)、文字的处理(如纸介质图书印前数据进入数据库环境的问题,古籍中繁体字、异体字、避讳字的处理问题,科技文献的公式代码图表的处理等等)、全文检索和辅助工具(全文检索的技术已经成熟,有些数据库另外置入年表、字典等)的设置等等,而在数据的组织(标引、链接、树状结构、网状结构)、信息的相关相似度计算处理、隐含知识的挖掘、所需数据群的自动生成等方面,还相对较弱。不少专家认为,目前的数字出版除了电纸书以外,主要是一般的“数据库”,大多还没有提升到“知识库”的水平。我同意这样的观点。

知识库的概念与一般的数据库概念是有所区别的。“知识库”是指将某一方面或多方面的文本数据加工整理,以一定的结构加以分类、组织及管理,以供人们检索利用的知识集合。可以体现一种人和知识间的互动以及人和人之间互动的理念。传统的纸本工具书,尽管已经提供了一些检索便利,但缺少综合条件和渐进式检索方式,无法产生再生资源(新的知识),只能部分地完成知识查询功能,难以做到海量数据中的知识发现。知识库(Knowledge Base)又不同于一般的数据库(Data Base),一般的数据库是将数据汇集、整理并加以结构化,以供人们检索浏览的数据群,其中的资料数据较少联系,数据所能发挥的功效视使用人的学养和想象力而定,不同的使用者可有不同程度的运用与发挥;而知识库中的数据是灵动的、活化的,具有导引和分类功能,容易为人所获取、吸收和利用。途径导引和全文检索是相辅相成的,在计算机使全文检索成为可能以后,进一步作引导性的编撰,功能会更强大③。

二、知识库的金字塔结构

知识库的架构(或曰数据组织)和编辑方式可以有多种选择。

就含有海量文本的数据库的数据组织而言,我在这里提出“金字塔知识结构”的概念,并在以社科人文为主的文本资源数字化的实践中试加运用④。

“金字塔知识结构”数据库建设的依据是文本数据的分层。文本的层级分类是一个新的概念,它与学科分类的概念不同,但其间并不排斥学科分类概念以及其他文本分类方法。

金字塔知识结构或曰金字塔知识层次,是基于知识创造的相对次第而提出的。新知识的获取,是建立在前人的研究成果和大量的原始资料(包括实验和调查所得的数据资料)之上的,其文字表达则是学术文化论著,而在知识创造发展到一定阶段的时候,人们就会用某种较为规范的方式对所得的知识加以梳理,固化在工具书中。当然这个过程是相对的,互相作用的。1917年10月,蔡元培撰写《植物学大辞典序》称:“一社会学术之消长,观其各种辞典之有无、多寡而知之。”学术发展与辞书编纂“互为因果,流转无已”。比如已经成为国际显学的敦煌学,至上世纪末终于有了一部《敦煌学大辞典》,敦煌学界公认,这部工具书对于敦煌学研究的进一步发展,贡献很大。

以此为据,就大的框架来说,我将文本资源分为原始资料、研究成果和工具书三个层次,原始资料当然应该是最先有的,其次是研究成果,最后才是工具书,工具书一定是在原始资料和研究成果的基础之上提炼概括出来的(但它又反过来推动学术研究的发展,所以这里是一个相对的概念)。文本资源的三大层次没有绝对的界限,对于不同的时代和不同的地域乃至不同的领域,前人的研究成果和工具书,也可以看做是当代人的原始资料。对于当代学人来说,全部中国古籍都可以看做是原始资料⑤。我的三层次论,是就当代学人而言的。

如果将工具书置于顶部,其中间部分是研究成果,底部则是原始资料,这样就形成了我所说的金字塔结构。

原始资料、研究成果和工具书又各可以分为若干个小层次。工具书可以根据提炼程度和涵盖面分为综合性大型辞典、字典词典(包括双语词典)、专科辞典(包括颇为特殊的“鉴赏辞典”、大事记年表、书目索引等层次;研究成果可以分为大体以时间为序主要循纵向逻辑展开的、具有梳理性和一定程度的学术原创性的著作“史”类著作(如《中国通史》、《中国断代史》、《中国文学史》及诸多专史等)⑥、综合性比较强而又主要循横截面结构逻辑展开的、具有梳理性和一定程度的学术原创性的著作的“志”类图书(《中华文化通志》、各种专志方志、教材类著作亦可入此)、循作者各自选择的论证逻辑展开的表述研究结果的富有学术原创性的学术文化专著(包括学术论文)等层次;原始资料则可以分为经过标校整理的古籍(如《古典文学丛书》、《全宋文》等等,这是加工程度较高的古籍资料,对于进一步的专题研究功用最大,可惜数字化程度却最低)⑦、经过整合而未经标校整理的古籍(如《四库全书》、《续修四库全书》、《古本小说集成》等等)、以图片为主的图书和图片;九个层次的细分方式大体遵循的也是知识创造次第论。

于是,我们不妨做这样的设想:以大型综合性工具书《辞海》为核心和塔尖,将所有文本分为九个层次,组成一个金字塔知识体系。就图书出版门类较为齐全、质地较为优良的上海世纪出版集团的出版物积累而言,九层文本资源的大多数层次具有不可替代性、权威性或学科基本完整性,唯有第六层,即学术文化著作,虽然数量很多,但与整个中文学术著作的产出相比,仍有较多的缺门,因为这部分图书是原创性最强的内容产品,一般来说,作者选择了一家出版社出版,就不会再有第二家出版社出版相同的著作。解决这一问题的办法是,挑选集团外优质学术著作进行二次描述,逐步加入。

跨文本金字塔知库数据组织是一个树状结构的知识仓库。(见示意图)

三、金字塔知识库数据组织从工具书出发的理由

前面已经说过,金字塔知识结构的构筑,大体以知识创造的相对次第为序,由下而上,将知识提炼程度最高的工具书放在金字塔的塔顶上,从经过梳理和概括的得到社会公认的成熟知识(即权威工具书的表述)出发,循径进入到学术成果直至原始资料,知识点之间由浅入深地有机链接,成为一个有内在联系的知识整体。

这也就是说,金字塔知库的数据组织是从工具书出发的。既然就知识创造的相对次第来说,工具书是在原始资料和学术文化论著之后的,为什么要将工具书放在前面呢?

这是由工具书的性质决定的。

工具书是什么?“按一定排检次序把有关知识、资料或事实加以汇编,专供检索参考的书籍。包括字典、词典、百科全书、手册、年鉴、表谱、书目、索引、图录、图谱等。其中以词典为最多,用途最广。”那么词典(辞典)又是什么?“汇集语言里的词语,按一定方式编排,逐条加以释义或提供有关信息的辞书。”⑧ 这似乎是目前的标准诠释。我认为从另外一个角度来说,工具书是人类的知识积累到一定程度,产生了分类和查检的需求而产生的,工具书就是某一阶段、某一方面知识的梳理和概括。陈平原先生说:“对于影响一时代普通人的知识结构、文化趣味以及思维方式,辞书和教科书均功不可没。……费时费力较多、讲究通力合作,故无法‘千里走单骑’的辞书出版以及教科书编撰,如强劲的后卫,支撑着整个社会的学术积累与知识创新。”⑨ 其观点与我接近。

如《中国大百科全书》、《辞海》这样的百科全书和综合性大辞典,是经过高度提炼的高质量工具书,既有或明或暗的学科体系⑩,又含有巨量的条目概括,这些条目,既是由各学科一流专家从他们所熟悉的学科成果中梳理提炼出来的,又是适合于工具书使用者查检的,在其漫长的出版史中,又经过无数专家的更新修订,经过一代又一代专家、编辑和读者的“磨合”,使其在知识体系的严密性、平衡性,知识点表述的准确性和简明性方面,逐步达到相对最佳状态,是其他文本数据所无法比拟的。

金字塔知库从工具书出发,至少有三方面的好处:

第一,工具书中的大型综合性辞书本身含有严密的知识体系,各种工具书汇集在一起,更能概括门类纷繁的全部学科知识,由此出发,进入知识的海洋,脉络比较清晰。

第二,工具书条目既是从原始资料和研究成果中提炼出来的,也是人们在求知过程中最想了解的。(11) 工具书的巨量条目(这里指不包括释文的条目名称)将成为现成的知识库预置关键词或主题词,亦即天然的标引对象(12)。工具书条目之总和就是数据库的“检索词表”,(13) 从而也是知识的标记,使查检靶的明确而集中,故可以其条目为金字塔的核心知识群,其他文本数据,均可依紧密程度呈涟漪状地与之相链接。

第三,工具书条目内容,既是一个个知识细胞,也是一个个独立的小知识体系。在辞书学中有宏观结构(macrostructure)和微观结构(microstrudture)的理论,宏观结构是指辞书的总体结构,微观结构则是指每一个条目应该包括的内容以及这些内容的组织程序,百科全书和大中型专科词典的微观结构,一般要根据怎样才能提供5个w(what、when、where、who、why)和1个h(how)这样六个方面的信息来决定(14)。工具书条目在表述过程中形成诸多的对应关系(一个概念的不同表述)。利用条目中的各种要素和对应关系,可以进行知识链接(此点下节详述)类聚相关相似知识,挖掘其他资源中的隐含知识(15)。

四、金字塔知识组织中的网状链接

金字塔知库数据组织首先是一个树状结构的知识仓库,同时也将通过横向知识链接而兼具网状结构。

在知库的知识管理与服务系统中,以主题词库为转换中心建立知识元链接,各种不同著作文本的知识信息通过描述与被描述等关系,依据知识元素关联成为一个非线性的整体,能实现知识元解读与知识元耦合。在主题词链接的引导下,用户可从知库中直接获取知识元及相关概念的解读和其他相关原始材料,从知识库的其他处所获取更多的知识组合,同时存在于知识元描述和知识单元中的各相关知识点又可成为用户挖掘知识的新起点。通过知识元链接,知库从微观上将其强大的知识资源组织成为内容关联的知识网络,方便使用者通过关联线索发现知识内容,其相关资源将由于这种链接方法成为某一知识元的“注释”或“参考文献”。在这里,用户自由地重组知识成为了可能,知识得到了延伸和扩展,知识服务得到了很好的实现。

任何一篇学术性文献的形成都不是孤立的,其内容特性与外部特性都会和其他文献与知识存在类似蜘蛛网一样的联系,将这些关系建立起来就可获得强大的知识网络。知网数据库系统对每一部(篇、章、节)文献都建立了相关性链接,当一宗文献被检出后,该文献的所有信息特征就成了数据库知识网络的节点。知识网络节点是一篇文献的信息特征与数据库中存在的相关文献或知识的链接点,将文献按内容相关性链接就可成为知识网络型数据库。金字塔知库的文献网节是直接与相关文献建立链接,网节内容可包括参考文献、引证文献、共引文献、相似文献、读者推荐文献、文献分类导航、出版物名称等项目。

具体来说,金字塔中由巨量的工具书条目名构成的主题词不是孤立的知识元,而是有着无数联系的知识网。这种联系来之于学科的分类、概念的对应同位语、阐述一个概念时涉及的其他概念、一种文献引用的其他文献、由一位作者旁及诸多作者等等。

所以金字塔知库的数据组织是层层深入的树状结构和横向链接的网状结构相结合的。层层深入是指三大层次或者九个层次(还可以细分为十八个小层次),依次予以展现:工具书层(基本表述、展开表述、详细表述和相关表述,在基本表述中设置可以链接的主题词,这些主题词是可以被激活的)、研究著作层(知识链之一环、历史链之一环、整体研究、专题研究)、原始资料层(经过整理的原始资料、影印的原始资料、图版)。横向链接则是指(以“苏轼”为例)家族(比如与苏洵、苏辙)、师承(比如与欧阳修、苏门四学士)、交游,生平的纵向层面和横向层面(比如与王安石),研究著作和研究者,相关著作和相关研究者等等。

基于上述目的,应从对拟收资源各层级文本之表述方式的分析出发,运用先进的数据库技术,逐步对塔中的全部知识作科学而细致的类分和标引,使其知识之存储方式发生质变,从而其搭配取用方式也发生质变,类聚相关相似知识,挖掘隐性相关知识,而且产生无穷的新知识。它将独立于纸介质出版物而存在,既利于查检,也利于研究,其功能在原出版物的基础上得到增强。

五、金字塔知库的知识展现技术和检索途径

金字塔知库将以何种架构来处理数据库前台呢?

用户每进入一个知识点,总是先显示《辞海》对此知识点的解释(如果《辞海》中没有涉及,则先显示其他工具书或非工具书中的有关阐述),低端用户也许至此已经达到目的,得到了一个简明而权威的解释;接下来可以进行提示,列出含有相关内容的《辞海》(如有其他相关条目的话)及其他工具书书目,供使用者选择查询,也可以查检对这些工具书本身的介绍;然后进入研究层次的查检;最后进入原始资料的查检。使用者查检所得的每一个内容单元中,都设有关键词(或相关作者、关联文献等),可以激活链接到本知库的其他地方。

金字塔知库的检索途径是多向的。全文检索及其显示排序(输入助手,难字输入)是最基本的,另外还可以设置通配符检索(问号和星号等的运用)、碎字(词、语,只记得零碎字词的内容)检索(即模糊记忆检索)、加精(或曰加深,由大概念到小概念层层深入)检索、分类筛选(按类别选择)、排序功能(可以设计相关度、概括度〈直接阐述的和文字量最少的在前〉下载频次、文字量、出版时间等等)、书目浏览(将金字塔知库中所有的图书按类别、类型、出版单位、出版时间以及汉语拼音等排序)、我的书屋(“我的书架”用于收藏自己用的图书,“我的材料”用于收藏相关材料,并标注出处)、选书检索(选择你自己需要的图书进行检索)、互动功能(评价与补充)等等功能。

六、金字塔知识组织的特点和特别功用

由上所述可见,金字塔知库与一般数据库的不同之处在于:1.构筑时思路清晰、纲举目张;2.工具书的众多条目成为现成的预置关键词或主题词;3.利用工具书条目在表述过程中所形成的对应关系(一个概念的不同表述)提高查全率,挖掘其他资源中的隐含知识,利用预置的时间、地点、人群等条件类聚相关相似知识。

这样的数据库组织和链接方式符合各种层次使用者的需求。

对于一般的求知者来说,可以借助工具书条目直接、迅速地找到所需知识的简明而准确的表述,成为他们不可或缺的知识之友;对于大学以上的深造者和专业人士来说,又可通过塔形知识库从有关问题的一般表述开始,进而找到相关研究成果和所需的研究资料,使研究的起点更高,从这一点上来说,它又将成为专业研究和论文撰写的最好的工具,这也是一种研究支持功能。

以上所述是“全数据”的大金字塔数据库。也可以以此思路构筑专题数据库,比如欲编制宋史资料、佛教资料、出版史料的数据库,均可先搜集与本专题相关的各种工具书,参考工具书中的学科体系分门别类汇集研究著作和原始资料,再按照金字塔结构进行组织。

这种数据组织方式比较复杂,对编辑者的要求比较高,还需要新的数据库技术的支持,但一旦编成,使用者将受惠无穷。

注释:

① 《中国新闻出版报》2010年1月14日《数字时代》周刊:2009年,我国数字出版产业的整体收入预计超过750亿元,与我国图书出版产值大体相当。

② 其中以互联网广告、网络游戏和手机彩信等为大宗,比如网络游戏,据《2009年中国游戏产业报告》,2009年中国网络游戏实际销售收入为256.2亿元,占了整个数组出版产业收入的1/3。

③ 1陈大为在“第二届古籍数字化会议”上的发言,论文集第64页。

④ 在工具书层面含有科技内容或独立著作。

⑤ 如就纯中国古籍而言之,则大体可以分为工具书、研究整理著作和原创作品三大层次,其中工具书可以分为类书和训诂书、字书和韵书、大事记和年表等等,研究整理著作可以分为原典的注疏释笺著作、史志类著作和研究专著、学术笔记等等,原创作品可以分为经史子原典、诗文作品等等。

⑥ 志和史的大框架具有学术原创性,具体内容以参考概括既有学术成果为主。

⑦ 这一部分成果或资源,介于研究成果与原始资料之间,亦可视作专著。

⑧ 夏征农主编《辞海》(1999年版),上海辞书出版社,1999年。

⑨ 陈平原、米列娜主编《近代中国的百科辞书》,陈平原《代序》,北京大学出版社,2007年。

⑩ 大百科全书的主体版本按照学科体系编排,《辞海》的主体版本按外在排序体系编排,其编辑过程则是严格按照学科进行的。

(11) 当然使用者所希望得到的带有某种表征的知识和资料,其表征不一定是工具书已经概括过的,那么全文检索的功能仍在,不会受到影响。

(12) “标引”是一种数据库基本技术,从某种角度来说,工具书条目就是从知识海洋中“标引”出来的。

(13) 工具书条目的数量综合起来是很惊人的,《辞海》(2009年版)亦即第六版的总词条数即达13万条。

(14) 杨祖希、徐庆凯主编《辞书学词典》,学林出版社,1992年。

(15) 比如古代类书、姓氏书中即有大量对应词。

标签:;  ;  ;  ;  ;  

金字塔式知识结构数据组织--一种数字出版的体系结构与编辑方法_金字塔论文
下载Doc文档

猜你喜欢