PUBO:面向出版的数字资源本体建模,本文主要内容关键词为:本体论文,建模论文,数字论文,资源论文,PUBO论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1 引言 随着互联网技术的发展和数字出版技术的逐步成熟,传统出版与信息科技融合的步伐加快,传统出版机构陆续应用信息技术开展数字出版[1]。很多出版社将自有的纸本图书、期刊等资源进行了数字化加工,对新的出版物直接进行数字出版。出版社大量出版物的数字加工任务大都委托给专业加工公司完成,而由于出版行业缺少统一标准,不同的出版社、加工公司以及电子书城所用的出版物数字资源格式彼此不同,许多资源格式之间难以有效转换。这使得资源的交换、复用和共享存在很大困难,转换成本很高。 在出版过程中,出版单位所出版的普通图书、期刊等内容资源不仅包括可交付印刷或电子出版的数据文件(如整书、章节等PDF文件)、排版或加工过程中产生的数据文件(如书刊排版文件、媒体资源文件等),还包括封面、篇章节、参考文献、术语表等文档构件和内容单元。对于所有这些出版内容资源,出版行业需要建立一个统一的数字资源模型,以表示和记录这些资源的内容结构、内容特征、表现形式、载体方式以及资源之间的关系,并能按不同粒度进行封装、复用和交换。 本体(Ontology)技术针对上述问题提供了一个有效的解决方案。本体最初是个哲学概念,是对世界上客观存在物的系统地描述。在计算机科学领域,本体被定义为概念化的明确的规范说明[2]。本体的使用可以使人与人之间、计算机系统与计算机系统之间、人与计算机系统之间的知识处理和知识交换更加方便和顺畅。与元数据技术相比,本体具备以下优势:①强大的词汇、术语、实体和关系的描述能力,可以对不同知识体系、不同粒度的资源进行描述;②提供了不同元数据之间的相互映射机制,可实现异构系统之间的互操作;③灵活性高,扩展方便;④支持推理,以获取新的知识。 笔者参与制定的新闻出版行业《数字内容对象存储、复用和交换标准》[3](Specification of Digital Content Object Storage,Reuse and Exchange,OSRE)采用本体技术,制定了多层次的出版物内容资源本体模型(PUBlication Ontology,PUBO),能对普通图书、丛书、多卷书、杂志、期刊、多媒体电子书等出版物的数字内容资源予以统一建模和描述,使得同一本图书和期刊中的各个阶段的数字资源构成一个有机的整体,支持出版内容资源在不同出版社、加工公司、印刷公司、电商等机构之间的资源交换和复用,支持面向数字出版的数字内容管理系统和相关工具的开发和应用,以便实现对多种类型资源全生命周期的统一的语义化管理。 2 相关工作 在PUBO本体提出之前,国内外数字图书馆领域、数字出版领域已有很多针对电子图书、数字对象、图书目次等方面的数据标准研究。较有代表性的有电子出版物表(Electronic PUBlication,EPUB[4])、基于混合XML的公共电子文档(Common e-Document of Blending XML,CEBX[5])、元数据编码和传输标准(Metadata Encoding and Transmission Standard,METS[6])、图书本体(BIBliographic Ontology,BIBO[7])、Schema[8]、开放存档计划—对象复用和交换标准(Open Archives Initiative-Object Reuse and Exchange,OAI-ORE[9])等。 EPUB是由国际数字出版论坛提出的标准。它针对数字出版物元数据制定了一系列的规范:EPUB Publications 3.0规定了与包裹文档相关的内容,包括电子书元数据、资源清单、结构顺序;EPUB Content Documents 3.0对电子书的内容予以说明,包括电子书的章节、CSS样式表、图像嵌入等;EPUB Open Container Format 3.0规定了文件存储格式;EPUB Media Overlays 3.0规定了媒体层的建立,描述了媒体的播放方式,并支持文字的语音朗读功能。EPUB标准在国内外的平板电脑、手机等移动阅读终端上有着广泛应用。 CEBX标准是由北大方正阿帕比公司提出的一种独立于软件、硬件、操作系统、呈现/打印设备的文档格式标准。它建立在一个概念性的成像模型上,使上层数据独立于平台。同时,它具有原版原式的呈现特点,即阅读显示与印刷一致。这使CEBX文件可以在不同的平台上呈现同样的版式效果。CEBX标准在国内电子书领域得到广泛应用,支持多种终端,包括个人电脑和移动终端。 EPUB和CEBX主要用于描述电子书的组成和封装,支持在线阅读,不能对出版过程中所涉及的各类数字内容资源及其各种元数据进行封装和管理。 METS规范用于描述由元数据和对象文件组成的复合数字对象,它规定了数字对象的描述性元数据、管理性元数据、文件组、结构关系等方面的内容,为数字对象的组织和封装提供标准。但METS所能描述的结构关系较为简单,没有完整的语义关系,所描述的文件对象本身也缺乏属性信息。这难以表示复杂的数字内容对象的属性、组成结构及其关系。 BIBO是由加拿大一家公司提出的面向书目信息的本体,在2009年11月推出1.3版后不再更新。BIBO定义了类和属性,用于描述图书、期刊、文章等资源,并侧重于描述出版物之间的关系,如不同版本关系、引用关系等。BIBO的描述对象为出版物成品,且重点描述各个出版物之间的关系。Schema给出了一组常用的本体定义,共业界参考。但针对出版领域而言,BIBO和Schema都没有考虑出版加工过程中所涉及的各类资源。 OAI-ORE是由开放存档计划组织OAI提出的用于开放存档对象的复用和交换的标准,其目标是建立标准的、可互操作的、机器可读的机制来表达复合数字对象资源,描述复合数字对象内部组件之间的逻辑关系以及网络信息空间中复合对象与其他资源之间的关系。但对于资源的具体属性,没有给出具体定义。 中国科技出版传媒股份有限公司(原科学出版社)与中国高等教育文献保障系统管理中心合作,基于OAI-ORE标准,对图书、期刊等资源制定了统一封装格式[10],建成了基于OAI-ORE标准的出版资源内容管理系统,对各类数字资源进行统一存储和管理,并具有资源的验证、展现、审核、发布等功能。该系统初步解决了图书、丛书、期刊等出版物数字内容资源的加工验证、存储和管理需求,但并未建立完整的数字内容对象模型,对出版过程中涉及的其他类型的数字内容资源也缺少完整的语义描述。其他出版社所采用的面向数字出版的内容管理系统以及面向数字出版内容的各个数字化加工公司也都存在类似的问题。 3 面向出版的数字内容资源类型分析 出版机构所涉及的数字内容资源既包括出版过程中的各类资源,也包括正式出版的相关资源。 出版过程中的数字资源包括以下四种划分角度:①从媒体格式角度,分为音频、视频、图片、字符贴图、文本文档、光盘映像等资源;②从设计排版过程角度,分为音视频的设计文件、文本排版文件、图像设计文件等资源;③从出版物内容角度,图书可拆分成目录、前言、序、章节、跋、参考文献、索引等内容单元,期刊可以拆分成篇章、参考文献等资源;④从出版物构成角度,图书和期刊可拆分为封面、外包装、随书光盘等资源,电子版出版物还包含样式表文件等资源。 图书和期刊等正式出版物所涉及的各类数字资源包括以下三类:①纸版和电子版出版物所涉及的完整的数字内容资源包,以供纸质书印刷出版或电子书的发布;②用于描述出版物的各类元数据,如中国机读目录(CNMARC),中国出版物在线信息交换元数据(CNONIX),图书流通信息交换规则元数据(CY/T39)等;③集合类出版物。比如,一种期刊由多期组成,一期由多篇文章组成;多卷书由多本图书构成。这些关系也需要描述。 针对上述各类资源,需要建立统一的数据模型,不仅支持出版机构内部资源的复用,也支持出版机构之间、出版机构与加工公司之间的资源交换和共享。PUBO本体应运而生。 4 面向出版内容资源的本体模型PUBO 本体是共享概念模型的明确形式化规范说明[2],是在语义层次上解决领域内信息共享、复用和交换的基础,其标准化和形式化的表示方式能很好表达领域中的复杂知识和资源的组织方式,有效解决领域中各个异构资源之间的互操作。Web本体语言(Web Ontology Language,OWL[11])是由万维网联盟于2004年提出的一种网络本体描述语言。OWL2于2009年发布,具有更多的元语和更丰富的语义,更好地支持推理。OWL分为三个子语言:OWL-Lite、OWL-DL、OWL-Full,其表达能力由弱到强;其中,只有OWL-DL(描述逻辑)支持推理,能保证计算的完全性和可判定性。 PUBO本体采用OWL-DL描述,其完整定义包括类、属性、枚举类、约束等方面的内容,具有严谨的验证和推理能力。本章着重介绍前3个方面的内容。 4.1 类 PUBO本体将出版过程和出版结果所涉及的数字资源归纳为3个大类:集合类、文档资源类、代理者类,具体共定义了60个类,同时,为了规范某些属性的取值,PUBO还定义了8个枚举类。PUBO本体中各个类的层次关系如图1所示。 图1 PUBO类层次图 4.1.1 集合类 集合类包括文档容器和文档集两个类。其中,文档容器类用于将已出版的各类数字资源和加工过程中的相关资源聚合为一体,形成一个完整的出版物数据包,文档集是对图书等文档内容的逻辑聚合,如由多期期刊组成的期刊集、由多本图书组成的多卷书等。 文档容器类用于将正式出版的图书或期刊(文档产品)及其相关的所有资源(包括媒体文档、内容单元、文档构件、设计排版文档、元数据文档等)聚合起来,以便对相关资源实现统一管理和交换。 文档集类用于表示有一定联系的多个出版物的集合,如丛书、多卷书、期刊等。每个文档集由多个文档产品构成,如丛书由多个图书产品构成,期刊由多个期构成,每期由多篇文章构成。如图2所示。 图2 文档集的逻辑结构 4.1.2 文档资源类 文档资源类由文档类及其子类构成。文档类用于表示各个出版环节所涉及的各类资源,根据这些资源的不同用途和媒体格式,文档类被进一步划分为一系列不同层次的子类,分别代表不同类型和不同粒度的数字资源,由此形成分类体系。文档类包括以下子类: 媒体文档类用于表示以计算机文件格式(如mp3、mp4、pdf、doc、ceb、indd、psd等)表示的各种资源。这些资源都是出版物必不可少的,一般都有相应的数据文件(用MIME编码),并采用专用的元数据对其描述和管理。媒体文档类又分为以下几个子类:文本文档、音频、发音文档、视频、图形、图像、字符贴图、动画、光盘映像。 文档构件类用于表示文档印刷或发行所必要的构件。文档构件一般都有对应的编码文档对象,用于关联至媒体文档,如一个封面类个体,关联至一个图像类个体,表示该图像即为该封面。文档构件又分为以下几个子类:封面、包装、光盘、网页、单页、附件、插图、字体文件、脚本程序、样式表文件。 文档内容单元类,用于表示用于内容复用的文档内容片段。内容单元类分为以下几个子类:摘要、章节、辅文、参考文献、参考文献项、导读、精彩篇章、目次、目次项、注释、术语表。 设计排版文档,用于表示生成文档产品的设计或排版文件。如用InDesign工具排版好的排版文件、用PhotoShop设计制作的图像设计文件等。这些文件可以与对应的文档产品有机关联,表明二者之间的生成关系。 元数据文档,用于单独存放与图书和期刊出版物配套的元数据信息,如CNMARC、MARC21、中国出版物在线信息交换图书产品信息格式规范CNONIX、图书流通元数据标准、保存元数据标准PREMIS和都柏林核心元数据标准DC等。 文档产品类用于表示可用于印刷或在线服务的出版产品,比如一个完整的CEBX文件包。文档产品可以嵌入或关联音频和视频文件,形成有声图书或多媒体出版物。文档产品类又分为以下几个子类:图书产品、图书章节产品、文章产品、图片产品、期刊产品。 4.1.3 代理者类 代理者类由代理者类及其子类构成,用于描述与出版物相关的各类作者信息,包括个人作者、机构作者或团体作者等信息,也用于表示出版内容资源的加工者和管理者等信息。从兼容性和复用性角度,该代理者类等同采用了国际互联网社区中主流的“朋友的朋友”本体(Friend of a Friend,FOAF)[12],以此作为基础性的作者规范档,并支持该类的进一步扩展。 4.1.4 枚举类 枚举类是指该类的所有个体均被声明。当某个属性的值域是某枚举类时,表示其取值只能是该枚举类的个体之一。枚举类的使用可以约束并规范某个属性的取值。 在PUBO中,定义了8个枚举类: 元数据类型用于描述元数据类型,包含CNONIX、图书流通元数据、Marc21、CNMarc、DC、METS等类型。 文档状态类型用于描述文档的各种状态,如收录、审核、拒绝、出版、草稿、即将出版、未出版、未审核等文档状态。 辅文类型用于描述各种辅文类型,如缩略词表、致谢、跋(后记)、附录、版权说明、献辞、版本记录、编辑委员会、勘误表、凡例、前言,卷首语、索引、内容简介、插图列表、图表列表、导航、绪言、符号表等。 封面类型用于描述封面类文档的类型,如封一、封二、封三、封四、勒口、书脊等。 包装类型用于描述包装类文档的类型,如腰封、护封、环衬、外包装、套盒、封套。用于描述包装类文档的类型。 单页文档类型用于描述单页类文档的类型,如扉页、版权记录页、衬页、插页、附书名页、口号页等。 参考文献类型用于描述参考文献的类型,遵循GB/T7714文后参考文献著录规则,如计算机程序(CP)、会议录(C)、数据库(DB)、学位论文(D)、电子公告(EB)、汇编(G)、期刊(J)、普通图书(M)、报纸(N)、专利(P)、报告(R)、标准(S)等。 产品类型用于描述文档产品的用途,如电子图书、按需出版。 对于上述各个枚举类中的具体类型,可以根据需要对其扩展,以满足实际需求。 4.2 属性 属性可以分为对象属性和数值属性两大类。对象属性负责描述资源之间的关系,数值属性负责描述资源本身。对象属性的定义域及值域都为对象。在形式化表示中,按照关联数据的表示方法,各个对象实例的唯一标识符均采用统一资源标识符统一表示。数值属性的取值为文本,具体分为字符串型、整数型、实数型,日期等文本类型。 4.2.1 对象属性 PUBO中定义了48个对象属性,从多个方面描述资源对象之间的关系。 文档容器负责封装与出版物相关的资源,文档容器包含两个导航类属性,一个是productManifest属性,描述出版物的具体构成,其取值为文档构件的有序列表,表示出版物的组成部分,如一个简单的图书出版物由封一、封二、封三、扉页、第二页、插图页……封四、随书光盘组成;另一个是readingOrder属性,描述出版物阅读顺序,其取值为内容单元的有序列表,表示出版物内容的阅读顺序,如一本简单的图书出版物,其内容单元包括序、目次、第一章、第二章……后记。同时,文档容器还应包括一个可直接用于按需出版或电子书发布的文档产品。文档容器与这些文档构件、文档产品、内容单元之间,均存在contains关联,以便于通过简单的检索得到所有与某出版物相关的资源。 媒体文档类负责管理物理文件,当其他资源使用了某物理文件时,如图书的正文为一个文本文件,或图书的封面为一张图片,需要建立该资源到相应的媒体文件的关联。这种关联用属性associatedMedia来表示。特别的,对于电子书的内嵌音频、视频、字体文件,可以通过属性embeddedAudio,embeddedVideo,embeddedFont来关联至相应的媒体文档。 文档内容单元的个体会与文档构件和文档产品类个体产生关联,如一个单页类个体,其内容可以通过某个内容单元个体描述,则可利用is Content Section属性关联这两个个体。 当一个文档构件构成了一个文档产品时,可以通过is Component Of属性关联文档构件及文档产品。 设计排版展现文件利用属性generates关联通过其生成的文档。 资源类个体间的关系可以用图3来描述。图3中的方框代表大类,连线代表类的个体之间的关系。 4.2.2 数值属性 PUBO标准共定义107个数值属性。对部分属性,采用子属性方式表示属性之间的继承或派生关系。 日期属性,包含与出版物相关的版权年、创办日期、首版年月、本次印刷年月、本版年月、出版日期、修改日期;以及与代理者相关的生年、卒年、创办时间。 文件格式属性,用于描述文件信息,包括校验值、校验方法、影音文件时长、排版软件版本、文件大小、文件高度、软件版本、播放器类型、精度、比特率、是否双层pdf、是否内嵌字体、是否包含逻辑结构信息。 标识符属性,用于描述图书或期刊的标识符,包括ISBN和ISSN等; 图3 文档类之间的关系 位置符属性,用于描述顺序关系,如章节的起始页码、目录的顺序号、期号和卷号等; 产品格式属性,用于描述文档产品的特征,如重量和厚度等; 标题属性,用于描述文档的标题,如并列题名、丛书名和交替题名等; 代理者信息属性,用于描述人、机构、团体的名字、地址和联系方式等; 其他属性,如摘要和描述等。 4.2.3 学科分类、语种的表示方法 在对象属性中,学科分类、语种两个属性比较特殊。由于有多种学科分类方法和语种分类方法,所以这两个属性的取值需要提供分类法和分类号两方面信息。PUBO中规定,学科分类和语种两个属性的取值均使用简单知识组织系统(Simple Knowledge Organization System,SKOS)标准来表示[13][14]。如:表示使用杜威分类法,分类号为296.67,其OWL/RDF代码如下。 <dcterms:subject> <rdf:Description> <skos:notation rdf:datatype=“http://dewey.info/schematerms/Notation”> 296.67 </skos:notation> <skos:in Scheme rdf:resource=“http://dewey.info/scheme/e23/”/> <rdf:type rdf:resource=“http://www.w3.org/2004/02/skos/core#Concept”/> </rdf:Description> </dcterms:subject> 使用SKOS表示学科需要使用skos:inScheme和skos:notation属性,前者的取值为分类法(用URI表示),后者的取值为分类号。 我国出版行业已有的分类法和出版机构内部的分类表,在用于PUBO本体之前,需要将其SKOS化,即将分类法中的概念及概念之间的上下位关系利用SKOS表示,并为每个概念分配统一的URI标识,这样就能应用于PUBO的学科分类。 图4 一个图书产品的示例 图5 基于PUBO的数字内容管理系统参考架构 5 PUBO的应用 PUBO本体可以表示多种出版物,如普通图书、丛书、多卷书、杂志、期刊、多媒体电子书等。经过类和属性的扩展,PUBO还可以表示百科全书、工具书等。 将出版机构现有资源转换成本体是PUBO的最基本应用。以某图书产品为例,文档容器负责将与该图书产品相关的资源组织起来,如图4所示,椭圆形代表个体,灰色椭圆是PUBO中定义的枚举类个体。文档构件(图4左侧)负责出版物的组装,内容单元(图4右侧)负责出版物的内容管理,还可用于内容复用。为了简洁,图4中省略了associatedMedia属性,大部分内容单元类、文档构件类、图书产品类个体均会具有该属性,以关联至某物理文件。 出版机构可以根据需要对PUBO的类和属性进行扩展。可扩展的内容包括:类、对象属性、数值属性、枚举类个体、约束。通过对类、属性和个体的扩展,进一步丰富PUBO的表达能力,满足出版社的个性化需要。通过对约束的扩展,使PUBO的推理机制更加完善,自动校验能力和推导新知识的能力更强。 关联数据[15]是本体的一种应用,如可将出版社的本体数据与现有的本体库通过异构本体映射算法进行关联,以获得新的知识。现有的本体库有DBPedia、CYC、YAGO等。除了关联现有的知识库,出版社与图书馆、网上书店之间均可进行数据关联,以降低人工处理数据的成本,并为用户提供更多的数据或知识服务。 PUBO本体可以与OAI-ORE结合,用后者对本体实例进行数据封装。PUBO提供了一个聚合类属性列表,在本体到OAI-ORE转换的过程中,可利用聚合类属性生成OAI-ORE图,进一步用于数据交换。有文献采用OAI-ORE对PUBO本体实例进行系统封装,给出针对出版领域各种数字对象的封装、存储和交换的格式和规范[15]。 基于PUBO本体,可以设计和开发下一代数字出版资源内容管理系统(如图5所示)。出版社可以通过该平台实现碎片化数字出版,如按篇章印刷出版、图片印刷出版、文章印刷出版等。通过提供可视化等辅助工具和管理手段,用户无须掌握复杂的词汇、术语,更加便捷地进行本体或知识加工,通过PUBO服务器来维护本体数据的一致性。PUBO服务器可以实现代理者信息管理(作者、出版社、图书馆、书店等)、出版物信息管理(题名、分类、ISBN、页数、版次、印次等)、出版物构件管理(封面、单页、随书光盘、样式表文件等)、出版物内容单元管理(摘要、辅文、正文章节等)、多媒体文件管理(文档构件与内容单元关联文件、多媒体出版物内嵌文件等)、元数据文件管理、设计排版文件管理、出版物资源封装等多方面的功能。 6 结语 数字出版是当前出版业的重要发展方向。支撑数字出版的核心是建立数字资源的形式化描述方法。本文所介绍的PUBO本体模型具备更加完整的语义,具备逻辑推理能力——可自动验证模型的逻辑完整性,具有可扩展。这使得PUBO可以很好地描述图书、期刊等各类出版物,为出版机构更方便地实现资源的管理、关联和复用奠定了统一的基础。 在PUBO本体基础上,OSRE标准的第2部分[16]给出了基于开放档案信息系统(Open Archive Information System,OAIS)标准的面向出版过程的数据交换信息包的具体封装规范,第3部分[17]给出了基于OSRE标准的数字对象验证规范。OSRE标准的三个部分[3][16][17]共同构成了较为完整的OSRE系列标准。 国家新闻出版广电总局于2014年底正式启动了国家复合出版工程项目建设工作。基于PUBO本体及其数字内容对象封装交换标准(即OSRE标准)[2][16]的数字资源交换池系统被列入了该项工程的核心系统之一,支持一对一和一对多的交换方式,具有对OSRE信息包的摄取、验证、预览、抽取、重组、映射、转换、传输、加载等一系列功能,用于实现出版机构内部和出版机构之间的各类数字资源的交换。PUBO本体将会随着该工程的实施得到进一步完善和深入应用。面向出版的数字资源本体建模_元数据论文
面向出版的数字资源本体建模_元数据论文
下载Doc文档