数字文献资源语义化计量本体的提出与构建,本文主要内容关键词为:语义论文,本体论文,文献论文,数字论文,资源论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
doi:10.3772/j.issn.1000-0135.2014.010.001 1 数字文献资源语义化概述 所谓语义化,就是在资源中建立有针对性的、适宜的语义标签(如HTML、XML、RDF(S)、OWL等形式),通过资源语义标签的内容反映出特定资源的语义特征,将资源中的信息内容转化成计算机可识别的形式,从而在一定程度上实现计算机对特定资源特征与内容的理解和掌控[1]。面向知识组织的数字文献资源语义化,则是指显性地、以机器可读的方式表达文献资源的属性特征和关联关系,即建立基于规范的组织模型,对文献实体之间和属性之间的关系进行序化,并提供基于语义关系的、统一的存取方式[2]。广义上讲,语义网络、语义Web、元数据、本体等技术的应用都属于数字化资源语义化实现的重要手段。其中语义网、领域本体等是典型的内容语义化实现方式,而元数据、主题词表或分类表等则是组织语义化的主要形式[3]。在实际应用中,随着这些语义化方法在数字文献资源知识组织中的不断推广应用,其中存在的问题也更加引人注意。如基于领域本体的语义化虽在语义化分析程度的深入上功不可没,但是在不可重复性、本体重用以及本体粒度等方面的问题也已多次被实践者和研究者们共同揭示[4,5]。与之相对应的,基于元数据的语义化可使得语义化知识网络构建的计算机自动化程度得以提高,但是却因为语义关系揭示浅显的问题而制约了其语义化应用。 2 基于计量本体的数字文献资源语义化 当前,数字文献资源语义化的研究多呈现出新技术、新应用以及新思路的多重发展趋势,其中,新技术多涉及云计算、语义网格、关联数据等交叉学科领域技术在其中的应用;新应用多体现在语义数字图书馆系统开发、语义知识检索模型应用、语义互联整合大规模异构数据源[6]等方面;另外一个非常重要的研究趋势在于语义化方法的整合与创新,如关联数据、本体技术与元数据在书目组织语义化中的融合便是典型的一例[7],同样地,本文也试图在此方面做出一定的贡献。 鉴于当前馆藏资源语义化中存在的问题,以及计量分析方法在数字图书馆建设中应用的广泛性,本文提出了一种新的馆藏数字文献资源语义化方法——基于计量本体的数字文献资源语义化[8](图1),即通过引入计量学相关方法构建计量本体,并在其基础上实现数字文献资源的内容与组织双重语义化。该方法吸取了其他两种方法在资源描述与知识组织中的优势,同时利用计量关联推理在语义关系深度揭示方面超过了元数据语义化,同时相比领域本体语义化,又在牺牲部分语义关系揭示的条件下获得了计算机自动化处理程度的大幅度提升,进一步加大其应用广度,进而提高数字文献资源的利用效率。另外,由于领域本体是面向特定的学科领域的,且在同领域内的概念提取、构建流程与方法上存在因人而异的现象,而面向文献特征结构的元数据和以文献元数据为基础的计量本体则可实现跨领域的语义化,且在同领域内所建立的语义化结构相对明确和稳定,因此它们二者的可重复性与重用性都要比基于领域本体的语义化高一些。因此,将计量分析与语义化技术进行融合共同进行数字文献资源的知识组织,即建立基于计量本体的数字文献资源语义化途径是非常必要的。 图1 数字文献资源语义化的种类 基于计量本体的语义化这一创新理念的提出。旨在通过引入计量分析实现自动化处理能力与语义化分析程度协同提升的馆藏数字文献资源语义化知识组织,从而实现数字图书馆中语义化知识库建立以及智能知识服务提供的最终目的。数字文献资源计量语义化理论提出与实践应用的根本意义在于利用多学科理论交叉与方法融合,进一步丰富数字图书馆中数字文献资源的知识组织模式,拓展面向知识组织的数字文献资源语义化途径,从而为基于图书馆资源的信息服务业发展和文化知识创新与价值转化的全面实现提供更为广泛和深入的铺垫。 3 数字文献资源计量本体的概念与内涵 3.1 计量本体的定义 计量本体并不是一个孤立存在的概念,它是由语义化方式达到文献资源知识组织的核心所在,也是数字文献资源计量语义化得以实现的必要途径。计量本体建立在计量语义化网络构建的基础之上,主要应用于实现数据自动学习和语义智能推理。 计量本体与以往本体的定义有很大的不同,传统意义上的本体定义多以应用领域为核心,而本文所提出的计量本体则以计量语义化方法为核心,即利用信息计量学中能够揭示数字文献资源语义关系的分析方法抽取其中的概念与关系,并利用关系数据库进行概念关联的存储,运用语义化机理进行推理和证明。传统的领域本体会把研究范围限制在某一特定领域,计量本体的研究对象理论上没有具体的领域之分,可以包括所有学科馆藏资源的元数据,但在实际应用中仍需从特定学科领域的局部本体开始,循序渐进,直至建立起整个科研范围内的全局计量本体。 从本体的本质属性上来讲,本体即是描述概念及其关系的一个显性化的存在,它的实体化表现可以是概念集合,也可以是概念模型;但究其根本,即可回归到Gruber对本体所作出的定义:本体是概念化的显式说明[9]。该定义言简意赅,且认可度最高。其中的概念化可理解为对概念和关系的描述说明[10],当明确给出一个对象中的概念以及其中的关系后,这个对象就可称为被概念化了。而显式说明是概念化的一个约束条件,是指其中的概念化结构与内容,即其中所涉及的概念及其关系能够明确地被描述,并以某种具体的形式表示出来。借鉴本体的定义,我们可将计量本体定义为:基于计量分析的数字文献资源内概念化的显示说明,即利用计量分析方法对馆藏数字文献资源中的语义概念及其关联属性进行分析与抽取,并进行明确的概念化定义与规范说明,继而采用形式化的处理与展示方式对数字文献资源中概念化的实体(即计量本体)进行显性的描述。 3.2 计量本体的构建原理 面向数字文献资源语义化的计量本体是基于这样的思想进行构建的:以馆藏数字文献资源的元数据为基础语料库,利用信息计量学的分析方法并辅以社会网络分析方法揭示出元数据之间存在的语义关系,以关系数据库的形式存储计量本体库的结构、语义关系和实例,最后利用Protégé软件和Jena工具实现本体生成与可视化展示,并最终采用程序设计实现本体应用,如语义检索与智能推荐等。 与语义网中的本体构建类似,计量语义化模型中的计量本体也是以RDF为基础,即运用RDF三元组的语义和结构来描述领域知识,其结构形式遵循RDF三元组结构的基本技术规范,但是又有些不同。例如,RDF三元组的基本形式是(概念,属性,值),而在计量本体中为了区分计量语义关系的不同,可以形成四元组或五元组的结构,如(概念,概念,共现关系,值)或(概念,中间概念,概念,耦合关系,值)等。可以说,计量本体是以RDF三元组结构为基础而进行了逻辑结构扩展,如(概念,概念,共现关系,值)可以描述成((概念,共现关系,概念),属性,值),(概念,中间概念,概念,耦合关系,值)可以由两组((概念,共现关系,中间概念),属性,值)推导得出((概念,耦合关系,概念),属性,值)。 与传统本体构建所不同的是,在计量本体的实现中,不完全依赖于OWL的应用,而应在此基础上有所拓展和延伸。其中的基本定义逻辑与实现是依赖于OWL的。但是OWL基于描述逻辑的推理功能主要是个体分类归属和逻辑检测等,这种推理方式在一定程度上适用于计量语义化的知识推理,但是将其应用于计量本体却不够具体和完整。计量本体实现逻辑推理的关键在于计量关系的独特推理,因此须在用于描述抽象语义概念的OWL词表和OWL自身所具备的推理规则中引入特定的计量关联法则,这样融合所产生的智能推理机制才够支撑计量本体的构建、更新与应用。 另外,与领域本体构建相比,计量本体的构建还有两个不同点:①由层次结构演变为网络结构。在构建领域本体时,通常都会构建一个树型的层次概念结构,对概念从抽象到具体的划分,结构清晰,有利于知识的分类组织;而计量本体揭示馆藏资源之间的关系,最终形成的是一个网状拓扑结构,概念、实例之间的关系更加紧密,有利于知识挖掘。②增加了关系强度。领域本体中概念之间的关系一般没有强度之分,只有存在与不存在之分;而计量本体中的关系是有强弱之分的,在构建过程中引入关系强度,有利于提高知识挖掘的正确率和精准度。同时,普通意义上的本体多研究的是不同概念之间的关系,而计量本体与其较大的不同点在于,相同概念内不同实例间的关系是其重要的组成部分。 4 数字文献资源计量本体的要素与框架 4.1 数字文献资源计量本体的构成要素 (1)类与实例 对数字文献资源对象的元数据集进行解析,可以得到数字文献资源这一基本计量对象(即Things)大类下设的研究客体(Object)、研究主体(Subject)、研究载体(Carrier)三个平行不交叉类。其中研究客体又下设学科/主题(Topic)、关键词(Keyword)两个平行不交叉类;研究主体下设学科/主题(Author)、机构(Institution)两个平行不交叉类;研究载体同样下设文献(Literature)、出版物(Publication)两个平行不交叉类。这些只是数字文献资源计量本体中的核心类,在具体应用中可根据需求进行扩展,如Literature类下又可设JournalArticle、Dissertation、BookChapter等子类,Topic类下可设SocialScience、NaturalScience等子类,Institution类下可设ResearchInstitute、University等子类,Author类下可设Professor、AssociateProfessor、AssistantProfessor、Lecturer等子类;同时Publication类可设有Journal、Book等子类,其中Journal又可依据不同数据库索引情况,细分为SCI、SSCI、EI、CSSCI等多个小类。子类与父类之间的关联主要通过RDF(S)中的rdfs:subClassOf进行声明,通常的子类之间不能交叉,是平行类。 在数字文献资源计量本体中,实例个体是通过对元数据集的抽取、清洗和统计分析获得的,如Science、Nature等具体的期刊便是Journal类中的实例个体。计量本体中所有类都是Thing的子类,所有个体都是类owl:Thing的成员。 (2)属性与值 在计量本体中,概念用OWL中的类表示,类具有特定的属性。属性体现的是概念之间的关系。一个属性是二元关系,在OWL中有两种类型的属性:对象属性和数据型属性,分别表示类的实例之间的关系和类的实例与XML框架中的具体数据类型或rdf字符类型之间的关系,换言之,如果一个RDF三元组是描述两个实例之间的关系,则其中的属性便是对象属性;如果一个三元组仅是对一个实例进行一项事实描述,这时候的谓语会是一个特定的词或值,一般来讲,该属性便是数据型属性。例如在一个计量本体中,“文献A是由作者B发表的,其被引频次为3”,其中的“发表”这一谓语便是连接文献A和作者B的对象属性;而“被引频次为”则是连接文献A与数值3的数据型属性。 在计量本体中,基本、核心的对象属性有6种,用三元组形式对它们进行描述为:Belonging(Keyword,Topic),Affiliate(Author,Institution),Label(Keyword,Literature),Creating(Author,Literature),Published(Literature,Publication),Citing(Literature1,Literature2)。这些属性分别都有一个互反属性(Inverse Properties)。对象属性也可以拥有自己的子属性,比如可以定义一个Creating的子属性creatingPaper,该属性的值则是Literature类的实例。在子属性的定义中,可以为其指定多个父属性、定义域和值域,其含义是它们的合取,若一个属性拥有多个定义域,则它的定义域应是它们的交集。这一点与OWL的基本规则是一致的。 正如语义描述逻辑中的关系可以有传递、函数和逆关系等特性,计量本体中的OWL属性同样也可以有互反性、传递性、对称性、函数性等特性。在计量本体中互反属性、传递属性和对称属性普遍存在,如引用和被引即使两个互反属性,同行专家属性即属于传递属性,作者合作、关键词共现等则属性对称属性的范畴。函数属性多应用在对计量语义关联度的初步取值中,如作者关键词耦合关联属性Author-Keyword-Coupling(Ai,Aj,n),其中耦合强度n应取多个关键词共现的最小值,然后求和而得。 (3)约束条件 在OWL中,对于类和属性都是有一定的约束的,计量本体的应用亦是如此。如利用rdfs:subClassof可以规定某一类C是另外一类C’的子类,于是C的所有实例便都是C’的实例。如Journal是Publication的子类,因此Science、Nature等期刊作为Journal的实例也因此成为Publication的实例。同时,作为平行类,Object、Subject、Carrier又相互之间具有DisjointClasses的约束,即彼此不相交。 OWL中的多数属性约束对计量本体同样适用。如“文献i-引用-文献j”属性要求文献j的发表时间必须晚于文献i的发表时间,“作者-机构合作共现”属性要求该作者与该共现机构不能存在隶属关系,等等,这些特定的属性均需进行相关属性约束的定义与使用。 (4)推理规则 在计量本体中同样采用三元组定义的方式来对推理规则进行形式化描述,随后按照一阶谓词逻辑及其可判定子集描述逻辑来对计量语义化推理规则进行规范描述[11]。一般来讲,三元组形式语义关系是相互对应的,主要涉及概念和概念之间、实例和实例之间、概念和实例之间的语义关系等。在此,将对通用的符号表示和三元组形式给出统一定义,以便进行后续推理规则的揭示。 接下来对计量本体中所涉及的主要推理规则进行形式化描述。 以上11个规则中前4个是本体父子类之间的关系推导出来的,适合于所有应用领域;后面7个是计量本体所特有的推理规则,它们是实现计量语义化有序推理的核心规则所在,不同规则之间也可以进行叠加推导和迭代运算,便可形成丰富的、网络化的新的计量语义关联属性,从而实现计量语义关系的全方位揭示。 4.2 数字文献资源计量本体的总体框架 根据数字文献资源计量本体的基本原理和内涵及其构成要素,进而提出计量本体的总体框架如图2所示。 总体来讲,计量本体是计量语义化实现的核心,其基本框架可分为抽象语义概念层[12]和计量语义关联推理层两个层次,前者作为后者的形式与内容支撑,后者成为前者的推广与延续,同时又为前者提供内容的更新和升级,二者互为补充,相辅相成[13]。在抽象语义概念层,主要运用XML、RDF(S)、OWL等语言基础定义了一系列计量本体中基本的抽象概念及其核心关系,反映了计量本体的基本数据结构,并运用传统的描述逻辑对本体核心结构进行一般形式化的推理和扩展。该部分与传统本体的内容组成基本类似。而计量语义关联推理层则是计量本体与众不同之处的集中点所在。在该层,首先引入共现、耦合及引用的计量关联机制,其中耦合是一种特殊的共现方式(即交叉共现或异共现[14]),而共现与引用之间又可以联合作用产生共被引、引文耦合等交叉关联方式,通过三者之间的协同计量分析,可以实现计量语义关系的全方位揭示;继而通过语义关系推理、语义关联测度、语义网络演化等加强语义操作、丰富语义关联,从而将基于传统形式组建的本体结构升级为计量本体,在其中可采用不同的计量语义推理机制实现本体推演及其相关应用。 图2 数字文献资源计量本体的总体框架 5 数字文献资源计量本体的构建流程 传统领域本体的构建多遵循七步法则,即确定本体的领域和范围—考虑重用现有本体—列出本体中的重要术语—定义类和类的继承—定义属性和关系—定义属性的限制—构建实例[15]。通过前文的阐述可以发现,计量本体的组成要素与构建原理与领域本体是基本一致的,这就决定了领域本体构建的核心步骤在计量本体中仍有保留。但是其研究对象与应用范围、概念与关系的解析过程又有一定的差异,领域本体是面向特定领域的,而计量本体是面向文献资源的,所以起始步骤是有差异的;领域本体中概念以及关系的性质都是确定的,而计量本体是建立在元数据组织和计量分析基础上的,其概念以及概念间的关系相对复杂,在构建流程中也将涉及元数据分解与重组以及信息计量基础分析与计量关系推理这两个关键的步骤,本体构建也势必要在计量对象分解、计量语义关系揭示后才能进行,同时语义关系属性的完整产生也将经历核心关系属性定义和关联属性推理前后两个步骤。基于上述分析,本文提出计量本体构建的八步构建流程如下: (1)选定数字文献资源 在传统本体构建中,需要首先确定待建本体是针对什么领域的,其构建目的为何。同样地,构建数字文献资源的计量本体也要有所针对性,要根据应用目标选择特定的数字文献资源进行本体开发。尤其是在数字图书馆应用中,图书馆所订购的文献资源库的种类、数据形式、内容结构等便成为计量本体构建的重要参考对象。 (2)分解计量对象 对选定的数字文献资源进行数据清洗,并依据其元数据结构进行计量对象的分解,将分解结果分别存入相应的信息单元表中,从而形成计量本体构建的概念元素。在本体概念抽取的同时,还要考虑与已有相关本体的兼容性,可能的话可以在现有本体的基础上进行概念修改或扩充,尽量避免数据冗余和不必要的开发工作。 (3)揭示对象之间的语义关系 利用信息计量分析工具(如 Excel、VBA、Bibexcel等工具技术),可进行计量对象之间语义关联的初步揭示,即识别相同概念内或不同概念之间可能存在的共现、耦合或引用关联,以为计量本体中关联属性的推导提供铺垫。该过程即利用“作者-撰写-文献”,“文献-标引-关键词”,“作者-从属-机构”,“文献-载于-期刊”、“施引文献-引用-被引文献”等基础三元组而不断推理演绎得出新的三元组。前三步主要是进行初步的计量分析,真正的本体构建将从第四步开始。 (4)定义类及其约束 接下来选定Protégé工具开始计量本体的正式构建。首先定义计量本体中的核心类,并明确它们的继承结构,可采用自顶向下的方法进行定义,即从最大的概念开始,然后通过添加子类细化这些概念。在计量本体的三大类:研究客体(Object)、研究主体(Subject)、研究载体(Carrier),彼此之间存在Disjoint的约束。 (5)定义核心属性及其限制 仅有类表达概念对资源对象的描述还是不够的,还需定义概念和概念间的内部联系。这里的联系可分两种:一种是概念自身的属性,称为“内在属性”,通常连接一个概念和一个值,即在本体的构成要素中所提及的 DatatypeProperty(数据类型属性)。内在属性具有通用性,也就是说该类对应的所有实例都具有这种属性,并且这种属性通常能向下传递,即如果一个类具有一个内在属性,则它的所有子类都集成了这种属性。另一类属性称为“外在属性”,又称“关系”属性,通常用于连接概念间的实例,即本体构成要素中的ObjectPropery(对象属性)。一般来讲,计量本体中的属性定义是难以一步到位的,可从核心属性的定义开始逐步推理、更新。 同时属性本身也是有约束限制的,如属性的基数、属性值的类型,以及属性的定义域和值域等,都需要在进行属性定义时予以明确,这样对于本体逻辑的建立将大有裨益。 (6)构建实例 由于计量本体的研究对象是数字文献资源,其元数据单元往往可以成为本体构建中的类,这就决定了计量本体的类一般是可以固定化的(取决于资源对象的元数据集)。而本体中的属性定义和实例添加便成为本体构建的关键所在。在构建实例时,需确定与个体最接近的类,然后添加个体进去作为该类的一个实例,同时还要为实例的属性赋值。 至此,我们可以建立计量本体的核心架构如图3所示,该模型中底层类是可以进行扩展的,如Literature 类下可设JournalArticle、Dissertation、BookChapter等子类,Topic类下可设SocialScience、NaturalScience等子类,等等。这里为每个与个体最接近子类添加了两个试验实例,并建立了它们之间的假设属性。类与类之间、类与实例之间、实例与实例之间的关联属性分别用不用颜色的箭线表示了出来,如实例A2拥有Creating L2和Affiliate 12的两个属性。 图3 计量本体的基础核心架构图 (7)关联属性推理并赋值 在计量本体中,属性的完善定义是一项浩大的工程,也是计量本体区别于其他本体的一项重要特征。多数属性都是通过核心属性和推理规则共同建立的,而推理后所得到的属性往往伴随着一个对象属性和一个数据类型属性的同时建立,换言之,推理之后会得到一个关联属性(属于ObjectPropery),并要通过计量语义关联测度为该关联属性赋值(属于DatatypeProperty)。一般来讲,计量本体中类之间的特殊化的关联属性是可以依据信息计量学相应的研究结果进行事先定义的(仅为ObjectPropery),但实例之间相对应的关联属性是要进行语义推理得到的(包含ObjectPropery和DatatypeProperty两个属性)。表1列出了计量本体中部分推理所得的扩展关联属性的参数情况。 我们在图3所示的计量本体基础核心架构中加入基本计量语义关联(推导得出)后,更新本体图示如图4所示。 去除图4中的基础核心属性后,可以得到纯粹的推导关联属性图,即图5。 该图涉及推理后得到的扩展属性16种,关系网络错综复杂,将其中的文献内部关联属性提取出来,得到子图如图6所示;将作者的内部关联属性提取出来,得到子图7。 (8)完成本体构建并导出应用 将所有实例录入,并建立它们与类之间、实例彼此之间的关联属性与值属性之后,便基本完成了计量本体的构建。将该本体保存至owl文档,便可投入后期的本体应用中。 图4 计量本体的推导关联属性扩展图 图5 计量本体中纯粹推导关联属性图 图6 文献类内部关联属性图 图7 作者类内部关联属性图 6 结语 本文在介绍数字文献资源语义化的现状和可行的发展出路后,创新性地提出了数字文献资源计量本体的概念,并对计量本体与传统的领域本体的异同进行了阐述。计量本体是计量分析、语义网络、本体技术等多项内容的融合,其构建原理与传统的本体构建技术方法类似,但同时又引入了信息计量分析与社会网络分析等方法作为本体构建的基础。 数字文献资源计量本体的基本构成要素包括类与实例、属性与值、约束条件以及推理规则,基本符合OWLL本体语言的基本规则,但在关联属性的逻辑推理中又主要依赖于其独特的计量分析逻辑规则。文中还提出了计量本体的总体框架,主要包括抽象语义概念层和计量语义关联推理层两个层次,二者互为补充,其中后者是计量本体区别于其他传统本体的关键之处所在。在传统本体构建的七步法则基础上,本文还提出了计量本体构建的八个步骤,即选定数字文献资源—分解计量对象—揭示对象之间的语义关系—定义类及其约束—定义核心属性及其限制—构建实例—关联属性推理并赋值—完成本体构建并导出应用,并用Protégé工具对计量本体的核心架构进行了构建和初步扩展。 在未来的应用中,计量本体也不应是单独建立和运行的,可以综合元数据、领域本体、语义网络等语义化技术,而充分实现数字图书馆中面向用户需求的资源语义化分析、处理与应用的全面集成。同时,本文作为将计量分析与语义本体技术融合研究的抛砖引玉之举,希望能引起更多馆藏资源语义化相关研究者的关注,并群策群力将此新的本体概念逐步完善,并能尽快将其推向实践平台,在检验这一新的语义化方法的同时,为未来数字图书馆的发展和方法技术的拓展融合贡献一份力量。数字文献资源语义计量本体的提出与构建_元数据论文
数字文献资源语义计量本体的提出与构建_元数据论文
下载Doc文档