基于信息计量的数字文献资源语义模型研究_元数据论文

信息计量视角下的数字文献资源语义化模型研究,本文主要内容关键词为:语义论文,视角论文,文献论文,模型论文,数字论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

      在前期的研究中,我们已经发现将计量分析方法引入馆藏资源语义化是可行的,也是必要的[1]。研究结论中也已相应地指出:信息计量学中基于元数据的关系是一种语义关系;在计量分析中所产生的以节点表示概念、边表示关系的网状结构图也可称作语义网的可视化图形;计量学分析出来的概念、属性、关系使用语义网语言进行描述也可以进行语义推理。同时,将计量分析方法引入馆藏资源语义化,可用以融合元数据与领域本体两种语义化方法的优势,并弥补其相应的劣势,即通过建立计量分析语义化的新路径,提高馆藏资源语义化的计算机自动处理能力,同时增强馆藏资源中语义关系揭示的能力。本文的研究将进一步深化这一计量语义化新途径的阐释。鉴于馆藏资源建设循序渐进和资源利用最大化的原则,文章主要围绕馆藏数字文献资源的计量语义化展开,其中主要涉及电子期刊论文、学术会议论文、学位论文、数字化报纸、网络书目数据库、科技报告、专利信息、标准信息等多种类型的、有序的数字化馆藏文献资源[2]。在前期研究基础之上,本文将致力于对计量分析与语义本体进行全面的类比分析,进而提出数字文献资源计量语义化理论框架;对基于计量分析的语义化机理与模式进行分解阐述,进一步构建系统化的数字文献资源计量语义化模型,以实现利用引入计量分析方法而达到自动化处理能力与语义化分析程度协同提升的馆藏数字文献资源语义化知识组织,从而实现数字图书馆中语义化知识库建立以及智能知识服务提供的最终目的。

      1 计量分析与语义本体的类比剖析

      1.1 理论类比

      从语义与本体的定义[3]中可以发现语义模型构建的前提和关键是辨识出其中的概念和关系。在信息计量学中,根据关联关系所揭示的概念范围和应用途径不同,可分为宏观映射关系和微观计量关系,前者所关联的概念单元为文献与发表时间或期刊或作者以及内容词等,体现为文献增长/老化集中与离散分布以及规律文献词频分布、文献作者分布等普适性的计量规律函数关联;后者则集中揭示了文献、期刊、关键词、作者、机构等不同文献特征单元之间的引用、共现、耦合等计量关系,可以更好地对应到以概念和关系为根本的语义化模型中,并可得到更为合理化的解释。可见,计量分析与语义模型在构成原理上是可以进行类比对应的。

      在语义本体概念中,语义网络是被最早提出和广泛应用的。语义网络是通过概念及概念间的语义关系来表达知识的一种网络图,图中的节点可以是概念、事物、状态、情况等,而连接节点间的弧线则表示不同对象之间的各种语义联系[4],其中,节点与弧都要有相应的标识,用以不同的对象和不同的关系,同时它们也可以具有相应的属性。从另外的角度上来讲,该“有向标识图”也可看做是一个三元组集合,其中的三元组可以是描述节点间关联的形式(如,<节点1-关系-节点2>),也可以是描述节点或关系属性的形式(即描述网络图中的“标识”,如<节点-标识项-值>)。实际上,语义网络中概念-关系的组成结构以及可以与其对应转换的语义网中元数据处理基础RDF的三元组描述形式都与上述文献特征单元之间的计量关系在本质上是相通的,都是通过一定内涵关系将两个不同的单元串联,使二者之间建立人或机器可解读的语义化关联。可见,计量分析与语义模型的表达形式是基本一致的。

      同时,语义网中的本体具有4层含义[5]:概念模型、明确、形式化和共享。其中,“概念模型”是指利用对客观世界抽象出的概念而构建的模型。计量学的研究对象多在于文献的外部特征,包括作者、机构、期刊、关键词等,这些计量单元实际上就是数字图书馆内进行文献资源描述与组织的元数据,也就是说计量研究是基于元数据的,而元数据本身作为描述数据的数据,也实现了对文献信息的概念抽象。“明确”是指在模型中所抽取并使用的概念以及对概念的约束都有确切的定义。信息计量学领域中基于元数据的共现与耦合等关系也都是研究者在长期的理论研究和实证探索中所得出的具有明确含义的概念间的约束与属性关联。“形式化”是指上述概念及概念约束都是计算机可读的,即可以利用XML、RDF(S)、OWL等语义描述语言来揭示概念、关系及属性,以便于实现计算机的良好识别和形式化表达。信息计量学中基于元数据而产生的概念以及计量关系若进一步通过计算机辅助程序和形式化的语言组织,同样也可以达到这一要求。“共享”是指语义本体所构建的概念模型是在领域内可获得公认的,理论上讲是可以实现共享应用的。同样的,利用计量学分析方法所提炼出的概念及其关系也是通过科学的推理和长期的实践而获取的,一般是可以在领域内获得共识的,同样也可以进行共享。通过上述分析也就可以得出,计量分析的基本理念与语义本体的理论内涵是大致吻合的,信息计量学中基于元数据的概念关系也是一种典型化语义关系存在。

      综合上述分析,我们可以得到计量分析与语义本体的理论架构类比表,如表1所示。

      

      1.2 方法类比

      在数字文献资源语义化研究中,最典型的是本体的相关应用研究,而其应用环境和基础则与语义网的七层模型息息相关。在计量分析与语义本体的技术与方法类比中,首先对以本体为核心的语义网七层模型[6]与基于计量分析的语义化方法进行一一对应比较,具体如表2所示。

      

      在对应的七层模型比较中,底层UNICODE/URI与文献资源的DOI标识相对应,分别用于标记和定位语义网中的网络资源和计量分析中的数字文献资源;第二层的XML(S)作为一种通用元语言与计量数据记录都可被视为进行资源初始描述与组织的元数据,用以结构化数据文档;第三层中RDF(S)可在第二层基础之上形成“对象-属性-值”的三元组陈述,与其相对应的是一元和二元计量关系描述,均用以建立资源内部元数据之间简单的语义关联;第四层的本体层是语义网模型的核心,与计量分析中的多元关系描述相对应,作用于资源间复杂语义关联的揭示,为上层的语义推理做好充足的准备;第五、六、七层是在之前四层的基础之上实现更为深入的逻辑推理操作,同样计量分析中非相关元数据之间关系推演与发现也达到了相似的功能。

      语义网模型中最关键的三层——XML、RDF与本体之间的关系非常紧密,它们之间是互为补充的:RDF的作用之一是以一种标准化的、具有互操作性的模式为基于XML的数据规定语义,其中RDF是一种元数据模型,而XML是一种语法格式。RDF数据模型可以用XML表示,也可以用其他语法格式描述,而RDF Schema则是基于XML对RDF的一种实现。XML、RDF(S)共同为本体的应用提供了技术与语言支撑,而本体又在RDF(S)的基础上实现了语义的深度扩展,成为语义模型的核心。实际上,计量分析中的元数据、一元/二元与多元计量关系之间也存在一定的互补和融合。首先应用于文献特征描述与组织的元数据是进行计量关系与推演的基础,而计量关系网络的分析与应用又势必要以数据库内元数据的建立作为支撑,而其自身又成为构建计量语义化模型的核心。

      1.3 应用类比

      在应用途径上,信息计量学主要以由元数据描述和组织的文献数据记录作为研究对象。通过对相同元数据不同记录或不同元数据相同记录乃至不同元数据不同记录之间关系的发掘,可以构建元数据内或元数据间的各种计量网络,同时依据网络中不同节点间的关联强度揭示出彼此间的关联程度并进行关系结构推演,进而可用以揭示不同视角下文献资源间的相关性,从而进行多角度文献检索排序与推荐以及文献资源的聚合;同时通过多种计量方法的融合,还可实现宏观和微观不同层面科学结构的发现,指导科学研究的进行。另外,利用计量学分析而得出的概念、属性及关系等,若对其使用语义化语言描述时,也可以进行语义化的推理。当计量分析所揭示的关系层次越浅,利用元数据联系数字文献资源的覆盖范围越大,得出的结论则越具有宏观的普遍性指导意义,可应用于大众化的检索与推荐服务等;反之,如果关系层次越深,元数据所涉及的资源覆盖范围越小,则分析结果的具体微观针对性越高,可应用于个性化的知识发现与知识服务应用等。

      通过对语义本体的了解[7]可以得知,其应用是以XML作为数据结构,以RDF作为元数据模型,以本体技术实现语义化的广泛与深入实现的。根据应用领域与应用环境的不同,可以构建不同的语义网络以及相应的领域本体。同样依据一定的推理规则,可实现语义化模型中的语义关联推理,利用推理工具可对本体库进行推理,以实现本体库的丰富和逻辑错误的检测。在语义网环境下,借助本体提供的语义框架可以实现基于语义的聚合。在完成对资源的语义标注后,计算机就能够实现对资源的理解,进而可以根据资源之间的语义相似度对其进行聚合,可以进行语义检索。通过将检索请求与资源进行基于语义的匹配,可以更准确地推荐结果,实现智能推理。在进行准确的语义匹配的基础上,借助本体提供的领域知识和对逻辑推理的支持,可以实现智能化推荐。

      同时无论在应用过程或应用结果中,语义本体和计量分析都可以进行可视化的结果展示。语义网的可视化工具非常多,有OntoViz、TGVizTab、OWL2Prefuse、TouchGraph、Protégé等,它们所产生的语义化图形主要有三个共同特征,即用节点表示概念,边表示关系,共同组成一个网状结构。在社会网络软件的辅助应用下,计量分析的结果也可生成各种绚丽的可视化图谱,并同样具备由节点、连线构成的网络结构,与语义化网络图谱的本质不谋而合。因此,可将计量分析与语义本体的应用类比结果汇总得到表3。

      

      通过计量学与语义网在理论、方法和应用中的类比,可以发现计量分析与语义本体之间的相似性及其关联性是普遍存在的。这也就在一定程度上反映了基于数字文献资源的元数据记录,利用计量学分析方法与思路可以有效识别出构建语义网所必备的概念及关系,同时运用各种计量关系的交叉发现可以进一步推导和演绎语义模型中概念间的潜在关联,直至推演成一个基于文献属性特征和计量关系的新型语义网络;最后还可以利用这些计量语义关联实现网络可视化展示、资源关联推荐与挖掘、语义知识检索与用户个性化资源需求满足等应用。

      2 基于计量分析的数字文献资源语义化理论框架

      综合前文对于计量分析与语义本体的综合比较分析,我们可以在借鉴语义网七层结构模型的基础之上,融入数字文献资源计量语义化的基本理念,提出基于计量分析的数字文献资源语义化理论框架如图1所示。

      

      该理论框架共由六层内容组成,其中最底层的是Unicode和DOI,该层构成与语义网的结构类似,使用Unicode对数字文献资源进行统一编码和解读,DOI(Digital Object Unique Identifier)则与语义网中的URI类似,应用于对数字文献这一特殊的网络资源进行标识定位。第二层主体上是元数据标准层,通过元数据对数字文献资源的数据记录进行统一规范处理和标注后,运用相应的数据库系统进行存储,便实现了数字文献资源底层的资源组织,也为上层的计量语义化分析处理提供了基础。第三层是计量分析层,其中信息计量学的应用是本层的核心,可实现元数据记录基础上不同概念与实例之间计量关系的揭示,同时辅以内容分析法可提升计量分析结果的语义化程度,而社会网络分析的运用可实现文献资源计量语义化与人际社会关系网络的有效对接,充分实现资源与其创造者——人的完整结合;该层主要实现了数字文献资源的信息组织,从而为深层次、系统化的语义化处理提供铺垫。第四层的核心是语义分析与本体,其中语义规则的建立和语义关联度的识别便成为计量语义化的关键,在全面的计量语义化分析结束后,可构建相应的计量本体(即基于计量分析的数字文献资源内概念化的显示说明)[8],从而完成语义化模型的系统实现;在该层次中,主题模型作为隐含主题建模的有效方法,其深入运用也可成为语义挖掘分析的利器[9],从而进一步提高计量语义化的精度,这一层也随之成为数字文献资源知识组织的核心。在第四层的基础上可开展第五层的语义化逻辑推理和语义检索与推荐等应用;这里的逻辑推理机制与语义网中的逻辑推理虽然在机理上有些区别,但却有异曲同工之效:二者都是基于概念之间关系的推理,后者纯粹基于语义规则,而前者则更多地依赖于计量语义化的新型规则,目的都是实现概念间关系的推理和验证,以应用于语义信息的检索和关联推荐,本文主要着眼于数字文献资源中不同特征项的语义检索和基于特征项语义关联的推荐等。最上层,也就是第六层是与用户对接的用户需求理论与信任机制构建层,即在用户信任的基础上,依据用户不同层次的需求情况,为用户提供不同层面的知识服务。这便是数字文献资源计量语义化的终极目标所在。

      3 基于计量分析的数字文献资源语义化模式

      根据数字文献资源计量语义化过程中所涉及的概念节点层次以及计量语义化关联程度的不同,可将基于计量分析的数字文献资源语义化模式划分为基本模式、多层语义化模式、多元语义化模式、高阶语义化模式以及多维语义化模式五种。

      3.1 数字文献资源基本语义化模式

      数字文献资源语义化的基本模式主要体现在相同概念通过另外一种概念而建立的直接语义关联,如共词分析、作者合作分析、文献共被引分析、文献耦合分析等方法便属于该模式的研究范畴,即通过相同文献元数据单元之间的直接共现或耦合等计量关联实现数字文献资源内部的语义聚合,进而应用于资源语义化检索和知识发现与服务。该模式中的语义化路径、计量方法和资源语义聚合形式、语义关联描述以及应用范围如表4所示。

      

      3.2 数字文献资源多层语义化模式

      数字文献资源的多层次语义化模式主要体现在相同概念通过其他的多种概念而建立的直接语义关联,如作者共被引、作者关键词耦合、作者文献耦合等方法便属于该模式的研究范畴,即通过相同文献元数据单元之间的间接共现或耦合等计量关联实现数字文献资源内部的语义聚合。下页表5展示了该种语义化模式下的语义化路径、计量方法、资源语义聚合方式、计量语义关系描述及其各自的应用范围。

      3.3 数字文献资源多元语义化模式

      数字文献资源多元语义化模式指的是多元同概念间的间接语义关联揭示与应用,如通过关键词三元共现[10]而实现的关键词语义耦合分析,通过作者三元合作共现而产生的三元作者合作分析等,都属于该模式的范畴所在,该模式的展开分析如下页表6所示。

      实际上,该模式的实现是以计量语义化基本模式的建立为基础的,是多元概念在二元概念计量语义聚合的基础之上形成的更深层次的语义聚合,也是计量语义关系推演的模式之一。

      3.4 数字文献资源高阶语义化模式

      数字文献资源高阶语义化模式是一种递归模式,即在概念间二阶语义化的基础之上,逐层推导至三阶乃至高阶的语义化模式。由普通的关键词二阶共现而推导出的关键词三阶共现,以及由作者二阶合作关联而实现的作者三阶合作耦合分析等,都是典型的高阶计量语义化模式,具体如表7所示。

      

      

      

      3.5 数字文献资源多维语义化模式

      数字文献资源多维语义化模式指的是不同概念间的间接语义关联揭示,主要是将不同维度的基本计量语义化模式进行综合分析的一种语义化方式,如融合文献共引、耦合和共篇三个维度而进行文献综合相似度的判定便是一种多维语义化模式,主要是利用余弦函数对单一维度的局部相关度进行向量化描述和综合相关度计算而实现[11]。

      4 基于计量分析的数字文献资源语义化模型构建

      该部分综合前文所阐述的数字文献资源计量语义化机理与模式,融合计量学方法与语义化技术,构建基于计量分析的数字文献资源语义化模型,亦可称之为数字文献资源计量语义化模型,如图2所示。该模型总体上可以划分为5个模块,在图中用粗虚线分隔。

      (1)数字文献资源元数据构建模块

      该模块主要实现异构数据采集入库并进行元数据标引和标准化处理的功能。在具体实现中,可以运用爬虫工具或批量获取工具等从期刊库、论文库、图书库等馆藏资源数据库中采集文献数据,存入数字文献资源数据仓库;有条件的信息构建者也可以从数据源头进行统一化处理和存储。考虑到采集的异构数据存在数据格式的差异,因此需要定义统一的元数据规则以对不同的文献数据结构进行标准化处理,其中可以采用广泛运用的都柏林(Dublin)核心元数据进行文献资源数据的二次描述和规范化处理。

      (2)信息计量与统计分析模块

      该模块的功能主要是实现相同元数据字段的准确提取和有效统计,并存入二次分析数据库,即信息单元库,包括文献表、作者表、关键词表、学科/主题表、机构表和期刊表等,该过程可以采用Eclipse集成开发环境下的Java开发语言和数理统计工具(如Excel、SPSS)以及信息计量分析软件(如Bibexcel和Bicomb等)予以实现。在进行计量统计分析的同时,还要注意保持不同元数据之间的关联属性,如作者与文献之间存在发表关系属性,作者与机构之间存在从属关系属性等。这些特定关联属性的明确,对于进行后续的计量语义分析是不可或缺的。

      (3)计量语义化分析模块

      

      该模块是整个语义化模型的关键和核心所在,其重点在于实现计量语义关联的解析和计量本体的构建。其中计量本体的概念和构建流程在文献[8]中进行了详细阐述,此处将着重介绍计量语义关联库的构建。利用信息计量学中的基础分析方法,运用Bibexcel、Excel、VBA、SPSS等工具技术可以初步进行计量关系的解析如文献标引关键词、作者发表文献、文献载于期刊、作者从属机构、关键词从属学科/主题等,将这些关联存入语义三元组中;继而以信息计量学中的共现、耦合以及引文分析等高级分析策略为基本路径,依据计量语义推理的11项核心规则[8]推导出直接的计量语义关联,并计算它们相应的语义关联度,即遵循基本语义关联模式产生直接、初级的计量语义关联库;在其基础之上遵循多层语义化模式、多元语义化模式、高阶语义化模式以及多维语义化模式可以进一步推导出间接、高级的计量语义化关联,并辅以社会网络分析的相关结果(运用Ucinet、pajek软件等实现)形成全面的关联结果,最后入库。

      至此,概念与概念之间、概念与实例之间、实例与实例之间的计量语义关联已基本确定,可以分别构建相应的计量本体,如研究客体下的关键词本体、学科/主题本体,研究主体下的作者本体、机构本体,研究载体下的文献本体、期刊本体,以及描述这些不同元数据概念与实例关联的元本体等,这一过程可以依托Protégé软件、Jena技术等实现,语义推理过程也可以引入Pellet系统[12]的应用。其中概念与实例添加以及推理过程与领域本体构建过程基本类似,但该过程无须专家人工参与,可以完全计算机化,这与领域本体库的构建相比简便许多。同时,计量本体的建立也将为计量语义关联的深层推理提供了系统化的支撑。

      (4)计量语义知识提取与发现模块

      在计量语义化全面分析和计量本体构建的基础上,可以形成数字文献资源内部所特有的语义化知识,同时在外在相应领域本体的辅助下,可以实现深层次计量语义化知识的提取与发现,进而形成全面深入的计量语义化知识库,其中有概念知识元、实例知识元、关系知识元、属性知识元等多种知识类别细分,从而为用户不同需求的满足提供灵活应用的支撑。同时在该模块,还可以引入机器学习机制,为知识库内知识的更新与演化提供技术支撑。

      (5)计量语义化应用模块

      计量语义化模型的最终目标还在于语义化应用,具体的途径可以表现为馆藏数字文献资源整合、语义信息检索与推荐、知识组织与知识服务等多个方面[13]。该应用模块与用户接口的有效对接还需依赖于结果的可视化呈现。在该模型中可以综合计量分析中的Citespace、Network Workbench、Pajek、Netdraw、Gephi等可视化软件以及语义本体中的可视化工具向用户呈现精确、清晰、炫彩的计量语义可视化结果。

      计量语义聚合子模块由于引入了计量语义化中特定的语义聚合模式与策略[14],也是基于计量分析的数字文献资源语义化中非常重要的一个部分,可以称为计量语义聚合模型。

      5 数字文献资源计量语义化模型的特点

      (1)过程简易,功能强大

      数字文献资源计量语义化模型是在现有数字图书馆建设的基础之上充分利用计量分析的方法和语义化的途径,实现元数据概念与记录间的语义关联识别和推理。而这种语义关系的识别与语义网络的建立不同于传统语义化模型中的自然语言处理或人工智能领域的语义化方法。基于计量分析的语义化实现的是文献外部特征元数据关联的语义化,而不需要应用文本挖掘技术对文档具体内容进行语义化分析。这就对数字图书馆语义化建设的专业技术要求实现了简易化,便于该模型的推广应用。当然在有条件的情况下,两种语义化方式也可以结合,从而达到数字文献资源完整语义化的效果。

      (2)自动扩展,智能推理

      该语义化模型是以数字图书馆的文献数据库建设为支撑的。当有新的文献记录产生,便可自动采编进入图书馆的数字文献库,继而根据统一的元数据标准进行标准化处理,形成计量语义化所需的数据格式。新的数字文献若与既定的语义化模型中的资源记录存在计量语义关联,则模型通过自学习机制进行语义关联性质与程度的自动识别和推导,构建新记录与已有记录之间的各种语义网络,并依据计量语义化机理,实现模型中所有语义关联的重新推理和更新。而由于这一切都是基于元数据标准化组织的计量分析应用,所以可以快速自动化实现,不需要任何人工参与,便可实现语义模型的智能推理与应用。

      (3)异构操作,全面应用

      该模型是完全根据文献的产生和使用属性而建立的,只与资源组织所采用的元数据标准和文献资源固有的产生与使用关联有关,而与领域归属无关,这也就与领域本体的应用存在本质的区别。虽然在该模型的实现与应用过程中,仍然可以分主题领域逐步实现,但在理论上讲,各领域所产生的语义化模型仍然是不能割裂的,还是可以依赖于文献间的跨学科产生或应用而产生领域间的语义化关联,从而可以揭示整个科学领域的计量语义化现状,进而为科学研究的全面进行提供相应的知识服务。该模型不需要像领域本体那样建立某领域统一的词表,但是却需要对文献资源进行统一的组织处理。当对数字图书馆中所有文献资源进行标准一致的处理后,便可实现对分布于不同环境中的数字文献资源进行无缝整合、异构操作、统一检索和推荐应用。

      6 结语

      基于计量分析的数字文献资源语义化属于一个跨学科、综合性、创新性的研究议题,笔者力图找到计量分析与语义本体的切实结合点,进而深入揭示将计量分析引入数字文献资源语义化的可行性,从而发现计量语义化这种特殊语义化形式中的内在机理与基本模式,最终构建计量语义化模型。这些努力都旨在为现有数字文献资源语义化的实现提供更有效的扩展途径,为学科融合发展与应用提供更广阔的研究视角。但是,本文仍属于理论探索研究,未来的研究中还有待进一步将该计量语义化模型进行系统实现和推广应用,并通过建立评价反馈机制进行优化和完善,从而促进计量语义化这一创新理论的长远发展,同时也进一步为基于图书馆资源的信息服务业发展和文化知识创新与价值转化的全面实现提供更为广泛和深入的铺垫。

标签:;  ;  ;  ;  ;  ;  ;  

基于信息计量的数字文献资源语义模型研究_元数据论文
下载Doc文档

猜你喜欢