e-Science环境下科学数据语义组织模型框架研究,本文主要内容关键词为:语义论文,框架论文,模型论文,组织论文,环境论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
分类号:G250 1 引言 e-Science环境下现代信息技术和科学仪器设备的发展,改变了传统科研环境和学术交流模式,数据密集型科研范式逐步将科学数据作为科研产出的核心资源[1]。对于科研过程产出以及文献出版物相关的海量数据,由于缺乏相应的激励机制和有效的组织方式,目前科学数据的发现和获取仍存在障碍[2]。为了促进科学数据成为可发现、可说明、可重用的资源,需要深层揭示数据对象和有效管理权限问题的组织体系,然而科学数据具有非传统文献资源的结构、依赖情境源流信息的价值体现、明显的学科属性、复杂的权益问题等特征,很难用一个固定的描述标准组织科学数据。随着语义Web技术逐步成熟,基于本体的通用模型实现了科学数据组织方式的语义化转型。本文在调研分析科学数据语义组织研究现状的基础上,提出科学数据的语义组织框架,并构建了框架各组成部分的本体模型,以期为机构知识库、学科领域仓储、数据中心的语义计算环境建设提供科学数据组织管理的语义层。 2 科学数据组织模式的研究现状分析 科学数据的知识组织模式实践从描述资源基本信息的元数据标准到集成组织异构资源的数据模型,并逐步在数字对象建模研究中融入语义技术。作为新型科学出版资源,一方面科学数据作为独立的信息资源对象,由知识库、数据仓储发布和管理,例如数字仓储PANGAEA实现了地球与环境科学领域数据的管理和发布[3]。另一方面科学数据与期刊等文献出版物进行关联出版,其出版形式一种是数据作为文章的辅助支撑材料存储于数据仓储,例如Nature要求作者在提交文章时,将相关数据对编辑和审稿人可见,并需提交至Dryad和FigShare等指定或推荐的数据仓储[4];另一种是数据期刊,以期刊文章的形式出版描述数据的元数据文档,例如数据期刊Scientific Data出版数据描述(Data Descriptor),并与相关的期刊论文和数据仓储中的数据文档建立关联,实现数据与期刊的集成出版[5]。根据目前数据发布方式,科学数据的描述和组织不仅需要表达科学数据的丰富信息,而且要求能够揭示数据对象与相关资源的关联交互。 2.1 元数据描述 对于海量科学数据的管理,元数据为数据发现、利用和保存提供了基础描述。作为国内科技基础条件平台之一的地球系统科学数据共享平台,定义了地球系统科学领域的核心元数据,对有关地球系统科学数据的标识、内容、质量、模式、维护等信息进行描述和揭示[6]。e-Science环境下科学数据的元数据描述除了基本信息外,还应包括研究背景、数据产出方法、数据验证、重用说明等情境源流信息,以及提供文献出版物等关联资源的描述。Dryad元数据模式从数据文件、数据包、出版物的不同层级组织元数据,描述了数据对象、相关出版物及其关系的信息[7],提供了作者、期刊、数据提交无缝结合的出版方式。 2.2 数据模型 面对不同来源的异构数据,以及随着科学数据格式类型、目标需求和应用领域不同而变化的元数据标准,基于实体建模的数据模型为促进数据交互提供了通用的可扩展框架。 科学数据元数据模型的构建通过参考目标领域已有的元数据标准,分析数据描述的关键实体,从而形成制定元数据方案可依据的模板。CSMDM(CCLRC Scientific Metadata Model)从科学研究的主题、项目、获取权限、相关资源、注释等方面,为e-Science数据的描述提供了通用科学元数据模型,通过捕获不同层级的科研活动场景,建立了实验、观测、模拟等研究活动与其产出科学数据的关联[8],促进科学数据相关科研情境信息的丰富。 在集成和组织异构数据的相关研究中,数据模型为组织管理数字资源对象、情境实体提供了框架。OpenAIRE(Open Access Infrastructure for Research in Europe)通过建立数据模型与异构数据资源的映射,标准化处理来源数据。OpenAIREplus为数据模型增加了新型科研成果,将内容来源仓储扩展至OA机构知识库、CRIS系统、数据仓储,捕获了科研人员、项目、机构、资助模式、学科、权限等实体及其关系,实现了文献资源和科学数据的关联组织、动态管理和开放获取[9]。 2.3 基于本体的语义模型 在数据和语义驱动的开放关联环境下,采用本体等语义Web技术,通过识别实体类型、揭示核心概念、捕获语义关系,能够深层描述科学数据的关联关系以及表达应用领域的知识需求,使科学数据成为富语义和可计算的资源,从而支持基于语义关联的科研知识服务。 本体在数据模型构建中的应用包括,一方面,通过为元数据方案建立本体模型,提供了管理元数据的语义化方式。DataStaR(Data Staging Repository)通过分析关联仓储元数据标准的共有元素,构建各学科通用的核心元数据本体[10],以可重用本体实例的形式存储数据相关的语义描述,避免其他数据在描述元数据时的重复输入,促进数据的共享和重用。另一方面,构建语义化揭示数据对象及其关系的本体模型,实现科学数据的语义关联组织。ABC模型提供描述传统科学作品生命周期事件的顶层本体[11],为支持在e-Science环境中的应用,ABC模型通过扩展多类型的科学数据、丰富科学作品类型和增加实验、模拟等科研活动,实现数据密集型科研过程和新型科研产出的描述[12]。 科学数据产出于科研过程,具有明确的学科属性,因此面向学科领域的本体模型,从知识层面对科学数据的学科特征进行揭示,能够增强信息抽取、语义标注和文本挖掘等自然语言处理应用的效果。SEEK(Science Environment for Ecological Knowledge)项目的OBOE本体(Extensible Observation Ontology)类型体系由生态学实体、观测活动、计量标准、观测特征组成,较为全面地捕获了生态领域观测过程的核心概念及其关系,从反映学科特征的角度实现生态数据细节内容和关联关系的语义表达[13]。iMarine项目的海洋领域本体MarineTLO(Top Level Ontology for the Marine Domain)提供了描述海洋领域核心知识及其关系的语义模型,类体系不仅描述了图像、出版物、数据集等概念对象以及人、机构等一般情境实体,也实现了对海洋资源相关时空情境和领域知识的展示,促进了海洋领域分布式异构资源的组织、集成和共享[14]。 以上研究实践从不同程度满足了各自应用领域描述、组织和管理科学数据的需求,本文拟采用语义模型研究科学数据的组织模式,通过对目前研究和存在问题的分析,e-Science环境下科学数据的语义组织模型应实现以下目标: (1)学科领域特征可扩展的上层框架 面对科学数据纷繁复杂的来源学科,不仅需要构建用于描述科学数据共有特征和促进数字对象组织管理的通用模型,而且还要为扩展学科特征提供上层框架,包括由主题类扩展学科概念体系,从科研活动类延伸具体科研过程所涉及的事件。 (2)基于数据生命周期的情境和源流分析 表达科研过程全谱段数据产出和利用的科研关系,支持科学数据的共享和重用。由于缺乏系统化的科研场景体系,目前一些元数据标准或数据模型未能深层揭示科学数据的情境关系和谱系源流。因此,需结合e-Science环境下的数据生命周期,将各阶段科研场景作为分析数据类型和科研关系的依据,形成语义揭示科学数据及其关联实体的模型。 (3)支撑开放获取环境的权限管理体系 由于科学数据在不同学科和不同管理层级的权限问题存在差异,因此科学数据管理需要建立适合个性化扩展的权限管理框架。在开放获取运动对信息资源建设的推动下,科学数据的组织管理需要融入开放资源政策和标准规范建设,通过提供完善的科学数据开放程度、再使用权、机读性等政策说明,有效支持用户对科学数据的获取和再利用服务。 3 科学数据语义组织框架及模型构建 根据以上对科学数据组织模式的分析,e-Science环境下科学数据的语义化组织管理应从基本信息、情境、源流、学科概念、权限等方面进行描述,因此,本文采用语义建模,将这些关键信息作为模型的各组成模块,通过设计用户需求和科研过程的场景,分析各模块组成实体之间的关联关系,以科学数据为核心构建各模块语义关联的知识组织框架,对各模块知识内容进行语义描述,实现科学数据知识特征的语义化表达。 3.1 需求场景设计及概念分析 通过设计e-Science环境下知识服务的需求场景,能够为关键实体和知识关系的捕获提供依据。科研人员期望针对检索需求提供其知识脉络的可视化展示,浏览某一知识节点或主题概念的相关资源,依据权限声明制定资源的获取和再利用策略。对于文献中提到的某个实验方法,可以追溯其研究的具体步骤,根据原始数据、方法日志、仪器设备等记录链接,参考该实验的相关资源和情境信息并重现科研过程。 以上需求场景涉及科学数据与科研情境实体的关联交互,本文采用e-Science科研知识创造生命周期模型[15],作为分析情境、源流关系的依据,如图1所示。 图1 e-Science环境下科研知识创造的生命周期模型[15] e-Science科学研究生命周期所涉及的数据活动可概括为三个阶段: (1)数据产出阶段,e-Science环境下科学研究新范式以及现代化数字技术的普遍应用,科研观测、现代仿真模拟等科研活动和高通量数字实验设备等科研工具产出了海量的原始数据,为后续研究提供了数据处理、分析的来源; (2)数据分析阶段,科研人员采用数据处理工具,对原始数据进行数据清洗、格式标准化等预处理活动,对于经过数据处理的中间产出,通过一系列数据分析工具进一步深层分析,得到最终的结果数据; (3)数据利用阶段,图l模型中知识传递循环(KT Cycle)实现了研究成果转化,以文献出版物的形式传播发布,作为辅助理解研究的重要资源,科学数据需要提交至目标数据仓储并与文献关联,促进数据资源的发现和再利用。 3.2 科学数据语义组织框架 通过语义建模的方式,将以上场景中分析得到的概念抽象为实体,大致可划分为知识资产、情境源流、领域概念和权限政策的类体系模块,并建立各模块本体之间的语义链接,从而构建关联组织各模块实体类的语义组织框架,如图2所示,参考复用PROV本体、VIVO本体、FOAF本体的类和属性以及DC元素。 图2 科学数据语义组织框架 根据科研用户对于文献和数据关联发布的需求,以及科学数据在生命周期的组织利用和产出,在以科学数据(Research Data)为核心关联的知识资产类(椭圆框)中,由科学数据发布传播的实践形式,模型重点关注文献类(Article)资源作为科学数据的关联出版物;对于分析数据源流和重现科研过程具有重要作用的思路、方法、操作指南、历史记录、日志等资源,模型通过构建方法类(Method)组织这些资源类型并揭示与数据的关联。 实线方框代表了情境实体类,描述了科研过程中科学数据产出和利用所涉及的情境信息,图2展示了与科学数据具有直接科研关系的情境实体类。科研人员(foaf:Person)在数据生命周期中发挥研究活动执行者、数据文件创建者、文献出版物作者以及数据提交者等责任者角色(dcterms:contributor),,需要捕获科研人员及其所属机构(affiliatedInstitution);数据由一系列科研活动(prov:Activity)产出(prov:wasGeneratedBy),借助设备、软件等科研设施(Facility)生成(wasProducedBy):科学数据及其关联文献出版物作为科研项目(vivo:Project)的研究成果(vivo:outcomeOf)发布传播,由机构(Institution)资助支持(supportedBy),并通过目标数据仓储(Data Repository)对科学数据进行保存管理。 领域本体作为识别领域内共同认可的术语及其知识关系的学科知识组织体系,实现了学科领域核心知识的规范描述和语义组织,因此可用于描述科学数据的学科知识特征。依据知识服务的需求场景描述,模型建立了描述学科概念的领域本体(虚线椭圆框)与文献出版物、数据资源的关联,语义化揭示了科学数据、文献的学科主题(dc:subject)。 权限类型体系(虚线方框)目标在于解决科学数据权限管理和开放政策的关键问题。为保证资源的有效获取和再利用,模型为科学数据类、文献类、方法类资源赋予权限关系(dc:rights)描述。 该框架提供了语义组织科学数据及其关联实体的通用模型,通过为知识资产、情境源流、领域概念和权限政策模块构建相应的本体模型,以及基础属性的梳理,实现科学数据相关内容的语义描述,并可根据目标需求和学科特征对各模块本体进行扩展,促进科学数据成为支撑学科知识服务的富语义资源。 3.3 框架各模块本体模型的构建和扩展 在知识资产模型中,数据资源是单一或复合数字对象,将科学数据扩展为数据文件(Data Item)和数据集(vivo:Dataset),这两个类之间是部分整体关系(dcterms:isPartOf)。为追溯数据的衍生过程,依据数据的加工状态,采用CSMDM模型划分数据的类型名称[8],将数据文件分为原始数据(Raw Data)、中间数据(Intermediate Data)和最终数据(Final Data),这些数据类之间存在衍生关系(pprov:wasDerivedFrom)。 关于情境模型的扩展,一方面需要建立较为全面的属性描述体系,例如,科研活动需捕获时间地点信息,科研工具应提供参数的记录。另一方面,情境模型可根据学科领域的具体科研场景进行扩展,例如,对于部署传感器监测网络或采用科学实验装置仪器进行研究的学科领域,原始数据类可细分为观测数据或实验数据,方法类包括实时监测记录或实验室日志等子类,相应科研活动类可扩展为观测活动或实验活动。 在构建领域本体的过程中,根据应用需求和具体目标,采用自建和复用相结合的方式,通过调研分析领域中较为成熟的本体、权威词汇表等知识组织体系,经过词表概念的遴选、规范和本体的重用、重构、映射,从而捕获领域核心概念并继承词表或已有本体的关系属性,该过程可借助文本挖掘和本体学习等相关技术或工具。学科领域模型用于描述科学数据和科研情境实体的主题等学科属性,以及作为对科学数据摘要和文献信息资源中深层知识内容集成、挖掘和关联的依据,支持面向科学研究的学科化服务和应用。 由于知识资产的组织管理涉及多重复杂的权益问题,机构知识库等仓储需要建立较为完整的权限管理体系,既要有对基本权限的描述,还应包括开放获取环境下资源开放政策和开放程度的声明。本文通过梳理权限概念类型,构建科学数据的权限本体模型,如图3所示。 图3 权限本体模型 关于基本的发布和获取权限,设置针对特定用户或科研社群的发布范围(Target Scope),达到相应资源发布时限(Item Embargo),提供浏览、下载、编辑等获取权限类型(Access Type)。为了描述科学数据利用和获取的开放程度,模型借鉴描述期刊开放程度的开放获取频谱[16]和英国皇家学会对科学数据可理解的开放(Intelligent Openness)提出的需求标准[17],将再使用权(Reuse Rights)、可解读性(Intelligible)、可评估性(Assessable)和机读性(Machine Readability)扩展应用于科学数据不同开放层级内容的表达。 再使用权的取值同样可参照CC协议和相关开放获取政策,机读性用于说明是否提供了机读标准格式;可解读性用来表达科学数据是否能被不同受众所理解,可评估性用于评价科学数据的可靠性,这两个指标的值可通过设置一系列开放层级,由不同的科研用户判别后统计得到。权限本体模型提供了权限概念组织管理的普适框架,实现了科学数据权限信息的明确表达。 3.4 基本描述属性 本体模型属性包括对象属性和数据类型属性,科学数据的对象属性由科学数据语义组织框架中关联关系的映射得到,数据类型属性则根据科学数据的基本描述信息确定。为了促进科学数据的发布和共享,应保障科学数据作为可引用的科研产出贡献的机制,因此,基本描述元素需要保证科学数据能够被引用和被识别。Dataverse等数据仓储遵循《数据引用原则联合宣言》,数据引用格式的组成元素要求满足具有可持续的唯一标识、支持数据及相关资源的获取、保证数据验证等原则[18]。此外,支持学术交流体系中数据引用的元数据标准逐步成为科学数据的描述规范,例如DataCite科学数据引用的元数据模式[19]。本文通过参考Dataverse和DataCite的数据引用格式,提出科学数据类应包括以下三个方面的基本描述属性: (1)标识信息:科学数据及其描述元数据、相关文献资源的可持续识别和获取,要求具有资源的唯一标识符,取值来源于已注册的DOI。 (2)特征信息:科学数据类的一些数值描述属性提供对数据基本特征的描述,包括标题、摘要、大小、格式、发布日期等。 (3)版本信息:为了支持科学数据的保存管理活动,版本属性记录了修正、格式迁移等数字保存活动造成的科学数据变化。 4 模型应用分析 模型为科学数据及其相关实体提供语义描述和关联组织的依据,可应用于数字仓储中科学数据组织管理的语义层构建,实现面向科研用户学科化知识发现、检索、关联、推荐的知识服务。 4.1 知识服务原型系统设计 基于所构建的本体模型,设计原型系统的技术框架,如图4所示。对于数据仓储采集和用户提交的资源,经过知识抽取和语义标注,以RDF三元组的形式在知识库中存储,并提供了SPARQL查询接口和多层次的推理,通过添加规则进行深度推理,实现一系列满足科研用户需求的知识服务场景。 图4 知识服务原型系统的技术框架 (1)数据采集模块 该系统的数据来源,一方面通过OAI接口,对遴选的开放数据仓储进行定期收割和集成;另一方面将本体模型中类和关系转化为表单元素,由科研用户填写相关内容并选择对应关系,手动提交科研成果。 (2)语义处理模块 对于采集的科学数据等资源,本体模型应用于这些知识资产对象的知识抽取和概念标注。依据各采集系统的元数据元素与本体类的映射关系,抽取所采集资源涉及的相应实例。另外,对于题名、关键词、摘要等元数据的内容文本,利用自然语言处理等技术,基于模型中学科概念模块的领域本体,语义标注采集的知识资产。 (3)语义存储和推理模块 本文采用开源语义应用VIVO,作为对资源进行语义描述、组织、存储、推理的平台。VIVO支持本体和实例的编辑,提供语义存储机制和SPARQL检索组件,并使用Pellet推理机可配置不同层次的推理[20]。基于VIVO平台定义本文所构建本体模型的类体系、对象属性和数据类型属性,应用于实例的语义化描述以及实例之间关联关系的建立,以RDF三元组的形式存储,并通过推理机实现分类、关联、辨识等推理功能。 (4)查询处理模块 对于用户输入的查询语句,经过自然语言处理和语义扩展,自动转化为SPARQL查询语句,在VIVO平台的RDF存储中检索,得到匹配结果及其URI。 (5)规则引擎模块 作为知识表示的一部分,规则能够支持深层和多维的知识推理,针对基于VIVO平台的SPARQL查询结果,依据本体模型添加一系列知识规则,可实现更为丰富的知识服务场景。围绕科研人员的知识规则可促进学术交流网络的建立,包括同一文章的作者具有合著关系,以及由数据资源的学科主题得到该数据创建者的研究兴趣领域。同时,可添加驱动领域深层知识构造的规则,满足学科化知识深度挖掘和多维集成的需求。 (6)知识服务模块 基于本体模型的上述应用,以知识单元为核心,实现学科概念、知识资产及其相关科研实体的语义关联组织,因此知识服务模块能够提供语义检索、知识多维聚合、资源关联发现、主题知识推荐、个性化知识环境定制等服务。另外面向科研人员,依据其与知识资产、科研实体的关联,可提供全面展示科研人员研究成果和参与项目的个人主页服务,基于规则推理还可建立合作、兴趣社群等科研人员的学术交流网络。 4.2 模型应用实验 模型在原型系统的上述应用,能够实现科学数据的语义化描述、组织、关联、存储、查询、推理。在VIVO平台中,针对本体模型在科学数据语义描述和关联组织的应用进行实验。以模型在FigShare科学数据与PLoS ONE期刊文献关联发布的场景中应用为例[21]。与PLoS ONE生态领域某篇文章关联的FigShare资源,包括由调查实验得到的原始数据表格(S2_Information.xlsx)、依据的方法类文档(S1_Information.docx)、经过数据分析形成的最终数据(S1_Figure.tif)。该文章的作者来自机构(University of Tartu),其中,Plumer、Saarma设计并执行实验,Plumer、Davison参与数据分析,研究得到机构(Estonian Research Council)的资助支持。FigShare和PLoS对于资源的使用许可声明遵循CC-BY协议,PLoS还提供了实现机器获取的OAI接口。对于以上场景所涉及的实体对象及其科研关系,根据本体模型,图5和表1分别展示了各模块关联组织的情况和实例语义描述,这些三元组存储于VIVO平台并可通过SPARQL端点查询。限于篇幅,学科领域、权限、基本描述方面的描述以S1_Figure.tif为例说明。 图5 各模块实例的关联组织图 4.3 模型应用效果评价 以实验中的实例为例,输入SPARQL查询语句,查找主题为“urban biome”的数据集或数据文件,返回结果中包含数据文件S1_Figure.tif的URI;由该数据文件继续查询,能够获取其衍生来源数据、关联出版的期刊论文、创建者、著录信息、权限等相关资源URI或文本内容。因此,本文模型能够支持语义查询,在科学数据语义化关联组织方面达到较为理想的应用效果。由于模型目前仅对在原型系统的语义存储和推理模块的应用进行实验,因此模型为其他模块提供的语义支撑效果还需进一步验证。 5 结语 本文构建的科学数据语义组织模型实现了科学数据、相关实体及知识关系的语义化揭示,能够为机构知识库等仓储构建智能化的数字信息基础设施提供科学数据组织管理的语义保障。 在保障数据与文献出版物语义关联的基础上,未来可通过扩展资源对象类型,为重点保障的开放资源构建知识组织体系,实现开放资源语义集成服务平台的建设。 作者贡献声明: 马雨萌:提出研究思路,设计研究方案,实施研究过程,撰写及修订论文; 马雨萌,郭进京:文献的调研、整理和分析; 马雨萌,王昉:实验设计、执行、分析。 收稿日期:2014-11-21 收修改稿日期:2015-01-26标签:科学论文; 元数据论文; 大数据论文; 语义分析论文; 相关性分析论文; 关系模型论文; 组织环境论文; 场景应用论文; 知识体系论文;