基于关联数据的科学数据集成与共享研究——以Bio2RDF项目为例,本文主要内容关键词为:数据论文,为例论文,科学论文,项目论文,Bio2RDF论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1 引言 科学数据是指人类在认识世界、改造世界的科技活动中所产生的原始性、基础性数据,以及按照不同需求系统加工的数据产品和相关信息[1]。由于科学观察、探测、实验和研究设备的改进、计算机和互联网技术的发展以及大规模合作的科学态势,科学数据呈现出海量增长的趋势。欧盟科学数据高级专家组于2010年10月向欧盟委员会提交的《欧洲如何驾驭科学数据浪潮》的报告中指出,一台高性能的DNA测序仪每天可读取约260亿个人类基因码,产生的数据流比20个美国国会图书馆一年的数据量还大[2]。因此,如何对海量的、分散的、异构的科学数据进行集成与共享,使其可以作为一个整体发挥最大的价值,成为科学数据管理中必须解决的问题。 除了元数据目录技术、科学数据平台、Web Service技术外,本体、Mashup等技术均被运用以实现数据的集成与共享。但是,这些技术或集成的内容对象单一且缺乏延展性,或缺乏细粒度的语义描述与解析或是依赖复杂的集中系统,都不能够实现细粒度的语义化、关联化的集成与共享。而关联数据作为一种新兴的数据关联与集成技术,恰恰为此提供了一条有效的途径。 2006年,Tim Berners-Lee提出了关联数据这一概念,指出关联数据是在语义网中使用URI和RDF发布结构化数据并构建数据之间链接的最佳实践方式[3]。我们认为:关联数据在实现科学数据集成与共享中具有一定的优势。第一,URI标识与复用。利用URI标识不同的实体对象,关联数据描述的粒度更加细化、语义化,并可跨领域得到更广泛的数据参引。第二,RDF描述与链接机制。采用RDF三元组主语—谓语—宾语的形式,关联数据描述科学数据及其间关系,通过RDF链接,可以形成提供数据集成与共享的关联数据网络。 2 国内外基于关联数据的科学数据管理研究现状 2.1 国外现状 关联数据旨在将现有的Web文件网络变成Web数据网络。2007年SWEO(Semantic Web Education and Outreach)提出了开放关联数据(Linking Open Data,LOD)项目[4],极大地促进了关联数据的发展。LOD云图中的数据集涉及地理、生命科学、出版等很多领域,其中也包括很多科学数据集,如DrugBank、Chem2Bio2RDF、Uniprot、GenBank、PDB等。国外学者相关研究主要集中在以下几个方面。 (1)发布的原则与机制。Kauppinen和Espindola提出了关联开放科学数据的4项要素[5]:①基于关联数据发布科学数据、元数据、结果和来源信息;②开源和基于网络的使用、验证和探索研究;③高效的云计算和分布式计算;④共享的法律基础。Bechhofer等认为将科学数据发布为关联数据要解决科学数据的溯源、质量、信用等问题[6],即所发布的数据要保证其可重用性,并提出了一个将科学数据发布为关联数据的模型。Zappa等介绍了利用开源软件D2R将一个有关基因突变的关系型数据库发布为关联数据,并提供SPARQL端点查询的方法[7]。Gamble等创建了最小信息模型(Minimum Information Model)的词汇集和框架[8],为描述和评估最小信息清单(Minimum Information Checklists)中的数据提供实用的、可扩展的方法。 (2)应用研究。Moss等提出了使用关联数据和语义网技术评估医学数据的质量与可靠性的方法[9]。Groza等使用了结合面向文档的元数据自动提取技术和基于关联数据的可视化技术的应用程序,将产生的文档无缝地集成到语义桌面环境中,从而减轻研究人员信息超载的负担[10]。Joerg等介绍了将研究信息系统(RIS)中的数据发布为关联数据并与LOD云图中数据链接的主要原则和技术[11]。Ansell构建了一个基于科研标准可用于上下文环境的关联科学数据的查询模型[12]。另外,Glasson等分析了将个人卫生信息和行政数据发布为关联数据用于卫生研究的机遇与挑战[13],并强调要保护个人隐私。 国外关联数据围绕科学数据集成与共享开展了一些应用研究和实践活动。卫生保健和生命科学兴趣小组开发的LODD(Linked Open Drug Data)项目[14]旨在关联不同来源的医药相关的数据集,如药物化学研究数据集、药物临床试验数据集等,以回答相关的科学和商业问题并支持药物发现。Bio2RDF项目[15]使用关联数据等语义网技术集成了40多种生物医学信息资源,并构建了生物医学数据的Mashup系统,支持生物知识发现。LinkedLife Data是生物医学领域语义数据集成平台[16],该平台整合了PubMed、Uniprot等20多个数据源,有效地解决了数据异构的问题。LinkedGeoData是由Agile Knowledge Engineering and Semantic Web(AKESW)研究组创建的开源社区项目[17],致力于将空间地理数据添加到语义网中,将开放街道地图(OpenStreetMap)根据关联数据的原则发布,并与DBpedia、GeoNames等数据集链接。Chem2Bio2RDF是由印第安纳大学开发的系统[18],采用D2R开源软件集成了PubChem、KEGG、Compound等25个生物、化学、药物领域的数据集,为生物化学领域提供知识发现服务。Linked2Safety项目[19]由欧盟委员会资助,通过运用关联数据技术将不同来源的电子病历集成并提供一个语义互操作的框架。 综上可见,国外关联数据围绕科学数据集成与共享的应用研究和实践活动主要集中在医学、生命科学、地理科学等领域,其中地理和生命科学应用领域相对广泛。 2.2 国内现状 与国外相比,国内对关联数据的研究较晚,最早是在2008年12月上海召开的“数字环境下图书馆前沿问题研讨班”上,曾蕾和刘炜分别对关联数据技术进行了介绍。通过对相关文献调研发现,涉及将关联数据应用于科学数据的研究较少,见诸核心期刊的文章仅有3篇。沈志宏、刘筱敏等以科技文献和科学数据为例,提出了关联数据发布的标准化流程并详细分析了其中的关键问题[20]。沈志宏、张晓林等认为由于关联数据语义描述能力强、低成本、开放自治,能够很好地满足科学数据库对开放访问机制的要求[21]。游毅、成全提出了基于关联数据的科研数据资源共享模式,包括科研关联数据的创建发布和科研共享数据网络的构建两部分[22]。 目前,关联数据在国内还没有形成成熟的或具有影响力的实践或应用成果。只有中科院的科学数据库项目(Scientific Database,Chinese Academy of Science,CSDB)尝试应用关联数据构建关联网络OpenCSDB。目前,OpenCSDB软件框架的雏形已基本建立,制定了个体数据库的程序化访问,完成528个数据库及其子库的URI制定[23]。另外,其所开发的科学数据搜索引擎Voovle可为37家建库单位的124个数据库的科学数据提供语义搜索服务。 3 Bio2RDF项目案例分析 下面我们以Bio2RDF项目为例来探讨利用关联数据技术实现科学数据的集成与共享的具体方法与机制。 3.1 项目简介与进展 Bio2RDF项目是由加拿大基因组和魁北克基因组资助的生物信息学知识集成的开源项目,致力于构建生命科学领域数据库的关联数据网络。目前,Bio2RDF项目发布了第二个版本即Bio2RDF R2。其第一个版本集成了40多种生物医学信息资源,将这些数据库资源同一转化成RDF三元组形式,共创建了约50亿个RDF三元组。而Bio2RDF R2目前更新了第一个版本14个数据集并新增了5个数据集,具备以下新的特征。第一,发布了来源元数据。使用了W3C的VIoD、PROV词汇集和都柏林核心词汇集发布数据集及数据记录的来源元数据,包括发布者、时间、开放许可等信息,有助于数据的溯源。第二,制订了数据集的度量标准。对于每一个数据集分别采取了三种度量标准,其中包括三元组总数、文本三元组数量、实体间关系数量等指标,不仅可以较好地观察数据集的更新信息,还有助于快速建立正确的SPARQL查询。第三,简化SPARQL查询的制定。利用SPARQLed这一开源应用程序的上下文环境推荐功能有效地简化SPARQL查询的制定。 3.2 基于关联数据的集成与共享机制 3.2.1 URI命名与复用机制 URI统一资源标识符在关联数据的集成和共享机制中发挥着重要的基础作用,使得各类实体资源与抽象概念能被唯一标识,并基于HTTP的解析机制被检索和查询。Bio2RDF对所有的资源采取了统一命名的策略,资源的URI有三种设计模式。第一,对于具有唯一标识符的资源,实体的命名如下:http://bio2rdf/namespace:identifier。其中,namespace是指每个数据源的命名空间,是数据集在资源注册中心的简短名称,identifier是数据提供者唯一标识该资源的标识符。例如来自PubMed中一篇identifier为12728276的文章的URI为http://bio2rdf/pubmed:12728276。第二,对于没有标识符的资源,实体的命名如下:http://bio2rdf.org/namespace_resource:identifier,这一模式通常用于标识对象之间的关系。其中,namespace是数据集在数据注册中心的简称,identifier是由Bio2RDF的脚本创建和分配的标识符。例如,在比较毒理基因组学数据库(CTD)中标识符为mesh:C112297和标识符为mesh:D029597之间的化学——疾病之间的关系命名为:http://bio2rdf.org/ctd_resource:C112297D029597[24]。第三,对于特定类型的数据集实体及其关系的命名如下:http://bio2rdf.org/namespace_vocabulary:identifier。其中,namespace是数据集在数据注册中心的简称,identifier是由Bio2RDF的脚本创建和分配的标识符。例如,美国国立生物技术信息中心(NCBI)的HomoloGene数据库提供了同源的真核基因组资源,并包含该基因组参引的生物分类。因此,Homelogene基因组资源作为一类被标识:http://bio2rdf.org/homologene_vocubalary:Homologene_Group,分类关系为:http://bio2rdf.org/homologene_vocabulary:has_taxid[25]。为了确保不同脚本创建和分配的URI的一致性,Bio2RDF建立了每个脚本必须使用的公共资源注册中心。不仅为每一个数据集制定唯一的命名空间(如Protein Data Bank数据库的命名空间为“pdb”),并在需要时制定数据集内使用的一级和二级URls(如http://purl.obolibrary.org/obo/,http://purl.org/obo/owl/等),这确保了生成的关联数据集之间具有较高的语法和语义的互操作性。另外,Bio2RDF针对URI命名还制定了一些简单的规则,如URI中命名空间均使用小写字母、所有的URI均应返回相应的RDF文件等。 在Bio2RDF关联数据的发布过程中由于资源的多样性和发布的离散性等原因面临着URI共指的问题。Bio2RDF采取的措施是在出现的URI别名之间构建同一性链接,即使用RDF属性链接owl:sameAs来声明两个URI实际指向同一资源对象。例如,SGD数据库中S000006169的URI http://bio2rdf/sgd:S000006169通过owl:sameAs与BioGrid数据库中的http://bio2rdf/biogrid:35915链接起来。同一性链接并非对关联数据中URI复用原则的否定和替代,而是以一种去中心化的方式对URI复用的扩展和补充。 3.2.2 RDF描述与链接机制 关联数据采用RDF三元组主—谓—宾结构对资源进行语义描述。由于三元组中的宾语一方面能够提供主语基于特定谓语属性的属性值或关联对象,另一方面也可能成为其他的RDF三元组的主语,因而赋予了RDF模型以天然的链接结构。表1展示了Bio2 RDF中实体omim:602080的部分RDF三元组。在表1中,第一个三元组声明了该实体的URL,第二个三元组声明了URI“http://bio2rdf.org/pubmed:10615125”所标识的宾语pubmed:10615125是http://bio2rdf.org/omim:602080所标识的主语在PubMed数据集中相关的文章。其中,通过对宾语URI进行解析,还可以获得PubMed数据集中实体pubmed:10615125的相关RDF描述和链接。 由上述例子可以看出,RDF三元组能够通过声明URI标识的资源之间由谓语所定义的语义关系,将来自不同数据集中的资源关联起来。通过URI解析能够获得实体资源的RDF描述,而这些描述信息中很可能会进一步包含(如表1中第二、第四个三元组)指向其他数据集中的RDF链接。同时,如果两个数据集之间存在不止一个RDF链接,而多个RDF链接的复合关联可以将这两个数据集集成在一起。基于此,采用RDF数据模型发布的关联数据集通过RDF链接实现了与其他数据集的集成,并形成了Bio2RDF关联数据网络。 将各类资源对象及其关联关系以RDF形式发布到关联数据网络中,需要利用各种关联数据发布工具,将数据转换成关联数据所要求的RDF数据形式。Bio2RDF创建了一个JSP工具箱,可以编写和生成RDF化程序,从而将不同来源与格式的数据如关系型数据库、文本文件、XML文档、HTML网页等转换为RDF数据。其中,对于每一种格式的数据均有相应的JSP转换程序。例如,ncbi-omim2rdf.jsp程序可将NCBI中孟德尔人类遗传在线(OMIM)数据库记录的XML文档转换为RDF数据。首先,该程序从NCBI的网站上获取实体的相关信息如某一疾病的OMIM中ID,并将此XML文档置于内存中以便进行转换。然后根据Bio2RDF所创建的相关本体从文档中抽取所需的信息并进行转换。 3.2.3 数据的获取与共享方式 在Web上获取Bio2RDF的关联数据主要有以下三种方式。第一,HTTP参引方式。通过HTTP URI可以参引并获取资源的RDF描述及相关的RDF链接,具体的实现方式包括关联数据浏览器如Tabular、Disco等及语义搜索引擎如SWSE、Sindice等。第二,RDF转存文件方式。Bio2RDF可以提供RDF/XML、N3、HTML、JSON等多种格式的下载或在线浏览,最大限度地促进数据的共享和重用。第三,SPARQL端点查询的方式。在Bio2RDF中,每个关联数据集有自己的SPARQL查询端点,即为http://[namespace].bio2rdf.org。例如,Saccharomyces Genome Database(SGD)的SPARQL查询端点为:http://sgd.bio2rdf.org。同时,Bio2RDF也可以在一个查询式中实现对多个或所有数据集的查询。 4 结语 e-science环境下,科学数据的集成与共享既是数据资源开发利用的基础,也是提升科学数据管理和服务能力的关键问题。Bio2RDF项目利用关联数据技术对实体和概念进行语义描述、标注和发布,实现了数据资源的充分揭示和自由存取,进一步依托语义链接的构建而实现了数据资源间关系的关联,从而最终实现了科学数据的语义集成与共享。我们认为,该项目在利用关联数据技术实现科学数据集成与共享的探索中,有以下几点值得参考和借鉴。 第一,规范、灵活的URI命名策略。Bio2RDF对所有的资源采取了统一命名的策略,但针对不同类型的数据资源(有唯一标识符、没有唯一标识符和特定类型的资源)灵活地制定了不同的命名规则。第二,建立异构资源间简单、常见的关联机制。对于不同数据源中的相同实例(instances)采用最常见的关联方式——owl:sameAs实现关联,在一定程度上缓解了URI的共指问题,并节省了技术使用的成本。第三,多样的数据转换方式。Bio2RDF创建了JSP工具箱,将不同来源与格式的数据如关系型数据库、XML文档等转换成RDF数据时均有相对应的JSP转换程序。第四,便利的数据获取方式。用户不仅可以通过关联数据浏览器、语义搜索引擎等访问相应的数据资源,还可以通过RDF转存文件的方式下载多种格式的关联数据,最大限度地促进了数据的重用和共享。另外,通过SPARQL端点查询,用户可更精确地获取所需数据资源。 由于关联数据技术没有引起国内科学数据领域足够的关注,目前还没有形成基于关联数据有影响力的应用,因此,本研究对于关联数据应用在科学数据的集成、管理、共享和服务中的研究和实践活动具有较大的参考价值。随着语义网技术的不断发展,在开放网络环境下关联数据在科学数据集成和共享中的应用也将日臻成熟。标签:rdf论文; 三元组论文; 数据集成论文; 大数据论文; 语义分析论文; 实体关系模型论文; 信息集成论文; uri论文;