“大数据”时代科学数据整合研究_科学论文

“大数据”时代科学数据整合研究,本文主要内容关键词为:数据论文,科学论文,时代论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

1 背景

科学研究正在进入到一个崭新的阶段。随着信息与网络技术的发展,科学研究在计算机仿真、模拟、传播等过程中产生出了大量的原生数字科学数据。这些数据包括实验模拟数据、仪器观测数据等。除去以论文、图书形式发布的科学数据外,大量的蕴藏着科学理论的科学数据经常被淹没在零零散散的实验室里。而我们现在需要将这些科学数据像纸质文献一样长期保存起来,让科研人员公开获取。这样科学家可以从存储的科学数据中发现和理解自然与世界。未来的科学研究更多的是数据驱动的、协作的和跨学科的。这就是微软发布的基于数据密集型计算的科学研究第四范式[1]。除此之外,科学数据的爆炸式增长也给前沿科学项目带来了巨大挑战。数据集的增长已经超过数十万亿字节[2],正如美国奥巴马总统委员会的科技顾问S.Brobst所说:“过去3年里产生的数据量比以往4万年的数据量还要多”。“大数据”时代的来临已经毋庸置疑。我们即将面临一场科学研究范式变革,大科学数据管理将成为未来科学研究的当务之急。

因此,在科学研究范式发生革命性转变,“大数据”日趋发展的今天,整合集成科学数据,实现科学数据共享与互操作性,构造基于科学数据的、开放协同的科学研究新范式具有重要的意义。

2 “大数据”时代科学数据整合面临的挑战

在“大数据”时代,典型的科学研究场景描述如下。

某科学家准备开展碳纳米管制备方面的研究。在做这方面的研究之前,该科学家需要了解该研究领域的研究现状,于是他就利用Web of Science(WoS)数据库查找此研究领域的文献资料。由于Web of Science数据库只提供了文摘信息,看到感兴趣的文献后,该科学家不得不又到该文献的全文数据库(如Elsevier)中获得全文。当然,WoS数据库也提供全文链接,但是有些全文数据库,该科学家所在的单位没有购买,只好又通过其他途径获得,比如到Google Scholar或Microsoft Academic Search中获取。为了获取该领域的研究文献该科学家就花费了相当长的时间。获得该研究领域的文献后,该科学家还想了解碳纳米管研究领域的专利申请情况,于是就到专利数据库进行搜索查询。文献专利了解了以后,该科学家还想知道碳纳米管的主要化学或者物理性质是什么,这些信息可能存在于某个事实数据库(如相图数据库或Springer的Protocol数据库),该科学家又登录到这些事实数据库中进行碳纳米管的相关物理化学性质查找。

除此之外,该科学家还需要知道目前制备碳纳米管的主要方法是什么,用什么设备,目前制备碳纳米管的技术水平如何,比如强度指标、电学性能、力学性能、热学性能。由于这方面的资料可能会在文献中提到,也可能存在技术报告中,所以该科学家又利用搜索引擎进行搜索,到世界上制备碳纳米管的主要实验室网站上寻求答案。

该科学家想获得碳纳米管的详细实验方案以及实验结果的详细数据,由于论文受到发表刊物的版面限制,在论述实验过程方案,展示实验结果时只能选择重点部分论述,不可能太详细。如果想获得这些数据,只能求助于作者或其他途径。存储这些科学数据的格式也是五花八门。比如,实验结果数据可能存在于某个关系型数据库中(如SQL Server);作者为了分析实验结果数据可能会编制一些软件;实验结果的展示可能由许多照片组成,格式可能是TIF、JPG等;作者还有可能会用视频的方式把实验过程也录制下来用多媒体格式存储。这些资料相对于发表出来的论文对科研工作者可能更有意义,可现实情况是这些宝贵的资料大部分存在于各个实验室中,一般是不公开的,即使公开由于文件格式等障碍也很难加以利用。科学家希望能有一个科学数据整合机制,将这些非常有价值的科学数据统一展示并利用起来。接下来的问题是在“大数据”时代,科学家在实验过程中产生了大量数据,导致计算机存储不下。由于科学数据量的急剧增加,导致目前主要的计算机算法失效,不能进行实验数据分析。如图1所示。

图1 “大数据”时代典型科学研究场景

针对科学研究过程中的各种问题,进行科学数据整合已是迫不及待了。通过上述对“大数据”时代典型科研场景的描述,不难看出科学数据的整合面临的主要挑战有以下几个方面。

1)系统异构。主要包括网络协议异构(如http,ftp,GridFTP,SOAP)、远程执行方案异构(如Web services,RMI,CORBA)、用户平台异构(如操作系统异构)以及认证机制异构(如Kerberos,GSI)。如何使这些异构的系统之间进行通信成为挑战之一。

2)科学数据描述语法不统一。科学数据有存储在关系型数据中的,有以文本文件存储的,有以视频文件存储的。而且它们的描述语法不同(如html,xml等)。如果使用XML格式作为统一的整合交换语法,能够帮助解决语法异构的问题。但是在科学研究中,各实验用的应用系统不一样,对XML的支持也不一样,如何在语法级别上支持不同格式、不同版本系统集成成为挑战之一。

3)科学数据元数据格式不统一。同样或相似的科学数据元数据标准不统一(如DC,MODS,METS等),给科学数据整合带来挑战。需要克服的主要困难有,如何获得一个统一的集成元数据描述格式,如何寻找一个从源元数据格式到集成元数据格式的正确映射,如何正确处理元数据的不完整性和冲突等。

4)科学数据之间缺乏语义关联。科学家在进行某项研究时可能会用到多种科学数据,这些科学数据之间有什么样的语义关联是进行科学数据整合的又一巨大挑战。以前通过实体—联系(ER)图来表示各个实体之间的关系。但是,这些信息不能用来查询科学数据,并且ER图很难对实体之间的联系进行精确的描述。传统的元数据方案可以部分地为科学家提供科学数据间的语义信息,帮助科学家理解科学数据的内容、范围等信息。但是,为了某项特定的研究,科学家需要访问很多不同的数据源,就需要对科学数据语义异构信息进行整合。比如某项实验的参数和标准是什么,使用的协议是什么,数据间的关系和编码是如何进行的?如果能对这些科学数据进行精确的语义编码,很显然能够让科学家更加有效地利用这些科学数据。为了实现科学数据语义实体的整合,要求能够将实体和它们之间的关系描述清楚,或者参照其他更好的本体库进行(如使用标准的本体描述语言OWL或者通过受控词表等)标注。

5)基于科学数据流程构建的综合科学数据整合。例如有位科学家希望进行两个阶段的科学实验(实验A和实验B),如图2所示。

图2 科学数据流程构建的科学实验

问题是实验A输出的实验结果Y能否直接输入到实验B中,符合实验B所要求的数据格式吗?如果不符合如何对其格式进行转换?此外,还有就是这样的科学实验流程构建得合适吗?也就是说实验A和实验B的连接是否有意义。所以基于科学实验流程的整合其巨大的挑战在于实验流程设计构建的合理性,以及实验数据格式的互操作性。

6)“大数据”时代科学数据整合的效率及有效性。“大数据”时代的科学数据数量庞大,进行实质的物理整合,既不现实也没必要。其最终解决思路应该是进行虚拟整合,整合模型和整合效率成为关键。目的是让科学家感觉不到科学数据所在的物理位置和存储方式,当科学家需要什么科学数据时,通过科学数据虚拟整合平台随时随地毫无障碍地获取。

3 科学数据整合的主要理论与方法

科学数据整合研究是从传统的数据整合研究发展而来的。与数据整合不同的是科学数据整合还需要研究科学数据的表示、元数据标准、科学数据格式转换以及从混合科学数据源中提取语义信息等[3]。传统的科学数据整合被分成3个部分,即语法、结构以及语义角度进行整合[4-5]。

3.1 科学数据集成方法

科学数据集成可以定义为一个三元组〈G,S,M〉。G表示全局视图(Global Schema),S表示异构数据源,M为G到S的映射,也叫中间件(Mediator)[6]。科学数据集成就是通过M将异构数据源信息S映射到全局视图G,用户可以通过全局视图G来获取不同数据源S的科学数据。

科学数据集成过程中关键问题是中间件的构建,一个好的中间件可以高效准确地进行科学数据集成。目前,中间件构建方法主要有两种,分别是基于XML和基于语义(模型)的中间件构建。

1)基于XML集成中间件构建。其基本思路是将各个异构数据库的元数据信息通过相应的映射文件转换成全局虚拟视图。首先,每个异构数据库需要按照一定的规则,通过包装器(Wrapper)生成自己的XML视图。当客户端进行查询时,根据客户端的查询需求,生成集成的XML查询视图V。然后查询视图V通过中间件的分析,将针对逻辑虚拟视图的查询转换为针对各个物理数据库的子查询,并将查询结果以XML文档返回。该方式可以让用户灵活定制查询规则,将各个XML子文档过滤、合并。最后将合成的XML文档加入相应的样式文件,通过用户访问接口返回给客户端。

2)基于语义(模型)的中间件构建。由于XML只是在语法级别上对科学数据进行了整合,随着“大数据”时代的到来,以及科学研究需求的提升,仅仅依靠语法层面上的科学数据集成已经不能满足科学家的需要了。这样基于语义(模型)的中间件构建就随之产生。基于语义(模型)的中间件构建在XML包装器上面又加了一层CM-Wrapper,其主要作用是将隐藏在资源背后的语义信息揭示出来。CM-Wrapper由三部分组成OM(S)、KB(S)和CON(S)。

CM(S)=OM(S)+KB(S)+CON(S)

其中,OM(S)为对象模型(Object Model),是科学数据中对象存储器,运用面向对象的方法将科学数据表示存储起来。KB(S)为知识库(Knowledge Base),在对象模型的基础上生成逻辑规则(Logic Rules),将隐含在科学数据中的语义信息明确表示出来。CON(S)基于上下文理解的模型(Contextualization),综合运用领域地图(Domain Maps,DMs,concepts+roles)和时序地图(Process Saps,PMs,states+transitions)方法将科学数据中与其相关联的概念规则以及时序信息抽取表示存储起来。

除了在XML包装器上增加CM-Wrapper,在中间件引擎上还增加了集成视图定义(Integrated View Definition,IVD)。利用领域地图和时序地图对用户的查询进行面向对象的逻辑分析和解释。

基于XML的中间件构建和基于语义(模型)的中间件构建的主要区别在于,基于语义(模型)的中间件构建将XML的对象进行分类,标准各对象间的关系如is-a,has-a等。采用胶合映射(Glue Maps),把不同的模型整合在一起用来解释用户查询意图。

3.2 科学数据集成模式映射关系构建

不管采用基于XML的中间件构建还是基于语义(模型)的中间件构建,两种方法都涉及原始数据和用户查询意图映射的问题。目前,模式间映射关系构建的基本方法主要有两种:GAV(Global-as-View)方法和LAV(Local-as-View)方法,如图3所示[7]。

图3 GAV方法和LAV方法

GAV方法是将各本地数据源的局部视图映射到全局视图,即全局模式被描述为源模式上的一组视图。用户查询直接作用于全局视图。GAV方法的优点是查询效率比较高,缺点是用这种方法构建出来的映射关系的可扩展性较差,不适合数据源存在动态变化的情况。因为任何一个局部数据源发生改变,全局视图都必须进行修改,维护起来较困难,开销也比较大。

LAV方法是将全局视图映射到各数据源上的本地局部视图,即各数据源模式被描述为全局模式上的视图。当用户提交某个查询时,中介系统通过整合不同的数据源视图决定如何应答查询。这种方法可看成是利用视图回答查询。该方法的优点是映射关系的可扩展性好,适合于信息源变化比较大的情况,缺点是可能会造成信息丢失、信息查询效率偏低。

举个例子来具体说明GAV和LAV两种方法的使用。

例如在全局模式上有一个类paper(Author,Journal),表示某篇论文的作者和发表期刊,在某个具体数据源上提供了作者关系Institute(Author1,Author2)。如果按照LAV的方式,可以把作者关系数据源表示为:

Institute(Authorl,Author2):_paper(Authorl,Journal)&paper(Author2,Journal)

如果需要查询和“T.B.Lee”一个机构的作者在哪些期刊上发表过文章,查询表达式如下:

paper("T.B.Lee",Journal)&paper(Author2,Journal)

LAV数据集成系统可以立刻发现数据源Institute能够回答这个查询,从而把这个查询转发给这个数据源处理。相反,如果是GAV方式,由于是用具体数据源的视图来描述全局模式上的类,全局模式上的Paper被描述为:

paper(Author1,null):_Institute(Author1,Author2)

paper(Author2,null):_Institute(Author1,Author2)

原来的Author1和Author2之间的Institute关系在这个描述中就丢失了,也就无法回答给定作者查找与其所在同一机构其他作者发表论文期刊的查询。

由此可以得出LAV方法有如下两个优点:

1)描述数据源变得更简单容易。描述(即视图)只用描述本地数据库就可以,不必再描述用户查询需要涉及的其他的数据源和各数据源之间的关系。由于有这种特性,当有新的数据源要加入进来时,数据集成系统可以非常容易地适应,因为每个视图仅描述这个数据库的内容。在实际应用的数据集成系统中,往往要涉及成百上千个数据源,而且经常需要去除旧的不用的数据源,加入新的数据源,再做集成,这个容易更新再集成的特性是极其重要的,所以LAV方法是现在最流行的数据集成方法。

2)对数据源的描述更加精确。因为对数据源的描述(Source Description)在视图定义语言的表达能力中起着关键作用,系统能够选取一个最小数量的数据源集合来回答一个特定的查询,可以节省时间和系统开销。

为了结合两种方法的优点,出现了GLAV(Global-Local-as-View)映射方法。它是由全局模式上的视图与各数据源上的视图相结合形成的。GLAV方法可以结合GAV和LAV的优势,能够为数据集成系统提供更具表达能力的语义映射。

在“大数据”环境下,上述科学数据整合方法的有效性还没有得到验证。面对海量的科学数据,能否有效地将这些数据集成起来仍然是现在数据整合领域面临的最大挑战。

4 科学数据整合系统

在科学数据整合领域,各个国家和大型科研机构都进行了积极的实践,下面介绍几个具有代表性的系统。

4.1 GEON项目

GEON始于2002年,是美国国家科学基金会信息技术研究计划(ITR)资助的一个项目[8]。该项目最开始由10多位课题负责人(PI)作为一个合作研究项目,目的是开发一个支持地球科学研究界之间的数据共享和集成的网络基础设施平台。2007年,NSF在科罗拉多州丹佛召开国家地理信息系统研讨会。会上提出未来地球科学研究愿景:“国家地理信息系统……在未来,科学家可以坐在一个终端面前,能够很容易获得大量存储在不同地方的科学数据,并可以没有障碍地进行可视化,分析和模拟这些数据。”GEON的开发为实现这一目标迈出了坚实的一步。

GEON由不同的子项目组成,主要有:①Open Earth Framework(开放地球框架)。主要实现地质和地球物理数据整合,分析和可视化环境。②Integrated Data Viewer(集成数据浏览器)。提供一个完全互动的、真实的3D和4D工具,用来显示和检索不管是地球内部还是在地球表面上的任何数据。③Interface(接口)。由美国国家科学基金会资助,以帮助地球科学家获得高分辨率和高精度的地球三维表面数据。GEON负责整合地形数据,将接口的TLS地形数据集成在OpenTopography门户。④SYNSEIS(合成地震记录生成工具)。基于网格设计的应用程序,用来帮助地震学家和其他研究人员计算合成三维区域地震波。⑤Paleointegration项目(PIP)。一个基于互联网的系统,提供了丰富的化石和沉积岩数据库。GEON实现门户无缝搜索。这大大方便了动物和植物多样性,生物地理学和地质时期的气候研究。

4.2 TAMBIS项目

TAMBIS(Transparent Access to Multiple Bioinformatics Information Sources)由英国曼彻斯特大学发起,生物科学学院、信息管理研究小组和计算机科学学院联合研究。TAMBIS系统的目的是可以透明地访问多个生物信息学信息来源。TAMBIS使用中间件、资源包装器等技术为各种异质生物信息源提供一个统一的查新界面和接口[9]。图4给出了TAMBIS系统的架构[10]。TAMBIS系统主要由A、B、C、D、E五个部分组成。

1)生物概念模型(Biological Concept Model)。生物概念模型是覆盖生物学领域的一个生物学术语描述逻辑本体库,图4中A所示。它用来描述基础数据源的元数据。同时还要使用模型语言表达用户的查询需求。

2)知识驱动的图形用户界面(Knowledge-driven Graphical User Interface)。图4中B是一个知识驱动的查询接口。在TAMBIS中一个用户查询概念是可以很好地和数据库查询的概念相匹配。TAMBIS GUI允许用户构建一个概念,以便能够从生物信息学的数据源中检索到所需要的信息。比如用户选择一个特定的概念,如“phenotype”。TAMBIS查询维护操作工具,可以帮助用户添加更多与这个概念有关的信息,用户可以根据这些信息进行修改先前作出的查询选择。然后,使用此查询来检索相关的生物信息。

3)源模式,查询转换模块和查询执行模块(The Source Mode,Query Transformation Module and Query Execution Module)。C用来连接生物本体与数据源。D是一个查询转换重写过程,E是包装器服务,处理外部数据源。

图4 TAMBIS系统的架构

4.3 MOMIS项目

MOMIS(Mediator Environment for Multiple Information Sources)项目是University of Modena and Reggio Emilia的一个研究项目[11]。MOMIS主要是来进行信息抽取,对结构化和半结构化数据源进行整合的一个框架。它使用ODL-13进行信息描述和整合。ODL-13是来自ODMG标准的一种面向对象的语言。它不仅可以进行基本的描述逻辑,并能够进行信息抽取描述。MOMIS的数据集成主要是半自动的方式进行,参照MOMIS定义的通用叙词表,ODL-13可以与聚类技术相结合进行源模式的描述,用户可以根据MOMIS提供的描述进行修改和选择。在整个整合过程中,MOMIS会产生一个虚拟的集成视图映射规则和完整性约束规则。MOMIS系统也是基于传统包装器/中间件架构。

MOMIS系统主要由三部分组成,通用数据模型、包装器和中间件。①通用数据模型(Common Data Model),主要是用ODL-13来描述不同的数据源,生成数据源描述视图,为包装器做准备。②包装器,一方面解释通用数据模型使用ODL-13描述的不同数据源元数据;另一方面需要将全局ODL的查询转换为各个不同数据源能够接受的查询格式,并将各数据源的查询结果返回给中间件。②中间件,中间件包括SI-Designer和QueryManager。SI-Designer负责处理包装器返回的元数据信息。SI-Designer参照外部本体库,如WordNet等,生成全局查询视图。QueryManager负责将SI-Designer生成的全局视图分解成适合各个包装器操作的子查询视图,并将不同包装器的返回结果整合返回给SI-Designer。

MOMIS的系统结构如图5所示。

图5 MOMIS的系统结构

这些科学数据集成系统各自具有不同的特点。比如,GEON将地理学的图片、3D模型等整合在一起为科学家进行研究提供方便。TAMBIS项目和MOMIS都采用包装器/中间件模式对不同科学数据源进行整合,借助部分本体库对用户查询意图进行解释,让科学家在进行资料查找时更加方便。

随着“大数据”时代的来临,上述这些整合系统不得不面对海量科学数据处理的问题。目前,还没有发现能够在“大数据”时代对海量科学数据进行有效整合的系统。

5 分析与展望

“大数据”不仅是一个概念,更是给当代科学研究带来了巨大的挑战,是科学研究范式的一场变革。面对这场变革,整合集成大科学数据,实现科学数据共享与互操作性,构造基于科学数据的、开放协同的科学研究新范式具有深远的意义。

通过对“大数据”有关的基本概念、起源以及相关研究发展脉络梳理,希望给读者一个“大数据”时代科学数据管理的基本认识轮廓。本文给出了在“大数据”环境下科学研究的典型场景,通过典型科研场景的描述,指出了“大数据”时代科学数据整合的挑战。然后详细论述了目前科学数据整合的主要理论与方法,并选取了3个具有代表性的科学数据整合系统平台进行了介绍。由于“大数据”研究刚刚起步,还有许多问题需要解决,希望在以后的研究中逐渐理清这些问题。

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

“大数据”时代科学数据整合研究_科学论文
下载Doc文档

猜你喜欢