绿色关系数据:概念、需求与工程_大数据论文

绿色关联数据:概念、要求与工程,本文主要内容关键词为:概念论文,数据论文,工程论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

1 引言

近年来,关联数据(linked data)理论得到了极大的关注,关联数据实践也取得了较大的成绩。很多政府数据和学术资源已被转换为关联数据,部分国家图书馆也在进行这方面的尝试。截至2012年6月22日,在数据中心网站http://thedatahub.org上登记的开放型关联数据集已达327个[1],其中很多数据集都包含了大量的可免费下载或链接的关联数据。

已有的研究表明[2-4],现有的关联数据存在一定的问题,如出现断链、包含语法错误、数据不可访问、使用未定义的类和属性、使用过时的类和属性、数据类型与值不符、owl:sameAs的模糊使用等。这些问题的存在无疑会污染数据网络(Web of data)环境,影响用户对关联数据的无障碍使用。因此,关联数据提供者在将自己的数据发布到Web上之前和之后,都应保证数据本身处于良好的状态,且不会给数据网络带来污染。笔者把这种类型的关联数据称为绿色关联数据。本文将在进一步揭示绿色关联数据概念含义的基础上,对绿色关联数据的要求进行描述,并通过对绿色关联数据工程关键步骤和保障机制的分析来说明如何将普通的关联数据转变为绿色关联数据。

2 相关研究

2.1 关于关联数据生产和发布时容易出现的质量问题

C.Bizer等详细讨论了生产并发布关联数据时所涉及的一系列问题,包括URI的选择、词汇表的重用与自建、RDF数据模型的建立、关联关系的设置等[5]。A.Hogan等学者详细分析了在Web上发布RDF数据时容易出现的问题,涉及数据访问、核心词汇表的使用、数据类型、协议、本体等诸多方面,并对这些问题的产生原因、出现频度及可能的解决方法进行了讨论[2]。

2.2 关于关联数据的质量标准

A.Flemming 对关联数据源的质量标准进行了讨论,归纳出11个标准,分别隶属于内容、呈现、使用、系统4个大类,每个标准又包含若干个具体的指标[6]。G.Mcdonald认为,关联数据集的数据质量可从精确度、可理解性、资源非重复性、完整性、有界性、结点类型、建模正确性、建模粒度、连通性、同构性、当前性、方向性、数据来源、数据历史、内部一致性、数据许可、可持续性、权威性18个方面加以衡量[7]。

2.3 关于关联数据的最佳实践准则及其遵守情况

A.Hogan等在关联数据4项原则的基础上提出了14项关联数据最佳实践准则,共分为命名、关联、资源描述、资源访问4类,这些准则有助于关联数据提供者更好地生产并发布关联数据[8]。C.Bizer等对LOD云(Linked Open Data Cloud)中的295个关联数据集(2011年9月19日访问)进行了实验统计分析,从dereferencable URI的使用、与其他数据源的链接、通用词汇表的使用、专用词汇是否可访问、专业词汇与通用词汇之间的映射、出处元数据、许可元数据、数据集元数据、附加存取方式等几个方面来说明上述数据集对最佳实践准则的遵守情况[9]。

2.4 关于绿色关联数据的原则

J.Hoxha等参照绿色工程的基本原则提出了绿色关联数据的9项原则,并对每项原则的维度和衡量标准进行界定和分析,最终目标是减少数据网络中不正确、不相关和过剩内容的数量,尽可能避免或减少污染的发生[10]。

综上所述,J.Hoxha等提出了绿色关联数据的概念,但并没有给出其定义。其他文献则对相近的概念进行了研究,有的讨论了关联数据质量[2,6-7],有的讨论了关联数据最佳实践[8-9]。现有的研究均没有明确界定绿色关联数据的含义,也没有系统地论述如何生产和维护绿色关联数据。

3 LOD中的关联数据集现状分析

位于数据中心http://thedatahub.org上的LOD云包含了327个关联数据集(2012年6月22日访问),每个数据集都支持一至多种资源格式。笔者通过人工方式试着对上述所有数据集的各种格式资源进行了访问,发现部分数据集所提供的资源为空或不能正常访问,具体情况如表1所示。

表1中的数据显示,270个数据集提供了资源示例(example/rdf+xml),其中有4个数据集返回结果为空,另有32个出现多种类型的访问错误。228个数据集提供了SPARQL端点(api/sparql),其中有5个返回结果为空,另有31个出现多种类型的访问错误。115个数据集提供了void格式的数据集元数据,111个数据集提供RDF堆下载。此外,在访问的过程中,出现次数最多的错误类型是500(内部服务器错误),其次是404(无法找到文件)和502(网关错误)。

通过对上述访问错误进一步的分析发现,除了服务器和网络异常导致数据不能正常访问的情况外,数据提供者所给的访问地址有误也是导致访问出错的一个原因,如数据集TCMGeneDIT所给出的api/sparql地址为“http://www.open-biomed.org.uk/sparql/endpoint/tcm.”,尾部多了一个句点,导致无法访问SPARQL端点。

为了进一步揭示LOD数据集中关联数据的质量,笔者下载了其中98个application/rdf+xml格式的RDF堆,针对8种可能出现的错误,利用软件进行自动检测,结果如表2所示:

表2中的数据显示,有16个数据集存在断链情况,次数达11 298次;另有31个数据集中的链接指向了错误的资源,次数达943次。此外,还有13个数据集存在数据类型与值不相符的情况,主要表现为数据类型是整型,值却是浮点数。

从上述统计结果来看,部分现有的关联数据集都存在一定的问题,绿化水平有待提高。

4 绿色关联数据的概念与要求

4.1 概念

绿色关联数据是指处于良好状态且不会给数据网络环境带来污染的关联数据,其含义体现在以下5个方面:①数据的内在质量是良好的,不包含不正确、不相关、不可靠的数据;②数据的描述结果是合理的、简洁的;③与其他数据源之间的关联关系是丰富的、有效的;④数据的生存状态是健康的、可持续的;⑤数据的访问渠道是通畅的、多样化的。

在以上5个方面中,良好的内在质量是绿色关联数据赖以存在的基础,访问渠道的通畅与多样化是绿色关联数据走向应用的关键;而数据描述、数据关联和数据生存的好与坏,一方面决定了关联数据的绿化水平,另一方面也会影响外界对绿色关联数据的访问效果。

4.2 要求

从以上的概念界定可以看出,内在质量良好是绿色关联数据的本质要求,此外,还包括数据描述、数据关联、数据生存和数据访问等方面的进一步要求。每个方面(类型)可进一步细分为多个子方面(子类型),而每个子类型可通过具体的要求来考察、度量,见表3。

在表3中,合理性子类型要求数据模型能准确地反映现实世界中数据之间的内在逻辑关系,且数据规模不应过大,只要能满足用户需求即可。资源重用子类型要求关联数据提供者尽量使用现有比较成熟的各种词汇表来描述数据,如果现有词汇表不能满足自己的需求,则可自定义词汇表,但在自定义时,应以简洁、实用并能被其他数据提供者重用为前提。外部关联子类型要求在避免断链和错链的前提下,尽可能多地提供与外部数据源之间各种类型的链接,并保证属性owl:sameAs的主体和客体指向的是同一个事物。数据集总体情况子类型和数据集元数据子类型要求数据提供者提供数据集的基本情况,以便关联数据消费者能根据这些信息来选择最能满足自己需求的数据集。可持续性子类型要求数据集可以长久地维持下去,并能通过基本数据更新和链接更新对数据集进行动态的维护。

5 绿色关联数据工程

绿色关联数据工程是指应用计算机科学和管理科学原理,用工程化方法生产、发布和维护绿色关联数据的过程,主要包括生产过程、发布过程和维护过程,覆盖了需求分析、设计、实现、测试、发布、维护以及组织管理等步骤。在工程实施的过程中,还需要建立、健全相应的保障机制,以进一步提高绿色关联数据的绿化水平。

5.1 关键步骤

5.1.1 数据需求分析 从目前的实践来看,数据提供者并不是针对某一特定用户,而是针对某一类或多类用户来生产、发布关联数据。为了尽可能多地照顾不同类型用户的各种需求,甚至是一些仅在理论上存在、实际上几乎不可能出现的需求,数据提供者可能会追求关联数据的“大而全”。仅从关联数据的角度来看,这种大而全无可厚非,只要符合关联数据的4原则即可。但从绿色关联数据的角度来看,这种大而全的数据会增加存储、消费、维护等方面的困难,在一定程度上降低了关联数据的绿化水平。

为此,数据提供者在进行用户需求分析时,应将数据需求分析作为一个关键环节来看待,具体包括两个方面的工作:①在本地数据模型的基础上,结合用户的实际需求,分析哪些字段是用户需要的,应予以保留;哪些字段是用户不需要或极少用到的,可予以舍弃;同时厘清不同字段之间的相互关系,以便在数据设计阶段据此构建数据模型。②结合用户的实际需求,对已有的数据进行分析,确定哪些记录是用户需要的,应予以保留;哪些记录是用户不需要或极少用到的,可予以舍弃。

该部分工作可以满足合理性子类型的具体要求,如图1所示:

图1 绿色关联数据工程关键步骤与绿色关联数据要求之间的关系

5.1.2 数据设计 绿色关联数据的数据设计主要包括三个方面的工作。

·数据模型设计。根据数据需求分析的结果,首先建立概念数据模型,将概念之间的联系以模型的形式表达出来。在此基础上建立逻辑数据模型,将概念数据模型转化为具体的数据结构,并对数据结构内数据间的语法联系、制约和依存关系以及数据动态变化的规则进行描述,以保证数据的正确、有效和相容。在数据模型设计的过程中,关联数据与外部数据源之间关联关系的设计是一个非常重要的环节,也是决定数据能否称得上关联数据以及其绿化程度高低的关键。一般来讲,关联数据与外部数据源之间的关联关系主要有以下几类:与人相关的关联、与空间相关的关联、与时间相关的关联、与其他普通资源之间的关联等,相应地,可以根据自身情况以及数据需求分析的结果,确定关联数据应包含哪些类型的关联信息,并从现有的词汇表中选择关联属性,如foaf:knows、foaf:based_near或event:place、event:time、rdfs:seeAlso或owl:sameAs等,也可自行设计关联属性。

·URI分配与词汇表选择。在为每个资源分配URI时,除了将其设计为可通过HTTP协议直接访问的HTTP型URI之外,还必须满足表3中URI子类型的具体要求,即:URI的长度应尽量短、应保持稳定、不包含变量。为此,资源的URI格式可设计为:http://主机名:端口号/resource/资源编号,其中资源编号的具体格式由数据提供者自行设定,可以是资源的数字编号,也可以是资源标题的英文全称或缩写。此外,还应根据服务器可接受的内容类型,在上述资源URI的基础上分配与HTTP 303 See Other相应的重定向URI,其格式可设计为http://主机名:端口号/资源呈现形式/资源编号,其中资源呈现形式的取值与内容类型相对应,例如,如果内容类型为text/html,可取page;如果类型为application/rdf+xml,可取data。

·数据访问设计。针对数据消费者,绿色关联数据提供者应做两个方面的工作:①提供能让消费者自行判断数据集是否适合自己的相关信息,主要包括:为数据集创建必要的元数据、提供数据的范围和链接总数等总体信息、提供人和机器能识别的许可证。②设计数据访问方式。提供HTTP URI访问、SPARQL查询、RDF堆下载、访问和查询示例等方式,同时还应支持内容协商机制和HTTP 303 See Other重定向机制。

该部分工作可以满足合理性、一致性、准确性等12个子类型的具体要求(见图1)。

5.1.3 数据测试 数据测试是检验已经生成的关联数据是否满足部分或全部绿色关联数据要求的重要步骤,涉及测试标准、测试技术、测试度量和测试过程等环节。与软件测试一样,数据测试不是数据完成后才开始的活动,应该围绕整个开发和维护过程。数据测试的关键是选择合适的测试工具,目前已有一些可以进行语法测试和关联测试的工具,能用来分析关联数据是否满足表3中的部分具体要求,但还没有出现专门的绿色关联数据测试工具。J.Hoxha等所提出的绿色关联数据框架虽然包含了绿色关联数据测试这一功能[10],但并没有完全实现,所建网站http://www.greenlinkeddata.org/上提供的测试功能目前只能就关联数据的标签完整性、标签可访问性等指标进行测试。有鉴于此,在进行数据测试时,针对表3中的各项具体要求,数据提供者可以采用如下策略:①能用现有工具完成的测试项目,则直接采用相应的工具完成测试;②能通过自建工具完成的测试项目,可以先开发相应的工具,然后完成测试;③对于部分较难通过工具完成的测试项目,如可理解性子类型、合法性子类型中的项目,可以由人工来完成。

经过多次的测试、修改数据、再测试、再修改数据,该部分工作可以满足完整性、一致性、准确性等18个子类型的具体要求,见图1。

5.1.4 数据维护 绿色关联数据发布之后,因为以下三个方面的原因,其绿化水平可能会降低:①自身的数据发生变化,且这种变化没有按绿色关联数据的具体要求进行处理;②自身的数据虽然没有发生变化,但外界条件的变化可能会导致原本正常的部分数据内容不符合绿色关联数据的具体要求;③外部数据源的变化可能会导致断链。为此,数据提供者需要动态地检测自身数据和外部数据源的变化,同时密切关注外界条件对自身数据可能产生的影响,以便及时维护关联数据,维持其绿化水平。

绿色关联数据的维护可通过4个途径来实现:①数据提供者对本地数据进行监测,当数据发生增、删、改等操作时,按表3所列的具体要求对发生变化的数据进行检测并处理,以确保新数据的绿化水平没有降低;②数据提供者对与自身有关联关系的外部数据源进行监测,根据外部数据源的特点,采用一定的方法来获取外部数据源的更新数据,并在此基础上进行链接维护,以防止断链的发生;③数据提供者采用人工或自动的方法,对与关联数据相关的外部环境进行监测,及时处理可能导致关联数据绿化水平降低的情况;④用户可以通过数据提供者提供的反馈系统,将绿色关联数据存在的问题提交给数据提供者,由后者对数据进行维护。具体见图2。

图2 绿色关联数据的维护

该部分工作可以满足所有子类型的具体要求,见图1。

5.1.5 数据工程管理 绿色关联数据的生产和维护是一项费时、费力的工作,需要通过一系列活动来对绿色关联数据工程实施管理,如计划、协调、度量、监控、控制和报告等。绿色关联数据工程管理主要涉及人员管理、过程管理、度量和控制管理等方面,最终目的是确保绿色关联数据的开发和维护是系统的、规范的、可度量的。

除了以上5个关键步骤之外,绿色关联数据工程还包括数据实现、数据发布等步骤,这些步骤也会在一定程度上影响绿色关联数据的绿化水平。

5.2 保障机制

5.2.1 数据更新通知机制 绿色关联数据与外部数据源之间的关联关系应该是有效的,体现在以下两个方面:①自身数据到外部数据源的链接是有效的;②外部数据源到自身数据的链接是有效的。前一种情况可以通过5.1节所讨论的数据维护方法来实现。后一种情况可以通过发布更新通知并由数据消费者根据更新数据实施链接维护的方法来实现,这种情况需要绿色关联数据提供者建立有效的数据更新通知机制,如图3所示:

图3 绿色关联数据的数据更新通知机制

在图3中,更新通知可分为两种情况:①绿色关联数据提供者可通过WOD-LMP协议(Web of Data Link Maintenance Protocol)的changeNotication()方法向遵守该协议的外部数据源(其身份是绿色关联数据消费者)发送更新通知,由后者通过getChanges()方法获取更新数据,并据此进行链接维护。②绿色关联数据提供者可在其网站的固定位置发布更新数据,由数据消费者自行获取这些数据并进行链接维护。该方法可按年、月、日、时、分、秒等时间粒度来产生数据更新日志,形成嵌套的更新集,并为每个更新集提供一个URI,以便绿色关联数据消费者使用。例如http://localhost:8080/lod/update/2008/Jan/01/17/58/06对应于2008年1月1日17:58:06时更新的所有数据,http://localhost:8080/lod/update/2008/Jan对应于2008年1月更新的所有数据。

5.2.2 数据评价机制 表3中,绿色关联数据的具体要求共有50项,但在实际应用中,这些具体要求可能较难同时满足。即便都能满足,也会存在满足程度高低的问题。因此,数据提供者所生产的绿色关联数据往往不是纯绿色的,需要建立适当的评价机制来对数据进行绿化水平评价,以便根据评价结果来完善数据、提高数据的绿化水平。绿色关联数据的评价可采用用户评价、自我评价、权威机构评价相结合的方法来进行,其中用户评价可在网上进行,由用户按数据提供者给出的绿色关联数据评价指标对数据进行评价,自我评价由数据提供者在后台进行,权威机构评价则可委托专门的数据评价机构进行评价,如图4所示:

图4 绿色关联数据的评价机制

6 结语

绿色关联数据是要求更为严格的关联数据,除了要遵循Berners-Lee提出的关联数据4原则外,在内在质量、数据描述、数据关联、数据访问和数据生存等方面还需要满足更多的具体要求。关联数据提供者可采用工程化方法来生产、发布和维护绿色关联数据,严格按照绿色关联数据的要求来规范数据需求分析、数据设计、数据测试、数据维护等关键步骤的具体实施,并建立数据更新通知机制和数据评价机制来进一步提高关联数据的绿化水平。本文对绿色关联数据的概念和要求以及绿色关联数据工程的关键步骤和保障机制进行了讨论,下一步工作将重点解决以下问题:①进一步细化、完善表3;②将表3中的具体要求量化为带权重的评价指标;③选择合适的关联数据集作为实例,定量评价其绿化水平。

标签:;  

绿色关系数据:概念、需求与工程_大数据论文
下载Doc文档

猜你喜欢