相关数据质量评价研究综述_大数据论文

关联数据质量评估研究综述,本文主要内容关键词为:质量论文,数据论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

       中图分类号 G250.7 文献标识码 A 文章编号 1002-1965(2016)04-0171-06

       1 关联数据的发展

       1.1 关联数据发展背景 关联数据(Linked Data)2006年由Tim Berners-Lee提出。从技术上看,关联数据采用RDF数据模型,利用URI(Uniform Resources Identifier,统一资源标识符)命名数据实体,通过HTTP协议获取这些数据。关联数据强调数据的机器理解,最突出的特征是信息间的关联与整合。

       近年来,关联数据数量迅猛增长。以W3C的LOD云图项目为例,该项目自2007年启动以来,关联数据云图(Linked Open Data Cloud)中的数据集数量已经由最初的12个,发展到2014年的1014个[1],内容覆盖了政府开放数据、出版、生命科学、媒体、空间地理等8大主题领域。与此同时,世界范围内的各机构纷纷将多年的数据建设成果以关联数据的方式发布到网络上,推动文档型网络(web of document)向数据型网络(web of data)转变。各种基于关联数据的应用也陆续出现:关联数据管理平台、语义搜索引擎、关联数据网站、关联数据浏览器等[2-5]。然而,随着数据量的快速增长以及基于关联数据应用的增多,关联数据质量问题日益成为学者和设计者重点关注的问题之一。

       影响关联数据质量的因素多种多样。有的由于数据源质量参差不齐,例如采用众包(Crowdsourcing)方式建设的资源;有的数据从半结构化或非结构化数据中抽取,例如DBpedia;有的则没有及时监测对外关联URI的有效性,有的在发布之前没有进行语法、语义的有效性、有效性验证(Validation)等。国外已经有不少学者针对关联数据状况、质量问题进行研究和分析。

       关联数据云图(Linked Data Cloud)记录了关联数据的发展轨迹,是关联数据领域的一项标志性建设成果。2011年和2014年,C.Bizer团队两次对云图中的开放数据集(2011年:295个,2014年:1014个)进行了统计和分析。其中用到的指标包括:是否提供可解析的URI、对外链接的数量、通用/专用词汇表的应用、数据许可协议、数据是否提供溯源(Provenance)信息、是否提供数据集层面的元数据以及多种访问途径(SPARQL Endpoint)等[6-7]。

       DBpedia作为关联数据云图中的中心节点,其数据同样存在各种问题。为了改善这一状况,他们采用了人工和自动两种方式对其20个资源进行了质量评估。评估发现了多种数据质量问题[28](表1)。如表1所示,在17个子类别中,只有5项是DBpedia所特有的问题,而其他的错误现象是可能出现在所有的资源中。

      

       A.Hogan等学者通过机器人(MultiCrawler)对开放政府网站、DERI网站的数据进行采集,并对采集回来的近150万个RDF陈述进行了语法语义、统计分析,发现分析了在Web上发布RDF数据时容易出现的问题,涉及数据访问、核心词汇表的使用、数据类型、协议、本体等诸多方面[34]。

       2012年,国内郭少友团队对关联数据云图部分数据集进行了人工和自动的测试,对其中存在的一些问题进行了汇总和统计,在此基础上,论述了“绿色关联数据”的思想[14]。

       1.2 数据质量问题 数据质量(Data Quality)指的是对于特定任务(Task),数据能够满足任务需求的程度,即“fitness for use”[8]。因此,数据质量对于不同的用户、不同的任务是一个变化的情况。

       数据质量问题(Data Quality Problem)指“给使用这些数据的应用带来潜在影响的一系列数据表现”(issue)[9]。

       数据质量维度及指标(Data Quality Dimension and Metric)。虽然数据质量是一个变化的内容,但用于评估数据质量的指标却是客观的、中性的。质量维度反应数据所具有的内在特征,是数据的各种“面”,而指标是维度的具体化,是“面”上的“点”。例如Zaveri.A等人指出可用性(Availability)维度下的具体指标包括SPARQL Endpoint服务的可用性、RDF Dump服务的可用性、URI的可解析能力等5项[9-10]。

       相对于传统数据而言,关联数据在其组织方式和功能上有其特殊性,而这种特殊性也会体现在评估它所应用到的理论与工具中。

       首先,数据的关联是通过URI来实现。因此,在关联数据评估标准中,对URI的评估是必不可少的。例如URI的构成元素、URI的持久性以及URI的有效性。

       其次,关联数据的内容通过RDF数据模型来组织描述。虽然是否必须利用RDF来描述尚有争议,但是目前绝大多数发布出来的关联数据集都是以RDF这种资源描述体系来组织的。因此,基于RDF的语法、语义的检查是基于关联数据质量评估的一个重要环节。

       另外,关联数据的整合除了通过URI这种外在形式来表达外,还通过owl:sameAs、skos:broade、skos:closeMatch这样一些属性来表示信息源与目标的匹配程度。这些元素的出现体现出了数据间的语义关系,升级了HTML中锚(A)的单纯指向作用。所以,在评估体系统会对这些内容进行分析和统计。通常,人们认为基于语义的关联越多,该数据集能够给用户带来的信息越精确和丰富。

       最后,在关联数据的组织和描述过程中,需要用到大量的描述词汇(Vocabulary)。不同领域的词汇用于描述不同类型的信息内容。信息的深度整合依赖标准化的表达形式,也就是描述相同类型的信息尽量使用相同的描述词汇。我们可以看见,两次对关联数据云图中数据集的统计和分析,有一条重要的指标就是是否使用了“专用”的描述词汇以及“专用”的描述词汇是否与通用的领域词汇进行映射。

       因此,关联数据质量评估(Linked Data Quality Assessment)就是建立基于关联数据特性的质量标准,面向特定的用户需求,利用相关工具,对关联数据集的特定维度进行检验的过程。关联数据质量评估的应用意义首先在于帮助数据发布者提高数据质量,避免“先发布,后治理”的问题。其次,帮助应用建设者比较快速、准确地了解特定数据集在某些特性上是否满足需要。接下来本文将从关联数据质量评估标准、评估方法以及评估工具三个方面介绍该领域的进展情况。

       2 关联数据质量管理研究

       2.1 评估标准 最初始的关联数据评估标准就是Tim Berners-Lee提出的“关联数据四原则”[11]和“关联数据五星标准”[12]。四原则和五星标准都侧重于从技术角度衡量所发布数据格式的规范性及其关联特征。

       2011年,J.Hoxha等人从绿色工程的视角提出了“绿色关联数据”[13-15]的原则标准。绿色关联数据理念旨在通过工程化方法生产、发布和维护绿色关联数据,减少数据“污染”。它将关联数据的属性分为9条原则和21个维度,评估内容和方式更全面、细化。随后,A.Flemming对关联数据源的质量标准进行了讨论,归纳出11条标准,分别隶属于内容、呈现、使用和系统4个维度,同时引入了可用性、版权许可、多功能性、统一性、可理解性、有效性、数据数量等指标进行关联数据质量评价[16]。G.Mcdonald认为,关联数据集的数据质量可从精确度、可理解性、资源非重复性、完整性、有界性、结点类型、建模正确性、建模粒度、连通性、同构性、及时性、方向性、数据来源、数据历史、内部一致性、数据许可、可持续性、权威性18个方面加以衡量[14]。而A.Hogan等人在关联数据4项原则的基础上提出了14项关联数据最佳实践准则[34]。

       2014年,德国莱比锡大学信息研究所的Zaveri团队,在全面分析、研究了前人进行数据质量评估的方法、工具之后,形成了一套比较完善的关联数据评估标准体系。他们的工作包括:a.对已有的质量评估体系所用到的核心术语进行了汇总,对交叉、重复以及一些模糊的概念进行了规范和统一。b.通过对30种不同的评估体系以及评估方法进行研究和对比,对结构化数据,特别是基于关联数据的质量评估维度进行了整理和融合,统计了最经常被使用到的质量评估维度;提出了一套拥有4个范畴,18个维度、69个评估指标的关联数据质量评估体系,不仅包括了对数据内容质量的评估,还包括针对数据服务质量的评估(表2)。c.增加部分评估指标,如URI简洁性、链接数量等;基于评估维度,对评估指标进行了上位归类,并确定了指标的属性(定量或定性)和算法。d.从自动化程度等8个方面对比、分析了12款用于评估的工具。

      

       由此可见,不同的学者根据自己对关联数据生命周期的理解,提出了若干评价关联数据质量的标准和指标,并不断进行实践推动关联数据质量的改善和提高。通过对这些指标体系的分析,我们能发现,由于关联数据质量评估是数据质量评估的一个“分支”,因此,他们所采用的维度和具体指标有相当部分是相同或者“一意多表”。以“数据质量问题”(Data Quality Problem)为例,A.Flemming称之为“数据多样性”。而A Hogan等人则认为是“数据错误”、“数据噪音”或“数据障碍”。在数据及服务的“可用性”和“可靠性”上,Julia Hoxha等人使用了“Accessibility”和“Reliability”,而Zaveri则使用了“Availability”和“Trustworthiness”。

       从关联数据质量评估标准的发展来看,呈现出从宏观描述向逐步细化发展的特征;评估对象也从数据本身的质量向关联数据所具有的多种特性发展。例如专门针对数据集中链接集(linkset)的质量评估[19-20]。另外,通过对上述这些评估体系的分析,我们还能看到,针对关联数据特性的评价指标在不断增多:关联数据集的SPARQL端点服务、RDF Dump服务、数据集的Cool URL特性、sameAs关联的有效性以及和RDF数据模型密切相关的一系列指标。而Zaveri团队推出的评估体系更是以“结构化数据”特别是“关联数据”作为其核心评价对象。

       2.2 关联数据评估方法 根据调研发现,针对不同的数据质量问题,现有的关联数据质量评估方法主要有统计方法、用户反馈以及规则约束三种,而在实际评估过程中,更多地情况则是多种方法的综合性应用。

       统计方法主要是通过对数据集中的类、属性、属性值、数据类型、链接数量、词表、实例等元素进行统计,使用户对数据集有一个宏观的认识。Langegger A.等人通过向SPARQL Endpoint接口提交统计查询语句对待评估数据集进行信息统计,并且其统计结果是以图(graph)的形式进行存储以便查询处理[21]。LODStats[22]是一款更为精细的RDF统计工具。它将统计粒度细化到了实例层数据。它主要通过一种基于陈述流(statement stream)的方式对数据集的32项信息进行统计,统计得出的信息可以应用到质量分析、覆盖分析(coverage analysis)、隐私信息分析、关联目标识别等多个方面。ProLOD[23]就是一款面向复杂数据集,通过交互、迭代分组的方法进行数据集概况分析的工具。分组是统计分析前的一个预处理过程,把主题相关的数据划分到一起进行详细统计更有利于得到有意义的分析结果。

       用户反馈的信息是评估数据质量时不可忽略的信息,如何方便用户有效地共享、查看这些信息成为了一个新的问题。Gil Y.等人认为由于用户在使用数据集后,对数据本身有着自己的一个主观、非正式的评价,基于这种情况,他们提出一种通过标记语言来共享和查看用户的评价信息,以便用户做出是否使用数据集的决定。这是一种定性评估方法[24]。为了精确地计算出数据集的质量,Olaf Hartig则依据数据集元信息和信息消费者反馈意见两方面的信息构建一个信任度模型,并通过所构建的信任度模型会对实例层面的RDF陈述产生一个信任度值,最终再通过信任度聚合函数对每个RDF陈述集(文档)产生一个综合的信任度值[25]。

       规则约束也是当前关联数据质量评估中使用较为广泛的一种方法,约束规则或来源于人工总结或来源于机器学习,所约束的对象不仅包括对词表数据、数据值的约束,也包括对语法、句法的约束。K C.Feeney等人就是通过在框架层设置一些约束规则来满足数据集某些质量要求,整个研究的关注重点在于如何收割、评估、管理维护、发布高质量的关联数据集[27]。而Zaveri A.等人所用的约束规则主要是通过机器学习的方法产生,并通过设置较高的阈值来保证所产生规则的可靠性[28]。与前两种方法不同,WIQA[29]提供了一种WIQA-PL语言用来描述约束规则,用户可以根据自身特定的任务需求制定不同的约束,并最终可以对做出的选择做出详细的语义解释:阐明过滤的条件、原因以及结果。同样也考虑到了用户需求的多样性,Luzzu[30]则提出了一种用户需求驱动型的评估方法,它通过LQML(Luzzu Quality Metric Language)来描述评估指标,并在知识层的语义框架部分构建通用本体与专用本体来达到对数据质量的约束。而Mendes P N等人对数据质量的约束主要是通过构建过滤函数来实现的[31]。

       以上研究,从多个角度出发提出了各自的数据质量评估或质量提升的方法,而关联数据质量评估方法的实现就形成了相应的质量评估工具。

       2.3 关联数据质量评估工具 关联数据质量评估标准的实践需要通过特定的评估工具来体现。从Zaveri团队所作的调研来看,2002年到2014年这段时间,有12款关联数据质量评估工具被各类文献所提及。这12款工具各自覆盖了不同的评估维度。有的评估面宽一些,例如Luzzu包括了可用性、安全性、语法准确性、一致性等维度,是一款综合性的评估工具[9]。而Link-QA则专注特定维度,主要面向关联链接进行评估。

       关联数据集的评估流程通常包括以下步骤:a.了解并分析用户需求;b.抽象用户需求,与系统所支持的评估体系中的维度、指标进行映射,选取用于评估的指标集;c.根据映射结果,由评估工具实施评估过程,并对评估报告进行解读;d.通过解读评估结果报告,定位数据集存在的质量问题,并提出解决建议。在实际评估过程中,每个环节要复杂得多。根据评估过程用户参与的程度,我们可以把关联数据质量评估工具可以分为自动、半自动和人工三类模式。

       LODStats是一款基于自动模式设计的关联数据集评估工具。它面向RDF陈述流(Statement-Stream)进行统计分析。实际评估过程中,LODStats的数据获取——数据统计——完成报告形成一条自动流水线。首先,LODStats通过RDF Dump或者SPARQL端点来摄入原始数据,对其进行5类32项内容的自动统计,包括URI有效性统计、类(Class)统计、属性(Property)统计、RDF词汇统计、数据类型统计以及语言统计等,最后生成Data Cube统计报告。图1是LODStats官网提供的RDF数据集的统计结果。

      

       图1 LODStats统计结果示意图[22]

       自动统计分析工具能够解脱用户的负担,降低系统对用户特定领域知识以及语义网络知识的要求,可以将数据的部分事实以数字或比例的方式予以呈现。但是这种模式的工具更多的是起到数据信息的统计作用,并且运行过程比较固定,无法通过与用户互动来调整和优化评估过程和结果。

       根据Zaveri团队的调研,当前大多数的评估工具都属于半自动化模式。半自动化评估过程需要用户不同程度地参与。有时需要用户将自己的需求转化为系统参数信息,而有时需要用户根据之前的评估结果调整阈值来强化或宽松化评估策略,或者需要用户针对特定的数据集给出评分和应用反馈。RDFUnit是一款基于测试驱动(Test-Driven)的数据质量测评工具。它借助用户通过系统SPARQL模板(Template)输入的信息来生成具体的测试用例(Test Case)。Luzzu则通过数据质量本体(Dataset Quality Ontology)来让用户定义结构化、规范化的评估指标(Metric)[33]。

       相对完全自动化模式,半自动化模式增加了一些“柔性”的因素。这些柔性因素弥补了前者所不具备的功能,让评估过程更加完整、合理和贴近用户的需要。

       在上述两种评估工具之外,还有一种基于人工的关联数据质量评估工具。数据质量的检测与评估是一个非常精细和繁琐的过程,人工的深度参与在很多时候是不可或缺的。人工模式的测评,就是借助评估者的领域知识和RDF知识,对数据的内容进行观察和判别。在评估过程中,评估工具并不进行数据数量的统计和质量的评估,只是提供辅助功效。以DBpedia通过“众包”(Crowdsourcing)方式对其20种资源进行质量检测的过程为例。整个过程分为两步,第一步先由两位研究人员对资源进行“概览”,形成一个数据质量问题分类表(problem taxonomy);第二步是任务细化。志愿者们通过人工识别这20个资源中存在的问题,并根据问题分类表进行归类。在这个过程中,TripleCheckMate的作用仅仅是把用户要进行评估的资源的“事实”(fact)抽取出来,并显示给用户。用户通过点击、拖拽的方式完成数据错误的识别和分类。

       用户界面和易用性是最终用户接触软件工具的第一道关口。但是从上述评估工具来看,这两方面的得分都不太尽如人意。除个别工具(RDFStats)界面较为友好之外,大部分工具基本还处于原型系统阶段,界面不太友好,用户操作不方便;用户对象范围比较小,有的工具(TRELLIS)还只是提供了DEMO的服务。

       表3是几款比较典型的关联数据评估工具的基本情况。除了上面所介绍的评估模式、易用性之外,还包括了这些工具覆盖的质量评估维度、采用的应用许可协议。

      

       3 结语

       随着关联数据内容和应用更加快速地发展,对关联数据质量评估体系的要求也更加迫切。笔者认为当前关联质量评估体系在发展上呈现出这样一些特征:(1)以质量评估标准为代表的理论体系发展较好。研究者们从不同的角度提出了多种多类的评估体系和评估指标,并且评估指标越来越能够突出“关联数据”这一互联网新型内容模式的特性。另外,体系和指标在各自发展的过程中已经出现了总结性的评估体系,对前人的成果进行归纳、规范和融合。评估体系的发展,让我们“有据可依”。(2)关联数据质量评估工具的发展不“尽如人意”。评估工具的可用性、易用性和功能性都还有较大的发展和提升空间。笔者认为理论与应用稍显“脱节”的原因:a.可能是由于人们在选择目标关联数据集的时候会更多的选择权威机构发布的数据集。而对众多非权威机构发布的数据集关注较少。前者整体来说数据质量较好,并且有较为完善的质量审核制度和投入。这就造成了两个后果。首先指向各领域数据节点的关联增多;其次关联数据质量评估的实际作用无形中变小。b.造成“脱节”的另外一个可能的原因是先有的评估工具会根据实际需要覆盖不同的评估指标,因此,在实际应用中可能会出现无法较好匹配用户需求。c.评估过程需要较多人工行为参与,这一点不太符合互联网精神。d.用户在使用关联数据的过程中即使发现问题,也缺少“问题提交”的途径和反馈体系。(3)在国内,郑州大学郭少友团队近年来持续对关联数据链接(RDF Link)、“绿色关联数据”等理念进行研究和介绍,并对关联数据云图中的数据集进行质量测评,开发出了相关的统计和数据质量分析工具。但这些工具也还没有在公开场合看到。(4)从国内来看,关联数据的主要工作集中在本机构数据的“关联数据化”上,还没有太多的开放关联数据集得以发表。因此,数据分析、质量评估等实际工作还需要等待更好的时机。另外,中文信息在对外关联上有较大的局限性,这也在一定程度上影响了关联数据质量评估的发展和应用。

       笔者认为在关联数据集评估工具的开发上,应该更多地采用“开源众筹插件”的开发模式。因为很难有一款工具能够囊括众多的评估指标。而“插件”的方式能够把一个个评估指标得以实现,并通过开源的途径进行整合。而在实际的评估过程中也可以根据用户的不同需求来选择让不同的插件进行工作。

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  

相关数据质量评价研究综述_大数据论文
下载Doc文档

猜你喜欢