基于关联数据的政府信息聚合研究,本文主要内容关键词为:政府论文,数据论文,信息论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
自“万维网之父”T.Berners-Lee于2006年提出关联数据(Linked Data)的概念以来,由于其开放、易用和可扩展的特征,关联数据的研究与应用得到了迅速的发展。2010年5月,美国政府数据网站data.gov将其约400个数据集转换为关联数据,英国政府也宣布将采用W3C标准,特别是关联数据的标准和方法将政府数据发布到网络上,澳大利亚、新西兰、荷兰等国家也纷纷跟进。政府信息资源的加入显著扩大了关联数据网络的规模,使其能发挥越来越大的影响力。目前,仅链接开放数据项目(Linking Open Data,LOD)[1]就已经成功地将超过250亿条传统网页上的数据(包括政府数据集、维基百科、地理数据集等)自动半自动地转换成了关联数据,构建了庞大的数据网络。 政府关联数据为公众提供了一种简便、直观、可拓展的利用政府信息资源的途径,增加了政府的透明度,也增强了公众对政府的信任,是政府信息公开的一种有效手段。随着世界各国政府机构大量的数据集被发布或转换为关联数据,如何更有效地利用这些数据成为当前研究的焦点。本研究拟建立基于关联数据的政府信息聚合模型,并通过实例验证其可行性,试图为政府部门、第三方机构或公众提供多角度、全方位、可视化的访问并应用政府数据的途径。 1 政府关联数据概述 1.1 关联数据 关联数据采用资源描述框架(Resource Description Framework,RDF)数据模型,利用统一资源标识符(Uniform Resource Identifier,URI)命名数据实体,并在网络上发布,从而可以通过HTTP协议揭示并获取这些数据,同时强调数据的相互联系以及有助于人和计算机理解数据的语境信息[2]。 关联数据可以在不同来源的数据之间创建链接。这些数据源可能是两个处于不同地理位置的机构所维护的数据库,也可能是一个机构内的无法在数据层面上进行互操作的不同系统。关联数据可链接至其他外部数据集,同样也可被来自外部数据集的数据所链接,从而形成关联数据网络。 关联数据网络和当前的超文本网络有所不同,超文本网络是通过超链接将HTML文件链接起来,但关联数据并非是简单地链接这些文件,而是使用RDF形成链接世界上任何事物的网络,也即数据网络,数据网络可被定义为由网上数据描述世界上所有实体的网络。关联数据网络的出现不但对当前的超文本网络进行了扩展,同时也对当前网络上纷繁混乱的信息资源进行甄别、选择和定位。 1.2 政府关联数据 早在万维网诞生之前,政府就已经通过FTP将信息发布到互联网上。2009年,美国政府建立了data.gov网站,世界各国政府纷纷跟进,实施开放政府数据项目,包括英国、澳大利亚、新西兰、荷兰、瑞典、西班牙、奥地利、丹麦等。开放政府数据工作是政府信息公开的一部分,可以增强公众对于政府事务的知情权,支持经济发展,改善公共服务,使得政府和整个社会运行更有效率。但是,随着开放政府数据工作的推进,作为数据发布者的政府机构和作为数据消费者的公众之间的分歧也日益显著,许多公众希望能够下载政府数据,或者是通过自行编写的程序访问政府数据,以实现对政府数据的进一步开发与利用。而传统的政府数据发布一般都采用Excel表格、CSV或XML格式文件等方式,数据在进行传递时可能会被更改或丢失上下文信息。政府机构则担心他们的数据集被下载,转换成机器可读的格式,然后被以不正确的方式使用或是用在错误的用途上。关联数据技术能减少这种担心,因为每个实体或数据点都关联到一个URI,接收到请求时,数据发布者决定返回什么样的信息,并且能提供他们认为必要的任何附加的上下文信息或是来源信息。数据能够被拷贝、调整和重用,但数据发布者始终能控制每个URI被解析的时候所返回的信息。关联数据技术在易用和可重用的同时,也给数据发布者留下了数据的终极控制权。 美国在政府信息公开和政府关联数据的发布方面走在世界前列。2009年1月21日,美国总统奥巴马在他走进白宫任职的第一个完整工作日便签署了《透明和开放的政府》(Transparency and Open Government)法案,承诺建立一个透明的、公众参与和合作的系统[3]。随后,美国政府制定了《开放政府指令》(Open Government Directive),提出了美国政府机构在网络上发布政府数据的指导方针[4],随后越来越多的数据集被发布到专门的政府数据发布网站data.gov上,到目前为止,该网站已有超过1000个的官方数据集,涵盖了政府业务各个方面的主题。为更好地利用data.gov网站上的政府数据集,美国伦斯勒理工学院(Rensselaer Polytechnic Institute,RPI)开发的Data-gov Wiki将data.gov中的数据集转换为RDF格式,以关联数据的形式重新呈现,从而去除了利用政府开放数据的技术障碍[5]。 英国政府也正在尝试创建一个政府关联数据网络,并将其作为更广阔的全球关联数据云的一部分,T.BernersLee和N.Shadbolt教授被任命为这项工作的特别顾问。目前,英国政府发布的关联数据主要包括统计数据和地理空间数据[6]。 2 基于关联数据的政府信息聚合 关联数据技术提供的是一种灵活易实现的聚合法,用户只需关心信息本身而不用担心各个数据源的应用程序接口(Application Programming Interface,API)是如何使用的。对于政府来说,利用关联数据技术将外部信息和内部数据通过信息聚合来整合到一起,使用户能够多角度、全方位、可视化地访问了解信息,从而扩展更新资源,有利于政府科学决策。基于关联数据技术的政府信息聚合模型如图1所示。 从图1可以看出,该模型主要包括三层,自底向上依次为数据层、聚合层和应用层。 图1 基于关联数据技术的政府信息聚合模型 数据层分为外部数据源以及本地数据源。本地数据源即可于政府数据网站(如data.gov)上公开获取的以关联数据形式发布的信息,包括财政、人口、就业、犯罪率、公共资源利用等各类信息;外部数据集则是指关联数据网络中除政府数据以外的其他各种数据集,如地理数据集、科学数据集等,这些数据集原先以数据库、电子表格、Web网站等多种形式存在,因此必须转换成关联数据。 聚合层一般来说包括数据访问、本体映射、实体识别和集成数据等功能。第一,应用系统可通过统一的规范访问关联数据网络,主要有三种方法:对数据集提供的HTTP URI进行解析;利用SPARQL语言进行远程查询;对下载到本地的RDF包进行解析。第二,由于目前大部分的数据集仍在使用自定义的本体(或词汇表),应用系统还需对这些本体进行映射,以发现不同数据集的概念之间的相关性。第三,虽然本体映射在不同数据集的概念之间建立了关联,但具体的实体,如人名、地名等,仍经常存在不同的写法[7]。例如:美国的纽约州在财政支持计划数据集中是以“NY”这样的简称标明的,而在另外一个人口流动数据集里则是“New York”这样的全称。因此,应用系统需要在不同的数据集之间进行实体识别,以提升聚合的准确性。第四,来自于不同数据集之间的数据被集成到一起,以便进行下一步应用。 在大量数据集被获取并建立语义关联后,政府部门或其他开发者便可在其基础上对原有的应用进行拓展,或是开发新的应用。目前,许多政府部门试图利用关联后的数据增强其检索系统的可用性及精度,并为用户提供在不同数据集之间进行无缝链接的能力。因为政府关联数据的开放性,其他组织或个人也可在其基础上开发各种各样的应用,以更大程度地发挥政府信息资源的价值。此外,利用这些关联数据应用程序政府可以更加科学地进行决策和政策制定。 3 应用实例 3.1 数据集选取 因我国目前尚未发布政府关联数据,本研究将利用美国政府关联数据集进行实验。如前文所述,美国伦斯勒理工学院已将美国政府数据网站中的数据集转换为RDF格式,以关联数据的形式重新呈现,为本实验提供了良好的素材。本研究选择的数据集具体如下:①美国各州财政支持计划数据集。该数据集主要包括以下内容:2005-2008年美国各个州的财政支持计划名称、每个计划的参与人数、每个州每年对于该计划的投入资金数额等。由于该数据集过于庞大,且具有部分冗余信息,故本研究只选择了其中的2007-2008年的各州计划的名称及投入金额进行实验。②美国2007-2008年州际人口流动数据。该部分数据主要分为两个数据集:2007-2008年州际人口流入数据以及2007-2008年州际人口流出数据。这两个数据集主要包括以下内容:各州名称、当年美国总流动人口数、各州流入人口(即返回原州人口)、各州流出人口(即返回原州人口)等,本项研究将选择这些数据进行实验。 3.2 实验流程 本实验的流程如图2所示。 图2 实验流程 1)在美国政府关联数据网站(http://logd.tw.rpi.edu)上将ttl格式的关联数据集下载到本地并解压,需要注意的是,由于所下载的关联数据集后缀名均为.gz,需要在Linux系统下进行解压及解析方可成功读取ttl文件属性。 2)利用百度API获取美国各州的边界坐标,并应用Java设计出美国州际地图,然后利用边界坐标确定每个州的点击范围,从而实现可视化界面。 3)利用Java中专门用于支持语义网应用的工具Jena编写SparQL语句对关联数据集进行查询,并将查询结果导入至上述可视化界面中。 最终生成的系统界面如图3所示:左半部分为美国行政地图,右上为美国财政支持计划在2007-2008年对该州的投入情况,右下为2007-2008年美国州际流入流出人口数。点击不同的州,右边显示的数据也随之产生变化。 图3 可视化界面 观察各个州的数据,可以得出初步结论,财政支持力度大的省份,其人员流动(流进流出人口)数额较小,也就较为稳定。说明财政支持计划对于公民对地区政府的信赖程度有所影响,支持计划越多,人们越为信赖该政府,同时也就不太愿意迁移到其他州下。同时,财政支持计划多的州在一定程度上也限制了人口的流入,以保护州内原有公民对于财政支持计划的享受权利。 当然,人口流动的大小幅度也绝不仅仅限于政府财政支持计划投入的多少,它也受地域、地区经济发展、宗教、民族、文化等各个方面因素的影响。这些因素由于客观原因所限,不在本文中进行讨论。 4 讨论 4.1 研究结论 关联数据为政府信息资源语义组织提供了一种简化的资源描述框架,使之能够有效地解决其表现形式复杂多变而且难以描述的问题,降低了语义组织的难度。由于政府信息资源的来源十分广泛(中央政府、地方政府、国家各个相关机构和部门等)、表现形式多样(各种格式的数据信息:csv、rdf、ttl、xml等)、构成复杂(文字信息、图像信息、视频信息等)、语义异构(多采用自定义的本体或词汇表),因此对其进行直接的信息聚合是非常困难的,而关联数据技术可以较好地解决这个难题。 本研究表明,基于关联数据的信息聚合技术可以对来自于多个政府数据集甚至是外部数据源中的相关信息进行集成,政府部门可在其基础上开发各种应用,为公众提供多角度、全方位、可视化的访问和了解政府数据的途径,同时也可将其用于政府辅助决策,为政府协同办公、政策制定、绩效评估等提供强有力支持。除政府部门外,其他开发人员也可利用政府开放的关联数据集开发各种应用系统,以进一步提高政府信息资源的利用效率,消除数字鸿沟。 4.2 存在的问题 1)在线查询尚未实现。由于网络连接及SparQL在线查询端点的不稳定,故本研究选择将关联数据下载到本地,在其基础上进行解析和查询,并构建可视化应用。因此,本研究只是验证了基于关联数据技术的政府信息聚合的可操作性及实用性,而无法做到在线实时查询。但是,本研究中所分析的数据集的时间周期较长,波动较小,故在线与否对其实际分析效果影响不大。基于在线实时数据的信息聚合技术将是下一步的研究方向。 2)数据的短缺。由于政府关联数据的研究与应用尚处于起步阶段,可供利用的数据集较少。本研究应用实例的所有数据集均来源于伦斯勒理工学院转换的美国政府数据网站,因此在数据的获取上受到一定限制。例如:笔者只能够在该网站上查询到2007-2008年的州际人口流动情况,其他年份的数据集暂时空缺,或是有一部分州没有数据,故在进行数据可视化时只能利用2007-2008年的财政支持及人口流动数据进行信息聚合,这也限制了本应用的实际价值。尤其是本应用涉及的关联数据变化周期较长,更加需要大量数据的支持才能够得出较为可靠的结论。但无论如何,该实例验证了本研究的可行性。 4.3 对我国政府开放数据及关联数据的启示 1)注重数据完整性与格式一致性。纵观关联数据在英美政府中的应用,数据的完整性及信息组织的一致性得到了普遍重视。例如英国政府为了保持W3C与WAI的一致,在数据组织方面使用了RDF格式;美国政府则是将政府数据从URI转换成RDF格式,并以法案形式责成政府各部门开放相关政务数据,以形成完整的政府数据体系。 2)加强门户网站平台的建设。政府门户网站具有普及率高和内容丰富的优势,因此在政府信息公开的领域应用很广。各国政府进行开放数据及关联数据的应用大多都是基于这个平台,各个政府部门都可以通过这个平台将需要公开的信息进行发布。美国政府网站的平台建设就是业内典范,普通公众和开发人员均可以通过这个平台获取所需,开放程度很高,实用性也较好[8]。 3)使用新技术促进数据的再利用。政府信息公开要利用关联数据技术,其目的就是促进数据的再利用和更大程度的获取,从而使得数据访问更加方便,甚至达到跨数据源的无缝获取,以此来缩小信息不对称。利用关联数据技术可以使已有数据再一次以新的展现形式及利用方式被人们重新利用,既提高了数据的利用率,增加了工作效率,同时也使得数据更具有说服力。 5 结束语 关联数据作为语义网的一种实现方式,通过发布和链接网络上的结构化数据使得来自不同领域的数据相互关联,从而促进了万维网的发展。政府机构拥有海量的信息资源,但这些资源处在异构、分布式的环境中,关联数据技术是政府机构以一种渐进式、可持续的途径发布数据的最好选择,势必得到各国政府部门越来越广泛的应用。基于关联数据的信息聚合技术可以对来自于不同的政府数据集甚至是政府之外的数据源中的相关信息进行集成,在其基础上开发的各种应用可以为公众提供多角度、全方位、可视化的访问和了解政府数据的途径,也可为政府协同办公、政策制定、绩效评估等工作提供强有力的支持。 收稿日期:2014-12-16基于关联数据的政府信息聚合研究_大数据论文
基于关联数据的政府信息聚合研究_大数据论文
下载Doc文档