英国和美国政府数据门户的科学数据组织与查询研究_元数据论文

英国和美国政府数据门户的科学数据组织与查询研究_元数据论文

英美政府数据门户网站科学数据组织与查询研究,本文主要内容关键词为:数据论文,门户网站论文,英美论文,组织论文,科学论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

       0 引言

       2009年美国政府开通Data.gov网站,提供“一站式”数据服务,随后英国、法国、澳大利亚等国政府也纷纷建立政府数据门户网站。采取合适的方式对政府数据门户网站科学数据进行组织是网站科学数据高效管理并提供利用和共享的前提。国内对科学数据组织研究的文章较少,钱鹏针对高校科研数据提出了基于科研生命周期的三级管理模式[1],并基于资源描述框架提出图书馆科学数据资源描述框架模型[2]。其他学者则针对某一学科领域(如医药卫生、地球科学等)或对学科领域中科学数据共享平台的数据组织进行研究[3-4]。本文选取美国和英国政府数据门户网站作为研究对象,对其网站科学数据组织的具体方法以及相应的数据查询功能进行考察,分析它们在数据组织与检索、浏览方面的特点,以期对我国科学数据共享平台和政府数据门户网站的数据组织和管理有一定的借鉴作用。调查时间为2013年12月15-25日。

       1 英美政府数据门户网站数据组织与浏览、检索功能

       美国和英国政府数据门户网站Data.gov和Data.gov.uk均是数据可自由获取、公众与政府机构互动的、API接口开放的数据共享平台。共享平台的科学数据组织就是对平台的数据资源进行选择、描述、整合和存储,提供有序化的结构并形成一个有机整体的过程,以便对数据资源进行存取和利用。本文主要从数据描述与分类的角度调查英美政府门户数据网站数据组织的情况,从数据的检索方式角度考察两者的数据查询功能。

       1.1 元数据标准

       元数据是关于数据的数据,它对数据对象进行描述,有助于用户发现、识别、评价、选择和使用数据资源,实现数据资源的整合、共享、管理和长期保存[5]。

       Data.gov和Data.gov.uk中每一个数据集下均著录有相应的元数据,调查发现其元数据集复用了都柏林核心元数据集(DC),并在DC的基础上有一定的扩展和补充[6]。由于网站的数据涉及学科领域范围广泛、数据发布者机构不同、数据量大、数据类型多样,因此其在DC的基础上分别制定了通用核心元数据标准、特定领域核心元数据标准。通用核心元数据标准为整个数据门户网站的数据资源提供一套通用的描述元素与规范,其中,元数据必选元素包括标题、摘要、关键词(标签)、更新日期、机构名称、联系人、联系人邮件、唯一标识符;特定领域必选元数据元素包括数据字典(Data Dictionary)、URL、可获取端点、格式、数据集开放许可、地理范围(Geographic Scope)、时间范围(Period of Coverage)等;元数据可选元素包括发布日期、发布频次、数据质量、所属类别、相关参照等。

       特定领域元数据标准是基于通用核心元数据标准的扩展标准,以满足特定学科和领域的特定需求。笔者选取了Data.gov和Data.gov.uk中数据集较多的学科领域地学、海洋学,对其元数据调查发现,地学和海洋学的核心元数据集增加了Spatial、Bbox East Long、Bbox North Lat、Bbox South Lat、Bbox West Long等描述空间属性的地理坐标元素,这也是地学和海洋学科学数据的特征所在。另外,Data.gov的部分数据集还提供了机构或部门提交时的元数据描述信息,在一定程度上丰富了元数据信息。

       1.2 数据分类体系与浏览方式

       (1)Data.gov。数据分类体系是对数据共享平台收集的科学数据资源实施分类组织和用户进行浏览和检索的依据与桥梁,通常提供类似目录式的结构进行浏览。从宏观的角度,Data.gov通过一套完整的元数据分类体系将网站中的各种格式的科学数据资源按三种分类编制成一级类目,包括原始数据目录(Raw Data Catalog)、工具目录(Tools Catalog)和地理数据目录(Geodata Catalog),并且这三个分类目录是具有交叉性的,即他们所包含的数据资源是可重复的,一个数据资源可存在两个以上的目录中。

       从微观角度,Data.gov采用多种标准对科学数据资源进行分类与组织,提供了7种分类浏览方式:①数据集类型分类。分为地理空间数据集和非地理空间数据集,从侧面反映了地理空间数据集在Data.gov数据资源中占了最大部分。②标签分类。按照数据资源元数据中的标签分为气温、物理、海洋地质、风速、运输、气象等50类。③媒体类型/格式分类。按照数据集中数据的格式分为KML、TXT、ZIP、XLS、HTML、CSV、PDF等49类。④主题分类。将不同机构的相关数据整合在一个大主题之下,分为安全、研究、能源、农业、海洋、消费者、法律、生态、商业、制造业、金融、教育12个主题。⑤组织/机构的类型分类。分为联邦政府、大学、州政府、当地政府、非营利组织、合作组织、商业机构和其他8类。⑥组织/机构分类。按照数据集发布的组织/机构分为:美国国家海洋大气管理局、美国地质勘探局、新墨西哥大学地球数据分析中心、国防部等50个组织/机构。⑦主题类别分类。按照数据集所属主题的学科类别分为应用科学与技术、自然资源与环境、物理和海洋学、社会与行为科学、教育等50类,并且类目是具有交叉性的。

       另外,Data.gov的多维数据分类体系还具有一定的“组配”性质,如可以选择组织类型与数据格式进行组配,浏览选定的组织和类型的科学数据资源。

       (2)Data.gov.uk。Data.gov.uk同样采用了多维数据分类体系,提供了6种数据浏览方式:①是否公开发布分类。根据数据集是否已经通过审核并公开发布分为已发布和未发布2类。②按照开放许可协议(Licence)分类。它分为遵守开放政府许可协议、没有公布的数据集(Un-published)、不遵守开放政府许可协议(Non-Open Government Licence)3类。③主题分类。按照数据集所属的主题领域分为环境、政府财政、社会、政府、教育、商业与经济等10类。④媒体类型/格式分类。按照数据的格式分为CSV、XLS、HTML、PDF、XML、RDF、ZIP、WMS、ODS、DOC共10类。⑤数据发布者分类。分为英国水文局、国家统计局、社区部门和当地政府、NHS健康和社会关怀信息中心、北爱尔兰空间数据中心等10类。⑥开放程度分类。按照对数据集开放程度的评价分为五星、三星、二星、一星和无星五类。

       同样,Data.gov.uk的数据分类体系也具有一定的“组配”性质,如可以使用开放许可、主题、数据类型三种标准进行组配,浏览同时符合标准的科学数据资源。

       1.3 数据检索功能

       数据检索功能直接影响到用户对政府数据门户网站数据服务功能的体验,笔者从检索途径、检索结果输出与排序方式两种角度考察这两个网站的查询功能。

       1.3.1 检索方式

       (1)Data.gov。Data.gov提供了两种检索方式:一是主题检索,用户在检索框中直接输入所需查询的信息即可,得到检索结果后还可以根据界面左侧的分类浏览体系选择数据格式、机构等进一步精炼检索结果。二是浏览检索,Data.gov可以提供基于数据集类型、标签、媒体格式、主题、组织/机构的类型、组织/机构、学科领域共7中方式的浏览检索。以基于组织/机构的浏览检索为例,数据集按组织/机构聚类并根据其数量大小依次排列,用户选择特定组织/机构中的数据,然后进行简单检索。

       另外,Data.gov提供了基于地理位置的浏览检索。用户可以先从地理位置(直接输入地理名称或使用地图上的绘制矩形工具在地图上绘制地理范围)入手查找相关的科学数据资源,然后还可以使用主题检索实现二次检索,精炼检索结果。并且,用户输入地理名称的前3个字母之后,检索框中会有相应的检索词汇的提示,用户可以直接选择所需的检索词。

       (2)Data.gov.uk。同Data.gov一样,Data.gov.uk也提供了两种检索方式,一是主题检索;二是浏览检索。不同之处是,Data.gov.uk提供基于公开发布与否、开放许可、主题、资源格式、发布者、开放程度6种方式的浏览检索。

       Data.gov.uk提供了基于导向式的地理位置浏览检索方式,在用户检索的界面中有相应的步骤提示。用户可以直接输入地理名称、邮政编码或地理坐标,也可以使用绘制工具绘制地理范围实现简单检索。同Data.gov一样,Data.gov.uk也可以实现二次检索。另外,Data.gov.uk还提供了检索帮助信息,帮助用户快速地使用基于地理位置的浏览检索。

       1.3.2 检索结果输出与排序方式

       用户检索的目的是获取所需的数据资源,因此政府数据门户网站提供的检索结果输出与排序方式也是衡量网站查询功能的一个重要方面。

       检索结果的输出格式按详略通常分为简单格式和详细格式[7]。Data.gov和Data.gov.uk输出结果均为简单格式,包括标题、摘要、媒体格式以及所属机构(分为联邦政府、州政府和大学等),其中Data.gov.uk输出结果中还包括了数据集所属的主题领域。在检索结果的排序方式上,二者均提供了相关性、标题名称、最新更新和热门程度四种排序方式,Data.gov和Data.gov.uk默认排序方式分别为按相关性和按热门程度排序。另外,Data.gov.uk在地理位置浏览检索结果中提供了按地理位置排序方式。

       1.4关联数据

       关联数据是一种新兴的语义网技术,基于关联关系发布和组织数据资源,大大提升了数据资源的价值,如将有关医疗健康的政府数据与地区的人口、环境等数据关联起来可以对医疗投入的效率进行评估。

       (1)Data.gov。2010年Data.gov引入了关联数据技术组织数据资源,目前已经发布了50亿个三元组,主题涉及政府支出、环境、统计数据等[8]。Data.gov发布关联数据主要分为四步:第一,URI命名。URI中通常包括3种标识符,提供机构标识符、数据集标识符和数据集版本。第二,转换。采用一定的工具如Krextor或程序将XML、CSV等不同格式转换成RDF表示的数据。第三,发布。发布包括提供RDF转存文件的方式提供多种格式的下载、存储在RDF三元组存储器中和以可解析URI的方式被关联数据应用获取。第四,关联。关联包括数据集内部及与外部数据集关联关系的组织与构建,如通过owl:sameAs属性将Data.gov的数据资源与外部关联数据集,如DBpedia、Geonames中数据资源链接在一起。

       (2)Data.gov.uk。Data.gov.uk在建设之初就致力于采用W3C标准特别是关联数据标准和方法在网上发布和组织政府数据,其中最主要的两个应用领域是统计数据和地理空间数据[9]。Data.gov.uk在使用关联数据发布和组织数据时,特别强调URI的设计、版本的控制和溯源信息的提供。Data.gov.uk根据实体的类型,设计了4种主要的URI模式,如文档的URI模式为http://{sector}.data.gov.uk/doc/{concept}[/{identifier}]。还为URI制订了一些指导原则,如在设计时要考虑URI持久性的问题,尽量使用URI内部的自然标识符等。另外,用户不仅可以通过SPARQL端点还可以通过RESTfulAPIs获取关联数据。

       2 英美政府数据门户网站数据组织和浏览、检索的特点

       英美政府最先启动了数据门户网站,二者门户网站的数据组织与查询功能也相对完善。从以上对Data.gov和Data.gov.uk数据组织和浏览、检索功能的论述,不难看出它们的一些特点。

       2.1 对资源进行高质量的元数据描述

       Data.gov和Data.gov.uk均由信息专业人员而不是资源提供者来创建元数据,部分数据资源还提供了资源提供者的元数据描述,因此元数据质量控制有了一定的保障。从科学数据共享平台本身的发展来看,平台之间的开放、合作、共享与互操作已是大势所趋。因此,Data.gov和Data.gov.uk并没有从头开始设计自己的元数据,而是选择DC元数据集为基础,从中选择所需的元素并引入新元素,制定了数据门户网站的元数据标准,包括网站核心元数据和特定领域核心元数据。特定领域核心元数据是在网站核心元数据的标准上制定的,更好地体现了特定领域科学数据资源的特色。

       2.2 多维数据分类体系与灵活的检索方式

       Data.gov和Data.gov.uk的数据分类体系并没有采用固定的标准分类方法(先制定标准的分类体系,再将所需分类的目标置于体系之中),而是结合了数据资源的实际情况进行分类,具有较高的实用价值。二者均提供了多维数据分类体系,多个维度的结合有效地对数据资源进行描述和分类,用户可以方便快捷地找到所需的数据资源。另外,Data.gov网站整体上构建的二级分类体系,从宏观和微观两个层面组织数据资源,使数据资源的呈现方式清晰明了,并促进了数据的发现和高效利用。

       由于政府数据资源具有涉及领域广泛、数据类型复杂多样等特点,并且一般用户很难对某一领域的数据有全面的了解,英美政府数据门户网站均没有提供复杂的多字段组合的高级检索功能,而是提供了灵活便利的浏览检索方式。在用户数据需求不甚明确时,可以根据主题、数据类型、组织机构等分类体系浏览数据资源,并在选定数据分类的基础上进行检索,不仅为数据的精确检索带来了方便,而且可以帮助用户突破学科、专业的限制获取跨学科数据资源。

       2.3 数据组织新技术的应用

       Data.gov和Data.gov.uk均已开始借鉴和吸收美国国会图书馆在关联数据发展实践方面的成功经验,开始关注数据资源之间的关联关系,以及如何创建、表示、组织和利用这些关联信息等。通过关联数据的RDF技术有效地解决了复杂多样的数据资源的描述和表示问题,降低了政府数据门户网站语义组织工作的难度。并且,关联数据继承了传统Web技术中的HTTP和URI技术,减少了将Data.gov和Data.gov.uk原来数据组织的成果统一到语义网中的成本。另外,关联数据为数据资源语义组织提供了规范的发布与关联标准,不仅在政府数据门户网站中发布规范描述的RDF文件,还通过RDF链接发掘并关联数据资源之间及其与外部数据集之间的各种关联关系,为Data.gov和Data.gov.uk构建了更广泛、内容更丰富的语义数据网络。

       3 结论

       政府数据门户网站数据类型复杂多样,因此,首先要制定统一的分类标准和索引机制进行描述、标引、分类和组织,以屏蔽不同实体对网站数据组织的差异性。其次,在数据资源有效组织的基础上要提供灵活方便地浏览、检索功能,兼顾数据资源的特点和用户的检索、浏览习惯。另外,语义网技术将从根本上改变互联网上数据组织和管理的形态,因此,要积极引入语义网技术如关联数据技术来加强网站数据组织与查询的功能,实现更深层次的数据管理和服务功能。目前,我国科学数据共享平台的建设已初具规模,但还没有开设一站式的政府数据门户网站,随着国外政府数据门户网站的陆续开设和开放数据运动的深入,统一的数据门户网站的建设也势在必行。我国科学数据共享平台和政府数据门户网站的数据组织与查询功能的建设不仅要采取符合国情的策略,还要借鉴英美政府数据门户网站的成功经验。

       引用本文格式 司莉,李鑫.英美政府数据门户网站科学数据组织与查询研究[J].图书馆论坛,2014(10):110-114.

       收稿日期 2014-01-24

标签:;  ;  ;  ;  ;  ;  ;  ;  

英国和美国政府数据门户的科学数据组织与查询研究_元数据论文
下载Doc文档

猜你喜欢