公共图书馆政府公开信息元数据研究——以中国政府公开信息整合服务平台为例,本文主要内容关键词为:公开信息论文,中国政府论文,为例论文,服务平台论文,公共图书馆论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1 引言
2008年5月1日实施的《中华人民共和国政府信息公开条例》(以下简称《条例》)第2条对政府信息做了如下定义:“政府信息,是指行政机关在履行职责过程中制作或者获取的,以一定形式记录、保存的信息。”①政府信息公开应同时符合3个条件:一是由政府机关掌握的信息;二是与经济、社会管理和公共服务相关的信息;三是由特定载体所反映的内容。政府信息公开的形式,以纸质、胶卷、磁带、磁盘以及其他电子存储材料等为载体②。
依上文来看,政府信息涉及各个领域,关系到国计民生,并且载体形式多样。有人指出,政府信息占全社会信息资源的80%③,且又关系到群众的切身利益,群众对其有着广泛的需求。对于主动公开的政府信息,政府主要采取网上公开信息的形式④。目前我国政府信息的数量日益剧增,且种类繁杂,公众在查找和使用起来实属不易,而且这对政府信息的管理来说也是一件困难的事情。因此,我国除了制定政府公开信息公开指南和公开目录之外,还应对政府公开信息元数据进行深入研究,对信息本身的特征、定位和管理等作出具体要求,以建立信息资源之间的关联,从而方便公众查找和获取所需信息。
自从《条例》实施后,政府信息工作和公共图书馆就有了法定的关系,开展政府信息服务成了公共图书馆的一项重要工作。再加上公共图书馆本身具有优势,拥有大量的信息编目人员,对信息资源的编目工作极其熟悉,因此,我国公共图书馆在政府信息工作方面,除了对信息资源进行科学组织、加工整理外,还需加强对信息资源的编目工作。
为了更好地履行公共图书馆在政府信息公开中的职能,并引领国内公共图书馆政府信息整合服务工作,国家图书馆启动了一个专门项目——中国政府公开信息整合服务平台(http://govinfo.nlc.gov.cn/),该平台于2009年4月30日正式开通服务,并于2011年10月27日,作为国家数字图书馆推广工程的第一个向全国推广使用的软件平台,在2011年图书馆年会上正式上线。该平台目前已有30个分站,数据量达100多万条。
为了完善公共图书馆的政府信息服务,本文试以中国政府公开信息整合服务平台的政府公开信息为例,在借鉴国外政府公开信息元数据标准及国内政府公开信息元数据研究的基础之上,分析我国政府公开信息的元数据结构,并尝试提出12个元数据字段。
2 国内外政府公开信息元数据标准规范状况
目前,在实践中应用较广的是国外的两种政府信息资源元数据标准:GILS和DC-Government⑤。
GILS(Government Information Locator Service,政府信息定位服务)是20世纪90年代由美国联邦政府应用元数据理念设计的一种支持公众搜寻、获取和使用政府公开信息资源的分布式信息资源利用体系。对于GILS,有的学者认为GILS是一种信息检索系统,该系统根据国际标准建立,可跨机构查询政府信息,是国家信息基础设施(NII)的一部分;有的学者则认为GILS是一种元数据格式,依据信息特性设计元数据元素。但从字面上看,GILS又像是一种服务形式。从信息组织的角度看,GILS体系是一组分布式信息资源目录的集合。其基本构建要素是这些目录中对具体资源进行描述的元数据,即GILS定位记录(Locator Record)。它是一组相关数据元素的集合,用来描述信息资源的内容、位置、服务方式、存取方法等。根据GILS应用纲要第二版,目前GILS核心栏目共有28个。由于美国政府的大力推动,GILS已成为美国政府信息资源的描述标准,并且在日本、俄罗斯等国家得到广泛应用。
DC-Government(都柏林核心政府元数据)是由DCMI(Dublin Core Metadata Initiative)政府工作组及MIReG(Managing Information Resources for e-Government)工作组于2001年9月17日发布的专门针对政府信息资源管理的应用纲要(DC-Government Application Profile)。该纲要直接将DC元数据集的15个元素及其修饰词复用到DC-GOV命名域上,并在DC-GOV命名域内补充一个新元素——Audience(受众),并增加了5个DC元素的限制属性。迄今为止,澳大利亚的AGLS、英国的e-GMF、加拿大的TBITS39.1,以及新西兰、丹麦、爱尔兰等国家都在DC的基础上建立了政府信息资源元数据格式。
GILS比DC-Government在专业元素设置、应用实施成熟度方面占优势,但从长远发展角度来看,由于DC作为资源描述格式在全球应用是大势所趋,所以采用DC核心集的扩展应用有利于资源共建共享。而且DC的可扩展性、互操作性和资源发现功能必将使DC-Government占据未来政府信息资源描述领域的主流地位。
国内虽然没有成熟的政府公开信息元数据标准,但不少学者做出了探索性的研究。王芳在《我国电子政务元数据的构建及其基于Web服务的共享实现》一文中提出了我国政府信息资源元数据核心集建议方案(CGIMC),探索性地将我国政府信息资源的元数据核心元素定义为5大类共23个⑥。张承伟在《政府信息资源元数据的描述方法》一文中提出了政府信息资源的13个元数据项,10项与DC相对应⑦。章旭在文章《政府信息公开元数据方案初探》中提出政府信息的18个核心元素,复用DC的15个核心元素,增加了3个政府信息核心元素:索引号、文件编号、附件,并扩展了DC元素的限制属性⑧。
GILS、DC-Government等都是适应广泛需求的标准体系,且在具体应用实现的时候,都会受到各国政府的基础建设、资源状况、社会需求甚至是政治、文化、经济等各个方面的影响。如何结合本国需求更好地应用相关元数据标准,是各国共同关注的问题。因此,需从我国政府信息资源的实际情况出发,借鉴国内外经验,对信息资源的描述、揭示等作出具体要求。
3 中国政府公开信息整合服务平台资源分析及元数据结构
3.1 资源分析
3.1.1 资源的整合
在资源获取方面,该平台目前采用机器自动采集的方式,将各政府网站上的相关信息采集到本地。政府公开信息采集到本地,经过信息过滤、信息抽取、自动分类等智能处理后,按规定的政府公开信息数据库结构,自动地生成政府公开信息库、政府公报库、政府机构库。并在这些资源的基础上,结合当前的热点话题,创建专题信息,同时和馆藏相关政府资源进行整合,如OPAC系统中的印本政府公报等。
(1)政府公开信息资源库以单个的政府公开信息为描述对象。目前将采集范围限定在三类政府信息的核心资源中:各政府网站中信息公开目录下的资源、政务公开栏目下的资源以及其他栏目下有正式文号的资源。
(2)政府公报库以公报中的具体内容为描述对象进行著录,主要描述字段在政府信息库的基础上,添加了公报名称、年、卷、期等资源的出处信息。
(3)政府机构库主要是收集、整理所有政府网站,以网站作为描述对象,相对来说机构库比较简单,主要包括名称、地址和地区分类。
3.1.2 资源的分类
为了从不同角度对资源进行揭示,本文设计了两种对资源内容分类的方式:一种是主题分类,一种是题材分类。对于主题分类,考虑到与各政府公开信息栏目的融合,以及日后在政务和图书馆界的进一步发展,所以并没有再另外创建一套分类体系,而是采用了中央政府的主题分类法,分为22个大类,各大类如下:国务院组织机构,综合政务,国民经济管理、国有资产监管,财政、金融、审计,国土资源、能源,农业、林业、水利,工业、交通,商贸、海关、旅游,市场监管、安全生产监管,城乡建设、环境保护,科技、教育,文化、广电、新闻出版,卫生、体育,人口与计划生育、妇女儿童工作,劳动、人事、监察,公安、安全、司法,民政、扶贫、救灾,民族、宗教,对外事务,港澳台侨工作,国防,其他。对题材的分类是在参考各政府网站的公开信息目录的基础上制定出来的,分为5个大类24个小类(见表1)。
3.2 元数据结构
本文的政府公开信息元数据字段是在对我国主要的政府网站调研的基础上,依据国办制定的《政府信息公开目录元数据方案》⑨,参考DC⑩,并借鉴国内外政府信息元数据的描述标准,参照国内一些成熟的元数据标准(如《国家图书馆元数据应用总则规范汇编》(11)、《基本数字对象描述元数据标准》(12)等),根据我国政府信息资源的实际情况提出的。
政府公开信息元数据主要有12个字段:资源名称、文号、发文机构、日期、时空范围、关键词、分类、原文、信息来源、出处、唯一标识符、文档格式等,其中发文机构是公文必备字段,出处是公报必备字段,文号、日期、时空范围是有则必备字段,其他字段均为必备字段。12个字段的定义见表2。
4 研究中存在的问题
4.1 元数据的语义问题
元数据的语义问题是指元数据字段所使用的术语及对术语的定义是否准确无误、有无歧义,如果模棱两可,就会造成不同的理解,容易产生歧义,进而影响元数据的质量。如发布日期,有人理解成网站发布数据的日期,有人理解成条令本身的发布日期;还有发布机构,有人理解成信息来源机构,有人理解成公文的发布机构,还有人理解成正文后的署名机构。其他术语也存在诸如此类的问题。如果不对术语严格规范、准确定义,对同一字段的理解就会产生多个不同的版本,进而会影响元数据的著录和质量。
4.2 元数据的编目问题
政府信息数量巨大,单靠人工去逐条完成元数据的编目,是极其困难的事情,因此需要采用相关技术去自动完成。中国政府公开信息整合服务平台就是采用机器对元数据进行自动抽取、自动分类的。但就目前实际情况来看,自动抽取和自动分类的结果不是很理想。最常见的就是关键词的抽取,经常把一个完整的词语切分成两个词或者把正文中与信息内容无关紧要的词语抽取下来;有的将文中日期或采集日期误当做来源网站发布日期抽取下来,或者漏掉了公文数据的公文发布日期;还有的就是直接把数据的编号误当成文号抽取过来。另外,有的政府网站对元数据字段的著录格式本身就不规范,如国家中医药管理局的数据,原网站把附件的名字和链接地址分离开来,导致采集下来的附件也是如此。为了保证元数据质量,减少人工修改的麻烦,需要根据政府信息元数据特点,研究出一套完整的技术标准和技术方案,提高机器自动编目的准确率。
4.3 元数据的维护问题
由于技术缺陷,机器抽取下来的元数据或多或少都存在质量问题,需要后期通过手动修改去完善。但政府信息数量巨大且更新频繁,要想对元数据进行及时维护,保证所有元数据的质量,是一件比较困难的事情。
另外,政府网站信息发布多样化等特点,也会影响政府信息的元数据质量。如原网站的某条或某些数据删除了,而现有平台却保留着,从而导致原文链接失效,尤其是人事变动等敏感信息,经常出现这样的问题;原网站公开栏目地址更新或者原网站此前没有公开栏目后来开设了该栏目,这就导致对原网站的数据采集不会更新,原文链接也有可能失效。这些都需要通过人工判断,分析出元数据问题的原因所在,进而采取适当的修改方式去修改这些问题。由此看来,对元数据的维护,不能只针对现有平台的元数据,也要对政府网站的元数据有一个清楚的了解与认识。
5 建议
5.1 强化分类体系建设
分类体系对于信息资源内容的揭示、知识体系的构建起着重要的作用,对机器的自动分类标引也起到良好的支持作用。目前中国政府公开信息整合服务平台采用的主题分类仅22个大类、题材分类5个大类24个小类,这对数以万计的政府信息来说,远远不够,既不能保证机器分类标引的准确性,也不能满足用户浏览和查找信息的需求,而且这也不利于政府信息的组织和管理。为此,要深入对政府信息资源的研究,完善分类体系,细化主题和题材的分类,此外,还可在主题分类和题材分类的基础上,拓展到机构分类、地域分类等多种分类方式,为机器对元数据字段的自动分类标引提供良好的前提,也为后期对信息的组织、检索和获取提供更大的便利。
5.2 提升技术,关注多媒体资源
为了能够准确地描述政府信息资源,需要根据政府信息元数据的特点,去分析和识别政府公开信息所需的平台和技术,提出相应的功能需求,研究出技术解决路径和技术实现方案,然后由公司去研发相关技术,完善政府信息元数据的自动抽取、自动分类标引等功能。
目前中国政府公开信息整合服务平台的数据都是文本形式,但政府网站的公开信息除了文本类型之外,还有其他类型的信息资源,如图像、音视频等多媒体资源,今后随着多媒体和可视化技术的发展,其他媒体形态的公开信息也会出现在政府网站上。由于公开信息关系到群众的切身利益,而且多媒体资源的表现力更加丰富,更能吸引群众的关注,因此多媒体类型的资源也应成为采集对象之一,多媒体资源的元数据也就相应成为研究的对象之一。这就需要对多媒体资源的载体形态、内容特点、技术细节等进行分析,并研究出自动抽取、自动分类标引的技术规则和技术细节。这不仅能丰富公共图书馆政府信息资源的种类,而且还可以完善公共图书馆政府信息资源的元数据结构。
5.3 机器和人工相结合
机器虽然能完成政府信息元数据的自动抽取、自动分类标引等,但由于政府信息数据量巨大且内容复杂,单靠机器并不能很好地对信息资源进行描述和揭示,这就需要配备相应的工作人员对政府信息元数据进行审核和修改。只有机器和人工相结合,才能在一定程度上保证政府信息元数据的质量。对于工作人员来说,则需要进行相应的培训和学习,了解政府信息元数据的结构、数据质检规则及其平台的操作方法,对数据进行严格审查,才能从根本上保证政府信息元数据的质量。
5.4 加强合作与交流
政府信息数据量庞大,种类繁多,尤其是网络政府信息,格式多种多样,如果对信息资源进行正确的描述和揭示,单凭一个图书馆的努力是远远不够的,因此公共图书馆界要联合起来,共同策划,逐步加深对公共图书馆政府信息元数据的研究。除外,图书馆界还需和政府机构、档案馆等从事政府信息工作的相关单位合作和交流,一方面可以借鉴相关单位的研究经验并将他们的研究经验应用到公共图书馆政府信息元数据的研究中;另一方面也可以帮助相关单位深入对政府信息元数据的研究,进而制定出我国政府信息元数据的描述规范。
6 结语
元数据能够较好地对信息资源进行揭示、描述和管理,不仅有利于建立资源间的关联,而且有利于资源的发现和检索,进而让用户能够更快、更准确地找到自己所需要的信息,既方便了广大用户,也实现了信息资源的共建共享。
我国政府信息数据量庞大且内容复杂,为了对政府信息进行更好的管理和维护,提高政府信息的查准率和查全率,肩负法定职责的公共图书馆责无旁贷。公共图书馆界需共同努力,进一步挖掘政府信息资源的特点,加深对政府公开信息元数据的研究,进而制定出详细的元数据描述规范,以便用户查找和利用政府信息。
注释:
①中华人民共和国政府信息公开条例[EB/OL].[2013-03-25].http://www.gov.cn/zwgk/2007-04/24/content_592937.htm
②④⑧章旭,汪建满.政府信息公开元数据方案初探[J].图书馆建设,2008(12):10-13
③张智新.政府信息公开公民权利升堂[EB/OL].[2013-03-25].http://news.sina.com.cn/c/pl/2007-04-24/121112854617.shtml
⑤曾树金,司徒俊峰,马利霞.论政府信息资源的元数据标准[J].情报学报,2004(12):716-718
⑥王芳.我国电子政务元数据的构建及其基于Web服务的共享实现[J].情报学报,2007(2):131
⑦张承伟.政府信息资源元数据的描述方法[J].情报科学,2007(6):850
⑨张新民.对我国政府信息公开目录体系建设的若干思考[EB/OL].[2013-03-25].http://www.docin.com/p-44585455.html
⑩都柏林核心元数据中文网[EB/OL].[2013-03-20].http://dc.library.sh.cn/
(11)肖珑,中晓娟.国家图书馆元数据应用总则规范汇编[M].北京:国家图书馆出版社,2011:46
(12)基本数字对象描述元数据标准[EB/OL].[2013-03-20].http://wenku.it168.com/d_000622923.shtml
标签:元数据论文; 政府信息公开条例论文; 数据抽取论文; 信息公开论文;