元数据库———种电子信息资源管理技术,本文主要内容关键词为:电子信息论文,资源管理论文,数据库论文,技术论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
元数据(Metadata)是近几年来在国外有关信息管理领域研究文献中出现频率较高的词汇。研究元数据的专家包括:图书馆员、档案工作者、文件管理员、博物馆员、网络管理员、IT研究者以及政府信息专家和政策分析家等。这么多人研究元数据目的是一致的,即保证电子数据的有效管理和利用。这是人类面向信息社会或知识经济时代所必须要做的工作。
1 元数据的概念
元数据和信息一样没有权威的概念描述。从字面上理解,元数据是关于数据的数据。它原本并非是一个全新的概念。软件程序员用其表达被开发的代码信息以及有关数据库的数据表等信息,他们称“元数据”为“数据字典”。随着数据仓库技术的研究和开发,以及大量电子文件长期保管的要求,使元数据的研究倍受关注。在文件及档案领域内,有关元数据的描述有:国际档案理事会《电子文件指南(1997)》中:“元数据是关于文件的背景信息和结构的数据。”《澳大利亚联邦机构电子文件管理元数据标准(1999)》“关于电子文件背景信息的著录信息。”[1]英国国家档案馆《电子文件管理指南(1999)》对元数据的描述也是类似的。从上述描述中我们可以将元数据组合的并且具有指向这些单份电子文件或文件组合的数据集合。
此外,数据库(或数据仓库)管理专家这样解释元数据:元数据是关于数据的一个信息库,这个信息库通过技术手段加以整序,告之用户一则信息的最后更新时间、格式以及可用性。[2]元数据指导用户如何使用数据库并协助用户理解诸如财务数据、客户档案以及事物处理等有关数据的意义及其上下文。
由此可见,为了便于理解,完全可以把元数据看作是一种工具,用它人们可以在电子信息的海洋中查到所需要的信息。具体来说,元数据包括以下内容:来源数据库著录,诸如,数据字典或数据库指南;关于数据库资源的信息,诸如,数据库内容、版本及版权所有等信息;描述其它数据库的结构、属性、处理极其更改的信息;描述网页内容的标识;有关文件产生的时间、地点、业务功能、数据建立的方式等。
2 元数据的功能
元数据这一词汇与数据仓库关系极为密切。元数据的目标是面向用户,即不关心数据仓库中存储的数据的技术结构,而提供给用户如何利用数据仓库类似“菜单”之类工具,帮助用户找到他们所需要的信息。美国一家银行一位元数据资源管理员指出,“元数据所起到的作用就是,当用户来查找一份数据的确切含义。当数据文档更改时,元数据帮助人们了解有哪些其它信息受到这一改变的影响。”[3]澳大利亚电子文件管理专家苏.麦克教授也谈到:“如果我们以其广义和灵活的方式来考虑元数据,那么档案工作者是元数据的专家,元数据实际就是一个久已存在于我们周围的一个简单的新词,只不过随着计算机的出现,其赋予了新的名称而稍显得不同而已。传统的检索工具、目录卡片、案卷目录、案卷封面、纸张文件的题目与脚注,所有这些都包括了元数据,而且所有这些都有它们机读形式的对应物,这些对应物许多看起来不同,但有许多仍然是相同的,而且它们都具有相同的功能。”[4]
另外,在当今社会中,人们处理各种事物更多地依赖于信息技术。组织机构(商务等部门)都希望在正常的业务过程中减少由于不良的电子文件保管而引发的危险。过去以计算机为基础的信息系统的设计一般是为了掌握适时的、数量不大的、可以操作的信息,因而尚未产生应用软件或管理文件所必须的元数据。[5]而当今的软件开发完全能成功地生成诸如“元数据库”(Metadata repositories)等技术。
澳大利亚《工业、研究与教育战略合作元数据项目(SPIRT)(1998)》(6)将元数据依据其用途分为:(1)唯一特征识别元数据;(2)文件凭证元数据;(3)管理、利用与处理条件元数据;(4)文件利用历史的跟踪与证明元数据;(5)受权用户查询,检索与传递元数据;(6)非授权使用限制元数据;(7)引用相关标准的元数据。
企业内联网的实现极大程度依赖元数据,内联网要在恰当的时间传递正确的信息。元数据的作用就是告知5W信息(Who,What,when,Where,Why)[7]的最有效工具。目前国际知名大企业及银行、政府均有其自身的“元数据资源管理”(metadata resource management)部门。他们的作用是将数据置入数据仓库或将数据从数据仓库提取出来。从事这类信息管理的人员被称为“元数据管理员”(metadata managers),他们既不是数据库管理员(Database administrators)也不是程序员(programmers)他们的目标是消除数据仓库中的冗余-即数据真正一次性地储存于数据仓库中而并非用多种途径(比如其它名称)多次重复存在于数据仓库之中。换句话说,元数据管理员要确保置入数据仓库中的是全新的信息。
3 如何建立元数据库(metadata repository)
考察当前多数企业或政府部门数据仓库的元数据生成方案,其共同点是:其一,元数据是数据仓库的关键组成部分;其二,用户需求是建立元数据的重点考虑内容。后者是与传统的图书情报理论完全符合的。一般来说企业的元数据库更重视用户需求。
许多企业的元数据库的开发大多遵循以下考虑:[8]
(1)将用户吸纳到开发工中来,了解用户对不同数据所惯用的不同描述词汇,掌握用户利用数据的习惯方法,以及用户的需求和所要解决的问题类型等。
(2)元数据文档要建立在标准的、结构化格式上,能够同时响应普通用户、核心用户以及通晓此技术的自家员工。
(3)寻求一种元数据产品使其包含技术元数据(即计算机专用词汇——数据词典)和事务元数据。这样的元数据工具能够使元数据库支持各种各样的数据维护和信息查询需求。
(4)使用户能够自行维护其元数据。对此,专家指出,最好不要用程序员或系统分析师去建立元数据,而要用那些善于处理一些具体文档的人员,如数据管理员,同时要得到有关部门及事务处理专家的帮助。
具有同样功能的文件和档案领域的元数据开发,则更重视电子证据的性质。在这个领域内,文件是事务处理的载体。并非所有数据都属于文件,因为有些数据并未表达出参与事务处理的性质。[9]此外,文件保管的功能要求文件的产生是全面的、可识别的、完整的和可靠的。因此,在文件(档案)领域中的元数据生成,要依据法律规定的文件证据要求和保管要求形成元数据的生成规则,这些规则除了一般数据仓库的元数据技术和原则之外,更重要的是元数据能够体现出什么是原则上的一份具有永久性法律效力的文件,以及在信息系统中鉴别具有永久性法律效力的文件。
4 未来的路
元数据库技术和其它信息技术一样,还在发展过程当中,其最终目标可能是要寻求一种标准。有关元数据的最新技术资料可在下列网站中检索到:
Http://www.freemarc.com
http://www.ericae.net
http://www.findarticles.com
http://www.mdcinfo.com
http://www.ariadne.ac.uk/issue8/canberra-metadata/
http://www.omg.org
我们再一次领略了信息技术的神奇,她使人们的繁重劳动变得轻而易举,使海角天涯变得近在咫尺,更重要的是她正试图改变人类的固有观念,挑战传统教育的专业思想和学科理念。笔者对计算机技术颇感兴趣,一直密切关注着计算机技术在信息管理领域中的应用,然而越是对这方面了解得多就越感到自身所从事的专业教育工作(档案学专业)所面临的危机。因为,当有一天,电子档案成为人类档案的主流时,管理它们的可能是一些元数据管理员而非档案管理员。国内情况不谈,单从发达国家的文件(档案)的发展历程来看,有关档案管理现代化技术方面的工作先是依托图书管理专业的技术平台发展起来的,后来的电子档案管理技术更高地依赖于数据库、数据仓库、元数据库等以大企业(大组织)的信息系统为主导的技术支持。若传统的档案馆再借助法律法规去取得保护对象——电子档案,则很可能得到的是永远不能再读取的废品(技术淘汰的结果)。当今的组织在生产各类信息的同时,已经自觉地考虑到技术更新、信息长期读取、以及电子证据等原属于档案领域的专业问题了。而且,任何组织也不再存在保存过时档案的空间障碍。未来的情况可能是,人类生产出大量的档案,却不见新档案馆建筑。
因此,信息时代是变化的时代,重组的时代,各领域各行业相互渗透的时代,个人要在这样的环境中生存,要掌握更多的知识和技能。同样,学科领域要么独具特色,要么尽快拓展发展空间,否则就会被淹没在这变化多端的环境中。