元数据自动生成技术研究_元数据论文

元数据自动生成技术研究,本文主要内容关键词为:技术研究论文,自动生成论文,数据论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

1 元数据自动生成技术的提出

20世纪60年代,为了有效描述数据集,J.Mayers就定义了Metadata一词[1],其中文译名有多种,元数据是目前国内比较通用的译名。元数据(Metadata)最简明抽象的定义就是“关于数据的数据”(data about data)[2],用于描述载有信息的实体的相关特征,以便标识、发现、评价和管理被描述的这些实体。元数据的功用与书目卡片的功用大体相似,借助元数据,用户能够很方便地了解某个因特网站点的资源类型,Web页面的标题、制作者、主题及关键词、内容摘要及知识产权等方面的信息。随着因特网的发展,信息量的激增,应用元数据来组织和管理这些信息的呼声越来越高,许多专家呼吁应当以“图书馆员的思维方式”对这些资源进行有效管理[3]。

元数据有着极为广泛的应用领域,比如数字图书馆、地理空间信息系统、视频导航、图像检索、电子政务、结构化的文献管理以及网络信息资源的组织等。在全球范围内,以Dublin Core(DC)为代表,元数据的开发与利用已经进入一个全面深化的阶段。总之,哪里有信息,哪里就存在元数据。由于元数据在知识组织和发现方面的突出作用,越来越多的系统采用元数据来进行管理。随之而来的问题是,日益庞大的元数据资源应该由谁来生成?包括图书管理员在内的信息加工人员似乎有义不容辞的责任,但是,网络资源浩瀚无边,增长迅猛,仅仅靠专业人员来完成,无论是在时间上,还是在金钱上,都是一个很大的挑战。如果让用户(资源提供者)自己生成元数据,将存在以下的弊端:①用户是非专业人员,大多数人对元数据在资源组织和发现中的作用认知不足;②用户没有受过专业训练,因此生成的元数据存在着一定的主观性和不准确性。况且,目前还没有强制要求用户提供元数据,所以他们通常不会花时间来生成元数据。

正如当年自动标引和自动分类的提出是为了解决有限人力与无限资源的矛盾一样,由于上述因素的影响,使得元数据自动生成技术被提到议事日程上来。若元数据可以自动或半自动生成,无疑将加快其生成速度,减轻专业人员的负担,而且可以减少非专业人员在生成过程中的人为主观因素和加工不一致性的弊端。

2 元数据自动生成技术的可行性

元数据生成主要有3种途径:作者提供,专家产生和自动生成。作者提供是指由创建资源的作者通过HTML的Meta标签提供元数据;专家产生是指由具有标引经验的专家或者图书馆编目人员,经过标引产生元数据;自动生成是指由机器自动生成元数据,类似于自动分类、自动标引等技术。考虑到网络信息资源的特点以及前两种途径在时间和精力投入上的局限性,笔者认为自动生成元数据是最佳方法,它有助于解决一致性和可靠性的问题。

图书情报界一直致力于研究自动编目方法[4],它为元数据自动生成技术奠定了基础。所谓自动编目就是在现有编目数据和技术的基础上,自动生成某种格式的编目数据。目前CORC(Cooperative Online Resource Catalog)是最有影响力的自动编目系统,它是美国OCLC经过多年研究,于2000年7月推出的一个新产品,以Web为界面,集一整套自动编目工具和数据库为一体,利用元数据为网络电子信息资源创建记录,并提供编目服务,以求为网络信息资源的有序组织、适度控制和高效检索提供更为便利的条件。

网页可以通过HTML的Meta标签来存储元数据信息。针对Web站点HTML的Meta标签展开了一系列的研究,如1997年的“新的Meta标签即将来临”的研究。Drott指出如果网站使用了更多的Meta标签,那么总的标引有效区域将会提高[5],因此Meta标签为元数据的自动生成提供了可能。但是它的使用也会带来负面的影响:首先,标签缺乏一致性;其次一些作者为了增加自己的页面被检索到的机会,常滥用标签[6]。这些问题都应该引起我们的注意。

此外,现代信息处理技术也为元数据的自动生成提供了帮助。包括自动标引、自动摘要以及主题抽取等在内的信息处理技术经过数十年的发展,已初具规模,并有一定解决实际问题的能力。所有这些都有力地推动了元数据自动生成技术的发展。

3 元数据自动生成技术的介绍

笔者将元数据自动生成技术归纳为以下几种:元数据提取技术(Metadata Extraction)、元数据收割技术(Metadata Harvesting)、元数据分面技术(Faceted Metadata)和其他技术。

元数据提取技术是从Web浏览器显示出来的内容中,自动提取元数据的一种算法,通过挖掘,生成结构化(标签式)的元数据来表示该对象[7]。对于网络资源,这种结构化的元数据主要是从HTML或者XML的〈dody〉〈/dody〉部分提取,只需考虑文本内容。该技术利用复杂的自动标引和自动分类算法来提高元数据的生成质量。“Web资源提取”是一个典例,它通过许多商业搜索引擎应对一个检索式动态产生元数据。

元数据收割技术是另一种重要的元数据自动生成方法,主要从HTML文件头标区(Header)的Meta标签自动搜集元数据资料,这种“收割”的方法依赖于用户提供元数据。用户借助网页编辑软件(Dreamweaver和Frontpage)和文字处理软件(Word和Adobe),自动将元数据内容转换到Meta标签中,置于资源文件的头标区。这些软件在创建或更新资源时,不需要人工干预可自动生成“格式”、“创建日期”、“修订日期”等元数据项;其同样支持半自动生成元数据,即给用户提供一个手工填写“关键词”、“主题词”以及其他元数据项的“模板”。

元数据分面技术主要利用文本自动分类技术,为文献赋予分面的元数据记录[8]。这些元数据记录以一种固定的模式,在自由文本的文献集合和高度结构化的数据库之间架起了一座桥梁。运用统计和数据挖掘技术,可以从这些结构化的元数据记录中发现隐含在文献集合内部的知识。通过选择元数据的模式和每个面的概念集,我们可以控制知识发现的过程,主要步骤包括:①搜集我们感兴趣的某个领域的文献;②将这些文献分割成一个合适的事项集;③构建一个满足知识发现的目标,即带有面和概念的元数据模式;④在这些元数据字段中,用机器学习的方法,训练文本分类器;⑤运用文本自动分类技术生成一个元数据库;⑥应用数据挖掘技术发现概念间的联系或衍生的规则。这种元数据分面生成技术主要集中在数据挖掘和知识发现领域,因为这些元数据的模式不是事先定义好的,而是根据具体的文献集合随机产生的,所以具有很大的灵活性,这一点与情报界信息检索领域展开的元数据研究有很大的不同,但作为一种自动生成元数据的思想还是值得我们借鉴的。

以上3种技术都是从文献内容中自动生成元数据,还有一些是从文献内容之外获取。如从终端用户的写作环境或设备中挖掘元数据;由音乐播放器自动生成音乐元数据;从网络日志文件中挖掘元数据等[9]。其中值得一提的是Leuven大学的计算机学习管理系统,它在老师的课件中嵌入元数据自动生成工具来捕获与课件有关的元数据资料,通常包括读者信息,如“二年级的学生”;教学语言,如“汉语”;课件主题,如“关系数据库的介绍”;难易程度,如“高级”;指定的学习时间,如“20分钟”等信息。

4 元数据自动生成的实例研究

4.1 国际研究项目

MGR项目(Metadata Generation Research Project)是通过整合人工和自动处理方式产生一个最高效的元数据生成模型[10]。该项目由北卡罗来纳州大学信息和图书馆学学院(SILS/UNC-CH)研究,同时与美国国家环境科学学会(NIEHS)合作研究,并得到了微软研究院和OCLC的资助。它的目标是,研究人工和自动元数据生成的过程;开发资源提供者和专业人员之间的合作协议;对人工和机器协作生成元数据的方式进行评价;思考语义网发展的内涵。MGR实际上是AMeGA Project项目的扩展,AMeGA项目旨在研究和推荐一套适合图书馆领域的自动元数据生成方案,开发标准化的工具,帮助专业人员从网络资源中抽取元数据。它的目标是,评价现有的元数据自动生成工具,如文档表示软件、元数据生成工具以及联机编目系统等;调查可自动或半自动生成的元数据项;最后推荐适用的元数据自动生成方案。

Web元数据计划(Meta Web Project,MWP)由一批致力于网络资源开发利用的澳大利亚学术团体和大学组织,包括澳大利亚国家图书馆。它的宗旨是促进元数据的应用,其主要任务是利用元数据发展网络资源的索引服务,为网页制作者提供自动生成DC元数据的工具[11]。该计划为Web站点自动生成DC的6个主要元素,从而形成网站的资源描述框架。

WWLib(Wolverhampton Web Library)是英国Wolverhampton大学的一个实验性搜索引擎,可提供DDC(Dewey Decimal Classification)分类浏览,并为网页生成RDF格式的元数据,提高搜索精度[12]。RDF元数据自动生成器是WWLib的一个子系统,用户提供网页地址,它对该网页内容进行分析,最后给出RDF格式的元数据,包括文摘、分类号、关键词等[13]。在元数据元素集方面,WWLib做了少量的修改,但总体还是基于DC元数据集。在生成方法上和Klarity基本相似,主要采用自动提取的技术。

4.2 元数据自动生成工具及其对比分析

DC元数据的官方网站(http://dublincore.org/tools/)列举了很多自动生成工具,如DC.dot,TagGen,My Meta Maker,Editor等。本文将重点介绍和分析Klarity,DC.dot和功能更为强大的CORC系统。

4.2.1 Klarity Klarity是澳大利亚tSA公司开发的商业软件,被称作智能技术(http://www.intology.com.au)。相关的Klarity文档可以在http://archive.klarity.com.au上找到。用户提交网页地址,Klarity能自动生成DC元数据,包括标识(Identifier)、标题(Title)、概念(Concepts)、关键词(Keywords)、描述(Description)等5项,并以RDF的形式转换到HTML或者XML的META标签中。其中,标识项从Web浏览器的地址框中获取,标题项直接从资源的源码中提取,关键词和描述项从资源的文本中提取,概念项用基于词频的算法生成。此外,Klarity还允许用户手工添加其他元数据项,进一步丰富和完善其自动生成的元数据。

除为网页自动生成元数据,Klarity还可分析和处理大型的文献集[14]。它对文本进行自动分类,并利用自动生成的元数据来帮助分类和查找文献信息。它的工作程序为:首先根据特定的元数据集或框架配置Klarity,即指定生成的元数据项;其次通过扫描特定的文档集合,发现相关的概念,生成元数据项,嵌入文档或者发送到服务器,亦可通过邮件将信息传递给接受者;最后根据这些嵌入的元数据信息来查找和管理资料。

4.2.2 DC.dot DC.dot是由巴思大学的UKOLN研究室(UK Office for Library and Information Net-working)开发的一种元数据生成软件,网址是http://www.ukoln.ac.uk/metadata/dcdot。它是一种开放的资源,可在免费软件组织的通用公共许可条款下修改它。DC.dot也是通过用户提交网页地址来自动生成元数据的(见图1),包括标识、标题、关键词、描述和类型等,除标识项从Web浏览器的地址框中获取外,其他项都从网页的META标签中抽取。如果META标签中没有元数据项,它将通过分析URL和表示编码(如字体类型、大小等)自动生成“关键词”项元数据,但是不能生成“描述”项元数据。DC.dot同样可以自动生成“类型”、“格式”和“日期”项元数据,并能阅读用来自动跟踪日期信息的程序源码,如“最后修改日期”的编码为“Last Modified”+lm_day+“+monthName[lm_month-1]+’‘’+lm_year”。和Klarity一样,DC.dot也有编辑功能,它允许用户编辑或修改自动生成的元数据项。此外,DC.dot还可为Word和PowerPoint文档自动生成元数据,并提供了一些辅助功能,如用DC-assist配置生成的元数据项,根据不同的元数据框架(如USMARC、SOIF、IAFA/ROADS、TEI headers、GILS、RDF和IMS)规范输出的结果。

图1 DC.dot生成元数据示例图

4.2.3 CORC[15,16] 严格来说,CORC系统是网络信息资源的联机合作编目系统,它是OCLC研究开发的第二代编目服务系统,主要包含以下几个数据库:

1)CORC资源目录数据库,用以存放网络信息资源的记录。

2)电子主题书目(Pathfinde)数据库。

3)CORC的规范文档(Authority,即“权威文档”)数据库。

4)Web杜威分类法数据库。

5)WorldCat数据库。

在这些数据库的基础上,借助于CORC系统的软件平台与各种编目工具,能轻松地完成网络信息资源的自动编目、维护和检索工作。

CORC系统有很多功能,包括以DC或MARC等格式对网络信息资源编目,自动进行规范控制,创制和编辑电子主题书目,机辅方式标引分类号与主题词,通过人工与机器合作的方式维护记录的URL等。其中,以DC或MARC等格式对网络信息资源编目的功能,就是自动生成特定元数据的过程,它是本文关注的重点。首先由编目人员提供网页地址,CORC系统内部的工具箱自动从网络信息资源中进行搜索并提取数据,为相关网页及其链接生成一系列的资源记录,并自动过滤出关键词作为索引,从而创建一条新的记录,以MARC、DC HTML或DC RDF格式进行显示。

4.2.4 对比分析 具体如下。

1)元数据生成算法。Klarity和DC.dot是MGR项目研究产生的,各自侧重于不同的算法:Klarity侧重于提取(Extraction)方法,DC.dot侧重于收割(Harvesting)方法。Klarity在自动处理方面比较突出,运用自动分类、自动标引和自动摘要的成果,对网络资源的内容进行自动分析;而DC.dot主要是从META标签中抽取,现在绝大多数网页的META标签为空或者存在虚构行为,对于这样的网页DC.dot是无能为力的。但是对于META标签有实质内容的网页,DC.dot的结果往往优于Klarity。CORC系统和Klarity一样,主要采用元数据提取的技术,并且综合运用了自动分类和自动标引技术。

2)元数据生成数量。在元数据生成数量方面,DC.dot较为详尽和全面,生成的元数据项比Klarity丰富(见表1),由于Klarity的“概念项”不是DC的元素,所以该项未列出。另外,Klarity可以用基于词频的算法来生成其“概念项”元素,而DC.dot不包含“概念”元素,这也是二者的区别之一。和Klarity和DC.dot一样,CORC系统只能自动生成部分元数据项,但是经过人工辅助编目后生成的编目元数据质量很高。

表1 DC.dot和Klarity生成元数据项对比表

DC元素 DC.dot

Klarity

DCDC.dotKlarity

元素

1 Title

Title标签中抽 同左 9Format 抽取或分析

取 编码

2Creator META标签中10 Identifier

URL地址

同左

抽取

3Subject 抽取或分析编关键词+

11Source META标签

码 分类

中抽取

4 DescriptionMETA标签中 自动摘要 12

Language 同上

抽取

5

Publisher 同上 13

Relation 同上

6 Contributor同上 14

Coverag

同上

7 Date抽取或分析编码15Rights

同上

8 Type同上

3)元数据输出格式。三者都可以进行元数据输出格式的自动转换:Klarity生成的元数据可以RDF的形式转换到HTML或者XML的META标签中;DC.dot可根据不同的元数据框架(如USMARC,SOIF,IAFA/ROADS,TEI headers,GILS,RDF和IMS)来规范输出结果;CORC可以将生成的编目元数据自动进行MARC和DC格式的对照与转换。

4)整体功能。DC.dot仅是元数据的自动生成工具,Klarity不仅能自动生成元数据,而且具有一定的管理和检索资料的功能。CORC系统相比于前两者功能更加强大,它以Web为界面,集编目工具和数据库为一体,集成了OCLC已开发的部分软件,包括SiteSearch、Scorpion、Kilroy和Pears等,具有更为强大的功能和优良品质。CORC系统还具有广泛的适应性,可以将网络与非网络这两类信息资源集成在一起进行检索。

5 总结与展望

虽然Klarity,DC.dot和CORC系统自动生成元数据项的数量有限,并且质量不高,但它们的出现意味着元数据的自动生成并非可望而不可即,图书情报界及其相关领域在这方面已做了大量的工作,很多专业网站也已经研制开发出自己的元数据自动生成工具。此外,进行自然语言处理和语义网研究的学者也参与了这项研究,如Giuffrida等人采用基于规则的模式匹配方法,试图从PostScript格式的学术会议论文中抽取元数据[17];M.Shepherd等人采用自然语言句法词法分析技术从结构化的医学研究论文中提取元数据[18];M.Hatala等人采用继承、集成、内容相似度分析和基于本体相似度分析的方法为创建者提供可能的元数据值[19]。总之,元数据自动生成技术正处于研究阶段,相关问题亟待解决,生成元数据的质量还有待进一步的提高。笔者认为元数据的自动生成研究不应局限于网络文本资源,对于丰富的声音、图像、动画等多媒体信息资源也应自动生成一套元数据资料,便于资源的检索、组织和管理。

标签:;  ;  ;  ;  ;  ;  ;  ;  

元数据自动生成技术研究_元数据论文
下载Doc文档

猜你喜欢