用户元数据初探_元数据论文

用户元数据初探,本文主要内容关键词为:数据论文,用户论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

1 引言

互联网的广泛应用和服务功能与业务的拓展,为用户的网络信息交流和发布提供了新的渠道和空间,改变着用户的信息发布和利用形态。Web2.0将“用户=合作者”的理念应用于实际,吸纳读者的智慧来补充和改进网络的现状,用户可以通过评论、标签以及评级、博客、社区等一系列活动来扩充网络的资源与服务,同时也给其他用户提供了有价值的信息产品。

对图书馆而言,用户的参与将产生大量的图书馆自身系统中未带的信息,理论上讲,这些信息是开放的,可供检索、链接、或是根据语境抽取目标信息。这些信息是增强元数据描述的一种重要手段,而这些信息又可以被整合到图书馆自身系统中或从图书馆系统中抽离出去。因此,图书馆仅仅将Web2.0的理念和技术引入到图书馆,给用户提供参与的途径还远远不够,更需要做的是对由用户产生的元数据进行深度挖掘,通过用户元数据对信息资源进行有效的整合,在给用户提供增值服务的同时,也进一步扩充图书馆的资源,提高图书馆的服务能力。

2 用户元数据的含义

用户元数据并没有准确的定义,在不同的环境中有不同的表述,可以是描述用户信息的元数据、描述用户行为的元数据等,但本文中所定义的用户元数据为:由网络用户产生的元数据称为用户元数据,是用来描述网络用户所产生的内容的元数据以及有助于对内容进行判别的用户或其行为的信息。

从定义来看,对于用户元数据来说从以下几个方面来理解:

首先,它是网络用户产生的数据,而非网站建设者所产生的,它既可以是用户本人所产生的,如:用户上传图片时,给图片添加的名称;也可以由其他用户所产生,如:用户添加的评论等。

第二,它主要是对用户所产生的内容的描述,同时也包括一些对内容评判有关的用户信息,如用户的专长、参与度等,可以为其他用户对内容的可信度有所评判,但不包括对内容判别无意义的、纯粹的用户的描述。

第三,它包括一些仅与内容相关的用户行为的描述,如:用户在进行投票、进行挖/埋等行为,这些实质上是对所投票内容的一个评判,是对其的一个描述,也属于用户元数据的范畴;而不包括与内容无关的用户行为,如用户登录的时间、用户访问网站的线路等。

实际上,用户在产生内容的同时,都会无意识的产生用户元数据,如用户在提交一个博文,会写有博文的名称,给一个分类或写一些标签,这实际上就是在对内容提交描述性的元数据;在用户对其他资源撰写评论或是评级时,就是在给资源添加一些评价性的元数据。

3 国外相关项目

对于用户元数据的研究,近几年在图书馆领域已逐渐展开,下面为2个典型的案例:Sharing and Aggregating Social Metadata和The commons

3.1 Sharing and Aggregating Social Metadata①

Sharing and Aggregating Social Metadata项目是美国研究图书馆集团(RLG)在研的一个项目,该项目主要是用来研究如何通过对社会元数据的分享和整合,在网络层面上充分利用由用户贡献的如评论、注释、图片等信息资源,具体研究的内容包括:什么是社会元数据,以及如何进行度量?在一个开放的网络环境下,对用户贡献的内容进行搜索和检索的政策,管理方式及相关的技术是什么?引导机构在管理用户贡献内容和各种有关的问题最佳做法是什么?怎样保护贡献者的隐私,如何能将大众分类纳入到分类体系?社会文化机构如何将社会元数据纳入正规的分类等内容。这里他们所提的社会元数据是指用户贡献的元数据,与我们所说的用户元数据极为相似,该项目预计于2010年出项目报告。

3.2 The Commons

The Commons是LC与Flickr的试点项目,该项目于2007年开始,在2008年1月推出。在这个项目中,国会图书馆将部分没有明确版权限制的照片,在Flickr上开辟了专门的资源分享区域,通过加标签、评论和给照片注释三种方式作为交互的手段让用户参与。通过标签,用户可以分享图片,也可以提供一种迅捷的搜索渠道,通过评论和图片注释,用户可以加强对照片内容的理解。而这些由用户提供的信息,在图书馆原有的元数据中,并未被记录,随着Web2.0理念的深入,这些由用户产生的元数据将会被渐渐的纳入到图书馆的元数据系统中。该项目一经推出,便引起了多个国家的关注,到2008年年底,已经有16个机构参与了这一分享计划,其中包括美国、澳大利亚、英国、加拿大、法国、葡萄牙和荷兰等国家的一些机构,他们共同分享其收藏的照片,鼓励用户参与和贡献信息。

这些都表明了图书馆对用户元数据的日益重视。

4 用户元数据分析

4.1 用户元数据框架

目前,很多机构或者组织都对相关的问题或者概念进行了研究,其中比较重要的就是微内容微格式、FOAF和CAM等。

“微内容”和“微格式”是最近流行起来的一对概念。微内容(Microcontent)的最新定义是这样:“最小的独立的内容数据,如一个简单的链接,一篇网志,一张图片、音频、视频,一个关于作者、标题的元数据,E-mail的主题,RSS的内容列表等等。”由此来看,所有用户创作的内容都可以成为微内容。微格式是一种基于现有的并且广泛被应用的标准而建立的简单、开放的数据格式。相对于机读,微格式更倾向于让人可以读懂。

FOAF是Friend Of A Friend简称,是一个小型的本体系统,用于描述web中的人、实体、他们之间的联系以及他们的行为所产生的内容,FOAF允许以分布式方式描述社会网络。

拓展情境化注意元数据(Contextualized Attention Metadata,CAM)主要是指用户在使用普通网站、Wiki、Blog、文本交流、电子邮件等资源过程中,被用户注意的和引起用户注意的任何内容。②也可理解为是用于描述用户某个情景下发生的一系列行为的数据。③

通过对上述相关框架的分析,笔者认为:微格式和微内容描述的是文档的信息;FOAF描述的是人与人、资源之间的关系;CAM描述的是人、资源之间的情景关系。对图书馆来说,用户元数据的研究对于我们分析读者行为、读者资源取向、判断资源使用程度等都有很重要的意义,我们需要建立一套用户元数据框架,并对其加以管理,以满足需要。用户元数据框架应该以用户和资源为主,重点描述在一定情境之下资源(Resources)同用户(Person)之间的关系。

元数据框架可以包括三大主要部分,一个是通用框架,用于描述各类型资源,如论文、期刊、图片等,另外还涉及用户(Person)、用户群(Group)、各种微格式、行为(Action)、进程(Session)等新的概念。需要为这些概念设定描述性或者技术性元数据。对于这些元数据已经有比较稳定的框架,在这里我们可以借鉴这些稳定框架,如DC、资源类型微格式框架等。

另一重要的部分是用来定义资源之间的关系,这些关系可以包括:

资源和资源的关系,如评论(Comment)关系,说明(Depict)关系;

资源同用户的关系,如说明(Depict)关系、行为(Action)关系等,行为关系又可包括多种,如:创建(Create)关系、收藏(Favor)关系;推荐(Recommend)关系等;

用户与用户之间的关系:如朋友(FriendOf)关系;成员(MemberOf)关系等;

另外还需要对进程(Session)类别进行定义,每个进程(Session)由用户、资源以及用户对资源的行为(Action)构成。同一进程(Session)中不同的行为(Action)有先后之分,因此行为(Action)有一个只在进程(Session)中有效的时间戳(TimeStamp),用来区别行为发生的先后顺序。每个行为设计两个元素,分别是用户(Person)和资源(Resource),分别是行为(Action)的主动方和受动方。行为(Action)关系中的子关系有创建(Create)、浏览(Browse)、推荐(Recommend)等。

4.2 用户元数据质量

本文所讨论的用户元数据包括:对用户创建内容的描述,对用户添加内容的描述、对用户行为产生的内容的描述以及对内容判断有所帮助的用户自身信息的描述。详细如下表1。

对于用户元数据来说,一部分可以由机器自动产生,如用户所创建的内容外部属性:文件大小、文件格式;内容的管理信息,如创建时间、访问量等;以及内容之间的关联关系。这部分元数据只要我们事先设计好结构和规则,由机器自动生成元数据的准确度是很高的。

另外还有一部分用户元数据是由用户自己提供的,也就是需要人工制作的内容,主要是对内容的描述,如题名、标签、评论、注释等,这部分元数据实际上也是图书馆的核心业务,在Web2.0环境下,这些也可以由用户来产生,这部分元数据的质量如何,我们可以从以下几个方面同图书馆的元数据进行对比分析。

通过对比,我们不难看出,对于网络上海量的数据,由图书馆员来制作元数据已是远远不够的,引入用户元数据,通过对用户元数据的分析提取,把网络资源转化为图书馆的资源,或是通过用户元数据来扩充完善图书馆的元数据对图书馆来说不失为上策。当然,对于用户来说,由于其没有受过专业的培训,元数据质量是一个很大问题:如没有给图像提供有充分描述性的题名,没有给足够多的标签或是标签很随意,不规范等,这就需要我们对用户元数据进行规范控制。

5 用户元数据与规范控制

5.1 规范控制概述

规范控制(Authority Control)的定义为:为确保标目在检索款目及书目系统中的唯一性和稳定性,而建立、维护、使用规范款目和规范文档的工作过程。④从这一定义可以看出,传统的规范控制主要是图书馆书目控制的重要组成部分,为书目功能的实现服务。从二十世纪六十年代起,计算机技术的发展推动了图书馆自动化的发展,规范控制的实质也被进一步明确为检索点控制。为使用户可以使用任何名称、题名或主题进行检索,图书馆员必须要控制检索,以避免用户淹没在信息的海洋中。

5.2 对用户元数据进行规范控制存在的问题及设想

规范控制工作经过近一个世纪的研究、探索与实践,具备较为完善的理论与体系。但是,在将规范控制应用于网络整合的过程中也暴露出一些问题,如:规范数据由图书馆员制作,因制作者的局限,影响规范控制惯用性原则的实现;名称规范库和主题规范库都存在着用词陈旧、更新滞后的情况;规范控制的专业性限制了用户对规范数据的使用,未经过图书馆专业培训的大众往往只能望洋兴叹。如果对规范数据采取简单的拿来主义,这些问题将造成规范数据无法与用户元数据紧密结合,严重影响用户对信息资源的检索与利用。二者的结合必须要找到一个合适的嵌合点。

笔者认为,应借力于网络信息服务的发展对传统规范控制工作进行改造,目的是使之适应不断变化的网络世界,促进网络信息资源的有序化,从而满足用户对信息资源的需求。这是个融合、互动的过程。

(1)将Web2.0的理念植入规范控制工作

Web2.0的核心理念为共建共享。从近年来图书馆在信息服务方面所做的努力与尝试看,主要集中在对图书馆拥有的资源的共享方面,在鼓励用户贡献内容、利用集体智慧方面却完全止步不前。如:全球最大的图书馆联机共建平台——OCLC也主要局限于集中图书馆员的智慧。所以,虽然许多图书馆信息门户使用了Web2.0的工具为用户提供服务,但是往往只是借用了Web2.0的形式,用户仍然只是图书馆资源的受众,而没有真正参与到信息资源的生产过程中,从其实质来说,仍是以图书馆员为中心。尽管传统规范控制工作由于其专业性强,很难实现对用户的完全信任,但是,如果对集体智慧善加引导,吸收其优点,并通过一定规则进行适当的驾驭,一定会对传统规范控制工作的发展起到促进作用,进而完善网络资源的整合工作。因此,应充分利用集体智慧,推动规范控制工作的2.0化,使其与网络信息服务真正地融合在一起。

(2)集中集体的智慧,弥补规范控制工作的缺点,为用户提供精确的导航

规范控制是为用户服务的,只有当用户真正地参与进来,才能够实现规范标目的惯用性原则,为用户提供被公众认同的规范数据,再将之应用于用户元数据的整合与利用。

笔者认为,将用户贡献内容的做法引入规范控制的领域,充分利用集体智慧,吸收用户贡献的内容,作为规范数据的补充,是具有可行性的。设想如下:

①吸收分众分类法,补充主题规范库

分众分类法(Folksonomy)是一个创造词,即Folks+Taxonomy,在维基百科中将其定义为:是指“群众”自发性定义的平面型非层级结构式标签分类,是在标签的基础上由用户群体定义的频率来确定某一信息资源的分类。分众分类法对标签进行了优化和控制,充分体现了集体智慧,相当于文献检索语言中的自由词。

笔者认为,应深入研究网络检索语言,建立一定的规则,对由标签产生的分类进行更严格的控制与深度挖掘,吸收受控的分众分类作为相关主题规范标目的单纯参照。一方面,可以利用集体智慧补充与完善主题规范库,使主题规范更符合惯用性原则,做到与网络同时更新,普通用户在使用上也可以不再受困于其专业性。另一方面,分众分类因嵌入了主题规范,也继承了主题规范已经形成的体系结构,规范统一的主题词将对标签的随意性起到很好的控制作用。

②借鉴Wiki的形式,补充名称规范库

Wiki是指一种多人在网上协同创作的知识共享模式。⑤就某一知识内容,多人参与写作、编辑、维护。Wiki最显著的特点是其开放性、易用性及可扩展性。这些特点也使Wiki存在一些备受质疑的缺点,如:开放性导致用户的权限设置非常宽松,有些用户的编辑可能存在错误,危及信息资源的可信度;由于是多人共同创作,因此内容结构松散等。

尽管有瑕疵,Wiki仍然是一种符合网络发展趋势的知识组织方式。笔者认为,可以将Wiki的形式引入名称规范考证工作。名称规范考证工作指的是当文献信息源本身无法提供可供识别的个人名称信息时,编目员通过对文献信息源之外的其他参考信息源进行查询,获得相关信息的过程。⑥如果能够利用集体智慧,那么将极大地推动名称规范的建设与维护。当然,在用户贡献内容的全过程中应按一定的规则进行必要的控制与规范,使名称规范保持其权威性。包括:适当对用户权限作出规定,如,要求贡献者有相应的学科背景,设立一套制度对贡献者进行信用度评级,并按信用度设立不同权限等级等;设立专门机构,由图书馆员、各学科领域专家对使用Wiki方式建立或维护的名称规范数据随时进行维护。

注释:

①http://www.oclc.org/research/activities/aggregating/default.

htm .[2009-12-1]

②Jehad Najjar,Martin Wolpers,Erik Duva.Attention Metadata:Collection and Management.[2009-05-13].http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.61.7010&rep=rep1&

type=pdf

③Chair's Message of CAMA 2006.[2009-05-20].http://portalparts.acm.org/1190000/1183604/fm/frontmatter.pdf

④黄俊贵.规范控制概说.高校图书馆工作,1999(3):1-8

⑤图书馆2.0工作室编.图书馆2.0:升级你的服务.北京:北京图书馆出版社,2008:131

⑥2005年中文名称规范数据库进展情况简报.[2009-05-20].lib.hku.hk/ccrcd/2-1.ppt

标签:;  ;  ;  ;  ;  

用户元数据初探_元数据论文
下载Doc文档

猜你喜欢