知识组织中著者自建元数据的可行性研究,本文主要内容关键词为:著者论文,可行性研究论文,组织论文,知识论文,数据论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1 知识组织中著者自建元数据可行性
知识组织中著者自建元数据是否可行?在回答这个问题之前,我们要先明确两个背景:
1)随着知识组织中员工和管理部门越来越倾向于使用Web作为发布重要信息的主要场所,组织Web站点的规模日益扩大, 传统的基于统计与语义的搜索引擎的效率也会下降。为了帮助组织员工及外部用户能有效的定位所需资源,提高组织资源的可获取度(资源的可获取度是知识管理的重要内容),组织必须发展一整套提高资源可获取度的办法。
2)通过在组织中实行元数据计划,也就是通过在组织Web资源中嵌入结构化的元数据,并安装元数据搜索引擎,来提高组织资源的可获取度,不失为一个上佳的解决方案。
元数据计划作为组织知识管理的一部分,对改善组织的知识结构和提高组织知识资源的可获取度具有十分重要的意义。但是在目前,很少有组织在实行元数据计划时考虑让著者参与其中[1]。我们认为, 造成目前这种情况的主要原因是:
1)组织没有实行足够的对著者进行元数据加工培训的项目, 或者根本就没有意识到这个问题。造成这种现象的原因除了有限的行政支持以外,资金、人才或培训场地的不足也是可能的原因。
2)著者没有认识到自己参与元数据计划的可能与意义,相反, 他们可能还认为必须对自己的工作结果进行元数据加工是一种无聊的行政命令或没有收益的乏味工作而不愿意参与。
3)对实施经费、实施时间、元数据记录质量的考虑, 专业元数据加工者(如标引人员、索引人员等)当然是最理想的人选,但是聘用他们费用比较昂贵,同时,知识著者必须先将其创造的资源提交给元数据加工者。而且,著者自己加工元数据,可以为组织实施和维护元数据计划节约大量的经费,而组织可能会误认为他们加工的元数据质量难以控制,因而不愿考虑,其结果势必降低组织知识资源的可获取度。
本文认为,著者应该也可以参与组织的元数据计划,他们能帮助组织实施和维护元数据计划,他们在组织环境中可以成为很好的元数据加工者。因为著者对其从事的工作比较熟悉,他们希望其工作成果得到他人的肯定及引用,同时他们也了解其工作成果的潜在使用者的分布范围,这样他们就能够很合适地描述其工作成果。我们相信,通过在组织站点中提供一些交互性网页及简单的指导,Web资源著者完全可以创造出高质量的元数据[2]。
为了证明我们提出的这个观点,即知识组织中著者自建元数据是可行的,我们必须对下面三个问题作出肯定的回答,即:
1)著者能创建可用的DC元数据吗?
2)著者对元数据及创建元数据有什么期望和看法?
3)什么样的Web网页及组织环境能帮助著者创建元数据?
2 NIEHS实验:对著者自建元数据可行性的一个尝试性研究
实证总是对问题最好的解答。目前,在国际上有一些数字图书馆出于Web资源快速增长及雇佣专业元数据加工者处理资源费用高昂的考虑,已经开始尝试支持著者加工元数据,如National Digital Library of Theses and Dissertations (NDLTD)(http://www.ndltd.org/) and the Synthesis Coalition's National Engineering Education Delivery System(NEEDS) digital library for engineering education (http://www.needs.org/engineering/)。这些站点都提供了一些交互性网页以帮助著者在提交文章、报告及课件时产生完整准确的元数据[3]。
为了更进一步地证明著者自建元数据的可行性,下面我们将分析在National Institute of Environmental Health Sciences'(NIEHS)中进行的著者创建可用DC元数据的实验,这个项目是NIEHS元数据项目的一个辅助项目,其目的就是研究并证明著者创建元数据的能力,并研究如何创建一个有利于著者创建高质量元数据的环境。
NIEHS创建了一个实验来收集著者创建的元数据并对其内容进行评估,另外还进行了两项调查,一个用来收集参与者的背景资料,一个用来收集参与者创建元数据后的反馈意见。这些调查数据将在后面的数据分析中用到。
在NIEHS计算机培训中心进行的一小时的实验中, 参与者在前半个小时主要是完成前面提到的背景调查表,以了解元数据的基本概念和NIEHS站点提供的DC元数据提交表(见图1)。NIEHS的DC元数据提交表基本上基于DC-Dot Dublin Core元数据编辑器(http://www.ukoln.ac.uk/metadata/dcdot/),同时也反映了NIEHS的元数据规范。之所以在NIEHS元数据计划中采用DC, 主要是因为它支持著者自建元数据及多信息系统间的资源共享及交互。
图1 NIEHS的DC元数据提交表
在后半个小时的实验中,参与者通过DC元数据提交表提交自己的工作成果并产生元数据。在完成提交后,参与者接着完成了一个反馈调查表。
该试验的最后一步是内容审核,两个专业元数据工作人员将审核这些元数据记录的可用性。所谓可用,是指一个元数据记录在专业元数据工作人员看来不用经过任何修改就可以在数据库或Web 资源头部中直接加以应用。如果希望著者自建元数据能对组织元数据计划有所帮助,这些元数据记录就必须是可用的。这是必须把握的一个原则,否则组织站点的资源可获取度反而会下降。
接下来,我们将对NIEHS中的实验数据进行分析, 以回答研究开始时提出的三个问题。
参与实验的六位著者在NIEHS主要从事科学研究和政策研究, 其教育水平从学士到博士不等,其中四位每天都上网查询资料,一位一周一次,一位一月一次,他们以前都没有接触过元数据这个概念,半数参与者有过编辑HTML文档的经验。这六位参与者一共创建了11项元数据记录。
DC元数据提交表保证了著者产生的元数据记录包含了HIEHS 元数据格式中必备的12项元素:即出版者、版权(这两项是固定的,在提交表格时自动加入元数据记录)、标题、适用读者群、著者、主题、创建日期、修改日期、URL、语种、类型及格式。同时DC 元数据提交表还提供了几个可选字段,表1显示了这六个参与者对这些字段的使用情况。
表1 可选元数据元素创建统计
Metadata element No.of records with this metadata
Alternative title 3
Description1
Source 2
Other identifier
0
Coverage
2
NIEHS number
1
Relation
6
接着,几位专业元数据工作人员参与了在线评估,对这些记录进行了评估(评估调查表见图2)。
图2 评估调查表
评估表按照NIEHS元数据规范(12个必备字段、7个可选字段),对著者创建的元数据记录的每一字段的质量进行了评估,其评估结果见表2。
表2 评估结果
Metadata elementNo.of records % accepted
URL1111(100%)
Author/contributor 1111(100%)
Title 119(82%)
Alternative title 3 2(67%)
Subject118(73%)
Date created
1111(100%)
Date modified 119(82%)
Language
1111(100%)
Description1 1(100%)
Type
119(82%)
Source 2 1(50%)
Other identifier
0 0
Coverage
2 1(50%)
NIEHS number
1 0
Relation
6 6(100%)
Format 1110(91%)
Audience
1111(100%)
表2 显示,大体上来说,参与者创建的元数据元素是可用的。这其中主题元素是特别值得注意的。原因之一是,主题元素是许多组织采用人工标引而不使用自动标引技术的最关键性的因素,因为它最能反映资源的本质;另一个原因是,缺乏主题分析方面培训的著者能否创建适当的主题词来反映其工作成果,这是非常关键的,因为如果不能证明这一点,我们就不能保证著者创建的元数据记录的可用性,就不能保证这些记录能够帮助组织提高资源的可获取度。
对主题元素的评估主要是考虑其所使用的主题词的专指度和泛指度,从评估结果(73%可用)来看,著者基本上都可以用适当的主题词描述其作品。在最后的总体评价中,评估者认为所有的11条记录都做得相当不错,其中4条记录(36%)需要对有些元素进行比较明显的改动,6条(55%)只需要做极小的改动,1条完全不需要改动。考虑到参与者以前没有从事过元数据方面的工作,以及随着对这方面工作经验的积累,其加工的元数据记录的质量会越来越好。评估者认为,著者自建元数据是可用的,它们能够帮助提高组织资源的可获取度。至此,我们可以对文章开始时提出的第一个问题做出肯定的回答:即著者能够创建可用的元数据记录。
下面,我们对完成提交后进行的反馈调查的结果进行一分析。这个调查的目的主要是了解著者对元数据工作的看法以及对改进DC元数据提交表的意见,表3显示了反馈调查的统计结果。
表3 反馈调查结果
调查内容调查人数调查结果
创建元数据的难易度
(从1到5表示难度递减) 64.7
创建元数据的价值
(从1到5表示价值递增) 64.0
著者第一
谁应该参与元数据的 Web维护人员第二
创建工作 6 图书馆员第三
部门领导第四
DC元数据提交表的易用性6 5个认为简单实用,
一个认为一般
DC元数据提交表的帮助系统 6 都认为有一定的帮助
这里要强调一下,在谁应该负责元数据的创建工作的问题上,所有参与者都认为著者应该是第一位的,其理由是“著者了解自己的工作和对应的读者群”、“著者和图书馆员最了解主题以及用户搜索模式”等。
在调查中,参与者还提出了一些改进DC元数据提交表的建议,包括对如何控制主题词专指度和泛指度的更详细的帮助、元数据字段的示例以及“Type”元数据字段更详细内容。这里我们注意到,与提到的这些建议相关联的元数据字段都是参与者容易发生错误的字段。因此,我们可以进一步相信,一个改进的元数据提交表能进一步提高著者自建元数据记录的质量。至此,我们也回答了文章开始提出的第二和第三个问题,那就是,著者认为元数据工作比较重要,自己应该参与元数据的创建工作,而且通过适当交互式网页,著者就可以完成这一工作。
3 NIEHS实验的意义及价值的讨论
3.1 NIEHS实验的意义
这项研究显示:在知识组织中,参与实验的著者能够创建可用的DC元数据记录,其创建的记录只需要很小的修改或者根本就不需要修改;实验中产生的元数据记录也清楚地表示,组织环境中的著者能够创建专业级的可用DC元数据;同时,这项实验也向我们揭示了DC中比较难以处理的元素,这就为我们设计能充分帮助著者创建高质量元数据的交互式网页提供了依据。
虽然这只是一个很小的例子,参与的人数也不多,但是我们认为已经足够用来评估这项实验的价值以及探讨著者参与组织元数据计划的可能性了。11个元数据记录都被评估为可用,以及绝大部分记录只需要极小甚至不需要改动的情况表明,著者是很好的元数据创建者人选,这是我们以往没有认识到的。在研究中,这些著者表现出对自身工作的熟悉,对当前或潜在读者群分布的了解,以及明了对其工作感兴趣的人们会用到的搜索方式,这些都是专业元数据工作人员不具备的。如果从事一段时间的元数据工作,对DC标准中比较难以处理的字段有了更多的经验之后,我们甚至可以期望著者在有些特定字段上能够比专业元数据工作人员做得更好。
尽管比较著者和专业元数据工作人员加工元数据的能力需要更多的参与者并进行更多更复杂的分析,我们仍然可以从这个实验的数据分析(73%的主题词可用)及参与者反馈中推测:某些情况下,著者可以产生不亚于专业人员的元数据。之所以根据主题词来推测,是因为主题词是妨碍或提高信息可获取度的重要元素(主题词是网络搜索的主要途径),如果给予著者更多的帮助和指导,我们相信实验中可用的主题词还不止73%这个数。
虽然实验结果显示著者基本上能够理解Dublin Core, 对可选元数据的使用结果却差强人意(见表1), 这表明著者对这几个字段有理解偏差,这在后续的研究中需要进一步加以观察。
总之,本文通过对NIEHS中进行的著者自建元数据实验的分析, 得出如下结论:
1)著者可以创建质量不亚于专业工作人员的基于Dublin Core的元数据。
2)著者认为元数据能有效提高组织资源的可获取度, 并且他们应该参与对自己工作的元数据化工作。
3)能充分帮助著者了解元数据规范的交互式网页, 是著者将自己工作成果元数据化的有力工具。
也就是说,知识组织中著者自建元数据是完全可行的。
3.2 NIEHS实验的应用价值
NIEHS实验及其研究成果具有重要的理论价值和应用价值。
1)对知识组织来说,著者作为其知识结构的基础单位, 通过参与元数据计划,能更好地将自己的知识融入组织的知识结构体系,也能更清楚地了解组织的知识结构,这无形中就提高了组织的知识管理效率。
2)著者参与元数据计划可以为组织节约一定数量的经费, 缩短组织处理内部资源所需的时间,提高组织的运作效率。
3 )著者参与元数据计划对我国的信息化建设具有重要的现实意义。在政府工作信息化、企业信息化以及学术单位的科研活动中,著者自建元数据可以有效地提高组织的动作效率。
4)这项研究也为网络信息资源的组织管理提出了一个新的途径。 以往,通过专业人员集中标引Web 资源创建元数据来供搜索引擎使用的方法,这样费时、费钱、涵盖的网络资源的范围也有限,同时对最新资源的反映力度也不够。如Yahoo作为网络最大的搜索引擎, 采用的就是人工标引分类的方法,这虽然保证了它的搜索质量,但是这也意味着庞大的经费支出以支持其编辑队伍,而涵盖范围有限、对最新资源反映不够及时,这些问题依然得不到很好的解决。所以我们不妨假设一下,如果能够让著者参与元数据的著录,并通过一系列的服务器群对这些元数据进行实时处理,我们有理由相信,现有的庞大的网络资源将逐步有序化,同时,新资源也会在最短的时间反映在搜索引擎中(前提是保证这些数据的质量,这将是下一步研究的重点),而搜索引擎公司只需要很小的支出;用户也将发现搜索引擎比以前能查找到更多、更准确的知识资源。这对用户和搜索引擎公司来说是双赢的局面。
4 需要进一步研究的问题
这里,我们不得不遗憾地指出,在前面的研究中得出的知识组织中著者自建元数据是可行的这个结论,以及在此结论基础上推论出的一系列应应前景,仍然需要进一步更严谨的实证证明。
之所以这样说是因为:这项实验涉及的样本过小,同时,样本的选取不具备更广泛的代表性,故而其研究结果不能简单地加以肯定及推广。我们需要一个更大的样本,同时样本的分布范围应该更多样化。在下一步的研究中,我们预备从两个方面着手。
1)进一步深入证明知识型组织中著者自建元数据的可行性。 我们将在NIEHS实验的基础上,根据我国的具体国情, 选取国内的一个或多个知识型组织,进一步扩充样本容量,预计目标是组织内有著者资格员工的60%。如果在这种样本条件下著者自建元数据的可行性仍然可以成立的话,我们就完全可以做最后的结论,即知识组织中著者自建元数据是可行的。
2 )我们准备将初步探讨推广到一般性组织乃至互联网环境下的著者自建元数据的可行性。为实现这一目标,我们将设计一个新的实验,即从政府机构、企业、科研机构,以及直接从社会上选取100到200名参与者,在借鉴NIEHS这项实验的基础上, 初步证明一般性组织中著者自建元数据的可行性,同时研究著者自建元数据的优劣势、方式、环境要求、实现难点,以及自建元数据质量和著者背景之间的统计关系。
在对著者自建元数据的研究中,我们认为这其中要注意的重点问题有以下几点:
1)样本的选取和分布要尽量符合统计学样本分布理论的要求, 力求具有广泛的代表性。
2)NIEHS的实验结果的评估是基于元数据专家的评估的,并没有经过实际的知识资源可获取度实验的检验。如果要保证实验结果的现实意义,我们必须要设计一个可获取度实验来检验著者自建元数据对知识资源可获取度的影响。
3)要进一步探讨应用Dublin Core创建著者自建元数据时比较难以实现的元素字段,并探讨如何改进DC元数据提交表,才能帮助著者创造更好的元数据。
4)探讨组织环境与著者自建元数据之间的关系, 研究怎样的组织文化、技术环境及知识结构才能最大限度地发挥著者自建元数据的作用。
5)尤其要注意著者自建元数据对我国的现实意义, 对其在我国信息化工作中的作用做一个初步研究。
标签:元数据论文;