网络时代叙词表的编制与应用,本文主要内容关键词为:词表论文,网络时代论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
[分类号]G254.2
修回日期:2009-03-24
1 我国叙词表编制与研究概况
1.1 叙词表编制概况
在20世纪80年代,我国完成了《汉语主题词表》这样的综合性大型叙词表的编制,各专业领域的叙词表也陆续开始编制和使用,叙词表在我国发展到鼎盛时期。这一时期,叙词表的主要特点表现为纸质印刷版形式的工具书,编制者为图书情报机构的情报专业工作者及具有专业领域知识的研究人员,图书情报单位的专业信息标引人员基于叙词表对数据记录进行标引,图书情报单位的专业信息检索服务人员是叙词表的主要用户,其他用户是经过叙词表使用专业培训的读者,所有这些用户,通过计算机完美地实现了对文献的准确检索,提高了检全率和检准率,这个时代可以总结为图书情报界编制和使用的单机数据库时代。
鼎盛时期的表现是全方位的,出现了以张琪玉为代表的《情报检索语言》大学经典教材[1];各个领域的叙词表也集中在这一时期编制和出版,根据笔者2002年的统计[2]以及2002年以后新增加数据,总体统计我国叙词表的编制情况如图1所示。
图1 我国叙词表编制数量与年代发展趋势
我国的叙词表主要集中在1981年至1995年这十几个年头,共编制了90多部不同规模的叙词表,在数量上产生了一个明显的峰值,占总编制量的74%,而20世纪90年代以后叙词表出版就比较少了。在20世纪90年代初,参照叙词表的国际标准,制订了我国叙词表的编制和使用标准,这就是1991年的GB/T 13190-1991汉语叙词表编制规则[3],1994年的GB/T 15417-1994文献多语种叙词表编制规则[4],以及1995年的GB/T3860-1995文献叙词标引规则[5]。
1.2 叙词表研究概况和发展趋势
从20世纪90年代末开始,随着因特网的迅速发展,网络信息以指数形式增加,虽然这时的网络信息组织也有以Yahoo为代表的主题分类信息检索方法,但主流方式在近几年逐渐发展成为谷歌、百度方式的以关键词索引为主的全文检索方式,这种方式存在严重的检全和检准问题。这就引发了检索领域研究人员的重新思考,即过去用于图书情报机构数据库检索非常成功的叙词表,可否在网络时代同样可以发挥重要的作用?这样,在近几年,对叙词表的研究探索又多了起来,一些是将叙词表转化为本体等在网络时代知识组织系统中发挥作用,例如对中国农业科学叙词表的转化工作[6];另外一些是对叙词表全方位进行改造和升级,使之在网络时代重新焕发新的生命活力,我们课题组目前正在进行此方面探索研究工作。
本文统计了近几年发表的叙词表相关的研究论文数量,图2是利用“中国学术文献网络出版总库”统计的叙词表研究和应用的文献增长量及趋势,计算方法为统计所有在标题或关键词处含有中英文叙词表的文献数,可以看出,从1991年到2002年,每年叙词表相关的研究文献基本没有增长,可从2002年开始,有关叙词表的研究文献总体呈上升趋势,可见,在网络时代,叙词表的研究和应用又逐渐升温,成为网络信息组织和检索的一支强劲力量。而且,传统意义的叙词表在我国一些机构得到了持续的维护和发展,标志性产物是一些新的国家标准和行业标准的诞生,例如GB19486—2004电子政务主题词表编制规则[7]、GTB5098—2004军用电子叙词表编制规则等相关标准的出台。
图2 我国叙词表研究领域按年代统计的论文数量趋势
与国内情况不同的是国际上一些主流的数据库,随着因特网的发展,不断改进和提高叙词表在网络数据库领域的信息组织和检索能力。例如世界三大农业数据库之一的联合国粮农组织数据库AGRIS[8],其网络版农业多语种叙词表AGROVOC[9],进行了不断的修订和维护,完全适应了网络数据库的信息标引和检索功能,其他著名的叙词表,例如Mesh医学主题词表[10]、LCSH国会图书馆标题表[11]等都在网络时代发挥着重要的作用。2005年美国发布了新的叙词表国家标准[12],叙词表相关的国际标准也在2008年出了讨论稿[13],可见,叙词表在网络时代新的发展在国际上正在稳步推进。
2 网络时代叙词表的编制和维护
2.1 网络时代叙词表的编制
2.1.1 在概念术语选用方面具备了科学依据和数据支持 过去叙词表概念术语的选择,主要由领域专家人工确定,虽然也要考虑文献覆盖、使用词频等因素,但由于当时计算机应用普及程度低、无法获取海量的信息语料,造成了在实际操作中无法准确地获取文献覆盖、术语词频等数据,实际结果往往为领域专家决定了术语的选取数量和具体词汇,因为人为因素占的比例大,所以出现了同一领域不同专家选用的术语不一致,导致叙词表的应用存在偏差和阻力。在网络信息环境下,我们具备了万方数据、重庆维普、CNKI等这样的大型文献语料库,具备了谷歌、百度这样可以搜索因特网上主要信息的网络搜索引擎,而且可以通过日志获取用户使用检索词汇的种类和频次,所有这些语料,为叙词表编制中基于概念覆盖、基于词频统计、基于用户使用的关键词来选取规范的概念术语提供了可能。我们统计了万方数据和重庆维普1989年至2008年所有收录期刊论文的关键词,经过去重以后,关键词数量约为611万个,而且这些词还具备所处期刊、文章、中图分类号等多种语料信息,可见,仅关键词一项语料资源就可以进行大量的统计工作,为概念术语的选取提供了数据支持和科学依据。
2.1.2 基于知识关联获取词间关系 在词间关系建立方面,以前的叙词表同样为领域专家建立并确定,由于专家领域知识的个体差异和对叙词表的不同理解,造成领域专家提供的词间关系不一定适合专业叙词表词间关系的正确表达,词间关系以领域专家力图反映领域知识结构为主,体现文献知识真正关联度有一定差异,这样,不利于相关文献的扩检。目前叙词表词间关系的建立,同样可以利用海量的语料,计算机的计算速度和智能程度,也提供了获取概念术语间词间关系的可能。仍然以万方数据和重庆维普的数据为例,在选定了某一领域一定数量的概念术语以后,可以将这些术语两两组合,统计在专业文献的标题、关键词或文摘语料库中的共现频率,通过术语前方一致、后方一致等语言处理,甚至通过垂直搜索统计网络专业信息中的共现频次等多种方法和手段,确定词间关系,通过这些方法,同样为使用计算机建立词间关系提供了可能,同时也从建立词间关系的源头上保证了通过叙词表可以实现相关知识文献的大量获取。
2.1.3 基于网络信息组织需求确定概念术语和词间关系的数量和内容 对叙词表的传统评价或研究,主要涉及主题词与非主题词的比例、上下位分级的深度、相关关系在概念中占的比例等,甚至还有关于纸本叙词表使用便利性方面的指标,例如词间关系全显示还是部分显示?开本多大?同一页上编排了多少可用主题词、行距是多少等[14]。而在网络时代的叙词表,主要用户为计算机系统后台使用,纸本的一些评价指标转化成为网络版叙词表使用的便利性、易操作性、界面美观大方等[15]。更重要的是,在概念术语及其词间关系的建立和应用方面,计算机的应用与人工应用有着本质的区别。人工应用注重概念术语数量的控制[16],所以控制叙词表的规模非常重要,一部中型词表,选用的概念术语大约为1 000到10 000个词汇[17],而计算机应用在概念术语数量控制方面就不是主要问题,主要考虑的是如何找全所有的专业术语,并且给出这些术语之间尽量多的词间关系,这样,就不必区分叙词和非叙词了,只选一个词频比较大的术语作叙词,其他同义词和近义词均可以定义为非叙词,尽量穷尽所有的同义词关系,在一部词表里非叙词的比例将不是传统叙词表的10%左右,而是更多,比如50%,甚至更多。相关关系也将大大超过传统叙词表的指标,平均每个概念或许具有10个甚至更多的相关关系,主要决定于通过计算机聚类和关联分析获得了多少相关关系。由于计算机在识别上下位关系方面没有明显优势,更多的是由领域专家来建立,所以在网络时代,叙词表的上下位关系可能减少,在网络环境下的叙词表,对词汇数量控制已不是第一位问题,主要精力应放到如何抽取完整范围的概念术语以及全面的概念关系。
2.1.4 标准的数据格式及可视化的编制和应用界面 网络时代的叙词表,使用标准的数据格式,利于不同系统、不同操作平台的数据转换和数据利用。目前已经使用的一些语言,基本可以表达叙词表的数据内容,例如有人使用SKOS的数据格式[18],或者使用OWL格式的数据[19]。这些语言都与具体的系统分离,可以单独表达词汇概念及词间关系,机器可以读懂其中的知识结构和知识体系。在叙词表的编制和应用中,可以编制网络可视化系统,清晰表达各类知识结构层次关系,可视化系统表现在编制、维护、应用等多个方面。在编制方面,系统支持在网络环境下不同地域的叙词表编制者同时在一个网络平台上工作,不同编制者上传的数据和词间关系,既可保留编制者的数据信息,也可展示所有编制者共同工作的集成成果,而且主要编制工作过程也在网上实现可视化,通过图形清晰表达概念及词间关系,通过拖动、链接、合并等界面简单操作,随时提出概念及词间关系的建立或修改建议,其他编制者也可在网上同步显示相应的工作过程及结果。
2.2 网络时代叙词表的维护
无论是传统的叙词表,还是网络时代的叙词表,叙词表的维护是叙词表使用的生命。所以,网络时代的叙词表同样需要进行定期的维护,随着信息技术的发展,这种维护可以实现缩短周期、增加科学性、实用性等多种功能。
首先是词汇和词间关系的更新。包括对新词的发现和选用、现有词汇随着语言发展的不断规范和校正、停用那些随着时代发展已经逐渐失去标引功能的概念术语等工作。无论是新词的选用、还是现有术语的更新,都需要建立相应的规范和机制,符合叙词表编制时遵循的理念。
其次是维护制度的建立。在叙词表编制理念的基础上进行词及词间关系的维护,还必须有相应的程序和制度方面约束,使得叙词表的维护工作走向规范化和可持续化。这些工作包括用户提供建议候选词汇的方式和途径,确定使用词汇的程序和机构,停用词汇的时间记录和数据表现格式,叙词表修订的周期,纸质版本与电子版本的更新周期与表现方式,如何使用一些自动工具或使用哪些标准的工具发现新词和词间关系等,都需要制度化、规范化,才能保证一部叙词表的可持续发展。
维护工作也应在网上进行。维护系统至少应该包括以下两个方面的设计,即普通网络用户或专业标引人员都可以非常便利地在网上提出新增概念术语和相应的词间关系,或者上传对现有术语的修订意见,设置公共讨论区。
3 网络时代叙词表的应用展望
在网络时代,基于网络信息特点重新编制和修订的叙词表,仍然是一种图书情报领域信息组织/知识组织的重要基础工具,主要应用领域包括信息标引与检索、学科分类导航、机器翻译、语义网络、语料词库切词等方向,也会与标准数据协议、映射或互操作、用户可视化服务、主题图、向本体转化等多种重要信息技术直接相关。
3.1 标引与检索功能的加强和发展
事物发展一般具有延续性,叙词表的传统检全和检准优势,使其在一些领域仍将保持持续的应用。欧美等国家对叙词表的应用比较系统,美国国家标准“Z39.19-2005”收录统计了欧美各国在网络环境中使用的分类表、叙词表、术语表、词典等共计500多部,表现出词表编制增长、电子版网络版增加、维护更新频率加快等发展趋势[12]。多数大型的数据库,为了保证检全和检准结果,仍然进行人工标引,使得相应的叙词表得到系统的维护和使用。在国内,由于人工标引增加了数据加工成本,网络环境下普通信息用户对叙词表比较陌生,所以,多数图书情报机构在数据加工环节中放松了对叙词表的应用,甚至停止了人工标引,直接使用作者提供的关键词进行数据加工。但是,一些机构,例如军队系统,仍然在使用和维护着叙词表,保持着人工或机器辅助标引及检索的应用。叙词表的传统使用方式不会完全消失,在一些条件允许的领域,将会得到持续使用。在发展方面,本课题组正在利用叙词表对没有经过叙词表标引的网络信息进行智能检索、排序、聚类等研究,部分成果见本专题的“基于叙词表的概念语义相似度计算”一文。
3.2 映射与跨语言检索
在网络环境中,信息资源分布式存储,而且不同数据其格式标准和交换协议不同,所以信息系统的互操作将是数字环境中需要重点研究并解决的问题。如何实现对使用不同叙词表标引的数据库的跨库检索?叙词表的合并或映射将是一个重要渠道。通过相近专业叙词表的映射,不仅可以实现不同数据库的跨库检索,如果是不同语种的叙词表,还可以实现跨语言检索的功能。2007年,课题组已实现了将中国农业科学叙词表的全部6万多个概念与联合国粮农组织的多语种叙词表AGROVOC进行映射,使用了国际标准映射方法,任何系统均可通过通用的格式读取和利用相关映射信息,基于映射数据,可开发跨语言检索系统[20]。
3.3 叙词表可视化的用户服务
网络时代叙词表的用户主要是广大的直接具有信息需求的用户,将叙词表的知识组织功能、知识导航功能等,通过可视化技术进行表达,实现网络叙词表的可视化,将相关的隐性知识进行可视化展示,帮助普通用户很容易地实现对叙词表的专业化使用,在用户检索中,当用户使用自己提供的关键词或自由词检索效果不理想时,机器可以自动提供叙词表的辅助检索功能,借助可视化功能,使用户很容易使用叙词表,当用户经过一定时间的体验,使用叙词表实现检全和检准的功效后,叙词表的主要功能就会得到承认,叙词表也就随之得到广泛的应用。
3.4 叙词表向本体转化
向本体转化是叙词表应用的发展方向之一,是叙词表自身的发展和提高。鉴于本体和叙词表都有表达领域知识的功能、都具备对数字资源进行知识组织的能力,以及人类对领域知识的积累和再利用特点,近年来在国内外出现了大量的将叙词表转化为本体的研究和探索,国内较早的研究例如将中国农业科学叙词表转化为本体的研究[6],近一两年的叙词表转化为本体的研究报道更是呈直线上升的趋势,只要在万方数据等数据库中检索同时含有“叙词表”和“本体”主题的研究论文,就可以检到大量的相关研究报道,可见,将叙词表转化为本体也将是叙词表的重要发展方向之一。
4 结语
在网络时代的叙词表,同样可以发挥检全和检准的主题法优势。在叙词表原理不变的前提下,网络时代的叙词表,无论是编制方面,还是使用方面,都将发生显著的变革:编制方面,主要特点表现在术语抽取的数量和方式将更加符合数字资源的规模和主题,词间关系的建立方法主要来自于海量专业数字资源具备的知识结构,海量信息语料的利用将成为可能,叙词表编制将更加依赖计算机及相关的信息技术的应用,编制和维护周期明显缩短等等;应用方面,主要表现在以计算机的自动标引为主,人工使用为辅的特点,用户从专业检索人员转变为大众化的领域科技人员,叙词表表现形式将主要为网络环境下的计算机数字界面,词间关系或检索过程可实现全程的可视化等。随着大众化的领域科技人员对专业信息检全和检准的需求不断提高,叙词表将在网络时代重新焕发出新的生命活力。网络时代叙词表的应用将主要集中在机器自动标引与智能检索方面,这是这一领域将来进一步努力的方向。由于我国对叙词表的编制和使用在经过一个低潮阶段以后,直接研究和探索以机器应用为主的网络时代叙词表新的编制和应用,而国外的应用仍然以人工标引为主,这样,我国相关的研究和应用有可能获得后发优势,新型叙词表的编制和应用突破有可能在我国诞生。