国外网络同义词库的现状及发展趋势_主题词论文

国外网络叙词表的现状调查及发展趋势,本文主要内容关键词为:词表论文,发展趋势论文,国外论文,现状调查论文,网络论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

1 引言

对于网络叙词表的定义至今尚未形成共识,如Maconi在“循证检验医学(Evidence based Laboratory Medicine)”项目研究中指出“这种电子叙词表是应用MASPT技术和JAVA语言开发的,能借助Web浏览器进行访问,可在临床医学科学协会(SIMeL)的网站上获取[1]”;Neveol指出“网络叙词表能够将语义信息和领域专家知识联系在一起[2]”,Joma还提出“网络叙词表应该是基于语义关系的[3]”;司莉、陈红艳指出“它是以传统叙词表构建原理和原则为准则,通过定义词汇的范围和含义,运用等同、等级、相关等关系揭示词汇之间的关系,并用超链接的方式予以显示;借助Web浏览器介质进行访问[4]”。

在借鉴以上学者所提出定义的基础上,笔者认为网络叙词表是遵循传统叙词表的结构与原理,使用超链接显示概念及其间关系,借助Web浏览器进行访问,用于网络信息资源标引、浏览、检索与导航的一种概念语义工具。按照存在格式可分为TXT、静态HTML、动态HTML、XML等类型;按照应用形式可分为独立于和内嵌于信息检索系统两种类型。

2 国外网络叙词表现状调查

网络叙词表在组成上与传统叙词表没有大的差异,但其在生成和实现方式上有其自身特征。笔者主要通过Taxonomy Warehouse网站,按类别选取叙词表,共调查统计英文网络叙词表108个(调查时间:从2010年7月至10月31日),逐一打开词表网站,主要从其应用形式、学科主题范围、编制语种、使用方式与应用范畴等五个方面进行统计分析。

2.1 网络叙词表的应用形式

根据网络叙词表的应用形式,可将其分为独立式和嵌入式两种,独立式是指叙词表不属于任何检索系统或数据库,不与任何资源链接,仅供词汇选择使用,一般是通过浏览选择检索词。嵌入式是指将叙词表集成到数据库或检索系统,通过浏览可以直接链接到相应的资源[5]。调查结果显示,在108部网络叙词表中,21部(占19.4%)有自己独立的网站,如《世界银行主题词表》(The World Bank The saurus)、《公共健康信息主题词表》(Public Health Information Thesaurus)、《液体水晶研究与应用术语汇编》(Thesaurus for Liquid Crystal Research and Applications)、《职业安全与健康主题词表》(CIS Occupational Safety and Health Thesaurus);87部(占80.6%)是嵌入相应数据库或挂靠某网站的,如嵌入到Free Medline中的《医学主题词表》(MeSH),集成到美国教育信息资源中心主题网关的《教育主题词表》(ERIC Thesaurus),应用于英国数据档案主题网关的《人文社会科学电子叙词表》(HASSET),挂靠在国家刑事司法参考服务(NCJRS)网站的《国家刑事司法主题词表》(National Criminal Justice Thesaurus)等。

2.2 网络叙词表的学科主题范围

调查结果显示,网络叙词表的主题呈现出多元化、综合化特征,既有单一主题领域的词表,如《交通研究叙词表》(TRT)、《地理名称术语汇编》(TNG)等共有45部(占41.6%),也有多学科领域的词表,如《美国农业图书馆叙词表》(NAL Agricultural Thesaurus)、《澳大利亚公共事物信息服务叙词表》(APAIS)等共48部(占44.4%),另外,还有《澳大利亚政府互动功能叙词表》(AGIFT),《国会图书馆叙词表》(Library of Congress Thesauri)等综合类的网络叙词表15部。

2.3 网络叙词表的编制语种

在开放获取的网络环境下,随着信息交流的日益频繁,用于标引与检索的多语言叙词表,可为用户跨语言信息交流提供支持,成为当前网络叙词表发展的方向之一。调查结果显示,87部(占81.5%)的网络叙词表采用英文编制,两种或两种以上语言的网络叙词表有24部(22.0%),其中,采用7种以上语言编制的网络叙词表有9部,如适用于英语、丹麦语、法语等7种语言的《数学主题词表》(Maths Thesaurus),《粮农组织农业术语汇编》(AGROVOC Thesaurus)则是由中文、英语、法语、西班牙语、葡语等16种语言编制而成,欧盟《通用多语种环境主题词表》(GEMET)采用包括英语、德语、法语、葡语、俄语、希腊语等18种语言编制而成,《欧盟多语种叙词表》(EUROVOC)则多达21种,包括保加利亚语、西班牙语、捷克语、丹麦语、德语、爱沙尼亚语、希腊语、法语、英语、意大利亚语等。

2.4 网络叙词表的使用方式

网络叙词表的用户界面主要涉及浏览页、检索页及结果显示页,其界面的易用性、友好性和交互性,将会直接影响到用户使用词表的心理与行为。

调查显示,78部(占72.2%)网络叙词表支持关键词检索,其中,《澳大利亚土著和托雷斯海峡岛民研究术语表》(AIATSIS Thesaurus)等8部支持前匹配、后匹配或全匹配的截词检索,《健康主题词表》(Health Thesaurus)等47部(占44.5%)支持精确检索(提供日期、词间关系、范围、语言等不同条件的选择),《国家刑事司法词主题词表》(National Criminal Justice Thesaurus)等6部支持布尔逻辑检索。80(占74.1%)部分别提供不同形式的浏览功能,以A-Z字顺浏览方式的有57部(占71.2%),23部(22.8%)采用主题浏览、等级浏览、KWOC及KWIC 等不同方式。其中,30部(占27.8%)只具有浏览功能,如以txt格式显示供字顺浏览的《联邦登记册索引术语汇编》(Federal Register Thesaurus of Indexing Terms),首页只有字顺浏览索引的《佛罗里达州在线环境叙词表》(Florida Environments Online Thesaurus),而《交通研究叙词表》(TRT)可提供等级、字顺、KWOC、KWIC等4种浏览方式。详见下表:

调查还显示,有53部(占49.1%)网络叙词表是集浏览与检索于一体的,如《英国教育主题词表》(British Education Thesaurus),其首页的右栏是关键词检索界面,右下角为字顺浏览入口;《应用生命科学叙词表》(CAB thesaurus),其首页的右侧是精确检索界面,中间部分是字顺浏览与主题浏览界面;《艺术与建筑叙词表》(AAT),在其主页关键词检索与等级浏览入口分居其中部上下;25部(占23.1%)仅有检索功能,如《教育在线主题词表》(SCoT),其首页上只有关键词检索入口及高级检索入口,《联合国区域间犯罪和司法研究术语汇编》(UNICRI Thesaurus),其首页只有关键词检索入口。另外,界面也显示除不同的服务项。调查显示,97部(占89.8%)网络叙词表词汇间建立了超链接,其他的11部是静态的HTML或TXT格式。此外,有8部叙词表提供pdf或xml格式下载服务,有17部允许用户通过邮件推荐修改词汇。还有11部网络叙词表分别提供RSS、Wiki、FAQ等不同形式的服务,具体见:

2.5 网络叙词表的应用范畴

(1)用于传统文献的词标引与检索

通过在线浏览与检索叙词表即可实现对实体文献的标引与检索,标引人员可以查阅规范叙词进行标引,检索人员可以查询规范叙词进行检索[6]。调查显示,有72部(占66.7%)网络叙词表用于图书馆、博物馆或某机构文献的标引与检索,如用于美国善本书目及特色馆藏编目的《美国善本书目与特色馆藏叙词表》(A Thesaurus for Use in Rare Book and Special Collections Cataloguing),用于联合国区域间犯罪和司法研究所(UNICRI)图书馆文献标引与检索的《犯罪学叙词表》(Criminological thesaurus),用于标引与检索英国档案文献的《英国档案叙词表》(UKAT),用于加拿大广播电视委员会文件标引的《加拿大广播电视与通讯委员会术语汇编》(CRTC Thesaurus)。

(2)用于网络资源的标引与检索

网络叙词表应用于网络数据库,一方面帮助标引人员对该数据库文献进行准确一致的标引,另一方面有助于用户精确检索。调查显示,有27部网络叙词表用于数据库资源的标引与检索,例如,可直接标引与检索网络信息资源的《世界银行主题词表》(The World Bank Thesaurus),用于Viikki科学图书馆文献数据库(eViikki)信息检索的《农林叙词表》(AGRIFOREST Thesaurus),用于国家数字典藏数据库信息浏览与检索的《英国国家数字典藏资料主题词表》(NDAD Thesaurus),嵌入并应用于标引与检索美国教育信息资源中心主题网关的《教育信息资源主题词表》(ERIC Thesaurus),应用于英国数据档案主题网关的《人文社会科学电子叙词表》(HASSET Thesaurus)。

(3)与搜索引擎的链接

网络叙词表直接与搜索引擎相链接,辅助用户选择精确的检索词,便可直接以选用的叙词表术语作为检索词查寻搜索引擎。调查显示,有9部网络叙词表可自动链接到Google或Yahoo检索框,在该环境下进行检索。如《世界银行主题词表》(The World Bank Thesaurus)、《加拿大文学叙词表》(Canadian Literacy Thesaurus)、《应用生命科学叙词表》(CAB thesaurus)等可直接链接到Google和Yahoo检索框;《犯罪学叙词表》(Criminological Thesaurus)、《洛杉矶综合书目数据库主题词表》(LACDBT)可直接与Google相连接。

3 国外网络叙词表的发展趋势

网络叙词表的发展需要不断优化其显示与控制功能,实现更好的人机交互。一方面要利用可视化、本体等技术,实现叙词表可视化与易理解,满足语义网环境下知识组织与管理的功能需求;另一方面,网络叙词表必须结合人类心理与行为,重视人性化设计以及“拟人化”服务,才能有效发挥其功能与效果[7]。

3.1 更新方式智能化

网络叙词表采用的是基于概念的建模方式,可以充分实现自动构建、自动丰富与更新、自动标引、知识发现等。例如,在2010修订本中《医学主题词表》(MeSH)自动增加H1N1等病毒学方面的新词汇,除此之外,《医学主题词表》(MeSH)通过共词聚类分析实现新词汇自动替换旧词汇[8]。究其本质即是从已标引语料中挖掘新词,通过分析它们和标引词间的关系,确定新词所对应的规范词,最终将新词作为对应规范词的下位词添加到词表中[9],实现网络叙词表的自动更新。

3.2 互操作

网络叙词表的互操作主要解决多语言与多个词表的兼容问题,多语言叙词表是解决跨语言检索的主要方法,如《粮农组织农业术语汇编》(AGROVOC Thesaurus)允许16种语言跨语言检索,《通用环境多语种叙词表》(GEMET)则允许可使用18种语言检索叙词表款目,显示所选中语言及对应的其它语言的词汇。在解决多个词表兼容问题方面,《澳大利亚教育术语汇编》(Australian Thesaurus of Education Descriptors),用户通过点击其网站的“LINK”按钮,即可与《英国教育叙词表》(BET)、《加拿大文学叙词表》(CLT)、《欧盟教育叙词表》(EET)、《教育在线主题词表》(SCoT)、《新西兰学科主题网关》(SONZ)相链接;《国家古迹记录词库》(National Monuments Record Thesaurus)通过集成的方式将《NMR飞机型号词库》(NMR Aircraft Type Thesaurus)、《NRM主要建筑材料词库》(NMR Main Building Materials Thesaurus)等七部网络叙词表集成一体,各词表之间可以相互链接;《国会图书馆叙词表》(Library of Congress Thesauri)通过识别《法律词汇索引》(LIV)、《图形资料叙词表I》(TGMI)及《图形资料叙词表II》(TGMII)词表的等价词及准等价词,建立词汇转换系统,通过GLIN实现词表的兼容互换。

3.3 可视化

利用可视化技术将网络叙词表的概念及其关系以图形方式展开,便于用户进行检索词的准确定位,同时也符合人类“形象化”式认知思维。伦敦商学院开发的《商业研究分类或主题词表》(London Classification/Thesaurus of Business Studies)以同心圆形式形成的一个概念网络空间(见图1),《思维导图》(TVT)以三维动态语义网形式显示概念及其间关系,用户在概念和关系的引导下,可以很快找到所需词汇,同时还提个性化定制等功能。这些网络叙词表都是将语言、文字和虚拟信息转化为视觉呈现的信息,包括人物、图像、色彩、结构以及基于上述内容的页面布局,信息可视化可增强信息的生动性、易读性和表达性[10]。

图1 《商业研究分类或主题词表》概念网络空间图

该同心圆表示,选中词E-commerce(红色标识)一词,其相关词(玫瑰色标识)为Digital enterprise、Electronic distribution、Internet services、Internet marketing,其上位词(绿色标识)为Business enterprise与Internet。另外,点击E-commerce,可以文本形式显示其定义注释、词间关系、同义词与分类号。

3.4 本体转化

叙词表和本体两者有很多相似之处,都为学科或以自然语言建立的概念和术语提供一套构建框架,叙词表提供的是词汇以及词汇间结构化关系。本体除提供这些内容外,还提供语义关系与其它的关于概念及其关系的信息[11],能提供更完善的知识表示和基于此的强大推理功能。调查结果显示,国外一些叙词表已实现向本体的转化。如美国国家癌症研究所的《国家癌症元词表》(NCI Metathesaurus)已经实现OWL版本,阿姆斯特丹大学的Wielinga等将《艺术和建筑叙词表》(AAT)转换为本体;联合国粮农组织将规则进一步细化以丰富词间关系,并增加推理规则,同时借助计算机程序,将原来编好的叙词表中的词抽取出来,按照一定的转换规则将《粮农组织农业术语汇编》(AGROVOC Thesaurus)表示成本体[12]。网络叙词表本体化,既保持科学的延续性和继承性,也是其在语义网环境下的发展方向之一。

3.5 Web2.0技术的应用

当前,在以Blog、Tag、SNS、RSS、Wiki等应用为核心的Web2.0环境下,用户参与、注重互动、集体智慧、共建共享是Web2.0的重要特征。网络叙词表也开始引入Web2.0技术,用于词表的更新与维护以及与用户的互动。调查结果显示,《通行多语言环境叙词表》(General Multilingual Environmental Thesaurus)、《健康主题词表》(Health Thesaurus)等7部网络叙词表提供RSS服务,《STW经济学主题词表》(STW Thesaurus for Economics)提供WIKI服务,《生物多样性术语汇编》(Biocomplexity Thesaurus)提供SKOS化的Web服务模型,《犯罪学叙词表》(Criminological thesaurus)的检索界面上有tweeter等微博服务。这表明,在更关注用户协同参与的Web环境下,网络叙词表的构建需要由面向组织的信息标引转向用户的信息检索,由面向单一服务转向面向多元服务,提供RSS、BLOG等个性化服务。

4 结语

曾任国际图联(IFLA)标引与分类法委员会主席的曾蕾认为:“在我们的网络时代迈向下一代互联网-语义网的进程中,知识组织系统的发展和应用再一次走向高潮。”网络叙词表是一个“不断生长的有机体”,凭借Web技术、本体等可以充分实现其自身的智能化,同时也要借鉴人机交互、认知心理学等理论实现其人性化功能与效果。本次调查的网络叙词表主要是来自于Taxonomy Warehouse,调查样本还存在一定的局限性。同时,调研中笔者发现对网络叙词表的性能、构建标准研究在国内外尚少,亟须深入研究。

标签:;  

国外网络同义词库的现状及发展趋势_主题词论文
下载Doc文档

猜你喜欢