国家科技图书文献中心科技词表的构建与应用,本文主要内容关键词为:词表论文,科技论文,文献论文,国家论文,图书论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
中图分类号:G250.76 文献标识码:A 1 引言 科技信息资源数量的激增及信息服务向知识服务的转变,要求我们尽快提升海量信息的自动处理能力,实现从文献提供向科技对象实体的关联发现、科技热点监测、科技趋势分析等服务的转变,实现从传统检索向知识导航、自动主题聚类、内容相关揭示、自然语言检索和双语查询等的转变。但由于我国长期以来缺乏大规模综合性科技知识组织工具,难以满足外文文献的知识发现、知识关联和知识计算的要求[1]。建设和应用综合性、集成化、工具化的科技超级词表,将为更好地开发利用科技文献资源,加强和巩固国家科技文献信息战略保障水平,提升科技文献服务能力,实现从文献服务向知识服务的跨越式发展提供基础性支撑。 从国际上看,随着21世纪互联网的飞速发展,一些词表开始从单机电子版向网络环境移植,并逐渐被集成到信息检索系统中,如ERIC/HASSET/AAT/UMLS等[2]。词表的发展呈现出网络化、编制模式半自动化与协作化、集成化与本体化、信息组织标准全面升级、专业领域词表发布为关联数据等特点[3]。各类基于词表的应用急剧增多,对网络化,知识化的词表研究逐渐形成热点,重点集中在词汇自动丰富、不同词表间的互操作、基于叙词表构建本体以及通过词表形成领域知识化服务等方面。此外,互联网服务商开始建设类似百度词条、维基百科等以用户互动为基础的知识组织体系,以全新的模式对传统词表的建设和应用提出了挑战。 我国的词表建设也经历了相同阶段,代表性的成果有《中国分类主题词表》、《中国图书馆分类法(R类)与医学主题词表(MeSH)对应表》建设映射系统,并在中文医学文献主题标引中应用。北京大学、清华大学等单位研制了语义知识库、标注语料库,以实现计算机对文本内容的理解。一些学者也对传统知识组织体系在语义网环境下的发展和应用进行探索,如:用OWL表示《中国分类主题词表》,叙词表的RDF表示方法等。总体来看,我国的词表建设和应用规模较小,由于缺少大规模、综合性科技词表,尚无法支持我国科技文献信息机构进行知识组织和知识服务。 NSTL超级英文科技词表(STKOS:Scientific & Technological Knowledge Organization System,以下简称“NSTL科技词表”)由国家“十二五”科技支撑计划立项支持,借鉴国内外已有的知识组织系统建设成果与应用经验,结合当前互联网应用服务中的新特点,构建而成的面向计算机应用的超级英文科技词表,对于实现国家科技文献信息战略资源的有效组织、深度揭示和知识关联,文献智能检索服务提供基础性支撑,具有重要作用。 本文首先梳理和归纳了当前词表构建的技术模式与应用,然后介绍了NSTL词表的构建,并重点介绍了NSTL词表在智能检索系统中的应用方法,最后分析和介绍了NSTL科技词表的构建特点。本文的目的在于通过NSTL科技词表构建技术的分析研究与实际应用研究,提升和推广综合性、集成化科技知识组织系统在文献服务知识化转型中的应用。 2 词表构建模式及其应用 2.1 词表构建模式 (1)词条的自动发现与更新 传统词表的词条发现和更新维护主要依靠人工实现。从科技领域词汇的发展变化来看,其更新速度远远跟不上实际领域发展的速度。因此,文献服务行业研究重点逐渐从词表的数字化加工处理转向词汇的自动发现与补充,不断丰富和更新词表的建设模式。不断从科技领域学术研究的自由文本中抽取词汇,挖掘词汇间关系,而这些关系的准确性与采用的挖掘算法密切相关,虽然无法比拟人工编制词表的严谨与精确,但是可以作为其补充,促进词表的快速更新[4]。 (2)词表间的互操作与集成化 不同的知识组织工具,如分类词表、主题词表、术语表等,具有不同的自然语言控制能力和语义化程度,通过词表互操作与集成,旨在发挥和集成各自的功能特点与作用。词表互操作包括两种方式:一是以统一标准进行数据整合,在其他系统中导入和使用;二是在两个不同词表之间建立映射关系,通过映射将不同类型、不同语种的词表集成整合到一起。在标准化方面,研究热点集中在如何采用知识组织规范对叙词表进行描述。目前,通过词表间映射是解决互操作的最重要的方法。美国国立医学图书馆建设的UMLS(Unified Medical Language System)就是非常典型且成功的案例,它不断整合国家医学系统的传统分类法、叙词表、标题表、术语词典等资源,通过映射、链接等对概念及概念关系进行自动抽取、集成归并,建立不同词表概念间的映射关系,形成了一部概念和语词覆盖面广、语义关系丰富的超大规模词表,广泛应用于医疗信息系统、病案系统、自然语言处理、文本自动标注、智能检索及搜索引擎领域[5]。 (3)词表的本体化 本体是以建立概念和概念之间的关系为核心,提供对特定领域知识的描述,其构建较为复杂,并且在不同领域很难复用。叙词表由于其丰富的概念、词汇及词间的语义结构,为本体的构建提供基础条件,且已有较为成功的应用案例,如:联合国粮农组织将Agrovoc叙词表转换为农业本体;UMLS项目中基于传统知识组织体系关联扩展建设语义网络,建立一个语义网络知识源数据库[6]。 (4)词表建设的标准化与规范化 国外主要发达国家的标准化机构纷纷开展了知识组织体系统一的计算机化表示规范、集成映射标准和网络化服务技术接口的相关研究。值得重点关注的知识组织体系建设标准有:英国BS8723系列标准、美国国家标准(Z39.19)、英国国家标准(BS 8723)、IFLA多语种叙词表编制指南、W3C组织的SKOS草案等。 (5)词表的Web服务和工具化 越来越多的词表在改造、扩建和集成完成后,其最终形式是工具化的Web服务,提供支持性软件工具与开放接口,供第三方用户下载、定制、集成、映射和调用。例如:UMLS提供了能够查询和获得UMLS的概念、语义类型、语义关系等的术语服务(UMLS Terminology Services,UTS),用于UMLS本地安装和剪裁定制的工具MetamorphoSys,UMLS概念的文本映射工具MetaMap等[5]。 2.2 词表应用 (1)信息组织 信息组织包括利用词表进行信息的深度提示、内容整合和语义关联。例如:联合国联农组织发起的FOS项目,旨在通过创建、整合和利用本体,来加强渔业信息系统的信息整合和语义互操作能力。其中的OneFish是一个渔业项目的门户,采用等级主题树方式对信息进行组织,大约有超过1800个主题,主题含有简短的摘要、标识符、相关联的材料,如文件、网站、元数据。 (2)自动标引 美国国立医学图书馆基于UMLS和MeSH开发的医学文本标引工具Medical Text Indexer(MIT),应用于Medline/Pubmed的文献标引,经MIT自动标引系统处理后给出推荐MeSH主题词和副主题组配供标引员进行人工审核,这种人机相结合的标引工作模式极大提高了数据处理速度,减轻了标引员的工作负荷。 (3)智能检索 基于MeSH、UMLS超级叙词表中同义关系、等级关系等简单语义的关系,PubMed实现了检索的主题扩展、副主题扩展、副主题限定、提问词自动转换、提问短语分析转换等智能化处理。Semantic Medline对PUBMED检索命中所返回的MEDLINE数据进行自动文摘和可视化展现。 (4)资源整合 STERNA(Semantic Web-based Thematic European Reference Network Application)项目与12个欧洲自然史和生物多样性机构合作,以鸟类和各种鸟类相关的信息为核心,将各种关于鸟、鸟类物种等多媒体资源,包括科学数据、文章、图片、视频和音频文件,汇集和显示在同一个信息空间。受控词表包括:术语表、分类表、叙词表、本体等,在STERNA系统中被称为“参考结构”,采用SKOS进行描述。 (5)应用整合 MedWeaver系统以UMLS为基础,集成Dxplain(诊断决策支持系统)、WebMedline(斯坦福大学开发的用于检索MEDLINE数据库医学文献检索系统)和CliniWeb(WWW医学信息检索系统)3个系统的资源,并且将检索结果按内容进行有机组织后反馈给用户。 (6)术语研究 据统计,UMLS最主要的应用方向包括术语研究、术语映射和创建本地术语,约占所有应用的53%。Q.Li等开发了基于Protege 2000的一系列工具,可以用于转换形式化表达的或非形式化表达的知识,将从外部获取的知识进行整合集成,消除术语冗余和概念间的冲突,已实现了将远程的UMLS术语合并到Protege 2000知识库中。 3 NSTL科技词表构建及特点 3.1 体系框架 NSTL科技词表由来源词表仓库、基础词库、规范概念集和范畴表组成,总体框架如图1所示。其中,素材层是NSTL科技词表的来源,但并不是NSTL科技词表的组成部分。基础词库包含国际上重要知识组织体系中的术语,主要涉及叙词表、术语表等富含语义关系的术语或概念,规模为500万条;规范概念集包含概念形成过程中涉及的词型规范、意义规范的同义词和准同义词,以及规范概念间的共现关系,收集科技概念规范名称80万条,覆盖理、工、农、医四大领域;范畴体系按照使用需求修改或重新编制的概念体系结构,主要用于规范概念的分类归并以及文献信息的宏观分类导航[7-8]。国家科技图书文献中心科技词库的建设与应用_科技论文
国家科技图书文献中心科技词库的建设与应用_科技论文
下载Doc文档