近年来我国信息检索语言研究的热点问题_自然语言论文

近年来我国信息检索语言研究的热点问题_自然语言论文

近年来我国情报检索语言研究的热点问题,本文主要内容关键词为:热点问题论文,情报论文,语言论文,我国论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

80年代以来,我国情报检索语言理论和实践研究取得了丰硕的成果,情报语言学从初创逐步走向成熟,情报语言学系列课程不断完善,并取得丰富的经验。特别是对一些热点问题,如分类主题一体化、自然语言应用等问题在理论上进行了探索,在技术上进行了实践。90年代以来,随着国际互联网络的发展与延伸,情报检索语言如何适应新的检索环境是一个非常值得研究的课题,也是面向21世纪情报语言学的发展方向。

1 分类主题一体化

分类主题一体化是情报检索语言发展的重要趋势之一。我国从60年代开始就有意识地对分类主题一体化进行了初步探索,但由于历史原因未能将这一探索继续下去。与此同时国外对此问题已开始了深入的研究,主要以琼·艾奇逊编制的《分面叙词表》为标志。我国真正开始研究一体化问题是在80年代,先后引进介绍了《分面叙词表:工程及相关学科的叙词表和分面分类法》、《联合国教科文组织叙词表》、《基础叙词表》等国外先进的一体化词表理论与技术,使我们对分类一体化的理论和技术有所了解,从而开始了对我国分类主题一体化必要性和可行性的论证和研究。对分类法与主题法进行比较以及对两者相互渗透的研究,为在理论上探讨《中图法》和《汉语主题词表》的修订方针以使二者互相兼容,以及以《中图法》和《汉语主题词表》为基础,编制《中国分类主题词表》打下了实践和理论基础。我国在实现一体化的道路中主要有两种方法:一是编制一体化词表;另一个则是编制两种语言的对应表。其中分面叙词模式的一体化词表是最佳方案。《中国分类主题词表》的编制工作开始于1986年,为分类主题一体化的理论、模式研究开辟了广阔的道路。1994年出版的《教育主题词表》是我国正式出版的第一部分类主题一体化词表,也是我国较早使用计算机辅助编制的词表,采用了半分面模式,它的字顺叙词表和分面分类表均可分别用于主题标引和分类标引,二者的标引数据可以互相转换,二者还可以互作索引使用。1996年出版的《社会科学检索词表》是我国一部大型的分类主题一体化词表。该表采用了分面叙词的组织模式,涵盖了社会科学的17个基本大类,涉及26个一级学科类目,220个二级学科类目,全表共收词2.3万个。

从总体上讲,我国一体化词表的编制技术已达到国外先进水平,对叙词表的分面化改造也有了理论上的研究。今后叙词表的分面改造以及编制多种新的高水平的一体化词表是我们努力的方向。我国在分类主题一体化词表的理论上作了系统总结,在实践上进行了探索,积累了经验。因此,分类主题一体化词表技术已日臻完善成熟,在侯汉清教授等著的《主题化导论》和张琪玉教授著的《情报语言学基础》两部大学教材中设有专章论述其理论和实践技术。

2 标准化与兼容化

标准化和兼容化是为了实现文献资源的共享和联机网络化检索而对情报检索语言提出的要求。标准化的主要目的,是在最大范围内推行一种或几种分类法、词表及有关技术规则,以方便用户检索,有利于标引数据的交换及在联机环境下跨文档检索。

中国情报文献标准化技术委员会成立后,积极开展了一系列标准化活动,如:推荐《中国图书馆分类法》和《汉语主题词表》作为候选的国家标准分类法和叙词表;制定了下列标准草案:①《汉语叙词表编制规则》;②《多语种叙词表编制规则》;③《文献主题标引规则》;④《文献分类标引规则》;⑤《档案分类标引规则》;⑥《同类书排列书次号编制规则》等。除④、⑥外,其余均以国家标准的形式正式公布。这些标准与国际标准尽量取得一致。《中国图书馆分类法》目前虽未转为正式标准,但全国90%以上的图书情报机构都使用它,实际是占有国家标准分类法的地位,这与美国的《杜威十进分类法》相类似。

由于语言及习惯的不同,加之检索要求的不同,使得标准化成为信息利用中的一个普遍性难题。尤其是我国,即使是在同一系统中,也会因工作性质的差异和自然地理环境的变迁,在检索的设计上采取了各自的标准,这样就为建立全国性文献数据库以及各单位资源共享制造了许多人为的麻烦。解决的办法主要有:加大叙词表编制中国家标准的推行力度,使各种叙词表在结构上和编制方法上取得一致;推广编制叙词表的软件包,使得用同一软件包编成的词表在格式上取得一致;制定更细化的标引规则;研究各种情报检索语言的转换方法和规则;编制中介词典;编制共同的范畴表;以综合性叙词表作为基础编制专业叙词表,使综合性叙词表与专业叙词表之间有较大的兼容;在一国范围内或国际范围内推广一些普遍适用的高质量的检索语言;编制多语种叙词表以实现与国际接轨。

面对因特网上众多的数据库和检索系统以及情报检索语言新语种不断涌现的现实,仅靠标准化工作是远远不够的,相比之下,兼容化则显得更为灵活有效。情报检索语言的兼容措施应达到下列两个目的之一:对同一文献主题概念,用同一语词或符号表达;虽然语词或符号不同,但可以对应转换。采取兼容化措施,既可在分类表、词表编制阶段,也可在标引或检索阶段。编表实施的兼容模式主要有:①制定词表编制规范模式;②系列化分类表或词表模式;③微型词表模式;④编表选词或列类时参考权威性的词表或分类表;⑤分类法主题法一体化标引工作模式;⑥通用词表模式;⑦词表编制时基本依据国外几种主要专业词表模式;⑧直接利用国外词表,仅根据国情作适当补充的模式;⑨词库模式。在现有两种或多种情报检索语言的条件下,采取兼容化的措施主要有:①对应表模式;②集成词表模式;③媒介语模式;④入口词表模式。但在这种情况下局限性较大,不如在编表阶段实施兼容的效果好。

3 自然语言的应用和情报检索的计算机化

自然语言的应用是以计算机检索为前提的,不使用计算机,自然语言就难以实现。目前自然语言在情报检索系统中的应用分为以下3 类:①不标引(无标引)方式;②自动抽词标引方式;③人工标引方式。这3种方式都可借助后控制词表来弥补它们各自的不足。

在情报检索中应用自然语言是以处理自动抽词为核心的。但是,汉语不像英、法、德、俄等语种,有天然的分割标志,因此计算机难以识别句子中字词组合,难以区别有用词和无用词,这是汉语自然语言检索研究迫切需要解决的问题。词典分词法在目前是解决这一难题较为理想的一种方法,尤其是王永成教授首创的部件词典法已达到较高的正确率,在改进部件词典的情况下正确率还有可能提高。

应该看到目前自然语言检索还处于发展的初级阶段,我们有些同志过分夸大了自然语言的作用,认为自然语言完全可以代替人工语言。其实它还有许多地方值得改进,当前所能见到的论述自然语言的文章,大多是将其与人工语言进行比较,深入考察其性能者不多。而且对自然语言的研究,并不意味着自然语言将取代情报检索语言。情报检索语言在情报检索中有自然语言无法取代的优势,同时自然语言在计算机检索系统中也有检索语言所不及的重要优点,如:成本低、处理时差短、检索率一般较高等。为自然语言与人工语言找到一个理想的结合点是我们今后应着重研究的方向。

情报检索计算机化直接导致了词表、分类表向机编化和机读化方向发展,使得词表编制时间缩短,降低了编表的成本,存放在计算机的词表可随时修订和输出新版本;同时它也使文献标引和索引编制走向自动化。应该讲计算机对情报检索领域的影响是深刻的,但我国情报检索计算机化的历史尚不足20年,上百种情报检索语言新语种虽然是适应计算机检索的需要而编制的,但大多数只有印刷版,供人工标引之用。近些年,各种分类表、词表的机读版陆续出现,但种类还不多,功能还有待改进。数据库乃至网络数据库必将取代传统的检索工具,故分类表、词表的机读化和多功能化是我们今后研究的重点。

第21版《杜威十进分类法》于1996年7 月同时发行了书本式和光盘式两种版本,它采用了先进的结构、分类组织和术语,使易用性大大提高。在新的载体、新的环境下,情报检索语言原有的结构与功能设计必将面临新的挑战,张琪玉教授提出:“人工语言与自然语言、先控制与后控制的界限在计算机系统中可淡化或取消”正是基于此基础。

利用自然语言和计算机技术的结晶,实现检索语言的智能化不是不可想象的事情。

4 网络环境下情报检索语言的发展问题

因特网的急速发展,必然要求情报检索语言与之靠拢,面对网上数以万计的站点以及潮水般蜂涌而来的信息,如果没有一种优秀的情报检索语言为之服务,很容易使检索者得不到真正所要查找的信息。

现在网络上出现的“搜索工具(引擎)”应充分引起我们的注意并进行深入研究。国外的著名搜索工具可以分为以下4类:

目录式搜索工具:它是通过一个标题与多个后继的副标题来进行等级检索的,也可称为“分类查询”。

引擎式搜索工具:它主要通过关键词来进行数据检索,也可称为“关键词查询”。

目录式与引擎式相结合的搜索工具:它把上述两种方法相结合,使检索者可从任意一条途径进入,并能实现两者的相互转换,等级越深越专指。

多引擎式搜索工具:它可同时打开多个搜索引擎进行搜索工作。最后的检索结果可以分别显示,也可进行综合显示。

在选择搜索工具时还应考虑到数据库索引的编制方式,目前搜索工具在创建数据库的过程中主要使用了3种索引:全文索引、 关键词索引和人工索引。

Yahoo是众多搜索工具中最出色的一个, 它属于目录式与引擎式相结合的搜索工具,在创建之初它只是开发了一个数据库系统来管理站点资料,其核心是按层次将站点分类,最顶层有14大类:商业、经济、娱乐、电脑科技等,每个大类下又有子类层,如娱乐类有笑话、趣闻、音乐等,音乐下又可分为歌剧、卡拉OK、流派、机构等,用户根据需要可以一直检索到最底层。Yahoo 的分类层次完全是由工作人员而不是电脑来完成的,因其包含了人工的判断选择,因而内容更有效准确,这正是Yahoo的精华所在。

国内也有了自己的搜索工具,比较著名的有“常青藤”,它可以提供中文因特网站点的分类和检索服务;此外还有“中国教育和科研网网络指南针”,“中国导航搜索器”,“东方网景搜索器”等。

应当看到这些搜索工具的开发与研究多是软件编制人员的成果,情报检索工作者介入少,其成果也缺乏情报检索的理论指导。从发展的观点来看,这些产品还都处于初级阶段,可以设想如果把分面分析的原则与方法运用到搜索引擎的编制中去,定会极大地提高检索效率,收到意想不到的效果,我们情报检索人员在网络化检索语言的研究中定会大有作为。

标签:;  

近年来我国信息检索语言研究的热点问题_自然语言论文
下载Doc文档

猜你喜欢