20多年来我国信息语言的发展与21世纪的发展目标_自然语言论文

20多年来我国信息语言的发展与21世纪的发展目标_自然语言论文

我国情报语言20年来的进步与向21世纪前进的目标,本文主要内容关键词为:情报论文,年来论文,目标论文,语言论文,我国论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

1 20年来的长足进步

20年前党的十一届三中全会确定实行改革开放政策,使我国经济的发展突飞猛进。随之,教育科学文化卫生及其他事业也都飞速发展起来。

20年来,我国图书情报事业的发展速度是前所未有的。由于图书情报事业发展的需要,情报语言也获得了长足的进步,在图书情报服务中发挥了很大的作用,我主要在这方面进行概略的回顾。

1.1 分类法

1.1.1 体系分类法的编制、修订和发展。 体系分类法在我国一直是情报语言的主流。我国图书情报领域原有的三部综合性分类法,跟随科学技术的进步和社会的发展,在这20年中都进行了全面修订和增补。《中国图书馆图书分类法》出版了第二版和第三版,第四版的编辑工作也已完成,于本月内可出版。此外,还增编了索引、期刊分类表、儿童图书馆和中小学图书馆版以及教育、 公安等专业分类表。 该分类法于1985年获国家科学技术进步奖一等奖。《中国科学院图书馆图书分类法》出版了第三版。《中国人民大学图书馆图书分类法》出版了第五版社会科学类目增订本和第六版。新编的综合性体系分类法有《中国档案分类法》,该分类法实际上包括“中国档案分类法”、“清代档案分类表”和“民国档案分类表”三部分类法。在这20年间,还编制了一批专业的和专用的体系分类法,如《中医图书分类法》(1980)、《上海戏剧学院专用图书分类法》(1980)、《建筑工程资料分类表》(1981)、《计量学与测试技术图书资料分类表》(1983)、《外交部图书分类法》(1984)、《社会科学资料分类法》(1985)、《新华社国内资料组分类法》(1985)、《中央人民广播电台资料室分类法》(1985)、《军事图书资料分类法》(1987)、《非书资料分类法(征求意见本)》(1989)等,在此无法全部列举。

1.1.2 组配分类法的编制。 阮冈纳赞的《冒号分类法》第六版由宋克强和许培基译成中文于1986年出版。我国编制的组配分类法有张琪玉编的《情报语言学文献分类表》(武汉大学出版社出版的电子图书《情报语言学文献库》使用该分类表)。组配分类法还以分面叙词表的形式出现,如《社会科学检索词表》和《教育主题词表》等。这些分类法的出现,结束了我国无组配分类法的历史。

1.2 主题法

1.2.1 《汉语主题词表》的编成出版。 《汉语主题词表》于1979—1980年编成出版。这是一部大型的综合性叙词表,分3卷10个分册, 共收词11万条。该词表主要供计算机检索系统使用,但也可用来组织卡片式和书本式的主题目录。该表的出版,为我国推广应用叙词法奠定了基础。该表于1985年获国家科学技术进步奖二等奖。

1.2.2 专业主题词表的大批涌现。综合性词表虽然容量很大, 但对于建立专业数据库来说,还是词量不够。而数据库的绝大部分都是专业性的。为了适应建立专业数据库的需要,各系统纷纷编制专业词表。20年来,我国编制的专业词表超过100部, 几乎覆盖了所有各个专业领域。这样就为我国的文献数据库建设,创造了良好的条件。

1.2.3 分面叙词表的出现。 分面叙词表有一个相当于传统叙词表的范畴表和词族表功能的分面分类表。在分面分类表中,叙词词间关系的显示比在范畴表和词族表中具有更高度的系统性、明确性和完备性。因此,分面叙词表比传统叙词表质量更高,检索性能更好,但是其编制难度也要大一些。我国的词表绝大多数不采用分面叙词表模式,但这并不能说明这种模式不可取。在一些情报语言学者的积极提倡和亲自参与下,我国终于编制出了几种分面叙词表,如《社会科学检索词表》和《教育主题词表》等。这些词表的出现为我国词表向分面化发展树立了榜样。

1.3 分类法主题法一体化和分类表词表标准化系列化

1.3.1 分类主题词表的编制。我国是传统使用分类法的国家, 图书馆工作者习惯于用分类法来标引和组织文献,而对于用主题词表来标引文献,感到有些困难,成为推广主题法的一种障碍。因此,希望有一种由分类表过渡到主题词表的简易方法;希望有一种知识组织工具,能把分类号和主题词联系起来,从而降低主题标引的难度。“分类法主题法一体化”,即编制一种分类号与主题词的双向对应表,是解决这一问题的一种方案。这是受“分面叙词表”的启发,但又不同于分面叙词表。因为最适合中国国情的,只能是把两种最主要的知识组织工具——《中国图书馆图书分类法》和《汉语主题词表》结合起来。1986年末,在北京图书馆图书馆学研究部和武汉大学图书馆学情报学研究所的共同倡议下,以北京图书馆为首的全国40个单位协作,开始了《中国分类主题词表》的编制工作。这是一项巨大而又复杂的工程,到1994年才告完成并正式出版。全表分2卷6册共1400万字。《中国分类主题表》是一种多功能的标引工具,它既是一部完整的《中国图书馆图书分类法》和《中国图书资料分类法》,又是一部《汉语主题词表》的增订版。通过分类号与主题词的双向对应,其分类表部分可作为主题词表部分的范畴索引和词族索引,主题词表部分可作为分类表部分的类目索引,而且比两表原来的功能更强,大大方便了分类标引和检索以及主题标引和检索。该表还有机读版。该表的出版,在图书馆系统普及主题法方面,特别在藏书的回溯主题标引方面,起了显著的作用。这种类型的分类主题词表,目前还有《中国图书馆图书分类法(R类)与医学主题词表(MeSH)、 中医药学主题词表对应表》和《中国图书馆图书分类法教育专业分类表》两种已经出版。

1.3.2 分类表词表的标准化和系列化。 我国在分类法主题法标准化方面作了不少努力,取得了一些成绩。如《汉语叙词表编制规则》、《文献主题标引规则》等的制订和颁布,起了较好的作用。在分类法方面,也发表了《文献分类标引规则》的草案,编制并出版了《通用汉语著者号码表》等。《中图法》曾被批准为国家试用标准草案,《汉语主题词表》也曾得到标准化主管部门的推荐。但《中国图书馆图书分类法》和《汉语主题词表》均未能成为正式标准。分类表词表的系列化相当于在一个系统范围内的标准化和兼容化,比较容易实行。我国的《中国图书馆图书分类法》、《中国档案分类法》都是系列化的,《中国档案主题词表》按其规划也是系列化的。最突出的是《军用主题词表》,它由约20部词表组成系列化叙词表,相当严密,并有释义词典,质量很高。

1.4 情报语言计算机化

1.4.1 分类表词表的机编化和机读化。 分类表词表的机编化出现在80年代末,那时仅仅用于排版。到90年代,才进入真正意义上的机编化,如《教育主题词表》、《军用主题词表》、《中国分类主题词表》、《军队档案常用主题词表》、《军用公文主题词表》等,均由软件控制其编制过程。分类表词表的机读化(机读版)则是最近几年的事,如《中国分类主题词表》的机读版,《军用主题词表》的机读版等。

1.4.2 文献标引对照系统。文化部立项, 由山西省图书馆等联合研制的《计算机文献标引对照系统》于1997年完成并通过鉴定,已正式发行。该系统不仅可在《中图法》、《科图法》和《人大法》三种分类法的号码之间进行自由转换,而且三者还与《汉语主题词表》的主题词相对应(因为它是以《中国分类主题词表》为基础的),具有联机标引功能,也可用于检索选词选号。

1.4.3 机助标引系统。 不久前通过鉴定的《〈军用主题词表〉应用管理系统》,就其主要方面而言,是一个优秀的叙词机助标引系统,值得予以详细介绍。该系统的突出特点在于:

(1)叙词表各部分的单屏多窗口网状互联显示。 《军用主题词表》的机读词表有六个表组成,这六个表可在同一屏幕上开设多至六个窗口同时显示(也可少于六个窗口,视需要而定),用鼠标在任一表中点一下某个词,其他五个表均可联动指向该词。就是说,任一表均可进行浏览,如果要从某一表转查其他表,只要在该表中点一下某词,即可在其他五个表进行快速定位显示。也可以首先打开某一部分,通过快速定位选择某个词后,再进入六表同屏显示状态。在任一表的浏览过程中一经选定某个词作为标引用词,只要点一下该词即可将其登录入标引结果字段。这种超文本漫游方式,可一次为用户提供所查叙词的全方位语义信息,不仅可大大加快标引(或检索)选词的速度,并可提高选词的准确性。

(2)在自然语言接口中采用词素相似性匹配原理。 该系统具有自然语言入口功能。文献主题概念可全部用自然语言词自由表达。若表达文献主题概念的自然语言词与词表中的正式叙词或入口词(同义词和被组代词)一致,则立即自动转换成叙词,自动将叙词登录入标引结果字段;若表达文献主题的自然语言词在词表中没有对应的叙词或入口词,该系统便会对自然语言词进行词素分析,利用词素相似性匹配原理,自动推荐一批含有相同词素的叙词供选择,通过人工判别,选定合适的叙词(包括若干叙词的组配)进行标引;若所推荐的词均不合适,则可将自然语言词作为自由词进行标引并同时作增补记录。这种词素相似性匹配方法,可大大方便标引选词,并在无形中提高了词表的入口率。词素相似性匹配原理的应用,也为自然语言与叙词语言的有机结合进一步提供了可能性。叙词词素库(知识库)采用在叙词表自身词汇和语义关系的基础上,进行自动、滚动切分,辅以少量人工干预的方法,切分效率较高。

该系统具有可移植性。假如,我国其他的叙词系统都能利用该项技术成果,并进一步发展该项技术的研究,无疑可促进叙词语言的易用化,大大减少其在普及中的障碍,使我国叙词语言的应用跨上一个新的台阶。

1.5 情报语言使用

1.5.1 分类法的使用走向统一。20年来, 情报语言使用方面的一个可喜现象是走向统一。目前,全国图书馆使用《中图法》的已占95%,事实上起了国家标准分类法的作用。《汉语主题词表》在图书馆界的使用率也相当高。在档案系统,档案的分类检索工具大多依据《中国档案分类法》,也具有标准分类法的作用。

1.5.2 在版标引。1984年, 北京图书馆在印刷卡片上增加主题词;1989年开始,北京图书馆提供标有分类号和主题词的编目数据;90年代,全国几个主要图书馆分工完成建国以来出版的所有图书的书目数据回溯工作;最近,新闻出版署信息中心(即国家版本图书馆)主办的《中国图书在版编目快报》周刊创刊,以书本式和机读式两种版本出版,书本式每周提供数据1000条,机读版每月提供数据4000多条,全年可提供数据50000条以上,并赠送阅读检索软件。此外,全国出版的图书, 到目前估计一半已有在版编目数据,其中包括分类号和主题词。这些措施,促进了情报检索语言的统一和主题检索语言的普及。

1.6 自然语言检索

我国的自然语言检索是从80年代初开始的。这是情报检索计算机化的一个不可忽视的方面。随着计算机在我国普及,它的应用将越来越广泛。

1.6.1 汉语自动分词与自动标引。 汉语自动分词是实现汉语自动标引的前提。所以,汉语自动分词的研究是汉语自动标引的“开路先锋”。80年代以来,曾有众多的研究者致力于解决这个问题,提出过许多分词方案。到目前,有一些方案在软件方面已达到或接近可以实用的水平,其主要障碍是缺少抽词词典。

1.6.2 文本检索与全文检索。所谓文本,可以是文献题名, 或文摘,或文献正文。所谓“文本检索”,是用关键性字词在文本中进行匹配查找,这是自然语言检索中使用最普遍的方法。这种方法不需进行任何标引,检索时则可用检索者认为合适的关键性字词(字、词、词的片段或若干词的组配)在文本中进行匹配查找,十分简单。文本检索包括字符串匹配、截词检索、位置逻辑检索等。这些方法已普遍为人所熟知,所以应用广泛。对贮存文献正文的数据库的检索,称为全文检索,其应用目前也比较广泛。

1.6.3 单汉字检索。汉语的词是由汉字组成的,汉字具有意义, 组成某个词或词组的若干汉字中必定有一个或两个具有关键性,它们是关键字,表达一个词或词组的核心意义,而且它们还具有字面成族的作用,因为它们往往是许多词的共同关键字。有的字虽不是关键字,但很少在词中出现,因而在特定的文本集合中具有很强的标识性。所以,单个汉字用于检索也是可以的。单汉字检索与文本检索性质基本相同,不同点仅在于对文本中的每个汉字以字为单位全部做倒排索引。所以,也称“全标引”。因单个汉字绝大多数不能独立表达文献主题概念或作为索引项,等于不标引,故也属“无标引系统”。由于单汉字检索回避了汉语分词问题,所以,目前有不少系统使用。

1.6.4 自由标引。自由标引是不依据词表的一种主题标引法, 标引人员在对文献的情报内容进行分析之后,按一定规则自拟标引用词来表达文献主题。这种标引方法的优点在于:由于不使用词表控制,标引速度要比使用词表的主题标引快许多倍,这还意味着标引成本的降低;可用与文献主题专指度一致的词进行标引,保证较高的检准率;标引过程是通过标引人员主题分析的,如果标引人员具有一定的业务水平,则其标引质量可大大高于自动抽词标引。自由标引主要适用于报纸文献、期刊文献的大型篇名数据库的标引,因为这类文献内容庞杂,新概念多,数量大,很难编制适用的词表,而且使用词表标引用工多,速度慢,建库单位实际条件往往不许可。自由标引方法在一些单位常有所见,但自由标引这个词较少见。有些数据库称自己的标引方法是关键词标引,其实是自由标引。

1.6.5 后控制词表。 后控制词表是提高自然语言检索效率的有效措施,但通用性很差。我国在一些自然语言检索系统中已有使用,但一般只作同义词控制。

1.7 情报语言教学和高校文献课

1.7.1 情报语言教学。高等学校情报语言的教学20 年来有了很大变化。教学内容扩大了,过去只讲分类法或主要讲分类法,目前至少是分类法主题法并重。许多学校开设了情报检索语言课程,有的学校还增加了自然语言检索的内容。情报语言学作为一个研究方向,开展研究生教育也已有近20年的历史。至于教学质量,更是20年前所无法相比的。

1.7.2 高校文献课。 我国高等学校对大学生和研究生普遍开设文献检索与利用课程,是一件有深远意义的大事,其规模是其他国家所没有的。它对情报语言知识在社会上的普及,起了很大的作用。

1.8 情报语言研究

1.8.1 情报语言研究概况。20年来, 情报语言研究可以说是在一个新的起点上前进的。它有下列四个特点:其一,改变了研究方向。我们终于跳出了争论不休的“三性”(思想性、科学性、实用性)的怪圈,把提高检索效率作为情报语言研究的根本目的和核心问题。研究的问题注重于改进情报语言的检索性能和正确使用,不再热衷于不着边际的“三性”关系的讨论。其二,扩大了研究范围。象主题法的各种语言,以及组配分类法、分类主题词表、自然语言检索法等,可以说都是20年来研究的新内容。特别是对叙词法进行了较为深入的研究。其三,改进了研究方法。过去,以哲学方法为主要的研究方法。20年来,结构功能分析法以及与结构功能分析法密切联系的各种研究方法,如比较研究法、历史演进研究法、调查整理法、归纳法和演绎法、原理或方法的移植法、理想语言设计法、现用语言改进法、数学方法和统计方法、实验方法、计算机方法等,成为普遍使用的方法。过去主要使用的哲学方法,由于太抽象,已很少被采用。其四,对于国外的研究成果,我们打开了窗户,认真地考察和注意吸取,不再进行一概排斥的批判。并注意中国的国情,而不是盲目的照抄照搬。

20年来,进行了多次情报语言的学术讨论,如主题法是否能取代分类法(或主题目录是否能取代分类目录)问题的讨论、自然语言是否能取代情报检索语言问题的讨论、体系分类法增加组配成分问题的讨论、体系分类法增设综合科学和横断科学大类问题的讨论、体系分类法主要职能问题的讨论、分类法类目索引能否作分类目录主题索引代用品问题的讨论、手检系统采用叙词法问题的讨论、叙词标引中能否采用字面组配问题的讨论,等等。这些学术讨论,促进了对情报语言的深入研究。这20年间,也开展了对新型情报语言的探索,如分类法主题法一体化情报检索语言(分类主题词表)、学科一事物概念组配型检索语言等。特别是,分类主题词表已从理论研究走向实际使用。20年来发表的情报语言研究著作的数量十分庞大,1996年武汉大学出版社出版的《情报语言学文献库》收录了9千多篇文献;其中8千多篇是在这个时期发表的,这说明这一学科领域具有人数众多的研究者。

1.8.2 情报语言学学科建设。 情报语言学学科理论体系的建立是这一时期情报语言研究方面具有标志性的成果。这门学科的建立,犹如在植物学和动物学的基础上建立生物学,把各种类型的情报检索语言以及自然语言在情报检索中的应用问题进行统一研究,概括出它们影响检索系统效率的共同规律,从而把这个领域的研究推进到一个与过去的研究广度和深度以及角度不同的新水平。20年来,这门学科得到了不断充实和完善。这门学科被确认为基本上是中国学者自己建立的,与图书情报学的其他新学科相比,有更多的中国特色。这门学科的建立,使我国在世界关于“知识组织”的知识领域占有一席之地,使中国在这一领域的研究迅速接近世界水平。

2 向21世纪前进的目标

可以说,如果没有改革开放政策所造就的经济和文化蓬勃发展的环境,我国的情报语言研究和实践是不可能进步到目前这个水平的。我想,继续前进是对改革开放20年最好的纪念。下面就我个人的认识,对向21世纪前进的近期目标提出几点看法。

2.1 21世纪我们将面临什么

2.1.1 21世纪是知识经济时代, 经济和社会的发展将更加依赖知识,获取知识和信息将是国家和个人争取发展的重要手段。而且,获取知识的途径,将更要依靠互联网络。

2.1.2 21世纪是社会信息化时代, 图书馆在人们获取知识中仍将占有重要地位,但图书情报服务将向网上拓展(是“拓展”而不是“变为”或“被取代”),这是必然的趋势,这个趋势现在已经显露。

2.1.3 网上资源虽不能完全取代图书馆藏书, 但要比任何一个图书馆的收藏更为丰富。所以,网上资源的检索和利用占有极重要地位。可以说,情报检索的发展经历了三个阶段:手工检索—计算机检索—网络检索。现在是三种检索并存,手工检索还不能放弃,计算机检索需要完善,网络检索要大力开拓。

2.1.4 数据库的开发将成为新兴事业。为知识经济的发展服务、 网上资源的建设和利用、图书情报服务向网上拓展、情报检索的计算机化、资源共享等等,都离不开数据库。所以,开发数据库对图书情报部门来说,已成为头等重要的问题之一。

2.1.5 图书馆的卡片目录将逐步淘汰, 由数据库取代已为期不远,当然这种取代过程是逐步的,但比预期的要快、要早。因为现在卡片目录无论在功能方面,还是在成本方面以及编制人力方面都已不及用计算机编制书目数据库。何况,书目数据库仍可生产书本式目录。

2.2 近期有待我们去做些什么

2.2.1 完成分类表词表的机读化。计算机已普及到一般图书馆。 例如,上海有些街道图书馆,也使用了计算机管理。情报检索计算机化在不远的将来会普遍实现。情报语言要在计算机检索中充分发挥作用,必须有分类表词表的机读版。

2.2.2 大量编制抽词词典。从10多年的研究看, 汉语自动标引必须利用抽词词典,不利用抽词词典的自动标引法的实际应用还比较遥远。至今已研究出的自动分词和自动标引软件成果,只因为缺乏抽词词典而不能实际应用,缺乏抽词词典是自动抽词标引难以普及的主要原因。所以,应当用大力气来发展抽词词典,兴起一个编制抽词词典的热潮。

2.2.3 推进情报语言的自然语言化。 情报语言改进的主要方向是易用化,这里很重要的一个方面是自然语言化。情报语言与自然语言的对应转换是其走向自动化的必由之路。配备自然语言接口是情报语言实现自然语言化的重要措施,采用这种措施并不需要改动原有的分类表和词表,也不需要对文献作重行标引。使用自然语言接口只会使检索系统“增值”,不会使它“贬值”,可以说是有利无弊的。但关键在于需要有自然语言与情报语言的对应转换词典,有待我们去编制。这种对应转换词典除应用于自然语言接口外,也可用于自动赋词、自动赋号、机助标引等方面,具有广泛用途。国家如能在这方面进行一些投入,将会得到较大的社会效益。

2.2.4 编制网上资源检索工具。即网上资源数据库。 这是一种不以具体文献为对象的特殊数据库。这种数据库是充分利用网上资源的重要手段。所谓搜索引擎,就是这类网上资源检索工具。我们一方面需要大力发展这种网上资源检索工具,另一方面也需要对现有的这类工具加以改进。为了更好地利用网上资源,还需要编制一些中外主要情报语言之间对应转换工具和中外主要自然语言之间的对应转换工具。

2.3 近期有待我们去研究些什么

2.3.1 情报检索语言研究课题。至少在近期内, 这一代的情报检索语言将仍然是检索系统的主要语言工具。情报检索语言当前改进的主要方向,是它的易用化。

(1)体系分类表和词表分面化改造的研究

综合性体系分类法将仍然是图书馆使用的主要情报检索语言,因为它是我国读者习惯使用的检索途径,特别是它的组织藏书排架的功能不可取代。在互联网络上,由于它具有组织包罗万象的信息资源的能力,有可能成为它的一种新的重要用途。

但体系分类法缺乏检索的灵活性,特别是不大能满足象学术论文、科技报告之类科学技术文献资料的检索,较好的办法是作分面化改造。过去在手工检索条件下,由于分面化改造涉及藏书改编等问题,阻碍较大,故众多研究者虽一致认为分面组配化是一条改进体系分类法的出路,但迟迟无法实行。随着手工检索向计算机检索发展,有可能通过对应转换技术克服障碍而得以实现。

我国只有少量词表是分面化词表。在分面化词表中,词间关系的显示比在范畴表和词族表中具有更高度的系统性、明确性和完备性,具有更好的易用性,同时,词表的分面化改造并不象体系分类表的分面化改造那样困难,故是今后的一个发展方向。今后编制专业词表,则以采取分面化词表形式为宜。

在书本式的叙词表中,采用分面叙词表形式,叙词的系统显示部分与字顺显示部分总是要有一个转查过程的,这或许是分面叙词表的优越性不易被人觉察的原因。上面提到的《军用主题词表应用管理系统》的特点之一——叙词表各部分的单屏多窗口网状互联显示,用鼠标在词表任一部分的某个词上点一下,其它部分均联动指向该词。分面叙词表的机读版如果也采用这项技术,那末,系统显示与字顺显示两个部分的转查过程就简化为点一下鼠标的操作,它的优越性就可以明显看出来了。传统叙词表作分面化改造+机读化是较易做到的,所以这应是一个发展方向。具体实现技术,则还需研究。

(2)自然语言接口及对应转换词典的研究

情报语言的自然语言化可通过两种途径实现,即或者对叙词表增补大量入口词,或者用自然语言接口置于叙词表之前。这样,标引和检索都可使用自然语言,而检索系统却仍然是由严密的叙词语言控制的,就可兼取两者之长。

自然语言接口在技术上并不复杂,目前的主要问题是缺乏自然语言与情报检索语言的对应转换词典,包括汉语的对应转换词典和外语与汉语的对应转换词典。这种对应转换词典以专业性的比较适用,综合性的对应转换词典不但编制困难,使用效果也不会理想。所以,我们需要的是上百部甚至几百部对应转换词典。如何编制这种对应转换词典,特别是如何使这种词典的编制过程达到某种程度的自动化,是一个有待研究的课题。

2.3.2 自然语言检索研究课题。 自然语言正在越来越广泛地应用于情报检索,这特别是在互联网络的检索环境中一种必然的优先选择。但是应该看到,自然语言检索目前还处于其发展的初级阶段,尚有许多地方有待改进。自然语言检索应当由计算机软件专业人员、情报语言学专业人员、术语学及语言学专业人员等共同来进行研究,才能较快地取得完满的成果。情报语言学研究者应当积极参与自然语言检索的研究,当前亟需从情报语言学角度深入自然语言检索方法,把情报语言学的原理和方法引进自然语言检索的研究。

(1)自动抽词及抽词词典的研究

我国自动标引和自然语言检索10多年来主要是在汉语自动分词即自动抽词方面攻关,已取得了很大进展。但如何从自然语言文本中自动抽出最能准确、充分地表达文献有价值内容的词,以及这些词与检索课题的有效匹配问题,仍然是其难点,还需要作艰苦的研究。同时,抽词词典的编制能否实现某种程度的自动化,也是一个需要研究的课题。

(2)改进全文检索系统的研究

全文检索系统已有较广泛的使用,其完善程度有很大区别。有的全文检索系统是纯文本数据库的,有的则是文本数据库与文献目录数据库的结合;有的对文本作过不完全的词索引,大多数则未作索引。过去一些论述认为,全文系统的优点是检准率高,实际上,只有当某些词很关键而且又较少使用,用那些词在全文系统中进行检索,检准率才相当高,而在大多数情况下,其检准率并不高,有时甚至低到不能容忍的地步;同时,虽然输出量庞大,但常常并不能保证较高的检全率。所以,实有必要从情报语言学的角度去加以深入研究,使之完善。

(3)改进单汉字检索系统的研究

由于自动分词的复杂性特别是缺乏抽词词典,单汉字检索系统应运而生。它回避了自动分词问题,对每个汉字进行自动索引(也可排除没有实质意义的汉字)。由于单个汉字的独立检索意义不大,故其实质是一种无标引系统。单汉字系统的检索过程是进行关键性的字或词的任意匹配,与全文检索性质类似。存在的问题是如何优化检索策略以及如何进行后控制。

(4)后控制词表编制自动化的研究

对于一切自然语言检索系统来说,配备后控制词表对提高检索效率都是有作用的。最理想的后控制词表应在系统实有的标引用词的基础上编制,但对于全文系统则难于做到这一点。后控制词表的编制达到一定程度的自动化(即机助),是一个需要解决的课题。

2.3.3 网上资源检索研究课题。互联网上的信息犹如汪洋大海, 并以惊人的速度增长,如何能使用户花较少的时间检索到自己所需要的信息,有效地利用网上资源,既是一个新课题,也是一个迫切而重要的研究课题。

(1)适用于组织和检索网上资源的检索语言的研究

搜索引擎和主题指南是伴随互联网出现的检索网上信息资源的新工具,数量很多,目前仅中文的已有40多个。搜索引擎和主题指南实质上是一种网页网址检索系统,其数据库中收录有几十万乃至几百万个网页网址,大多有网页的全文,有的提供分类(等级式主题类目,比较粗略)和关键词两种检索途径,有的仅提供关键词检索途径。主题指南用人工编制,搜索引擎一般是自动编制。搜索引擎检索结果往往会输出几千个网址,虽可按相关性排序输出,但检准率还是较低。关键问题是标引用语和标引方法,大有改进的必要和余地。对于网上资源的检索来说,可能需要一种特殊的情报语言,有待于人们去探索。

(2)与国际接轨问题的研究

这是一个亟待加强研究的问题。我国已加入国际互联网络,一方面,网络上的丰富信息资源我们应充分利用,另一方面,我国的信息资源也要通过网络向国外传递交流,这不仅要求我国数据库的数据交换格式与国际通用格式取得基本一致,也要求我国的情报检索语言与国际流行的情报检索语言兼容。在这方面,我们已做了一些工作。例如,我国的专利说明书采用《国际专利分类法》标引,我国的标准文献采用《国际十进分类法》标引,我国一些单位医学文献的现代医学部分采用国际上广泛使用的《MeSH》词表标引,我国的国防科研部门曾编制一种《国防科学技术主题词典》,该叙词表主表为英汉对照,词汇完全取自国外相关的词表。北京图书馆中文编目部分类法词表组最近与《杜威十进分类法》编辑部正在协商,准备将该分类法21版翻译成中文版。以上这些工作,在与国际接轨方面,只能解决一小部分问题,还有大量的问题需要我们去研究解决。

2.3.4 情报语言学基础研究课题。 情报语言学领域还有许多属于基础性的研究课题,也十分重要。例如:

(1)知识分类微观立体网络化的研究

即分类表词表显示概念关系的立体化。上面提到叙词表各部分的单屏多窗口网状互联显示,是加强分类表词表显示概念关系立体化的一种方法,但由于现有分类表词表本身的局限,尚不能达到充分的立体化。充分的立体化应是“全向聚类”的,能够在同一标识下集中显示一个事物概念的全部联系的。只有这样,才能达到知识的微观系统组织,以保证高度的检全率和检准率。这是一个理想,超文本技术或许可实现这个理想。

(2)具体知识分类和术语方面的研究

从某种角度看,情报检索语言是知识组织的工具。知识分类(包括学科分类和事物分类)是从概念的层次来研究知识的组织,术语学是从语词的层次来研究知识的组织,所以,要提高情报检索语言的质量,必须利用知识分类和术语学的研究成果。在过去,文献分类学者虽也研究科学分类(学科分类)问题,但一般只限于宏观的层次(如部类的划分、大类的序列),这是很不够的,还需要深入到学科之间和事物之间关系的微观方面,进行具体的研究。可以预见,在知识分类和术语学原理指导下建立起来的众多学科和事物概念的分面结构,将是未来情报检索语言的基本构造材料。此外,新学科新主题文献的处理是一个永恒的研究课题,应当系统积累。

(3)未来情报语言的研究

不采用控制措施的单纯自然语言检索法肯定不会是未来检索系统语言的最佳选择。情报语言学的现有原理和方法对未来的情报检索系统肯定还会具有重要价值。我们应该对未来情报语言的结构模式积极地进行探索。

我认为,理想的情报语言应是:学科聚类系统与事物聚类系统的结合(事物聚类也应当有系统性,字顺序列可作为进入事物聚类系统的手段),先组式语言与后组式语言的结合,体系分类法与组配分类法的结合,人工语言与自然语言的结合,号码标识与语词标识的结合,系统序列与字顺序列的结合,不变概念代码(用它标引文献)与可变概念体系的结合。

这种情报语言应是:分类法与主题法彻底一体化的,充分发挥情报语言对知识进行系统组织和对自然语言进行规范控制功能的,用户可十分方便地进行标引和检索的,概念可不断增补及概念的代表词可进行更换的,用户区别不出是自然语言还是人工语言而其实是由严密的人工语言控制的,修订不受已标引文献所牵制,故分类体系可逐步完善的,并可以挂接英文索引、分子式索引等以及可用于机助标引的。

我经过10多年求索,曾提出一种学科一事物概念组配型检索语言模式〔1〕〔2〕,包含了以上对情报语言提出的多种要求。当然,那只是初步的探索,只是抛砖引玉而已,将来必定会有更多更好的方案出现的。

可以预见,未来的情报语言,是人工语言与自然语言的融合,是两者一体化的高级阶段。它仍然是一种在检索系统中对知识或主题概念进行控制的工具,是情报语言学现有理论和方法在网络条件下的利用和发展。但那种模式与现有的模式将会有较大的差别。

(4)用户对各种语言使用过程的研究

一种情报检索语言或自然语言检索法是否能被用户(标引和检索人员)接受,用户能否正确使用,从而充分发挥其固有的功能,使标引达到较高的质量或使检索达到较满意的效果,是一个很重要的问题。

为此,必须进行用户对各种语言使用过程的研究。随着网络检索的发展,用户队伍将日益扩大。各类用户的素养不同,了解他们对某种语言的掌握接受程度,了解他们的检索行为,了解他们在使用中怎样造成检索误差,以便针对用户的情况选用合适的语言类型,以及纠正某种语言的缺点,这也就是贯彻用户保证原则。国外比较重视这方面的研究,但我国在这方面的研究很少,是今后必须加强的。

来稿时间:1999年4月

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

20多年来我国信息语言的发展与21世纪的发展目标_自然语言论文
下载Doc文档

猜你喜欢