90年代我国全文数据库及检索研究综述,本文主要内容关键词为:年代论文,我国论文,全文数据库论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
所谓全文数据库及其检索,就是将文献全文以机读形式存储,然后用自然语言表达检索课题,借助于截词、逻辑等匹配方法,直接对文献正文进行查找,以检出所需文献的一种方式。由于其具有检索直接、使用方便、专指性好等优点,其发展近年来受到普遍关注。因此,本文拟就90年代以来我国全文数据库及检索研究现状作一概观性描述和评价,以求理清其发展脉络,探索其未来发展趋势,为其今后发展提供借鉴。
1 全文数据库建设概况的研究
1973年,美国米德公司建成了世界上第一个面向公众查询的大型全文数据库Lexis,标志着一个新的情报检索领域的诞生。 随着计算机在信息产业的广泛应用,80年代中期开始,国外全文数据库的建设呈现出迅猛发展的势头,我国则由于汉字处理的复杂性,全文数据库的发展滞后一些,只有湖北省地方志全文检索系统、经济日报全文数据库、人民日报全文数据库等几个全文数据库投入使用。所以90年代初期,我国全文数据库概况研究主要是对国外全文数据库的重点介绍[1~3],及我国独立开发的全文数据库建设情况的初步探索[4]。 随着我国汉字激光照排技术的发明和广泛使用,为全面开发全文数据库奠定了技术基础,我国全文数据库进入大规模研制时期,因此这一阶段出现了多篇研究我国全文数据库建设概况的文章[5~ 7]。 同时这一时期香港也制定了一项The Hong Kong Newspaper Full-text Database Project[8], 准备在香港中文大学建立一个港版的中英文全文数据库。这里特别值得一提的是由清华大学编辑制作的《中国学术期刊(光盘版)》的出版发行。《中国学术期刊(光盘版)》1996年底在我国发行后,由于其学科覆盖范围广,更新及时,并且提供了一种新的传统检索入口和全文检索相结合的检索模式,所以其应用十分广泛,促使人们从各方面对其进行研究,既有动态新闻报道[9],又有检索实践评价[10], 还有从向读者推广利用的角度出发对《中国学术期刊(光盘版)》与美国“Applied Science& Technology Plus”的对比分析[11]。可以说, 《中国学术期刊(光盘版)》在一定程度上代表了我国电子期刊全文数据库的发展水平,因此对其的系统研究,无疑具有一定的意义。
通过以上分析可知,开展对全文数据库建设概况的研究,对于我们及时了解全文数据库的建设现状,交流开发经验,把握全文数据库发展动态和趋势,避免盲目开发,具有一定的参考作用。
2 全文数据库及检索理论问题的研究
全文数据库及检索理论的研究呈现出阶段性发展特点。
90年代初期,由于我国全文数据库的发展处于起步阶段,因此这一时期的研究只是对全文数据库及检索的技术进展和应用作一些概要性描述[12~15]等。这些文章通过对国内外全文数据库的发展状况的研究,分析了全文检索与其他检索相比的优缺点,探讨了我国目前全文数据库研制过程中存在的问题,预测了今后发展前景。可见,我国全文数据库发展初期,就处于一定的理论指导下。这种理论指导使得我国全文数据库的开发、研制始终坚持正确的发展方向。
随着我国全文数据库开发数量的不断增多,研究重点开始探讨其迅速发展因素,并对汉字全文数据库单汉字、词索引两种机制的研究转入定量分析[16,17]。 另外还有作为全文数据库的电子出版物对信息产业影响的研究[18]。
随着我国全文数据库发展初具规模,这一时期对全文数据库的论述重点转移到全文数据库建设中存在问题的对策分析,出现了总结评述性论文[19~21]。这些文章考察了我国全文数据库的开发应用状况,探讨了现有某些问题的解决方法,它说明全文数据库的建设绝非一蹴而就,它需要全盘考虑,统筹规则,系统分析。因此,这几篇文章对于我们在我国全文数据库建设已经具有一定发展影响和实力的同时,及时总结和回顾全文数据库及检索研究的优点和局限性,适时调整研究重点和研究力量,具有一定的指导意义。特别值得一提的是,张政宝的《我国全文数据库建设的现状与发展》一文,首次提出了开展对全文数据库用户研究[21]。由于这一时期全文数据库在图书情报机构的广泛应用,因此本阶段也有不少论述全文检索技术对图书情报服务影响的文章[22,23]。
近年来,因特网在全球范围内的应用,改变了人们的工作和生活方式,利用网上信息,成为人们获取信息的一个重要途径;但是目前网上信息量极度膨胀,在大量信息面前如何搜索选择自己所需信息的能力显得越发重要。在这种条件下,越来越多的WWW 服务器开始加入辅助人们进行信息查询的检索工具,而几乎所有的检索工具都采用了相同的方式——全文检索。因此,研究网络环境下的全文检索技术成为全文检索研究的前沿课题。孙国泉的《网络环境下的全文检索系统》一文对此方面的问题进行了论述,并预测“网络环境下的Client/Server模式,多媒体数据、自动索引、超文本链接、自动分词”[24]是未来全文检索系统的发展趋势。
当前,互联网的发展推动了信息化建设,而作为信息资源的重要组成部分——全文数据库也相应得到发展,已成为处理文献信息中的知识与数据的有力工具,因此,这一时期再次出现了全面总结评述性论文,同前一次相比,论文内容更为系统,涉及范围更广、更具有针对性,既有为实现信息资源共享,建立电子文献传递系统的研究[25],又有对国内外较成功的和新推向市场的全文检索系统的分析和选择[26],还有对全文数据库建库原理与应用技术的全面探讨[27]。这些论文的出现标志着全文检索技术走向成熟。
从以上分析可以看出,全文数据库及检索的理论研究重点随时代的发展而有所不同,这是因为其理论发展是以技术为背景,同时技术变革对理论有定向性选择。所以,90年代初期,我国全文数据库的发展刚刚起步时,其最初理论研究是描述性和探讨性的,但是这种科学的概况和总结解决了最初的技术困难,将全文数据库及检索技术推向高一层次的阶段,这又符合理论从实践中总结规律,并反过来对实践起指导、促进作用这一规律。这一定律反复运用,使得全文数据库及检索技术渐进发展,理论不断成熟、深入。
3 全文数据库的开发与检索技术的研究
全文数据库开发与检索技术的研究主要集中于一些技术难点和热点上。
3.1 汉字自动标引技术
汉字标引是我国情报检索领域内的重要研究课题,目前研究侧重于自动标引,而自动标引又可分为单汉字标引法和词切分标引法研究。
1 )单汉字自动标引技术研究。 陈光祚的《论单汉字检索系统》[28]及苏新宁的《汉语文献检索词自动标引研究》[29]是目前此方面的代表作。前者从汉语文本和汉字的特点出发,分析了单汉字检索模式的发展趋势和可行性,是一篇对单汉字检索一般性问题进行全面总结的高水平的论文。后者提出了一种新的文献自动标引算法——检索词后组标引法,这种方法避免了先组式切分标引的障碍,因此本文对于实现真正的、完全的多维标引和检索,突破汉语自动标引处理的瓶颈具有一定的参考价值。
2)词典切分标引法研究。以词为处理单位进行标引, 可以提高查准率和系统响应时间,是全文检索系统标引技术的最好选择。但是由于汉语的复杂性,基于自动分词的全文检索在实现上难度很大。因此,目前此方面的研究甚少,未有专文论述,研究散见于介绍相关问题的文章。
3.2 用全文检索技术制作电子出版物
目前,我国新闻出版界普遍采用了电子出版技术,这种电子文本如果经过进一步的格式化形成全文数据库后,配以经过改进和完善的全文检索软件就可作为电子出版物向社会发行,对于这种电子出版物的制作技术、过程和特点, 陈光祚在《利用全文检索技术制作电子出版物》[30,31]等几篇文章中作了介绍。
3.3 将自然语言和受控语言相结合提高检索效率
随着计算机存储容量、运算速度和软件的改善,大量原始信息可以被存入检索系统,导致了全文数据库的大量出现,而全文数据库的出现必然促使使用自然语言检索势在必行,因此张琪玉、周全明、贾同兴、许慧[32~38]等人根据当前我国检索系统的具体情况,提出了在传统检索语言体系的基础上采取后控制手段,以期在不断加深自然语言化程度的过程中达到殊途同归的兼容化的思路。这种思路的提出必然会不断完善基于自然语言的结构化大型词库,使之成为一个具有词间联想功能的,具有自然语言理解能力的新一代智能化检索系统。
3.4 全文本汉字检索软件
全文检索是在全文数据库的基础上进行的。检索功能的实现不仅取决于全文数据库的结构,而且取决于检索软件的设计水平。《全文文本及其汉字软件研究》[39]和《通用全文本汉字信息系统存贮和检索软件H—CGRS》[40]两文针对各自的检索系统,介绍了软件设计的模型。
3.5 超文本全文检索系统的研究
超文本系统是随着网络的发展出现的一种非线性高级动态文本系统。传统的文本信息是按顺序组织的,而超文本全文数据库检索则完善了传统数据库的知识组织模式,提出了一种新的动态“联想”的功能。方正、张子枫等人合作完成的《超文本全文检索系统的研究》[41,42] 就是针对当前在所有的超文本系统上基于提问的检索尚未实现这个问题,提出了一个基于超文本Dexter参考模型。这个模型充分考虑了超文本和全文检索技术可扩展性和软件易维护性,构建了一个全文检索系统与超文本相互独立的结构。目前,超文本全文检索的研究尚在探讨阶段,这种系统的参考模型和用户接口的检索语言还没有统一标准。
从全文检索技术本身来看,随着科学的进一步发展,全文检索技术将不断得到完善和发展。自动标引、全文软件设计与开发、全文后控词表以及超文本链接结合技术仍是全文检索开发与设计技术研究的热点问题,因为这些领域仍是进一步发展我国全文数据库及检索问题的关键技术。