基于智能搜索引擎的档案信息检索系统构建策略研究_搜索引擎论文

基于智能搜索引擎的档案信息检索系统构建策略研究_搜索引擎论文

依托智能搜索引擎构建档案信息检索系统的策略研究,本文主要内容关键词为:策略论文,检索系统论文,搜索引擎论文,档案论文,智能论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

[分类号]G270.7

以智能搜索引擎来构建信息检索系统,是数字档案信息检索服务的现实需要和大势所趋。随着数字资源的快速增长和多媒体信息的海量增加,档案信息检索技术暴露的不足日益明显,迫切需要智能技术的介入。

一、现阶段档案信息检索技术面临的突出问题

根据美国学者克莱弗登的研究,评价信息检索效果的指标主要有六项:收录范围、查全率、查准率、响应时间、用户负担和输出形式。参照这些评价指标,目前的档案信息检索技术还存在着诸多不尽人意之处。

(一)信息查全率的技术障碍

信息查全率(Recall Ratio)标志着信息检索系统检出相关文献信息的能力。传统的档案检索系统通常受到布尔逻辑检索的局限,只能用孤立词和词汇术语作为检索入口,用户无法选择确定那些被布尔逻辑检索漏掉的相关标题,导致漏检率较高。

(二)信息查准率的技术难点

信息查准率(Precision Ratio),标志着信息检索系统的精确度,即说明系统排除干扰、检索噪音的能力。传统的信息检索技术有较大的局限性,在查准方面难以保证。原因是基于关键词匹配的检索技术,不符合语义理解的需要,不能很好地理解用户的检索请求,不能区分关键词的同形异义,也不能联想到相关同义词、近义词,无法智能识别语义的内在关联,更不可能考虑到关键词所处的特殊语言环境,不仅给选用检索点带来困难,而且导致用户需要费时费力地对数以千计的检索结果进行手工筛选。

(三)响应时间的制约因素

所谓响应时间(Response Time),是指在一次检索过程中,用户从开始向信息检索系统提问到系统输出检索结果的全部时间。目前,由于受网络和相关设备的技术限制,信息的处理速度尚难尽人意。

(四)输出形式的表达困惑

传统的档案检索系统不能让用户按照自己的需要选择检索结果显示的排序方式,导致输出的信息经常是“眉毛胡子一把抓”。用户表达的需求与获取的检索结果往往差异很大,真正符合用户需求的信息却不多,尤其是目前的全文检索技术,通常在输出结果中不具备突出显示目标关键词的功能,影响用户对检索结果的选择和利用。

(五)系统运作的易用机制

系统的易用性也称为可存取性,是指信息检索系统的易用程度,即运行机制的可操作性。摩尔斯定律认为:一个情报系统如果对使用者来说取得情报要比他不取得情报更费事更麻烦的话,这一系统就不会得到利用。由此可见,易用性是用户选择信息检索系统的重要因素之一。传统的档案检索系统在检索策略构造方面,专业性较强,系统透明度差,用户不能用自己所熟悉的方式查询提问,没有经过专门训练的用户很难从系统中获得自己所需要的信息,给用户一种望而却步的感觉,缺乏良好的交互性。

(六)用户的负载能力

所谓用户负载能力,是指用户在检索过程中所消耗的物力、财力乃至精力的总和。传统的档案信息检索系统对于用户提交的模糊查询请求有时达到几十页的搜索结果,且检索结果的相关性差,缺乏合理的排序和必要的组织、分析,与检索提问最相关的页面不能首先呈现给用户,用户必须要在众多的检索结果中寻找所需的信息,大大超过用户的接受能力。

二、智能搜索引擎对档案信息检索系统建设的应用价值

搜索引擎作为一个信息检索系统,涉及信息检索、数据库、数据挖掘、人工智能、分布式处理、自然语言处理等多个领域的理论和技术,因而具有综合性和挑战性,已成为IT行业和学术界争相研究、开发的一项重要课题。随着Web信息的日益增长,搜索引擎已成为人们最普遍使用的信息检索工具。搜索引擎技术,现已发展到第三代和第四代。以Al-tavista、YAHOO和Infoseek为代表的第一代搜索引擎,解决了用户对“求全”(搜索反馈的信息数量)的技术需求;以Google和Di-rectHit为代表的第二代搜索引擎,解决了用户对“求精”(搜索反馈的信息查准率)的技术需求;正在发展中的第三代和第四代搜索引擎,分别以“求专”和“求易”作为技术升级的研究重点,期望达到的目的是搜索引擎技术能够更加人性化。

当前和今后一个时期,针对传统信息检索系统的缺陷和不足,选择智能搜索引擎技术作为核心支撑技术,加强用户的检索模式研究,对检索过程进行科学谋划和开发,必将成为完善和提升档案信息检索手段的重要途径。因此,必须高度关注计算机相关领域的最新发展动态,积极地将其中的创新技术应用于档案信息检索领域。在这方面的技术创新,国内外搜索引擎商作出了各式各样的努力,主要的研发技术有:语义搜索、群体搜索、基于内容特征的多媒体检索技术、罗盘搜索、整合搜索、垂直搜索、个性化搜索、社会化搜索等。

(一)语义搜索(Semantic Search)

在猜测用户意图方面,语义搜索认为自己有能力理解用户的思维。它期望通过理解自然语言的逻辑,通过分析用户输入搜索框内的词语,给出用户可能想要的搜索结果,来解决“问题式”搜索的难题。这种以自然语言理解技术为基础的网络信息检索系统,把信息检索从目前基于关键词层面提高到基于知识层面,具有智能化、人性化特征,对知识有一定的理解与处理能力,允许采用自然语言进行信息的检索,为用户提供更方便、更确切的检索服务。阿尔法搜索引擎是其代表之一(2009年美国计算机科学家史蒂芬·沃尔弗拉姆推出的一款新型搜索引擎)。用户在它的搜索框键入需要查询的问题后,它将直接向用户返回答案,而不是一大堆网页链接。沃尔弗拉姆称他的新发明是“知识引擎”,它能真正理解用户输入的问题,并找到几乎所有涉及人类知识问题的答案,但目前对用户要求比较高,正确回答问题的稳定性还不够高。借助搜索引擎这一应用模式,现阶段可以利用自然语言理解和公文构词规律建立档案主题词词典,力图使档案检索系统更好地理解自然语言,但主题词库必须具备同类项管理功能,对同义词、近义词进行归类,并具有一定的容错功能,当用户输入的检索词有错字、别字时,系统能够联想到正确的主题词,从而提高现行文件的查全率。此外,主题词库管理系统应当支持树形管理结构,以保障用户在用某一检索词进行检索时,系统能够提供其相关的下位类检索词,从而大幅度提高档案信息的查准率。

(二)群体搜索(Groupization)

微软的新技术——“群体搜索”(Groupization),将为搜索引擎使用方式注入全新的内涵。该项研究发现,在网络世界中有着相同“兴趣”和“情趣”的人在使用搜索时,使用的关键词和表达方式往往具有惊人的相似度。微软在这方面进行了积极的技术创新,它的新技术能判断出用户的志趣点,并为他们找到符合自己思维和表达方式的搜索结果。比如,用户在网络上谈论运程办公时,一些倾向于SOHO的用户会联想到在家里办公的好处,而另一些用户则会把远程办公和在办公室上班作一个比较。如果使用传统的搜索引擎,这两种用户在搜索同一主题时,很可能得到相同的搜索结果。微软要做的就是先通过交互手段搞清楚用户的倾向和原则,再把这些用户划分成若干的群体,为他们提供最精准(最善解人意)的搜索结果。借助搜索引擎这一应用模式,数字档案馆可以提供个性化推送和定制服务,即根据来访者的需求,深入分析用户的专业特征、研究兴趣,预先做出满足其需要的“对象库”,进而主动向用户推荐其可能需要的信息,使具有针对性、特色性的信息和界面展现在具有特定需求的用户计算机桌面上。

(三)基于内容特征的多媒体检索技术(Content-based Multimedia Retrieval)

现代化的数字档案馆中不仅包括了文本型文献信息,还包括大量的图形、图像,以及声音、视频、动画等多媒体信息。影像不同于文本,对它的组织、存储、检索、传递与利用,需要依靠一系列的新技术支撑,其中的核心问题是如何表现影像的内容。基于内容的多媒体检索技术将突破传统的基于文本描述和检索的局限,直接对图像、视频、音频内容进行分析,利用媒体对象的语义、媒体的视觉和听觉特征来进行智能检索,在很大程度上避免对影像的主观描述。目前,比较成功应用基于内容的图像检索技术的系统有TinEye等相关图像搜索引擎。TinEye(www.tineye.com)这类以图找图的智能搜索引擎,改变了以往只能“以词找图”的搜索方式,推出了图片指纹技术,即依据图像固有的特征进行标引和检索。这种搜索方式,能够根据一张主题、人物、时间、地点都不明确的图片或者图片的某一部分,运用智能搜索来实现定位,并在需要的时候能够配合其它搜索引擎作复合搜索。借助“以图找图”智能搜索引擎的技术支撑,用户在进行档案信息查询时,只要直接将图像的画面内容特征描述出来,即可在大容量档案图像库中找到所需的图像。

(四)罗盘搜索(Compass Search)

谷歌实验室为图像搜索推出的罗盘搜索,也为档案信息检索提供了可循之路。其功能主要为:输入一个关键词搜索后,它会以主题的形式对搜索结果进行智能归类,不仅能在每个大主题下归纳出多个子类,而且能在子类下再分出更小的子类,用户只要跟着导航一步一步点击选择,就能更快速、精准地找到需要的图片。

(五)整合搜索(Universal Search)

整合搜索所强调的是最大的灵活性和适应性,我们可将这一技术所具备的功能理解为以下几个方面:一是功能的通用,即利用一个搜索框即可完成所有功能;二是终端的通用,即搜索行为不仅仅局限于计算机上,搜索结果的传递方式将更加多元化;三是操作方式的通用,即高度可定制的界面可以满足各种用户的需求;四是搜索结果的通用,即搜索结果的展现方式将更为丰富。Google的整合搜索系统,是目前搜索领域最有代表性的整合搜索方案,并声称整合搜索将是其未来搜索结果展示的主要方式。

(六)垂直搜索(Vertical search)

Baidu、Goolge等搜索引擎都有“更多”的选项,其中出现了大学搜索、新闻搜索、图书搜索、图片搜索等专业化、行业化的搜索,也称为垂直搜索。当前,垂直搜索正逐渐走向丰富化、专业化、行业化,将为满足人们的搜索需求提供越来越先进的技术支撑。垂直搜索是相对通用搜索引擎的信息量大、查询不准确、深度不够等提出来的新型搜索引擎服务模式,其通过对某一特定人群、某一特定需求或某一特定领域内的信息模型和用户模型结构化的搜集或再组织,提供更多、更专业和个性化的相关服务。垂直搜索的显著特点是:具有“专、精、深”的技术功能。借助垂直搜索的优势,档案管理者可以推出极具针对性的精准化搜索服务系统,且该系统将形成一个庞大的垂直搜索矩阵(Matrix),不仅能够按照档案利用者的特定搜索需求,从垂直搜索中获得细分化的精准信息,而且可以大大提高档案数据库的信息质量,使众多不可见的高质量信息明显化。

(七)个性化搜索(Personalized Search)

个性化搜索也是搜索引擎智能化的必由之路。比如:根据用户的上下文查询,提供不同的检索结果;优先给出符合用户查询语境涵义的反馈信息;自定义默认搜索首页的类别,允许用户根据自己的需要对搜索界面作一些个性化的设置;搜索结果页分类导航等。借助个性化搜索的优势,档案管理者可以开发多种个性化搜索功能,使档案信息检索系统在充分领会用户意图的基础上,享受到真正的智能化服务。

(八)社会化搜索(Social Search)

社会化搜索的意思就是通过搜索形成一个有共同爱好的人际圈子,又通过搜索每个人的爱好和收藏为用户提供一个更为准确的信息,使用户能够获得其他真正“懂行”人士的建议,进而为用户提供更为准确的信息。社会化搜索引擎,通常都具备元搜索、收藏、圈子等功能,以满足人们最终达到一个全社会知识共享的概念,这一技术对改进档案检索系统功能将具有极高的运用价值。

三、运用智能搜索引擎技术值得关注的主要内容

从分析现阶段智能信息检索引擎技术发展现状来看,虽然这项技术研发的路线选择不尽相同,且显现了各自的优势或特色,但通过深入研究可以发现,各类搜索模式都还存在着诸多方面的技术缺陷和不兼容的共性弊端。因此,依托智能信息检索引擎技术构建档案信息检索系统,必须高度关注Web技术发展的走向,以期尽早明确档案业界适用技术模式的研究方向和改造重点。

(一)人工智能技术亟待完善的重点

尽管当今社会已步入Web2.0时代,但智能信息检索系统能否精准理解自然语言仍是亟待突破的技术难点。如:实践中迫切需要解决的两大难题:一是“忠实表达”问题。目前,用户很难简单地用关键词或关键词串来忠实地表达自己所真正需要检索的内容,从而导致检索困难;二是“表达差异”问题。鉴于自然语言的表达存在着词义模糊、灵活等特点,往往使得同一个词语在不同的语境中会有不同的含义,极易发生漏检和误检。造成此类信息检索问题的原因在于搜索引擎尚缺乏高水准的知识处理能力和理解能力。从现阶段搜索技术发展的方向来看,搜索技术的智能化发展,还较多处于理念层面,远未达到人们期盼的境界。因此,在智能技术没有突破性进展的情况下,档案信息检索系统建设暂难实现跨越性的进步。当前,我们必须从推进档案管理理念和手段创新的角度,密切关注智能检索技术转型升级的动向,以便跟上Web技术发展的步伐。

(二)信息检索系统的机制优化

档案信息检索系统所面对的用户来自各种不同的专业领域,知识层次也各不相同,想把众多知识形式化并进行合理定位绝非易事,尤其是档案数字管理系统的技术开发,往往受到人力、物力等各种投入的掣肘,谁能首先掌握智能技术,特别是突破知识表示和获取自然语言理解等关键性的技术难点,谁就能在智能信息检索研究中获得领先权。因此,要密切关注传统信息检索技术的更新换代,认真分析各类不同搜索技术的利弊,将信息检索系统的机制优化作为技术创新的主攻方向,即:实现由基于关键词层面向基于知识(或概念)层面的转变,以利信息检索技术朝着更加智能化、人性化的方向加速发展。当前,在智能信息检索技术尚未达到理想状态的情况下,通过一些技巧的革新并辅之系统运行机制的优化配置,对促进搜索效率的提高乃至引发技术创新,都将产生不可估量的作用。实践中,这方面的技术解决手段有以下几种可资借鉴:一是采用最简单的表达方式。多数查询不需采用高级操作或不同寻常的语法,简单就是“精准”;二是正确组配关键词。搜索引擎是一个将用户输入的词语与Web数据库进行程序匹配的工具,因此用户应当尽量学会并掌握Web数据库中规范使用的词语;三是关键词不宜过多。在查询中,每个词语的作用是为强调重点,若添加过多的关键词,将直接限制搜索结果,而以较少的关键词搜索辅之系统联想功能的巧妙运用,往往会产生意料之外的奇效;四是选择描述性词语。查询时,应当使用常用语,尤其要注意选择更具描述性、更为具体的语义表达;五是精确短语搜索。尽量采用短语搜索,让搜索引擎对用户的查询词语顺序得以确切理解,以期达到高效的命中率。

(三)档案信息检索模式的选择

通过深入研究可以发现,尽管现有的智能检索引擎技术存在着诸多缺陷或不足,尤其是要满足不同用户的个性化、专业化、智能化查询需求尚待时日,但运用智能检索引擎技术来构建档案信息检索系统,这是提升档案信息服务水平的必由之路。因此,数字档案管理者必须根据本领域的发展特征和用户的需求特点,悉心研究智能检索引擎模型的设计要求,善于选用Web技术发展中的优秀成果,才能不断改进和提升档案信息检索系统的运作水平。从现阶段的技术发展情况来看,对依托智能检索引擎构建档案信息检索系统的功能模块,有以下三个方面设计要领可资借鉴:

1.采用电子“账号”技术,赋予个性化查询“标识”。用户查询的历史记录,既是档案信息检索系统建立智能化查询功能的基石,也是档案信息检索系统提升个性化服务水平的源泉。因此,系统可以采用“注册”方式,为每个用户设立专用电子“账号”,并将用户的个人兴趣信息以账号为“标识”存进用户的个性数据库,而后由系统数据库集成平台对这些数据进行分析并将其自动入驻用户词典。由于系统的用户词典中录入了用户查询历史记录中所有的词汇,尤其是用户词典随着用户访问次数的增加,既可对研究自动生成查询与反馈的对接机制提供帮助,又可对这种机制的运作规律进行深层次分析,不断增强系统对用户查询词汇的辨认和理解能力,以利最终实现高效、便捷、精准之目的。

2.强化关键词的关联功能,提升查询结果的聚类水准。针对目前档案检索系统用户查询结果页面之间关联度差的问题,不仅在设计档案智能检索系统时要高度重视用户词典模块技术的优化,而且要通过对用户查询历史记录中的关键词或关键词串进行聚类分析,并建立起基于页面关键词之间具有高可塑性的链接机制。例如:要准确整合关键词或关键词串相似或近义的信息,科学部署各类被整理集成信息的显示顺序,既能实现相关页面的聚集显示,又能方便用户浏览自己感兴趣的内容。同时,系统对用户的查询语句应当进行语法分析和关键词切割,将语义信息抽取出来并存入数据库,以利扩充该领域词汇表的内容,进一步优化搜索引擎查询语句的精准度。

3.完善“对象库”的多样性,增强特色化服务的多功能性。在对用户查询历史记录进行数据挖掘分析的过程中,被系统录入的用户搜索历史,既是系统发现和捕获用户潜在需求的机缘,更是建立潜在用户群“对象库”的元数据。因此,系统在对档案信息按主题进行分类时,就应做出能够尽力满足用户需求的“对象库”,并通过数据挖掘分析不断完善个性化推送和定制服务等多样性功能。同时,系统要不断提高容错、联想和修正等智能技术水平,让用户在查询时不仅可以选择查询关键词所属的类别,而且可以根据自己的需要有选择地确定感兴趣的查询类别,快速并准确地找到特定的主题信息。

毋庸讳言,美国学者克莱弗登提出评价信息检索效果的六项理论指标,虽然对指导我们研发智能检索引擎具有很重要的参考价值。但无论搜索服务手段和模式做什么样的“创新”,都必须把提高对用户原始查询语句语义的识别力放在首位,只有满足了用户的查询需求,才是发展智能搜索引擎技术的最高境界。当前,智能搜索引擎技术正在日新月异地加速发展,而档案智能信息检索系统的研发和应用却一直处于非常滞后的状态。笔者真诚期盼各级政府及其档案管理部门能够对此引起高度关注,切实加大人力、物力等各方面的投入,以利更好地发挥档案业造福社会的应有作用。

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

基于智能搜索引擎的档案信息检索系统构建策略研究_搜索引擎论文
下载Doc文档

猜你喜欢