信息检索系统的服务显示接口及关键技术_自然语言处理论文

信息检索系统的服务展示界面及关键技术,本文主要内容关键词为:关键技术论文,界面论文,检索系统论文,信息论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

1 引言

信息技术的发展为信息检索系统提供了很多新的服务方法和方式,本文调研了数十个国外可以通过Web访问的信息检索服务系统,分析它们在提供服务过程中的界面展示特点及背后隐藏的关键技术,以期从中得到某些启示。

在调研过程中,我们主要考虑了三个方面的标准:①查询输入的形式;②结果页面的展示形式;③结果页面显示内容的依据。

按查询输入形式,可以分成以下三种类型:①关键词输入,在界面上提供输入文本框,要求用户输入一个或多个关键词,或者输入符合系统规定的检索式,这是大部分信息检索系统采用的方式,也是比较流行的界面形式;②自然语言提问,界面形式与关键词输入的界面相同,不同在于用户可直接用自然语言表达自己的问题,而不必再对自然语言进行分解和修饰;③问答式,系统不要求用户输入检索词或问题,而是给出一些预设问题和可能的答案,由用户根据自己的情况选择相应的答案,系统据此返回用户需要的内容。

按结果页面的展示形式,可以分成以下三种类型:①类目列表式,通常系统的检索结果按相关度或时间顺序线性排列,类目列表式的展示方式则先将检索结果聚合成若干类(每类还可能包含小类),在各类下再用列表的方式显示本类的命中信息,使得检索结果更具层次性;②图形化展示,这种方式是对类目列表式显示方式的改进和扩展,在检索对象之间进行关系挖掘或在检索系统中其他相关信息的基础上引入可视化技术,用图形、颜色、箭头、连线等反映检索对象之间的关系或者标注检索结果的某些方面的特征;③导航式,对于诸如办事流程之类的有先后次序的查询结果,系统会先给出流程中包含步骤的导航,用户根据导航指示,点击相应的步骤,就能得到该步骤所需要的信息,这种方式实质上是前两种结果展示方式在特定系统中的具体实现。

按结果页面显示内容的依据,可以分为两种类型:①完全以检索对象为依据,即界面上显示的内容,包括结果本身以及对结果的修饰(如聚类的类名、结果之间的关系等),均来自对检索对象本身的分析,不再考虑其他方面;②利用检索对象之外的信息,对检索结果进行标注,例如,在系统中设立用户的点击行为日志,在返回检索结果的同时,从日志中读出检索结果的被点击次数,对检索结果加以标注,帮助当前用户了解具体结果被自己和他人使用的情况。

按照以上三个方面的特征,我们归纳总结了5种信息检索系统的服务界面形式:基于检索结果的类目列表式界面展示、基于检索结果的图形化界面展示、基于用户行为特征的标注式界面展示、基于预设问题的导航式界面展示、基于自然语言提问的答案界面展示。本文的目的是分析上述5种类型界面展示的各自特点及背后的关键技术。

2 基于检索结果的类目列表式界面展示

基于检索结果的列表式界面展示是指将检索系统返回的结果按照资源的属性分成多个类别,并为每个类别赋予一定的标签,同时注明该类别下包含资源的数量,用户可以根据标签对全部检索结果有一个快速、全面的了解,并直接定位到感兴趣类别的结果集。这种界面形式通常使用的聚类标签有主题、时间、作者等。基于检索结果的列表式界面展示的核心技术是聚类技术,与一般文本聚类不同的是,其在聚类的时效性和聚类结果的可读性方面都有更高的要求,结果的聚类展示目的是减少用户浏览单纯结果列表需多次翻页而导致的成本花费,通过聚类结果让用户对结果集有概括性的了解,因此聚类所花费的时间不能太长,聚类的类别标签要让用户对该类目中的结果主题一目了然。

美国科技门户(science.gov)[1]是采用聚类技术进行检索结果展示的典型案例。在science.gov系统的检索结果页面上,左侧是对所有的检索结果按子主题、资源责任者和日期的聚类展示,每个类中均注明命中的资源数量。页面的中间是按相关度排序的结果(相关度用星号表示)。页面右侧上部是与用户检索词有关的维基百科(Wikipedia)检索结果,用户可以点击查看维基百科中对检索词概念的定义。页面右侧下部是美国科学促进会(AAAS)网站提供的新闻(EurekAlert新闻)中与检索词有关的新闻。图1和图2分别为美国科技门户的主页(简单检索页面)和检索结果页面。

science.gov系统最重要的技术特点是结果聚类技术和排序算法。

science.gov中的结果聚类技术主要采用Deep Web技术公司的“智能聚类”引擎,该引擎整合了开源的检索结果聚类软件Carrot[2],采用的方法主要来源于自然语言处理中使用的潜在语义分析(Latent Semantic Analysis,LSA)[3],LSA是一种完全自动的数学/统计技术,用于抽取和推断检索结果中基于上下文语境的词语关系,通过创建概念相关的文档和词组来分析文档集合与其所包含的词组的关系,从而能够形成更加高级和细致的结果聚类。该聚类引擎模仿用户的实际思维方式,从概念而不是关键词出发来发现检索结果之间的关系,对结果进行聚类。聚类的实施基于整个检索结果集,用户可对聚类的宽度(例如顶层聚类结果的类数)、聚类的深度(例如每个大类下面子类的层级数)、聚类结果类别的排列(例如按照字母顺序排列或按照返回顺序排列)和聚类的大小等进行设置[4]。此外,science.gov还支持聚类检索结果的增量显示,新增加的检索结果会在后台进行聚类,用户如果选择获取新增结果,系统则会将这些结果添加到现有聚类结果中。

图1 science.gov的主页

图2 science.gov的检索结果页面

结果的相关度排序是science.gov的另一项关键技术。结果排序涉及整体结果相关度排序和聚类结果类别中的相关度排序。science.gov中使用了三种排序算法,分别是QuickRank、MetaRank和DeepRank算法。QuickRank算法是一种快速的排序方法,主要是根据搜索引擎返回的简单结果集中的信息对文档进行快速排序,排序的依据为文档的标题和摘要,检索词出现在文档标题中的位置越靠前,则认为该文档的相关度越高;同时,满足检索式且标题越短则相关度也越高;此外,网页层级越高也被认为是相关度越高。MetaRank算法主要针对高度结构化(包含元数据)的文档,适用于一些网页、短文章和短篇报道的排序。它通过识别检索词在文档中出现的位置为其赋予权值,从而对检索结果排序。三种算法中最为复杂的是DeepRank算法,该算法对检索结果集中的每篇文档都进行全面的检索,并将文档转换为相关度和语义分析过滤器可以识别的标准格式。DeepRank算法的缺点是其需要的数据量大和计算复杂性很高,适用于网格计算[5]。

此外,还有其他一些著名的检索结果聚类系统,如Visimo[6],同Carrot一样,该系统也被众多的大公司如Airbus、Procter & Gamble、LexisNexis公司等用作检索结果聚类引擎[7]。

3 基于检索结果的图形化界面展示

这种展示方式以检索结果提供的信息为依据,以可视化图形的方式展示检索结果之间的关系,具体又可分成两种类型:一种是用可视化图形的方式表示检索结果集中结果之间的关系,深层次地揭示检索结果的内容组成;另一种是基于检索结果集聚类的结果可视化表示,这实际上是聚类列表式展示方式的另一种表现形式。

美国Drexel大学信息科学和技术学院的可视化信息技术研究组研究开发的可视化检索工具ConceptLink[8]、AuthorMap[9]和Visual Concept Explorer[10],主要是将可视化技术应用于检索结果集的概念关系表示。以ConceptLink为例,其目前最著名的应用是被PUBMED作为界面可视化工具。检索时,ConceptLink系统首先根据用户输入的关键词进行检索,并根据检索词与检索结果集中的文档关键词共现频次建立关键词关系,采用可视化的形式将这种关系表示出来,其优点是有助于用户理解检索结果的内容组成,发现概念之间的关系,从而提高用户检索式的专指性和准确性。图3示出了以“Lung”为检索词获取的关键词关系图,用户可以根据概念图中所示的词间关系,通过拖拽的方式对检索词进行添加、删除和更改,系统会提示修改后的命中结果数量,用户点击“Go Get it!”按钮后,系统将给出检索结果列表。

图3 ConceptLink中的关键词关系

Carrot2[11]是直接对检索结果进行聚类可视化的典型代表系统,除文件夹式的列表展示界面以外,它还提供圆形图和气泡树两种图形表示。图4示出了从Web资源中检索“Semantic Web”的结果气泡树图。

图4 Carrot2中检索结果聚类的可视化显示

图4中不同的类别用不同的颜色表示,一个类别中包含的文档数量越多,则该类的“气泡”面积越大,点击各类别的气泡后,图中右侧就会显示出该类中的检索结果列表。这种方式比类目列表式的显示更加直观和易于理解。此外,Carrot2系统还允许用户自己选择类别的颜色、更改类别标签字体和设置气泡形状等。

上述图形化界面展示系统的特点是在检索界面和数据库间增加了一个可视化层,该可视化层接收系统后端对检索结果集中关系的挖掘或聚类数据,将得到的数据转化为图形。在这个过程中,数据处理算法、可视化映射算法以及可视化显示方式,是影响系统效率和效果的三个重要因素。

在实践中,为解决效率问题,具备可视化图形显示界面的系统通常采用以下三种措施:①从检索结果中选择最相关的头N个结果进行显示。例如,Carrot2系统会将返回的头100条左右的检索结果进行可视化,AuthorMap系统根据作者间的同被引关系,每次显示出被检索作者与其关系最为紧密的25个作者之间的图形化表示。也有些系统允许用户对N值进行设置,N值越大,界面显示所需的时间就越多。②同时集成多种数据处理算法和可视化映射算法,根据数据的特点,由系统或用户选择适当的算法对数据进行处理。例如,Carrot2系统集成了Lingo、STC(Suffix Tree Clustering Algorithm)和Lingo3G三种结果聚类算法,ConceptLink系统集成了PathFinder(Path Finder Network,PDNET)和SOM(Kohonen Self-Organizing Mapping Algorithm)两种可视化映射算法。③提供多种图形化显示方式,允许用户根据自己的习惯选择显示的图形表示。例如,AuthorLink系统的检索结果有网状图和方框图两种显示形式,Carrot2系统提供文件夹、圆形图以及气泡树三种显示方式,用户可以根据自己的喜好选择其中的一种。

4 基于用户行为特征的标注式界面展示

这种界面展示方式的特点是为检索结果附加额外的标注信息,例如每条结果的点击数、同类用户对每条结果的使用情况等。这些信息并不是检索对象自身的属性,需要系统用检索之外的功能来采集、识别、处理、计算并将它们与检索结果联系起来。

美国国家科学数字图书馆(NSDL)项目中的Ensemble[12]系统的检索结果界面,就采用了这种标注式展示方式。

在Ensemble系统中,为了方便用户对检索结果的选择,每条检索结果文档都附加了一种标注信息,用以指明系统用户对该文档的点击浏览情况。具体地说,在每一个注册用户的检索结果页面上,每条结果文档前都有一个颜色深浅程度不一的图形标记,每个标记由中心的人形图案和人形图案四周的方框组成,人形图案的颜色代表当前用户点击文档的次数,方框的颜色代表学术社区(community)中其他成员点击该文档的次数,颜色越深则表示点击次数越多,用户可以根据结果文档前标记颜色的深浅来判断自己过去对该文档的使用情况以及其他用户对该文档的感兴趣程度。标记中两种图案的颜色深浅对比可以反映出当前用户的点击次数与社区中其他成员点击次数的差别,从而对当前用户起到结果推荐的作用。如图5所示。

Ensemble系统的这种标注信息主要来源于系统对用户点击行为的捕获,为实现这一功能,Ensemble系统引入了用户建模服务器和个性化服务器两个组件。用户建模服务器组件根据用户ID记录每个用户的点击行为,建立每一个具体用户的点击模型。个性化服务器组件则根据系统当前注册的用户信息,从用户模型中找出当前用户的模型,根据当前用户所属的学术社区,计算出当前检索结果的历史点击数据,并将这些数据映射为颜色表示,以图形的方式附加到每条检索结果之前。

5 基于预设问题的导航式界面展示

基于预设问题的导航式界面展示主要应用于电子政务系统,这类系统的特征是为用户提供与政府公共服务相关的信息。通常,政府的每一项公共服务都是用户办事链条上的一个环节,为了方便用户办事,电子政务系统按用户的办事逻辑来组织、整合并提供政府网站上的相关资源,用户无需输入检索词,而是点击系统界面上提供的办事事项导航,并回答系统的预设问题(这些问题通常限定了办事的条件),即可得到办事流程的导航,用户进一步点击办事流程中的相关环节,就可以获得有关的信息。

OneStopGov、Access-eGov和SemanticGov都是这类系统的典型代表。下面以Access-eGov系统为例,介绍这种类型的界面展示特点。

Access-eGov[13]系统首先将用户需要的公共服务以各种办事项目(如“升学”、“结婚”等)的形式展示出来,用户选择一个办事项目后,系统会根据预先设定的规则向用户提出一系列问题(见图6)。用户回答完问题后就会获得一个服务列表,该列表给出了符合用户条件的政府服务流程及每个流程的相关信息,用户根据列表的提示,可以在线申请服务或获取办理服务的相关信息。图7是用户选择“获取建筑房屋申请”办事事项并回答完系统预设问题后所得到的查询结果,其中包括办事的步骤、每一步骤的详细服务信息、涉及的政府部门以及用户对预设问题的答案等。用户还可以进一步修改问题答案,系统会自动根据答案更新相关服务信息。

图6 Access-eGov中用户交互问题

图7 完成“获取建筑房屋申请”办事项目所需的服务信息

Access-eGov系统实现问答式检索的技术基础是构建领域本体,Access-eGov充分利用了语义技术的优势,用领域本体来描述用户的办事项目和政府提供的服务,通过对用户情境和服务关系的预先定义,设定用户问题和答案选项,为用户查询提供引导和提示,实现结构化的问答式导航。

Access-eGov检索的实现流程是首先根据办事项目本体的定义和查询条件(即用户问题答案),将办事项目分解为不同的子目标(目标本体),再对目标本体和服务本体进行语义匹配,找到合适的服务,即用户所需的服务结果。如果预定义的目标无法满足用户指定的办事事项的需要,则需动态生成场景(scenario),场景通常比目标更为复杂,可能需要将多个服务组合在一起才能满足用户需求,场景的执行需要对多个服务进行编排,包括指定服务流程和输入输出的数据等。

服务和目标的语义匹配是Access-eGov系统的核心技术。在Access-eGov中,服务的语义描述分为功能属性描述和非功能属性描述,功能属性描述包括服务的输入输出、前置条件和效果等,非功能属性描述主要是一些描述服务的半结构化信息,如服务名称、描述、服务提供者信息、服务能力信息(办公时间、地点等)等;而目标的语义描述主要通过对调用服务后的输出和效果描述来表达用户需求,其方式与服务的功能属性描述相同。Access-eGov中对服务和目标的匹配不是采用简单的直接关联方式,而是根据一定的匹配策略进行关联。这种匹配策略主要有两种:一种是简单语义匹配策略,另一种是丰富语义匹配策略。简单语义匹配策略是指只基于目标描述与服务的输出和效果描述的语义匹配,这种匹配方式不考虑实际的输入和输出的关系;丰富语义策略则是一种更为精确的匹配策略,采用这种策略搜寻服务时,需根据用户或其他服务的输入数据,先检测一项服务执行的前置条件和效果,只有当在给定的输入条件下服务可以达到需要的输出效果时,才真正调用该项服务,以实现更加高效、准确的服务匹配。

6 基于自然语言提问的答案界面展示

基于自然语言提问的系统是一种新型的信息检索系统。对于这类自动问答系统,用户不需要将自己的问题分解成关键词,而可以将问题以自然语言的形式提交给系统。系统运用自然语言处理技术,对问题进行理解,然后直接给出问题的答案[14]。

由美国麻省理工学院(MIT)计算机和人工智能实验室开发的START系统[15],是最早的基于Web的自动问答系统。与其他搜索引擎不同的是,START的目标是提供“最正确的信息”而不是一个结果列表。目前该系统可以自动回答有关地理、电影、人物、词典定义等等超过百万种以英语提问的问题。图8示出了在START中检索“What's the largest city in Florida”(佛罗里达州最大的城市是什么)的结果显示,其中检索结果来源主要是网络资源,如果在多个网络资源中都找到了同一问题的答案,则系统会将各种答案都分列出来。

图8 START检索结果显示

START系统的核心技术是“自然语言标注”(natural language annotation)技术,这种技术将检索对象的内容分解成不同颗粒度的信息片段,并用自然语言的句子和短语来标注检索对象的信息片段。检索时,当信息片段的标注与用户提问匹配时,则该信息片段被检索出来作为用户问题答案。检索过程实际上是标注的句子或短语与用户提问相匹配的过程,其中标注的生成,即信息片段主题的抽取和生成是关键。START中实现信息片段主题抽取和生成的自然语言处理组件主要由两个模块组成,分别是理解模块和生成模块。理解模块用于分析英文文本并创建一个知识库,以对该文本中发现的信息进行编码处理。生成模块则根据知识库中的信息片段生成英文句子,即标注。这两个模块联合在一起就实现了自然语言标注的抽取和生成。这种技术同样可以用于多种媒体信息的注释,如图像、视频和音频片段、数据集、图表等[16]。

基于自然语言提问的系统的另一个典型代表是Ask[17],Ask是一个开放领域的搜索引擎,与Google、Yahoo!等不同,Ask除支持关键词搜索外,其更为显著的特点是支持自然语言提问,若在Ask数据库中存在用户问题的答案,结果页面会首先显示出问题的答案,同时给出能够回答用户问题的最相关的网页摘要和链接,用户可以点击相关链接进一步查找答案。如果系统数据库中没有直接答案,则只显示与用户问题最相关的网页摘要和链接。图9和图10分别是Ask系统有直接答案和无直接答案的检索结果界面。在图9中,用户提问是“How do I get rid of love handles”(如何消除腰间赘肉),结果页面上的第一条就是这个问题的答案。图10是提问“How to kill virus in a computer”(计算机如何杀毒)的检索结果,从中可以看出,尽管没有直接答案,但由于使用了自然语言处理技术,Ask系统并不是进行简单的字面匹配,而是在对用户提问理解的基础上,识别出用户想要查找的是计算机病毒防治办法,而不是医学上的病毒。

图9 Ask系统有直接答案的搜索结果

由于Ask是开放领域的搜索引擎,因此其技术要比START系统复杂得多。具体地说,Ask使用了三项新技术:DADS、DAFS以及AnswerFarm[18]。

DADS的全称为Direct Answers from Databases,意为“从数据库中查找答案”,这种技术采集网络数据源中的结构化信息,例如电视节目表,将它们组织成数据库。这种结构化的数据加上必要的推理计算,例如根据用户提交问题的时间来计算用户问题中表示时间概念的具体所指,可以回答“下星期一哪个频道转播NBA球赛”这类问题。

DAFS的全称是Direct Answers From Search,意为“从搜索中查找答案”,从本质上说,它是一种Web信息抽取技术,即从采集到的网页所包含的无结构或半结构化的信息中识别和抽取出特定的信息,并将其转化为结构和语义更为清晰的格式,从而回答“美国现任总统是谁”、“美国最大的州是哪个州”这样的问题。

图10 Ask系统无直接答案的探索结果

AnswerFarm技术是一种定向搜索技术,它搜索WikiAnswers(http://wild.answers.com/)、Wikipedia(http://www.wikipedia.org/)之类的Q&A(问答)站点,从中找出Q&A对并进行必要的组织,形成问题与答案库。

综合上述三种技术,Ask系统可以回答大部分开放的问题,即便没有具体的答案,也可以在这三种技术的支持下,找出与用户问题最为相关的Web页,避免了关键词匹配结果噪音过大的问题。

7 结语

从以上分析中可以看出,各检索系统的服务界面各具特色,每种系统背后使用的技术也多种多样,尽管我们对这些系统界面进行了分类,并只针对一个系统中某一突出的界面特点进行了介绍,但是在实际使用中,往往是多种展示方式和多种技术相结合,为用户提供最佳的检索体验。如何充分利用和发挥各种界面展示技术的特点,将之应用到实践中来,将是我们要进一步讨论的问题。

收稿日期:2012-01-11 修回日期:2012-02-27 本文起止页码:11-17

标签:;  ;  ;  ;  ;  ;  

信息检索系统的服务显示接口及关键技术_自然语言处理论文
下载Doc文档

猜你喜欢