中文智能搜索引擎分析与框架模型设计_搜索引擎论文

中文智能搜索引擎分析和框架模型的设计,本文主要内容关键词为:中文论文,框架论文,模型论文,搜索引擎论文,智能论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

中图法分类号:TP319.3;G350 文献标志码:A 文章编号:1007-7634(2008)12-1814-04

1 引言

随着互联网不断发展,导致信息日益增长,据统计,截至2005年12月31日,国内的中文web网页已达大约24亿,网页字节总数约为67,300GB[1]。面对如此海量的信息,如何使中文搜索引擎能够快速方便地帮助用户寻找到有用的信息已经成为当今国际国内研究中文搜索引擎的科研机构的研究热点。传统的第二代中文搜索引擎使用两种技术来检索信息,一是基于分类的检索技术,一是基于全文的检索技术[2],但检索出的结果已不能满足用户对信息搜索精度和智能化的更高要求。因此作为第三代的搜索引擎—中文智能搜索引擎的研究早已成为当今国内的研究热点对象,它是通过集语义理解,人工智能和数据挖掘,机器学习等最新技术于一体来提高中文搜索引擎的查准率(Precision),查全率(Recall)和方便用户信息检索的新型的搜索引擎。

2 中文搜索引擎的现状分析与评价

2.1 商业搜索引擎的现状分析与评价

对因特网信息检索工具评价最早来自于加拿大和美国,其中比较成功的一个就是美国的两个研究员H.Vernon Leighton和Jaideep Srivastava提出的“相关性范畴”概念和“前X命中记录查准率”[3]来定量评价搜索引擎的相对查准率性能。国内的学者在基于国外学者研究的基础上也进行搜索引擎评价研究。作者在结合前人对于搜索引擎评价研究的基础上,对国内有名的百度,中搜,Google,Yahoo,一搜,微软Live Search六款比较优秀的中文搜索引擎进行定性分析,发现存在着以下有关智能化和语义理解等五个方面的主要不足。

2.1.1 内容显示重复和冗余

界面内容显示冗余,不精简。例如:找张爱萍将军的简历,结果应该直接显示张爱萍将军简历的内容。重复一样的内容,例如:对于转载的文章,相同的图片等。

2.1.2 缺少询问服务功能

缺少对用户进行询问服务的功能,例如:某用户找XXX教材,系统就应该询问用户是否还需要其它关于此教材的相关信息,如这种教材哪儿可以买到?价格最便宜的是那家卖的?

2.1.3 信息整理不理想

对信息整理和加工后的信息显示不理想,例如:用户要找XXX教材在网上最便宜的当前价格是多少,而搜索引擎没有提供直接的结果,即显示这本书在网上所有卖家中的最低价格。

2.1.4 语义理解不理想

有对同义词的联想功能,但缺少对于同义句包涵句义和复杂句义的理解。用户想找“所有有关恐怖活动的新闻”,那么系统就要显示“2月27号巴格达发生自杀袭击”的新闻,因为前者的意义包涵后者。用户想找“北京,上海,南京都有哪些名牌大学”和“北京有哪些名牌大学?”,“上海有哪些名牌大学?”,“南京有哪些名牌大学?”意思总和是相同的。

2.1.5 缺少引导用户信息检索功能

缺少必要的人机交互引导用户精确信息检索的功能,例如:用户只输入老虎单词,那么引擎就应该通过人机交互,引导用户找老虎的特征,老虎喜欢吃什么等与老虎有关的信息,而不是显示所有包含“老虎”分词的网页,因为老虎这词的本义是指老虎这个动物,而不是指具体的信息。

具体不足归纳如表1。

2.2 中文智能搜索引擎研究现状分析

为了解决当今搜索引擎检索带来的信息冗余,信息精确度不高等问题,好多研究人员提出了不同的智能搜索引擎设计方案,像基于知识库系统的搜索引擎的研究[4],基于本体技术的Internet智能搜索的研究[5],基于语义网的信息检索技术的研究[6],基于个性化智能搜索引擎的研究[7]等等。所有这些研究成果就是想通过不同的技术角度给搜索引擎增加语义和智能的功能,提高搜索引擎的性能,使用户轻松,快速,准确检索到所需的信息。但是这些研究成果也有其应用的局限性,像基于语义网的智能搜索引擎还有待于语义网推广才能很好的使用,基于本体的智能搜索要受到本体库的建设是否成熟的制约,基于知识库的有待于知识库的建设,基于用户个性化智能搜索引擎研究局限于通过用户信息检索历史的研究来改善搜索结果。

3 搜索引擎的框架结构

在分析前人智能搜索引擎研究成果和当今搜索引擎的语义和智能化不足的基础上,设计出一款中文智能搜索引擎实现框架模型。

3.1 理想的智能搜索引擎

理想的智能搜索引擎应该有理想的智能信息检索功能。理想的智能信息检索应该达到如下目标[8]:提供友好的用户检索交互界面;基于自然语言或实例的查询;依据用户浏览和检索的习惯信息,熟悉用户的兴趣爱好,建立一定的用户描述,主动向用户提供相关的信息;针对用户查询请求自动向用户提供相关文档页面,不需用户重复发现知识;综合利用个性化检索和集中浏览的优势;检索速度快,能够快速地返回查询结果;高查全率和高查准率。即语义检索、个性化服务。通过与用户的交流从而引导用户进行准确信息搜索。

同时作者在分析前人关于中文智能搜索引擎研究和几款典型的商业搜索引擎不足现状的基础上,提出了理想的智能搜索引擎还要有对于用户输入的错误信息进行提醒和改正;对于用户输入的内容不明确或不全的时候,对其进行内容明确或补充;对于用户输入的内容能进行句义理解,尤其要对同义句包涵语义句和复杂句的识别和理解;网络蜘蛛要有对信息进行加工整理和挖掘的功能,要有很好地去重复信息和冗余信息的功能。

3.2 搜索引擎的结构

3.2.1 搜索引擎的主框架模型

基于3.1所定义的理想智能搜索引擎所需的功能而设计出的智能搜索引擎的由问答式引导智能代理、询问式信息推测代理、语义解析器、索引数据库、智能Spider五部分组成(见图1)。

图1 智能搜索引擎的主框架模型

3.2.2 问答式引导智能代理框架

问答式引导智能代理是通过与用户进行问答的方式来引导用户进行精确信息检索,它有对于用户输入的无意义的句子进行纠正和与补充功能(例如:用户输入无意义的乱码“看看看”,或者错误像“我碍我家的文章”);引导用户查找精确信息的句功能(例如:用户输入“我要找生产瓷碗的厂家,”,那么系统就会提问用户“你对地区有什么要求?是在湖北省内,还是在其它省内,还是……?”);用户兴趣分析功能—即通过对用户访问历史分析找出与用户兴趣度最高的内容(见图2)。

图2 引导智能代理

句子纠正功能有句子纠正规则和分词词库组成:句子纠正规则是编写基于分词的组句语法的规则表达式,分词词库是包涵各种如动词,名词,形容词,副词等组句所需的词库。

信息精确引导功能由信息精确引导规则和信息精确引导数据库组成:信息精确引导规则是编写基于实体关系和属性的组句规则表达式,实体和实体属性数据库是存储实体和实体属性的分词词库。

用户兴趣分析功能由用户兴趣分析规则和用户访问历史数据库组成:用户兴趣分析规则是分析用户访问历史,按用户访问某些内容次数高低来进行排序的规则,访问历史数据库是用来存放用户搜索具体信息的数据库。

3.2.3 询问式信息推测代理框架

用户信息相关推测代理主要是用来推测用户意图信息的代理,它是根据当前用户输入的信息推测用户可能会需要的下一步信息。例如:用户输入查找XXXX机票,那么系统就会联想到用户可能是出差,系统就会提问用户是否要其它的服务,如旅馆,出租车服务等等(见图3)。

图3 信息推测代理

询问式信息推测代理由信息相关推测规则和分词词库组成:信息相关推测规则是编写基于询问服务相关的联想规则,词库是由名词,动词,形容词等词库组成。

3.2.4 语义解析器框架

语义解析器是通过对用户输入的内容进行解析转换成搜索引擎能够理解的精确表示信息的句子和短语,有三大功能块,即同义句解析功能,包涵意义句子解析功能,复杂句转换成简单句功能(见图4)。

同义句解析功能是用来识别意义相同但句子中的字词局部或者全部不同的句子。

包涵意义句子解析器是用来解析句子包涵意义的其它句子。

复杂句转换成简单句的功能是用来把复杂句转换成意义相同的几个简单句子的总和。

分词词库是用来存储组句所需要的分词,它存有动词,形容词,名词,副词等词。

3.2.5 索引数据库结构图

网页内容的索引数据库是建立在精确意义的句子或者短语的索引,而不是分词的基础上。每个句子和短语必须是精确表示具体信息,它们与网页索引的关系如图5。

图5 索引数据库网状图

索引数据库中的信息块有两种:一是直接从网页中提取的(例如:张爱萍简历),二是整理和加工后的信息(例如:价格最便宜的XXXX教材)。

索引数据库的句子和短语是精确表示某类或具体信息的句子或短语(例如:北京都有哪些大学?)或者某个具体的信息(例如:北京科技大学的地址是?)。

3.3 Spider智能代理结构图

Spider智能代理有过滤重复信息;信息分析和信息块的提取;图片内容识别;信息加工与整理;建立基于精确信息的句义和分词短语的索引功能(见图6)。

图6 智能Spider功能框架图

3.3.1 重复信息过滤功能

互联网上好多信息内容是重复的,重复信息过滤功能就是要过滤诸如转载的文章,相同的图片等重复信息。

3.3.2 信息分析功能

信息分析功能是对抓取的网页进行内容分析,分析网页中包含哪些类信息,例如:网页中是否包含图片,文件,视频,文本类等信息。然后调用相关的信息提取功能进行信息提取。

3.3.3 信息提取功能

信息提取功能有图片信息的提取;文本信息块的提取;文件信息的提取;图片信息的提取等功能。

图片信息提取功能指的是识别图片内容并用相关的文字表示出来,例如:XXX教材的图片,那么图片信息提取功能通过识别后用文字把图片内容表示成“XXX教材的图片”。

文本信息块的提取功能是提取网页或文件中文本部分的内容,同时对这些信息内容进行整理和加工出新的信息。

文件信息的提取功能,按文件的格式和文件标题进行提取。

3.3.4 信息加工和整理

对于相关,相同,相反意义等信息进行挖掘和知识发现,整理出新的信息。

4 结语

在定性分析了国内几款优秀的搜索引擎不足和国内搜索引擎研究的基础上,设计出一款基于中文智能搜索引擎实现的框架模型,此框架模型在设计过程中很好地考虑到要避免学者研究的一些智能搜索引擎推广应用的局限性;很好地考虑到如何解决当前搜索引擎的智能化和语义理解的不足,通过增加语义理解和智能化功能提高搜索引擎的性能(例如:语义理解中增加同义句理解和包涵句义理解,引擎智能增加了询问信息推测功能)。但不足的是,此框架还未经过实验检验,这也正是作者下一步要做的工作。

收稿日期:2008-09-17

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

中文智能搜索引擎分析与框架模型设计_搜索引擎论文
下载Doc文档

猜你喜欢