个性化PageRank算法在图书馆智能搜索引擎中的实现,本文主要内容关键词为:算法论文,图书馆论文,搜索引擎论文,智能论文,PageRank论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
[中图分类号]G250.7 [文献标识码]B [文章编号]1008-0821(2010)07-0093-04
随着搜索引擎用户的个性化需求日趋强烈,智能搜索引擎的概念与框架已经提出。大型广域网搜索引擎的智能化、个性化的建立受到很多技术方面的限制,而数字化图书馆恰恰是方便建立智能搜索引擎的局部网络系统。优先在数字化图书馆中建立起智能搜索引擎,既可以使数字化图书馆更好地满足用户的需要,让人们提前体验智能搜索引擎的方便与优越,又可以为广域网智能搜索引擎的建立提供模本和经验,为相关技术的突破提供实验基础。对较为成功的传统搜索引擎技术进行改进,是实现智能搜索引擎的较为快捷的方法。PageRank算法使得Google搜索引擎获得了巨大的成功,从而引发了网络搜索引擎的革命。选择Google搜索引擎为基础进行搜索引擎的改进,实现智能搜索引擎的个性化性能,首先需要解决的问题就是如何建立基于个人需要的PageRank算法。
1 智能搜索引擎的概念与优势
1.1 智能搜索引擎
智能搜索引擎,又称第三代搜索引擎,是新一代智能技术应用在搜索引擎上所得到的更加高效的搜索引擎技术。它能够总结用户的操作历史,更加精确地理解用户的要求,给出最符合用户要求的搜索结果。因此,智能搜索引擎在用户亲和性和一些技术性能上,都远远优于传统搜索引擎。
1.2 智能搜索引擎相对于传统搜索引擎的优点
1.2.1 对用户的检索要求进行智能理解
利用多种模糊匹配方法,智能搜索引擎可以准确理解用户输入的自然语言,用户无需自己筛选合适的关键词,即可得到最优化的结果。用户输入的语言可以是中文简、繁体、拼音和外文,也可以是混合输入。
1.2.2 提供个性化的服务
用户在进行搜索时,可以自行选择搜索的数据范围。并且在用户登录后,智能搜索引擎会给每个用户建立数据库记录其搜索的历史和喜好,并利用用户个人数据库对搜索出的信息进行筛选和排序。
1.2.3 更加灵活的返回界面
智能搜索引擎使用Web 2.0技术,利用给出的网页模块模板,用户可以自行设计返回页面。返回的内容也不再是基本的条目,而是经过分类和排序的详尽信息,方便用户选择。
1.2.4 更加强大的搜索功能
智能搜索引擎不仅仅支持HTTP协议下的网页文件,它还支持FTP、SFTP等多种网络传输协议,并且能够解析多种格式文件(Html file、Text file、MS Office file、MS Project file、XML、Adobe Acrobat file等)。当遇到CGI系统时,智能搜索引擎直接利用对方系统的数据库接口进入数据库进行搜索,从而给出最全面的搜索结果。
1.2.5 提供个人开发接口
智能搜索引擎不论是在界面上还是在搜索功能上,都给用户提供自行开发的程序接口,高级用户可以通过VB语言或者Java语言等网络脚本的输入来优化搜索引擎的个性化功能。
1.3 智能搜索引擎的实现实例
目前,完全实现了智能搜索引擎所有功能的大型搜索引擎还没有出现,但是智能搜索引擎的很多概念已经得到了应用。
1.3.1 Baidu搜索引擎的语言智能解析
Baidu搜索引擎作为中文搜索的专门引擎,已经初步实现了对中文的智能化解析和对拼音、英文混合搜索的能力。但是这还仅限于一些比较常用的搜索词。
1.3.2 网络商城的个性化交流
淘宝网、京东商城等网络商城的搜索系统已经初步实现了个性化选择、分类显示、联系记忆等功能。用户可以利用复选框的形式对价格区间、技术参数等商品性质进行选择,并且提供“匹配耗材”、“您可能还想看看”、“看过此商品的用户还浏览过”等多种返回结果。登陆的用户还可以方便地看到自己的搜索历史。
1.3.3 Google搜索引擎对多种文件的支持
目前,Google搜索引擎已经可以支持MS Word、MS Excel、MS Powerpoint、Adobe PDF等文件格式。
以上的各个实例虽然只实现了智能搜索引擎的部分功能,但是它们已经给予了搜索引擎用户非常人性化的服务,获得了很大的成功。可见智能搜索引擎的实现对于网络搜索环境的改善,有着非常重要的作用。
2 图书馆建立智能搜索引擎的必要性与优势
2.1 图书馆建立智能搜索引擎的必要性
目前,国内高校图书馆一般都有文献搜索和馆藏搜索功能。这些搜索功能一般都非常简单,只能根据年份、作者、关键词、篇名等简单的搜索方式给出简单的搜索结果。然而,校内图书馆用户检索需求往往具有很强的专业性和关联性,不仅需要非常专业的分类搜索结果,而且需要搜索引擎给出丰富的相关内容。在图书馆中建立智能搜索引擎,实现对图书馆用户的个性化服务,可以大大减短图书馆用户查询资料的时间,提高高校图书馆资源的利用效率,从而提高学校的科研、办公效率。
2.2 图书馆建立智能搜索引擎的优势
相对于大型广域网搜索引擎,图书馆的馆藏搜索、电子书搜索和期刊文献搜索就非常易于建立智能搜索引擎。其一,图书馆的馆藏数据库相对较小,进行个性化PageRank计算所需要的空间成本和运算成本都可以承受。其二,与大型搜索引擎利用网络蜘蛛自动录入页面信息的方法不同,图书馆的馆藏数据是人工详尽输入的。每一个条目的分类性质、引用关系和专业偏向等信息都可以较为详尽的获得。其三,图书馆搜索引擎的使用者要求比较统一,只要给出较少的几种模块组合就能满足大部分用户的需要。另外,高校图书馆搜索引擎的使用者素质相对较高,可以发挥出智能搜索引擎的优势,并且给出具有建设性的改进意见。
2.3 在图书馆建立智能搜索引擎对搜索引擎发展的作用
高校图书馆作为较为专业的信息处理和查询机构,建立智能搜索引擎系统,不仅能给校内用户提供更加优质、更加个性化的服务,而且能为智能搜索引擎理论的完善提供非常好的应用实例。高等院校人才集中,图书馆系统的改进,不仅可以验证已经提出的理论,而且可以为信息处理技术的专业研究人员提供生成新思想的素材和灵感。目前已经有高校图书馆与校内信息技术院系开展合作,在改善图书馆系统的同时,给信息技术研究人员提供一个开发、探索的平台。
3 基于个人需要的PageRank算法
已经有的实例说明,智能搜索引擎的相关概念已经在很多网络搜索引擎中得到了初步实现。将现有的搜索引擎技术逐步改进并在使用中进行测试和反馈,应当是最经济高效的建立智能搜索引擎的方法。21世纪初最成功的搜索引擎技术莫过于Google搜索引擎的PageRank技术。以该技术为基础建立智能搜索引擎框架,不失为一种好的尝试。
3.1 个性化PageRank算法的基本思路
传统PageRank算法是根据网页的相互引用次数来评价网页的重要性并以此在搜索结果中进行排序的关键技术。其核心算法是,先给所有页面一个评分初值,然后PageRank值按照被引用次数在各个页面之间进行“流动”,最终达到平衡,导致被引用次数多的网页得到较高评分。这一技术初步保证了相对有用的信息会优先返回给用户。然而这种算法缺失了页面的分类信息和个性化信息。
如果要按照用户的要求、喜好和历史浏览记录来进行页面排序,可以使用和PageRank类似的技术,我们称之为个性化PageRank评分。该评分用来反映页面与用户个性化需求的匹配程度。我们可以参考传统PageRank的计算方法,以用户需求为中心,进行有限次PageRank值的流动,从而得到个性化PageRank值。
我们将用户作为PageRank值的分发源,例如用户具有初始PageRank为1,其他网页为0,根据网页在用户历史记录中被浏览的时间和次数给出PageRank的传递方向和传递阻尼,经过有限次的传递(不需要达到平衡),得到相关网页的个性化PageRank值。这样,用户浏览次数较多或者最近浏览的网页及其相关网页即可得到较高的评分,从而优先显示给用户。个性化PageRank的计算需要详尽的用户浏览记录,并且进行实时计算,所以要求的系统空间更大。
图1 个性化PageRank计算方法与传统PageRank计算方法比较
图1中,A图为某一六页面系统,传统PageRank值在阻尼系数0.2时达到平衡的状态。B图为在用户调用模型中,PageRank值进行3次传递后的状态。第一次传递的阻尼系数不同是由用户浏览时间的远近确定的。可以看到,在用户未浏览过的页面中,与用户最近调用的页面相关性高的页面评分较高。
3.2 历史评价和分类PageRank的计算
历史评价相对较容易计算,相当于网页的“人气值”,根据所有用户浏览该网页的次数,给出一个附加的PageRank值。这相当于所有用户作为源,进行一次PageRank传递。
分类PageRank的计算需要相对专业的分类评价,并使用和个性化PageRank类似的方法。每个网页都有一个分类性质,而不同分类性质之间的关系可以用PageRank传递阻尼来实现。例如相关分类的阻尼值很小,而无关分类的阻尼值很大。同样,根据用户选定的分类特征为源,使得PageRank值在各个分类间进行有限次的传递,从而优先给出与用户选择相匹配或者最相关的分类内容。对于专业之间的相关度,可以寻求各个学科权威人士的帮助,得到较合理的阻尼值,并且该值可以根据用户浏览记录进行优化。
3.3 数组型PageRank的建立
为了实现搜索结果的智能化、分类化和个性化,单一的PageRank值显然远远不能达到我们的要求。为了达到智能搜索引擎的要求,我们可以将PageRank值优化为一个数组,分别保存着传统PageRank值、个性化PageRank值、分类性质、分类化PageRank值、历史评价PageRank值等多个评分值。智能搜索引擎可以根据不同的显示项目和不同的用户需求,将上述的各类PageRank值加权组合起来。而上述的PageRank值所代表的每一类也可以单独作为一个返回模块,例如“人气网页”返回模块可以根据历史评价PageRank值实现,而“相关分类”模块可以根据分类PageRank值实现。
图2 数组型PageRank的计算和使用方式
3.4 更多的扩展方法
以上数组型PageRank的算法作为一个基本框架,有非常大的扩展空间。当用户需要一个新的模块的时候,可以建立与该模块对应的PageRank值,并将这一项加入到PageRank数组当中,然后经过加权的方式进行调整,即可将这一新加PageRank项充分利用。大部分所需的PageRank值都可以利用人工规定源和阻尼,并且进行有限次传递叠加的方法得到。
4 在图书馆系统中使用智能搜索引擎所需工作
4.1 图书馆数据库所需要的改进
为了建立智能搜索引擎,图书馆系统需要完善已有的数据库资料,并增加多个数据库系统。这包括完善已有的文献与图书资料数据化信息,将参考文献、学科分类、发表时间和作者单位等信息全部录入;在传统资料数据库中增加个性化的文献的数据项,包括传统PageRank值和历史评价PageRank值;建立用户个人数据库,用于存储用户资料和用户的搜索历史纪录,便于给出个性化搜索结果,并且方便用户查询;建立资源关系网络数据库,用来存储专业分类结构和专业关联度,以便进行专业分类筛选。
4.2 图书馆数据搜索引擎程序所需要的改进
传统的图书馆数据搜索引擎只能对题名、关键词、作者和年份等简单的信息进行机械式的搜索。为了实现智能搜索,需要对其进行多方面的改进,这包括在搜索引擎程序中嵌入语言智能分析程序,从而可以更加准确地理解用户的检索词和检索需要。该分析程序需要能够对中文简体、中文繁体、拼音和英文单词进行准确的辨认,并对个性化语句进行解析。还需要在搜索引擎程序中加入个性化PageRank计算的模块,在用户给出检索词后,搜索引擎程序根据用户的个性化需要,分别计算出检索结果中每个文献的PageRank值,提供给显示模块进行排序。
4.3 图书馆搜索引擎界面的个性化
图书馆的查询页面使用Web 2.0系统,系统可以给出几个固定模块供用户选择,例如“个人历史”模块优先显示与用户浏览过的文献关系最近的模块,“专业文献”模块优先显示最接近用户所在专业的文献,“人气文献”模块优先显示被浏览次数最多的文献,“引用关系”模块方便用户查询某文献的参考文献,以及引用它的文献。某些高级用户除了选择已有模块外,还可以自己定义模块,只要他能够给出所需要的个性化元素,就可以设计出类似的模块进行使用。
4.4 建立用户使用的信息反馈系统
传统的图书馆搜索引擎是单向的信息输出,没有用户需求的反馈和系统的优化。而个性化搜索引擎必须要根据用户的浏览,给出合理的反馈与优化,这主要分为两个层次。第一层是自动反馈,也就是用户在使用过程中由程序自动反馈的内容,主要是将用户的浏览记录反馈给数据库。第二层是用户主动的反馈,这包括用户填写的个人信息和用户的模块选择,以及用户提交的意见建议。
图3 图书馆建立智能搜索引擎所需要的改进
图中实线框和实心箭头表示传统搜索引擎的组成和信息流动,虚线框和空心箭头表示建立智能搜索引擎所加入的模块和信息流动。
5 结语
随着网络信息量的快速增长和网络用户的个性化、专业化要求日渐增强,传统搜索引擎暴露出了越来越多的不足。智能搜索引擎的提出,综合了当前最新的人工智能、计算机网络、数据库、数据挖掘、机器学习等技术,给出了更加优越、更加人性化的搜索引擎框架。智能搜索引擎从理论到实践还有很长的路要走。从现有的较为成功的搜索引擎入手进行改进应该是实现智能搜索引擎理论的较好选择。目前,最为成功的PageRank技术仍有较大的改进余地,在高校图书馆数据库系统中首先建立智能搜索引擎,可以给图书馆用户提供更加方便、更加人性化的服务,提高高校的科研办公效率。
标签:搜索引擎论文; pagerank算法论文;