一种基于元数据的搜索引擎的设计与实现

一种基于元数据的搜索引擎的设计与实现

任睿丽[1]2014年在《面向旅游业的垂直搜索引擎的设计与实现》文中指出伴随着国民生活水平的提高,旅游日趋成为消费者休闲的重要方式之一。在出游前,选择旅游景区,规划最有旅游计划成为困扰人们的难题。伴随着互联网技术的发展,人们出行前往往喜欢通过Internet搜索旅游相关信息,然而传统搜索引擎面对特定领域的搜索任务,往往返回数以万计的搜索结果,其中包含大量领域无关页面。在此背景下,本文研究面向旅游业的垂直搜索引擎,垂直搜索引擎是相对通用搜索引擎的信息量大、查询不准确、深度不够等提出来的新的搜索引擎模式,其特点就是“专、精、深”,且具有行业色彩。显然,面向旅游业的垂直搜索引擎能够向外出旅行的人提供更加专着、精确和有深度的信息。本文的主要工作包括以下几个方面。首先调研旅游业的信息需求和业务需求。信息需求分析是搜集游客关心的信息类型,例如景区信息、交通、住宿、当地风俗等等,信息需求定义了垂直搜索引擎的信息集成边界,是进行页面过滤的基础。业务需求分析主要是调研垂直搜索引擎向用户提供信息的业务流程,是进行功能设计的基础。其次,在需求分析的基础上,进行面向旅游业的垂直搜索引擎的整体性设计。垂直搜索引擎是一项内部逻辑结构复杂的系统,其包括分工明确的前台和后台,前台主要有向用户提供信息查询的API构成,后台主要负责页面的信息集成,包括爬虫、网页过滤、主题词库、网页存储、索引等众多功能模块,前后台并行运作,为游客提供信息支持。第叁,在整体设计的基础上着重介绍了垂直搜索引擎叁大核心功能模块的设计和实现,包括:页面过滤、爬虫和检索。本文基于广度优先的爬虫策略进行页面的全信息解析和保存,包括文字、图片、影音等;在主题词库的基础上设计了基于朴素贝叶斯分类器的页面过滤方法;在基于Lucene全文检索的基础上,设计了基于页面元数据检索功能,提供更加全面的信息查询功能。最后,在J2EE环境下进行系统的模型的开发和测试。

陈博[2]2015年在《基于时态信息的煤矿安全事件搜索引擎的研究与应用》文中指出近些年来,煤矿上多次发生事故使国家财产造成损失、人民的生命安全受到威胁。煤矿安全问题逐渐在社会上受到广泛地关注。互联网作为当今时代信息的载体,很多煤矿安全事件都会在上面得到及时地更新和报道。面对这样一个巨大的信息资源宝库,搜索引擎为人们提供了获取这些信息资源的入口。但是由于该领域的专业化和互联网上的信息量呈指数级增长,使用当下主流的通用搜索引擎,其返回的结果已经不能满足人们的需求。因此设计一款面向煤矿安全事件的主题搜索引擎是十分有必要的。该搜索引擎不仅可以增强人们在日常生产过程中的安全意识,还可以在事故发生时为人们提供借鉴和解决方案,更重要的是满足了人们对该领域专业化信息检索的需求。时态信息是煤矿安全事件的一个重要元素,也往往是人们关注的一个焦点。时态信息的检索在煤矿安全领域检索是非常普遍的。比如查询“最近本月发生的煤矿事故”,通用搜索引擎的查询结果就不能满足用户的需求。结合煤矿安全事件与网页信息可知,时间是网页与事件共有的一个本质属性,比如事件发生的时间、网页中蕴含的事件时间等。因此,如果能够在面向煤矿安全事件的主题搜索引擎中引入时态信息检索来,就能更好地解析用户提供的包含时态信息的搜索关键词,最终可以有效地提高搜索引擎的性能。本文围绕基于时态信息煤矿安全事件搜索引擎开展了若干关键技术的研究,重点探讨了网页内容与主题的相关性判别方法、主题索引模型等问题。本文的主要贡献可归纳为:(1)通过分析主题网站的网页内容和主题词库中主题特征词的特点,提出并实现了网页主题相关性判别的方法。(2)根据搜索引擎的主题性、时态性和索引维护的需求设计了一种索引模型。(3)根据前面的研究成果,设计并实现一款基于时态信息煤矿安全事件搜索引擎,并通过实验对其性能进行了评估。

潘冲[3]2008年在《农业网站元数据管理信息系统的研究与实现》文中提出近年来,我国农业网站的发展非常迅速,中国农业科学院农业信息研究所针对农业专业用户研究并开发了一个农业专业搜索引擎――“农搜”,为了提高“农搜”的查准率,迫切需要设计和实现一个农业网站元数据管理信息系统,为“农搜”的页面抓取提供更准确地网站信息描述,为有效地描述、定位、保存、评估、检索农业网站奠定基础。本文首先对农业网站以及“DC”元数据进行研究与分析,初步设计了针对农业网站资源描述的元数据标准。根据该标准,考虑“农搜”的需求确定了农业网站的网站级和栏目级内容的描述方法,并在此基础上探索了有关元数据自动提取的算法。设计并实现了一个农业网站元数据管理信息系统。本文研究成果如下:1、通过参考分析国内外元数据标准(主要是DC元数据、中文元数据标准框架),结合农业网站的特点,初步设计了农业网站元数据标准。2、为了满足“农搜”的应用需求,在农业网站元数据标准的基础上,进一步做了扩展和具体化,设计了一套完整的描述和管理网站以及网站栏目的元数据项。3、结合基于HTML规则和SDD网页语义分析两种方法,分析了网站元数据管理系统所涉及的每一个元数据,初步设计了元数据自动提取的算法。4、设计并实现了一个B/S模式的农业网站元数据管理系统。

王前进[4]2013年在《基于物化视图增量维护的企业垂直搜索优化研究》文中研究指明对垂直搜索引擎的技术改进和优化,在信息产业界一直备受关注,然而长期以来针对该领域的相关研究多集中于网络数据爬取、检索效率改进以及个性服务等方面,而很少涉及对垂直搜索引擎整体架构性能的研究。具体到企业级层面,相关研究也多集中于对网页数据信息的处理,很少有针对单个企业信息的纵向深度挖掘,导致搜索返回结果总体质量不高。如何改善企业垂直搜索引擎的服务性能,为工作开展提供更具价值的决策支持信息,已成为学术界和企业界的关注焦点。本课题立足现实需要,基于广泛的文献阅读,针对具体企业垂直搜索引擎的总体架构展开研究,重点优化改进了物化视图增量维护和搜索结果呈现进行算法,并结合某船舶配套生产企业的应用实例进行验证评价。首先,针对企业垂直搜索引擎业务搜索实体层,通过建立视图并以实体化形式存储于数据仓库,运用“缓存”机制来改善系统检索效率。由于物化视图存储内容具有静态特征,需要着重实现物化视图的更新维护。文章通过引入语义约束概念,对物化视图增量更新维护算法进行优化,有效改善提升了系统的检索效率。其次,对于表达层的检索结果呈现,通过应用元数据驱动加以实现,结合用户需求特征将“个性化”特征信息通过元数据加以存储,以“二级视图”维护优化系统性能。在个性化搜索服务结果呈现时,借鉴主题元搜索的数据整合思想对搜索结果排序工作进行优化。最后,将上述改进优化工作统一于企业垂直搜索系统的整体架构,详细阐述了其具体应用实现机制,并结合某船舶配套生产企业应用实例验证说明本文研究工作的正确性和有效性。

李东海[5]2008年在《基于Nutch技术的主题搜索引擎实现》文中研究表明面向主题的搜索引擎技术目前已经成为网络信息检索领域新的研究热点之一。不同于不加区分的从网络上收集网页的传统搜索引擎,面向主题的搜索引擎仅仅采集用户指定的、与某一特定主题相关的页面。Nutch是一个刚刚诞生开放源代码(open-source)的web搜索引擎。Nutch将尽自己最大的努力为用户提供最好的搜索结果,它使用Lucene作为索引和检索的模块。它的抓取器是独立为自身编写的,具有高度标准模块的架构。本文中的系统是中文主题搜索引擎,中文处理的问题以及主题相关性的问题是系统需要解决的首要问题。考虑到主题搜索引擎在主题判定方面的复杂性,为了保证系统的成功构建,降低工作量以及工作难度,系统基于Nutch开发,嵌入和特定领域相关的专用词典(如army.txt),专业词典和本文描述的主题相关性的判别方法相结合来识别爬行器爬到的网页是否与特定主题相关。本文依据Menczer对叁种基于主题采集策略研究的结论,进行了实验和比较,决定本系统采用Best first Crawler方法来解决主题相似度得到采集优先级的问题。最后,我们对整个算法进行了系统实现,并在不同的网络环境下进行了比较实验。本系统在后台部分能对客户提供的网站信息进行页面抓取和信息预处理,前台部分能利用后台抓取的数据进行信息检索,查询到要查询的信息。

阚洪海[6]2011年在《基于元数据的跨库文献检索方法研究》文中指出随着网络资源的爆炸式增长,特别是图书情报领域,数据库资源的种类和数量越来越多。由于各个数据库都有其独特的界面、网站结构、认证方式,用户在使用时往往需要从头开始熟悉数据库的使用方法。而且不同数据库的内容往往呈互补的关系,因此用户查找资料时经常会从一个数据库到另一个数据库逐个查找。为解决这些问题,跨库检索系统应运而生跨库检索系统往往采用B/S模式运行,向用户提供一个统一的检索接口。用户在这个检索入口内输入检索要求,系统会同时从各个数据库内检索数据,将命中检索结果分组、排序后呈现给用户。目前成熟的跨库检索系统主要基于元搜索引擎、数据整合、中间件技术等叁种技术方式实现。这些系统有的运行效率低;有的不开放数据共享接口;有的配置复杂,难以维护;有的数据描述不规范,难以交换数据。为解决以上弊端,本课题提出了基于元数据仓储的跨库检索系统模型。元数据是“关于数据的数据”,是描述一个具体的资源对象,并能对这个对象进行定位、管理,且有助于它的发现与获取的数据。DC核心元数据集,从产生开始就引起了各个领域广泛的研究兴趣。经过多年的研究发展,DC核心元数据集已被多个国家的多个组织,作为其领域描述资源对象的基本元数据集。中国数字图书馆标准规范建设项目也将DC作为数字资源对象的基本元数据集,并针对不同的文献类型的特点加以扩展。跨库检索系统中的资源类型很多,有期刊论文、会议论文、学位论文、电子图书、报纸等。因此,要充分考虑到各类型资源的共同点和不同点,又要考虑到跨库检索系统的主要功能不是保存数据、共享数据,最重要的是检索数据,统一检索分布、异构的庞大复杂数据。为此,我们将使用的元数据分成核心元素、资源类型核心元素、检索辅助元素叁个层次。元数据应用纲要模型思想的重要内容,就是设计资源元数据结构时,尽量从通用元数据规范中找到需要描述和管理的元素的对应实体,利用这些实体来构建自己的元数据规范框架。在设计跨库检索系统元数据框架时,本课题充分借鉴了中国数字图书馆标准规范建设项目关于各类文献的元数据规范定义,对常用的期刊论文、学位论文、电子图书这叁类文献,具体分析了他们的特点,并给出了详细的元数据规范定义。最后,本论文讨论了基于元数据仓储的跨库检索系统的框架结构,并着重讨论了数据库设计和搜索引擎两个核心问题,最后进行了测试。

李蓉[7]2010年在《面向主题的搜索引擎的设计与实现》文中提出在社会信息化的高速发展下,网络作为现代最重要的信息发布和交互平台,给人们带来了前所未有的信息资源;同时,也给人们带来了更大的挑战。面对如此丰富的网络资源,如何迅速定位所需的信息,搜索引擎应运而生。随着科学技术在经济发展占据着越来越重要的主导地位,产业结构的专业化越来越细化,为用户提供专业领域的信息变得更加重要,而通用搜索引擎却无法满足需求。在这种环境背景下,面向主题,针对特定主题的搜索引擎得到人们越来越多的关注,成为搜索引擎发展中的一个重要方向。本文首先论述了搜索引擎的基本原理及其分类,接着详细分析了通用搜索引擎的架构和实现原理,并对其进行改进,提出了一个面向主题的搜索引擎的方案。在对系统进行总体分析和设计之后,对主题爬虫的主题描述、搜索策略、主题相关性验证方法、网页解析技术做了深入细致地分析。在此基础上,使之能够进行主题网页的抓取和判断,实现真正的面向主题的搜索。最后,加入索引和用户检索功能,整合成一个完整的面向主题的搜索引擎。

王艳文[8]2008年在《基于领域本体的网络智能搜索模型研究与实现》文中研究指明随着信息时代的到来,人们对信息的需求日益膨胀。众多的搜索引擎成了个人在Internet上获取信息的主要方式。搜索引擎是基于信息检索技术发展起来的。然而,传统的搜索引擎在实现语义网和基于语义的智能搜索方面做的不足,这导致智能信息检索成为学术界的一个新的研究重点。其中,基于本体的语义Web的使用已经成为了此类研究中的热点,然而在现有中文体系中,对基于领域本体的语义Web在面向Internet的网络搜索中的应用研究发展并不现实深入,本文从追求研究的现实意义的角度,从现有基于本体的语义智能检索系统的不足出发,提出了新的设计思路来改善中文智能搜索引擎的质量,并建立了基于股票证券领域本体的网络智能搜索模型StockOntoSearch(SOS)系统。本文的主要研究内容和成果有:1.构建面向股票证券领域的本体库,利用Google搜索引擎的底层服务,将基于本体的语义网技术融合进传统的搜索引擎,实现了面向专业领域的语义搜索,提供专业化的优于大型通用搜索引擎的网络信息检索服务。2.在设计中利用用户搜索行为学上的特点,发掘出比以往依赖用户输入的关键词更多的用户需求线索,充分利用这些信息,帮助语义推理引擎更有效的分析出用户的确切需求,提高搜索结果集的查准率。3.利用分层继承的信息展现层设计技术,借助本体库资源,设计出更容易被用户接受的人机接口智能化界面。提供与以往分类/聚类,以及语法相似度匹配不同的,启发式问题激发的搜索导航服务。从新的方向利用本体提供智能服务,提高语义分析的质量。本文对为研究而构建的StockOntoSearch模型系统设计了实验,所获的实验数据从一定程度上验证了我们的设计思想和理念,也显示出我们的研究对提高信息检索的查全率和查准率的有效性。

周庆燕[9]2014年在《基于企业深度挖掘型垂直搜索引擎的研究与应用》文中指出随着Internet的普及信息处理等高科技技术的不断发展,越来越多的企业也在广泛利用Internet技术进行数据共享等信息处理的应用,使得信息内容也正以惊人的速度增加,同时内部业务系统催生大量的复发性、多结构化的数据。在企业规模的不断扩大,数据不断累积的情况下,传统的搜索引擎自身存在信息处理的缺陷,用户只能检索到公开的网页信息,对网页查全率以及查准率过低,对于企业内部的网页则无法检索到,无法满足企业用户的检索需要。企业的运营分析层如何把正确的信息、在正确的时机提供给相应的决策层,以及决策层如何及时准确地获得必要的决策参考信息等问题将成为一个紧迫而复杂的课题。基于需求的驱动,一种基于企业深度挖掘型垂直搜索引擎的出现利用元数据的管理等技术构建一个“综合的营销平台”的数据中心,以及构筑在其上的商务智能,来管理和合理利用信息,给数据服务带来了新的解决方案,因此本文选择课题“基于企业深度挖掘型垂直搜索引擎在数据服务上的研究与应用”,提出了面向企业的搜索引擎体系架构,并将其应用到浙江中烟工业企业搜索引擎系统中,提出了浙江中烟营销搜索引擎系统框架。文章主要研究内容如下:1)根据卷烟企业营销的状况和遇到的问题总结企业用户对搜索引擎系统的需求,确定出了所要建立的搜索引擎系统对爬取数据,元数据管理,将大量数据压缩起来,继而将压缩的数据及那些不易压缩点击频繁的网页进行存储位置及计算,最后根据客户需求搜索信息结果的一系列的研究。2)提出了企业垂直搜索引擎系统的体系架构。文章主要从聚焦网络爬虫、元数据管理平台、数据压缩、云存储及计算、以及数据的查询四个模块对系统进行了设计,重点放在元数据管理、数据压缩、云存储及计算的数据处理以及数据查询的设计上。3)提出聚焦网络爬虫的体系架构。文章给出了聚焦网络爬虫的两种模式,分析了行业内网络爬虫的相关算法,从而得出烟草行业抽取数据的方法,同时根据烟草行业爬取数据的特征给出了相对应的网页搜索策略。4)元数据管理模块。元数据管理层是整个系统的监控维护模块,通过元数据的集成,对数据集中层、数据仓库层和数据展现层进行监控和管理。提供集成的图形环境的单点控制功能。创建元数据模型来表示企业内部信息的使用及相互间的关系。管理工具和环境的集成,包括数据采集、ETL和OLAP数据加载。基于为数据仓库的发展和使用提供方便,更好的将数据与数据整合,提出了元数据管理平台,将数据的数据的作用发挥到更好,提高数据的质量。5)数据压缩。将数据压缩可以节约存储空间,文本在通信链接上传输时间减少,从而降低了运输成本。这里分析了压缩技术,其是重点,压缩技术没有使用得当,压缩效果就完全两样了。在存储压缩的数据及高频率点击的网页信息,引入了基于HBase的云存储及云计算,同时为了解决信息组织问题,方便处理查询和定位、抽取数据的相关部分,索引是关键。6)以以上的理论基础及平时在实验室及实习公司中对搜索引擎系统的研究基础上,提出了基于企业深度挖掘型垂直搜索引擎在数据服务上的研究系统。本文以浙江中烟营销搜索引擎系统为例,对本文提出的系统方案进行验证。

尤静威[10]2014年在《面向图书的垂直搜索引擎的研究与实现》文中进行了进一步梳理Internet的出现使互联网成为了一个重要的信息资源宝库,网络用户需要利用搜索引擎提供的检索服务去查询想要的信息。传统的通用搜索引擎可以满足用户搜索信息的基本需求,但是由于通用搜索引擎检索的范围宽泛,在返回给用户的结果中包含了大量用户不关心的信息,用户不得不对检索结果做进一步的过滤操作,这种额外的过滤操作使用户的检索体验变得不好。垂直搜索引擎弥补了这个不足点,相比通用搜索引擎而言它缩小了检索的范围,只关心网络中某一领域或者某一主题的信息,从数据源头上保证了用户检索的内容就是他们所关心的。同时垂直搜索引擎还对杂乱的网络信息进行相应的处理,将其中主要的部分抽取出来并以结构化的方式呈现给用户,使用户可以迅速发现最重要的信息。论文首先介绍了搜索引擎的基本概念以及分类,然后介绍了搜索引擎的工作原理。通过对比通用搜索引擎和垂直搜索引擎工作原理的不同点,对垂直搜索引擎涉及的主题网络爬虫、主题相似度判断等关键技术进行了介绍与分析。在论文中所做的主要工作包括:相同主题的超链接之间在URL结构上具有相似性,根据这种特性对传统基于页面内容的Shark-Search主题爬行算法进行了改进,在预测孩子URL链接的优先级得分时考虑了URL链接的结构特性对优先级得分值的影响;对向量空间模型计算页面相似度进行分析,提出使用二次主题判断的方法获得更多的高质量的主题相关网页;针对图书元数据信息在网页中的分布特点,结合解析工具HTMLParser设计了一个半自动的元数据抽取算法;利用全文索引开发包Lucene实现了一个面向图书资源的垂直搜索引擎系统的原型,并对Lucene检索结果的默认排序进行了自定义扩展。最后对本文实现的主题爬行算法进行了实验分析,在主题页面相对集中的规范的站点中运行效果较好,因为在这类站点中相同主题的URL之间的相似性比较明显。对实现的面向图书的垂直搜索系统原型进行验证,相比通用搜索引擎系统能够获得比较精确的检索结果,同时对Lucene默认排序进行自定义扩展可以使检索结果排序更合理。

参考文献:

[1]. 面向旅游业的垂直搜索引擎的设计与实现[D]. 任睿丽. 电子科技大学. 2014

[2]. 基于时态信息的煤矿安全事件搜索引擎的研究与应用[D]. 陈博. 北京工业大学. 2015

[3]. 农业网站元数据管理信息系统的研究与实现[D]. 潘冲. 中国农业科学院. 2008

[4]. 基于物化视图增量维护的企业垂直搜索优化研究[D]. 王前进. 江苏科技大学. 2013

[5]. 基于Nutch技术的主题搜索引擎实现[D]. 李东海. 吉林大学. 2008

[6]. 基于元数据的跨库文献检索方法研究[D]. 阚洪海. 山东大学. 2011

[7]. 面向主题的搜索引擎的设计与实现[D]. 李蓉. 华东交通大学. 2010

[8]. 基于领域本体的网络智能搜索模型研究与实现[D]. 王艳文. 上海交通大学. 2008

[9]. 基于企业深度挖掘型垂直搜索引擎的研究与应用[D]. 周庆燕. 浙江理工大学. 2014

[10]. 面向图书的垂直搜索引擎的研究与实现[D]. 尤静威. 北京工业大学. 2014

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

一种基于元数据的搜索引擎的设计与实现
下载Doc文档

猜你喜欢