管冬根[1]2003年在《Web文档中信息的获取与表示研究》文中进行了进一步梳理本论文所研究的课题是国家科技部“十五”科技攻关项目“课件制作与转换工具”项目的一部分。本论文的主要工作为:研究一个能够从Web文档中抽取出信息的算法;分析HTML语言的特点,以确定信息在Web文档中的表现形式;参考LOM(Learning Object Metadata)模型,定义出一套用XML描述的、能够简洁的描述Web文档的模型;以及充分利用从Web文档中抽取出来的信息,把原来的Web文档转换成符合我们提出的模型的XML文档。本论文首先简要的说明了一下描述Web文档所采用的HTML的缺点,进而阐述了把Web文档转化为XML格式的重要性,然后概述了一下本论文所研究的课题的研究意义。论文的主体部分是研究如何从Web文档中获取信息并把他们用XML描述出来,并且做到尽量的不失真。本论文分析了几种传统的从Web文档中获取信息的方法的不足。本论文所阐述的获取方法是通过解析Web文档中HTML的标记来获取文档中的描述信息和结构信息。我们对文档中的信息先进行分类,把文档的信息分为四类,分别为文本信息、图象信息、动画信息和流媒体信息。对不同的文档信息我们采用了不同的处理方法,从而使得解析更具有针对性。对几乎所有的HTML的标签都进行了处理,使得解析更加的完备。如何用XML来表示我们获取出来的文档信息,使用什么样的格式来对获取出来的信息进行描述,这就是制定一个描述Web文档的XML标准模型(DTD)的问题。这是本文的重点。本文先定义了Web文档的数学模型,分别对Web文档中的实体、属性、关系、窗体、事件和响应等概念进行了说明,把Web文档看成一个实体的集合。然后本文阐述了Web文档的描述模型。分别对Web文档的元数据、组织结构、媒体资源、页面资源、窗体资源和窗体之间的关系进行了定义。这样我们就对一个Web文档在逻辑和物理上分别进行了定义。在这个模型中,Web文档中不同元素之间的位置信息被提取出来并保留下来,从而使得转换过后的文档和原文档在结构方面保持了一致性,保证了文档结构的不失真。最后开发了基于上述模型的软件,做到了实践和理论相结合。本论文所提出的模型在国家科技部“十五”科技攻关项目“课件制作与转换工具”项目中得到了直接的体现。
张治平[2]2004年在《Web信息精确获取技术研究》文中研究表明随着Internet应用的飞速发展,WWW已经发展成为一个巨大的分布式信息空间,为用户提供了一个极具价值的信息源。但因Internet所固有的开放性、动态性与异构性,又使得用户很难准确快捷地从WWW上获取所需信息。如何快速、准确地从浩瀚的信息资源中寻找到所需信息已经成为困扰网络用户的一大难题。本文针对信息系统集成及整合的需要,系统地研究了网络信息精确获取所涉及的技术,并将这些技术有机地结合在一起用于一个网络信息精确获取系统的设计与实现。 Web信息获取是信息挖掘技术中一个重要技术,是指从Web上大量的信息中得到数据对象间的内在特征,并以此为依据进行有目的的信息获取的方法,它涉及到计算机网络、数据挖掘、文本处理、人工智能等多个领域。本文首先从体系结构和技术实现方面对网络信息搜索的理论和工具进行了全面的回顾,并总结了当前搜索工具所存在的主要问题及局限性,如检索方式不科学,索引方法不合理,结果显示单一,个性化能力差等;然后对Web信息获取技术的发展现状进行了综述,重点研究了Web信息精确获取所涉及的关键技术,包括搜索引擎技术、信息抽取技术和自动分类技术等,并提出了一个网络信息精确获取的解决方案。 本文将Web文本挖掘的思想引入WWW信息处理领域来解决Web信息精确获取的问题。针对目前在HTML文档中没有表达语义的模式信息,通过用户选定样本页面,预先定义模式,并且通过系统对样本页面和其中的样本记录的学习形成知识库,利用知识库抽取数据信息,形成训练文本集;在此基础上,信息获取系统从样本中提取目标信息的特征,然后根据目标特征进行有目的的搜寻,将搜寻到的信息提交给用户,以获得使用户满意的结果。 根据上述思想,本文设计了Web信息精确获取技术的一个原型系统NIAS,并给出了系统实现中的一些算法。
高田[3]2011年在《基于领域知识的旅游突发事件状态评估与演化研究》文中指出随着我国全球化程度的加深和经济实力的增强,旅游行业的发展非常迅速,已经成为国民经济中不可或缺的重要产业。在全球化的背景下,越来越多的不确定因素导致了旅游突发事件的时有发生,严重威胁着游客的生命财产安全。旅游业对于突发事件具有更高的敏感性,突发事件对于旅游业的破坏性和影响力非常巨大。近年来积累了大量的旅游突发事件相关信息,包括突发事件的案例、应急预案、政策法规、专家知识和应急经验等,根据已有的信息构建旅游突发事件领域知识,并在此基础上研究事件的发生、发展和演化规律,可提高对突发事件的应急管理能力,有效降低游客的生命财产损失。论文的主要研究工作和创新点如下:(1)基于旅游突发事件的互联网数据信息,采集了领域术语和概念,定义了领域本体中的概念及概念之间的关系,主要包括层次关系、类别关系和演化关系等,给出了概念的属性及其属性约束条件,并基于旅游突发事件的事件属性、事件生命周期阶段和事件演化关系等建立了领域知识本体模型,以消除旅游突发事件中的术语和概念的歧义性,并表示出领域知识的组织和结构。建立了本体模型,提供了一系列明确定义的形式化概念描述规范,增强了获取和表示领域知识的能力,并可用于本体的重用和共享,为事件的发生、发展和演化机理研究提供了语义基础和框架模型。(2)提出并建立了基于领域知识本体的事件框架模型,结合基于粗糙集的属性约简方法,用于旅游突发事件Web文档的特征抽取。对于领域本体中包含的属性及实例,采用粗糙集的方法对领域知识本体进行属性约简,获得对于Web文档特征贡献度较大的属性。根据领域知识建立事件框架模型。提出了一种特征抽取方法(DK-CHI),基于领域知识和CHI统计量进行特征抽取,与其它基于目标函数的特征抽取方法相比,本方法能提高特征抽取的效率。(3)提出了一种旅游突发事件状态评估方法,将互联网信息作为评估参数,建立状态评估体系和评估函数。提出了一种针对旅游突发事件时序Web文档分类算法(TS-ISVM),用于旅游突发事件的主题追踪,实现了对当前旅游突发事件主题的后续报道进行识别和获取。实验表明TS-ISVM算法在小训练集情况下取得了较好的分类效果,在不明显降低训练精度的同时,提高了训练速度,并获得了较好的主题追踪效果。建立了一种综合考虑页面热度、页面数目、时间衰减度和主题相似度的状态评估体系,根据状态评估函数进行事件状态评估。实验表明本文的主题状态评估模型能较好地反映旅游突发事件的发生和发展规律。(4)提出了一种旅游突发事件演化关系评估方法,该方法建立在同一主题事件的话题聚类基础上,并可根据事件属性距离对演化关系进行评估和预测。为了研究旅游突发事件各子事件之间的演化关系,提出了一种基于Gauss密度和EFD距离的增量聚类方法(EGIC),对互联网话题进行聚类。该方法针对时间序列Web文档增量地进行数据聚类,将旅游突发事件Web文档划分为不同的话题。实验表明EGIC算法能够较好地进行话题聚类和新话题的发现,并且聚类后的话题能够较好地与实际中的事件相对应。提出了一种话题演化关系评估方法(TERE),建立了事件属性距离与话题演化关系之间的概率模型。实验结果表明了TERE方法的有效性,TERE可以根据事件属性距离的分布特点对两个话题之间的关系进行推测。
操卫平[4]2008年在《基于结构化向量空间模型的中文信息检索系统研究与实现》文中认为信息检索(Information Retrieval, IR)是从数据集中提取相关文档和信息的过程。Internet的出现为人们提供了一种新的信息检索方式,也把信息检索的处理数据从结构化逐步转向半结构化、乃至无结构化。随着Web文本的不断增加,传统的Web检索技术已经很难满足高质量的查询需求。本文的主要内容是研究基于Web的文本信息检索算法。首先,本文介绍了信息检索技术的发展概况,并对基于关键字和基于超链接的检索算法进行了比较和分析。针对关键字检索的查全率不高、链接分析检索方法容易产生主题漂移等缺点,本文将这两种算法相结合,通过页面之间的链接关系来计算每个页面的hub值和authority值,并利用页面链接的锚文本和页面的文档内容与用户查询式进行相似度匹配,获取每个页面的相关度权值,同时在此基础上将检索结果进行排序输出。其次,针对Web信息检索的特点,通过分析传统向量空间模型(Vector Space Model,VSM)在Web检索中存在的若干问题,对传统向量空间模型进行改进,提出了结构化向量空间模型(Structured Vector Space Model, SVSM),其基本思想是将Web文档表达为具有一定逻辑结构的复杂向量,即结构化向量组。每个结构化向量组由若干子向量构成,每个子向量对应Web文档中相对独立的文本段,比如标题、子标题、正文和锚文本等内容。再次,本文对Web信息检索系统中的页面采集器、索引器及相关的原理和技术进行详细地介绍,同时讨论了如何利用页面标记树对网页内容进行去噪处理和主题提取的方法,并给出了一种提高页面索引质量、效率和压缩比的实现途径。最后,本文在已有信息检索算法的基础上,通过结构化向量空间模型,把关键字与超链接检索算法相结合,设计并且实现了一个基于Web的中文信息检索系统。通过参加2007年度全国搜索引擎和Web挖掘评测会议(SEWM2007),证明了该系统的检索算法能够有效地提高Web信息检索的查全率和查准率。
谭鹏许[5]2009年在《基于树自动机技术的Web信息抽取研究》文中提出伴随着互联网的快速发展,Web已成为获取信息的重要手段之一,如何快速准确的在浩瀚的互联网中获得信息,已成为越来越多的科技工作者的研究方向。在此背景下,Web信息抽取技术应运而生。Web信息抽取技术不但可以从网络中获取用户所需信息,而且还可以将获取的信息作为构建智能查询系统和数据挖掘系统的基础,因而具有广阔的发展前景。Web信息抽取技术在近些年已获得了长足的发展,但是还存在着一系列的问题,诸如抽取规则产生复杂,自动化程度低等。针对目前Web信息抽取技术的不足,本文以树自动机技术尤其是无秩树自动机技术为研究基础,来实现Web信息抽取技术,其主要成果如下:针对现有的无秩树自动机推理算法存在推理效率低、生成的无秩树自动机规模过大,不适合应用于信息抽取的情况,利用(k,l)-contextual树型语言的相关知识,提出一种应用于信息抽取的KLH树型语言。并以KLH语言为基础,提出用于构造接受KLH树型语言的无秩树自动机的推理算法KLH算法。通过该算法得到的无秩树自动机具有规模小、速度快的特点。考虑到现有网页中通常存在包含有大量与主题无关信息的情况,在对Web文档进行结构化分析的基础上,本文在系统设计时采用一种基于DOM树的噪声过滤算法。在算法中,提出噪声系数的概念,用以对噪声进行判断,进而去掉Web文档中无关信息,以达到提高信息抽取效率的目的。本文设计一个基于无秩树自动机技术的Web信息抽取原型系统,该系统以网页生成的DOM树为基础,使用噪声过滤算法对Web文档进行噪声处理,减小文档规模;应用无秩树自动机推理算法KLH算法,对DOM树进行文法推理,进而生成无秩树自动机作为抽取规则,依据树自动机对待抽取Web文档接受或者拒绝的状态来实现对Web文档的信息抽取。原型系统实验的数据表明:该系统在保证抽取高效的同时,其准确率和召回率都可以达到很高的水平。
徐晓丹[6]2005年在《中文Web文档自动摘要系统的研究》文中研究说明目前,随着Internet的普及,网络已成为一个巨大的信息源。如何在这海量信息中搜寻所需要的信息、获取信息的主旨,如何快速阅读每天涌现出来的新信息,已经是一个迫在眉睫的问题。而自动文摘正是解决这一难题的有力工具之一。人们可以首先利用计算机对这大量文本信息进行处理,生成基本反映文章主题的摘要信息,然后通过浏览这些摘要信息来判断是否需要仔细阅读全文。这样将大大提高人们获取电子文本信息的效率。 文本摘要的研究和发展对科研和商业应用都是一个非常有价值的研究方向。目前,国外在这一方面的研究已取得了一定进展,但国内的研究起步较晚,对网页信息处理的系统较少,本课题的研究目标是在对自动文摘技术进行深入研究的基础上,提出一种适合于web文档的自动摘要方法,并实际开发出一个web文档自动摘要系统。该系统可用于辅助检索,在领域上不受限制,摘要内容应满足完备性和概括性,并且具备一定的速度和可读性。 为此,本文在综合分析web页面的信息特征的基础上,首先获得页面的正文信息,然后综合统计方法和启发式规则来提取文档的关键词、关键句,最后根据摘要比例输出符合条件的摘要句子。在这过程中,本文全面系统的介绍了文本自动摘要的相关问题和技术,深入分析了web页面信息特征,提出了web页面文本块的抽取方法及一种适合于网页信息的小标题提取算法,探讨了语料库生成的相关技术,并提出了一种结合统计方法和文本结构特征分析的自动摘要方法。最后本文综合以上研究成果设计并实现了一个中文web网页自动摘要系统模型,并对实际的网页进行了测试。 测试结果表明:绝大部分文档的摘要均能够满足完备性和概括性的要求,反映了文档的主要内容,这说明本文提出的摘要方法对中文网页的处理是切实可行的。在测试中发现,受文章体裁的影响,部分摘要的可读性还有待提高。在不影响处理速度的前提下,适当地利用一些自然语言理解和生成技术来提高摘要质量,尤其是改善摘要的可读性,这将是今后进一步研究的重点。
丁宝琼[7]2009年在《网络文本信息采集分析关键技术研究与实现》文中研究表明随着互联网的迅猛发展, Web网页已经成为人们发布、获取信息的重要平台,网页数量也呈爆炸式增长。如何有效、快速地从这些海量的资源中找出用户关心的信息,成为目前网络技术研究的热点方向之一。为了解决这个问题,也针对目前已经开发在用的大部分网络文本信息采集软件的缺陷,本文主要完成了以下研究工作:第一、对Web文档的组织形式进行了深入分析,并综合考虑目前网页分块算法的优缺点,提出一种基于VIPS算法的DOM树方法,实现了对Web页面的准确分块;在分块的基础上,实现了网络噪声的有效去除和文本信息的正确提取。第二、对网页信息的更新检测机制进行了研究。分析了目前主流算法的缺陷,在网页分块的基础上,提出一种新的更新检测机制,实现了网络数据的增量式采集,有效减少了信息冗余。第叁、对网页排序算法进行了研究。分析了HITS算法和ARC算法的优缺点,提出一种基于网页板块权重设置的新算法—BHITS算法,有效缓解了数据采集中的主题泛化与漂移现象,实现了基于主题的信息采集。在实用、高效的设计准则下,本文综合利用聚焦爬虫技术、文本分类处理技术和以上关键技术,开发了Web网页文本信息采集处理系统,实现了Web网页文本信息的多模式快速采集处理。
张友华[8]2006年在《面向智能服务的Web内容计算研究与应用》文中认为WEB是人们获取信息与知识的重要途径,它的海量性、多样性、动态性和半结构化等特性增加了其信息进行自动处理的难度,也吸引了研究者的兴趣。如何从大量的信息中发现用户感兴趣的信息是目前因特网信息搜索研究的课题;如何将WEB上丰富的信息转化为有用的知识是WEB挖掘和WEB知识发现的任务;如何使用户获取个性化信息,从而使WEB提供更多的服务功能是WEB智能需要解决的问题。目前WEB信息数据大致可以分为叁类:内容数据(Content Data)、访问数据(Usage Data)和结构数据(Structure Data),因此也形成WEB研究的叁个大的方向:WEB内容挖掘、WEB访问挖掘和WEB结构挖掘。WEB的信息载体主要是WEB页面,它的内容包含显示的数据、标记和超链接。基于WEB内容的计算就是以WEB页面为对象,研究WEB的信息提取、WEB的信息检索和WEB智能服务等涉及到的问题。本文在综合了WEB内容计算的研究基础上,重点研究并取得如下创新性成果: (1) 提出了一种增量式挖掘方法iFP-Growth,使传统的FP-Growth方法适应于Web动态数据环境的关联规则挖掘。 Web页面数据的半结构化、不规则性和动态更新等特征,使得基于Web内容的数据挖掘研究具有一定的复杂性。本文总结了多种从Web页面中提取半结构化数据的理论与方法,针对Web内容数据的特点,提出的增量式挖掘方法iFP-Growth,使传统的FP-Growth方法适应于动态数据环境的关联规则挖掘。并以中国汽车市场网为例,挖掘消费者对不同类别、不同型号、不同价格轿车的购买偏好。 (2) 提出一种基于句子相关度的文本自动分类模型TCSC) 针对中文WEB文档集的分类和聚类等WEB信息检索(IR)课题中需要进行中文分词和词的多义性问题,利用语料库,提出了一种基于句子的文本特征选择,利用训练文本自动生成类别语料库,根据句内词元的类别相关性和句子位置信息,给出了基于句子类别相关度矩阵的文本分类方法,从而在分类阶段避免了分词处理,同时该方法对于词的多义性具有不敏感性。
车海燕[9]2008年在《面向中文自然语言Web文档的自动知识抽取和知识融合》文中研究指明从Web文档中自动抽取出与领域本体匹配的事实知识不仅可以构建基于知识的服务,而且可以为语义Web的实现提供必要的语义数据。中文语言的特点使得从中文自然语言Web文档中自动抽取知识非常困难。本文研究了面向中文自然语言Web文档的自动知识抽取和知识融合方法。主要研究内容包括:(1)分析和总结了自动知识抽取和知识融合的研究现状及存在的问题;(2)提出了系统化的领域本体定义方法,用聚集体知识概念刻画N元关系并且强调了要为本体概念指定必要的属性约束;(3)研究了面向中文自然语言Web文档的自动知识抽取方法。针对自动知识抽取的叁个步骤:知识叁元组元素的识别、知识叁元组的构造和知识叁元组的清洗,分别提出了基于本体主题的属性识别方法、基于本体属性约束的叁元组元素识别方法、基于启发式规则的叁元组构造方法、基于句法分析的叁元组构造方法和基于本体属性约束的知识清洗方法。与已有方法相比,该知识抽取方法能够在不借助大规模的语言知识库或同义词表的情况下对中文自然语言Web文档进行自动知识抽取,能够处理文档中的N元复杂关系,适合于一般内容的中文自然语言Web文档,具有较好的可移植性;(4)提出了基于本体属性约束的知识融合方法,能够在实例化领域本体过程中识别等价实例、冗余知识和矛盾知识,保证了知识库知识的一致性;(5)分析了传统搜索引擎存在的问题,设计并实现了一个基于语义的智能搜索引擎系统CRAB,该系统能够为用户提供基于语义的知识检索并且生成直接包含查询结果的图文并茂的检索结果报告。本文在面向中文自然语言Web文档的自动知识抽取、知识融合和基于语义的智能搜索引擎等方面的研究具有一定的理论意义和应用价值,丰富了对中文自然语言Web文档的自动知识抽取问题的研究。
李卫华[10]2005年在《面向B2C的Web文档聚类系统研究》文中指出B2C电子商务的迅猛发展,也暴露出一些问题,例如:由于信息的膨胀,客户在从电子商务网站的搜索引擎或者其他专业的搜索引擎中搜索到需要的信息非常困难。客户体验程度的降低肯定也会影响B2C电子商务的发展。作为Web挖掘重要手段的Web文档聚类方法,能够较好的解决这一问题。本文主要是将Web文档聚类方法应用于B2C电子商务中的途径进行了尝试,给出了一个精简型的Web文档聚类系统实现框架,并对核心功能进行了程序实现。文章主要分以下叁个部分讨论:首先,对B2C电子商务中Web挖掘的需求,提出了基于Web文档聚类的页面推荐和商品推荐两个应用结合点。其中页面推荐又可基于提供方的不同分为电子商务站点搜索引擎应用和公用搜索引擎应用。然后在分析两种Web挖掘系统实现框架的基础上,提出了一个精简后的Web文档聚类系统实现框架,及其处理步骤。最后,分析了Web文档聚类系统具体实现过程中的叁大关键技术:Web文档的获取,文本的表示和文本的聚类运算。Web文档的获取使用了元搜索引擎技术和自定义网络蜘蛛技术。文本的表示使用了向量空间模型(VSM),在分析了VSM的优点和不足以后,给出了其实施方法。文本的聚类使用了层次聚类的方法,其他基于矩阵的聚类方法的也可以很好的融合到系统中。讨论了叁大关键技术以后,本文给出了一个实验设计及其结果分析。对本文工作的总结和进一步需要完成的工作在文章结尾给出。
参考文献:
[1]. Web文档中信息的获取与表示研究[D]. 管冬根. 重庆大学. 2003
[2]. Web信息精确获取技术研究[D]. 张治平. 国防科学技术大学. 2004
[3]. 基于领域知识的旅游突发事件状态评估与演化研究[D]. 高田. 北京邮电大学. 2011
[4]. 基于结构化向量空间模型的中文信息检索系统研究与实现[D]. 操卫平. 北京工业大学. 2008
[5]. 基于树自动机技术的Web信息抽取研究[D]. 谭鹏许. 解放军信息工程大学. 2009
[6]. 中文Web文档自动摘要系统的研究[D]. 徐晓丹. 国防科学技术大学. 2005
[7]. 网络文本信息采集分析关键技术研究与实现[D]. 丁宝琼. 解放军信息工程大学. 2009
[8]. 面向智能服务的Web内容计算研究与应用[D]. 张友华. 中国科学技术大学. 2006
[9]. 面向中文自然语言Web文档的自动知识抽取和知识融合[D]. 车海燕. 吉林大学. 2008
[10]. 面向B2C的Web文档聚类系统研究[D]. 李卫华. 华中科技大学. 2005
标签:互联网技术论文; 自然语言处理论文; 聚类论文; 文本分类论文; web技术论文; 数据抽取论文; 关系模型论文; 网络模型论文; 文本分析论文; 主题模型论文; web开发论文; 数据检索论文; 自动机论文; 算法论文;