李晓微[1]2008年在《基于内容的中文文本过滤关键技术研究》文中研究说明随着网络技术的迅猛发展,信息处理成为了人们获取有用信息不可缺少的工具,其中,信息过滤是中文信息处理的一个重要的研究领域。信息过滤,就是根据用户的信息需求,利用一定的工具从大规模的动态信息流中自动筛选出满足用户需求的信息,同时屏蔽掉无用信息和非法信息的过程。广义的信息过滤包括对文本、音频、图像、视频等多种信息存在形式的过滤处理,狭义的信息过滤是特指对文本信息的过滤处理。由于目前网络上的主要信息载体为文本形式,文本信息过滤技术首先成为研究的焦点。此外,信息过滤的研究方法主要分为基于内容的过滤和社会过滤两种,本文主要对基于内容的文本信息过滤进行研究。利用向量空间模型表示的基于关键字的过滤系统简单、易于实现,但它不能解决语义方面的问题,影响过滤结果,针对该问题,本文在过滤系统中引入概念因素,利用同义词词典对用户模板进行概念扩充,以解决同义词问题,提高系统查全率。另外,随着文本过滤的进行,用户的需求可能会不断变化。构造一个好的过滤模板虽然可以在没有反馈学习的情况下取得较好的过滤效果,但不论采用什么样的方法建立的初始过滤模板都只是对用户需求的一种粗糙的近似表达。因此,在过滤精度要求较高的情况下,需要在过滤系统中引入机器学习的机制。本文利用用户的反馈信息,采用改进的自适应学习的方法,及时的对用户模板进行修改,以提高系统过滤精度。本文借鉴其它文本过滤系统的优点,充分考虑系统的查全率、查准率及可实现性等,给出一种改进的中文文本过滤原型系统,并利用Java技术对整个过滤系统的功能模块进行尝试性的实践,取得一定的过滤效果。
杨春喜[2]2007年在《Web文本内容过滤关键技术的分析与研究》文中提出随着Internet的飞速发展,网络上的信息呈指数级增长,其内容之丰富,种类之繁多,堪称世界上最大的信息资源。这一方面给用户发现信息、利用信息带来了方便,另一方面,无序、极其庞大的信息世界和成千上万的超级链接,又常常使用户在查找自己感兴趣的信息时感到力不从心。网络信息过滤,就是根据用户的信息需求,利用一定的工具从大规模的动态信息流中自动筛选出满足用户需求的信息,同时屏蔽掉无用的信息的过程。信息过滤技术可以针对不同的用户采取不同的服务策略,为用户提供及时、个性化的信息服务,已成为人们关注和研究的热点。本文首先阐述Web上信息过滤的基本问题,包括信息过滤的基本原理、过滤系统的一般处理流程、过滤系统的分类、相关信息检索模型以及过滤系统的性能评价指标等。然后,着重对Web文本内容过滤中涉及的关键技术进行深入地分析和探讨。主要包括中文分词技术、文本特征提取技术、用户兴趣模型的表示与更新以及文本过滤技术。在此研究基础上,本文设计了一个Web文本内容过滤系统模型,并对系统总体框架、功能模块以及系统实现的主要方法进行详细阐述,最后,对该系统做了测试,实验证明,该系统具有较好的信息过滤性能。
江飞[3]2007年在《基于内容的过滤技术研究及其在隔离网闸中的应用》文中提出随着互联网的快速发展,信息资源在不同安全等级网络之间的交换越来越频繁。如何保障涉密网络和非涉密网络之间信息交换的安全性,如何合理地解决网络开放性与安全性之间的矛盾成为目前迫切需要解决的问题,隔离网闸技术的产生解决了这些问题。隔离网闸为不同信任域网络之间的安全隔离与信息交换提供了技术支持,而处于内、外网处理单元中的内容检查机制显得尤为重要。因此,本文首先分析了内容过滤和语义分析两项技术;然后通过研究传统的内容过滤模型,将关键词匹配与语义框架匹配相结合提出了一种基于内容的混合模式过滤模型,并构造了基于内容的混合模式过滤算法,算法的性能测试显示精确率与召回率都有了较大的改善;最后通过NetFilter框架将内容过滤模块添加到隔离网闸,实现了基于内容的混合模式过滤算法在隔离网闸中的应用,实验结果表明该算法的应用很好地解决了隔离网闸中信息过滤实时性和准确性的矛盾。论文对隔离网闸中的内容过滤技术进行了研究,设计的基于内容的混合模式过滤算法在隔离网闸中得到了很好的应用。课题中所进行的理论分析和研究以及隔离网闸中内容过滤模块的实现对相关课题研究有重要意义。
邬雄崎[4]2007年在《物理隔离网闸的过滤技术研究和实现》文中研究说明随着互联网的普及和电子政务在日常工作、学习和生活的普遍使用,网络信息安全的重要性愈发引人关注,保证网络信息的安全已成为推进社会网络化的一个关注点。基于隔离技术的隔离网闸的发明和使用正是符合了网络信息安全的要求。目前隔离网闸使用的文本内容过滤大多基于关键字过滤和URL过滤,在使用性能上不但过滤效果欠佳且效率差,已不能满足日益增长的网络信息的安全要求。而随着文本过滤技术的研究和发展,特别是在文本的向量空间表示和基于向量空间的过滤算法的技术都较为成熟,有助于我们选择合理的文本智能过滤技术来取代在隔离网闸中使用的传统关键字和URL过滤技术以提高隔离网闸中内容安全过滤的性能,以达到和满足网络信息安全的要求。本论文的课题就是对适合于隔离网闸的过滤技术的研究。作者在综合运用中文信息处理、粗糙集理论、隔离技术理论等学科的相关知识,深入研究了文本信息过滤的模型、文本预处理技术、文本特征选择技术、过滤算法以及相关应用等,提出了基于统计的适合于隔离网闸的智能文本过滤的方案,来改善现有隔离网闸中的内容过滤模块的性能,并对其中的关键技术混合特征选择和KNN过滤算法的改进作详细地介绍。结合常规特征选择和粗糙集理论的混合特征选择方法,先利用传统的特征选择方法作为初步选择特征,然许再利用粗糙集进行二次特征选择使得特征项数目大大减少,去掉很多冗余属性,从而大大降低文本的维数;而改进的KNN过滤算法是结合了文本聚类技术和传统的KNN算法,不仅有助于提高过滤效果而且也缩短过滤的处理时间,相比与传统的KNN算法,改进的KNN算法更适合于隔离网闸的应用。
郭兆亮[5]2013年在《多媒体信息内容过滤研究》文中指出互联网的发展给人们的学习和生活带来了极大的便利,同时也为色情、暴力等敏感信息提供了温床,因此如何净化网络环境,如何对网络上的内容进行有效地过滤成为当务之急。本文主要针对多媒体内容过滤进行研究,建立了叁级过滤机制,分别为网址过滤、文本过滤和图像过滤,其中文本过滤中提供了两种策略:关键字过滤策略和基于分层的文本内容过滤策略。传统意义上的关键字过滤一般手动设置关键字,具有很强的主观性。本文利用网络爬虫从网络上获取样本库,然后利用该样本库,根据一定的策略提取关键字,生成关键字库,用于关键字的过滤。该方法具有一定的客观性。本文重点研究了基于分层的文本内容过滤,通过对获取的网页进行分层,来对网页中的元素进行区分。根据网页元素对正文主题支撑程度的不同,本文将网页主要分为叁层,其中网页中的题目、1-4级标题、网页关键字作为第一层次,正文作为第二层次,超级链接作为第叁层,不同的层次具有不同的权值,层次越高,权值越大。考虑到网页本身半结构化的性质,本文具体的分层实现利用正则表达式来编程实现。本文在进行文本处理时,首先进行分词和词性的标注,然后对分词后的结果进行相应的处理,并按照词性提取最能表征文本的词汇,主要提取名词、动词、形容词、副词、代词、处所词等六类词。经过处理之后,有效地进行了降维,减少了后续处理的复杂程度。传统意义上,文本特征量的权重一般为词频的函数,本文对权重计算策略进行了改进和优化,计算权重时同时考虑词的长度、词所在的层次及词与词之间简单的语义关系,测试结果表明,改进算法的查全率和查准率都得到了切实地提高。图像过滤系统的实现,本文采取将肤色过滤和人脸识别进行有效地结合的策略。如果肤色面积超过阈值的情况下,再进行是否存在人脸的判断,很大程度上提高了过滤的精度。
于海燕[6]2007年在《基于倾向性文本过滤的IM监控系统的研究与实现》文中进行了进一步梳理即时通信(Instant Messaging,简称IM)是一种实时的互联网交流形式,伴随着网络的开放性和日益增长的规模,它已经成为人们自由交流信息的便捷手段,极大地改变了人们的联系方式。然而在IM得到广泛应用的同时,却存在着很大的负面效应,如不良信息的广泛传播,机密信息泄露,影响正常工作效率等。这时,一个能对IM软件进行有效监控的系统有了很大的市场需求,但目前国内IM过滤软件多采用基于主题的过滤,使得在过滤精度上有所欠缺。本文针对现有IM监控软件的缺陷,以建立一个高效、准确的监控系统为目标,实现了一个原型系统。本文的研究工作主要包括以下几个方面:1、研究了IM监控系统实现平台——Netfilter框架的设计思想和工作原理,着重分析了其扩展机制及应用;然后针对IM监控系统的过滤需求,选择合适的Netfilter框架钩入点,扩展了框架对应用层IM协议的支持。2、提出了IM监控系统的实现方案,深入分析并讨论了系统实现中的一系列关键技术,包括IM软件协议解析方案、中文分词技术、倾向性文本过滤技术、TCP连接阻断技术以及可加载内核模块(LKM)技术和内核空间与用户空间的通信技术。本文针对系统过滤准确性和实时性的需求,在分析IM文本消息特点和实际应用特点的基础上,对基于语义分析的倾向性文档过滤技术进行了重点研究,给出了一个适用于实时过滤IM消息的倾向性文本过滤方法。3、设计并实现了一个基于倾向性文本过滤的IM监控系统原型——TFIMM(Instant Messaging Monitoring System based on Tendency Text Filtering)。该系统应用了本文所给出的倾向性文本过滤方法和旁路监控技术,不仅有效提高了IM文本信息过滤的准确性,而且避免了对网络速度的负面影响。4、搭建了系统的实验环境,通过召回率、正确率等指标对本文给出的倾向性文本过滤方法进行了测评,并从吞吐率、延迟率两方面对系统性能进行了分析和评价。实验结果表明,该原型系统达到了预期的效果。
覃张华[7]2008年在《短文本语义过滤技术的研究》文中研究说明随着互联网的迅速发展和广泛普及,人们越来越依赖互联网来查询所需要的信息。因为网络中大部分信息是以文本方式存放,因此人们对文本的过滤技术要求越来越高。但是,传统的文本信息过滤算法仅能实现结构对应层次上的判断,不能根据文本的上下文较好地理解文本的语义进行过滤,因而过滤的效果难以满足人们智能化的要求。本文主要结合中文信息处理知识,提出并实现了基于短文本的语义过滤算法。该算法包括对短文本分词,词性标注,句法分析,生成语义框架,计算短文本之间的语义框架相似度,短文本过滤等关键环节。利用基于多层隐马模型的分词方法对短文本进行分词,词性标注和消歧,分词和词性标注支持北大标准,973标准,XML格式。对短文本的句子进行句法分析,借助语法规则库和句法分析信息,提取出短文本的领域,行为主体,行为动词,行为受体,时间,地点等信息,填充语义框架,按照给定的距离函数和相似度计算规则,计算短文本之间的相似度,最后根据相似度是否大于阈值决定过滤与否。此算法对短文本进行了准确度较高的分词和词性标注,并对短文本的句子进行了句法分析,句法分析充分考虑了短文本语义块的分离、句蜕和歧义等等特殊语境,然后提取语义框架,然后再将短文本之间的语义相似度的比较转换为数学计算,量化了短文本间的语义相似度,改进了框架相似度的计算公式,增加了框架相似度调节因子,最后根据相似度阈值进行过滤。试验表明,其过滤效果较传统的过滤算法在语义理解上有较大提高。本文设计并实现了一个具有短文本语义过滤功能的代理服务器(SemanticFR)。该系统具有监控网络流量、网络层上包过滤、应用层上关键字过滤和语义过滤、基于URL、关键字的访问控制、网络访问内容重现等功能,系统运行稳定,达到了预期效果。
朱振方[8]2012年在《基于微粒群和遗传优化的文本过滤关键技术研究》文中研究说明计算机技术的发展使得网络上的各种信息急剧增长,随之而来的还有大量的冗余信息和垃圾信息。这些信息不但影响Internet的使用效率和质量,而且影响网络的健康发展。在这种情况下,网络信息过滤技术应运而生,而通常所说信息过滤一般指对文本信息的过滤处理,本文相关研究就是针对文本信息过滤特别是中文文本信息过滤中存在的问题而提出的。国内外很多研究机构和个人针对信息过滤技术,特别是面向中文的信息过滤技术进行了大量的研究工作,也取得了很多成绩。但是,由于文本信息特别是中文信息特有的复杂性、多义性,导致文本信息过滤研究中仍然存在以下问题有待解决:(1)基于内容的文本信息过滤在分词后通常产生大量的候选特征项,如果把所有的候选特征项都用来进行文本表示会增加训练的时间和空间复杂度,并且影响过滤效果。因此,寻找适用于文本信息过滤的权重计算方法是一个需要解决的问题。(2)在抽取特征项集合基础上需要选择适当的优化算法生成类别过滤模板,目前建立过滤模板的方法都是对过滤需求的近似表达。因此,选择一种好的优化方法使得生成模板尽可能好的代表类别特征是一个需要解决的问题。(3)在模板匹配过程中都是整个待分类文档的匹配和分类,从而忽略了待过滤文本个性化特征。特别是在过滤网络文本时,获得的网络数据文本文档往往都有一些附加信息,如何整理和优化待过滤文本是一个有待于解决的问题。(4)由于过滤模板只能无限接近于真实模板,这就需要采用某种方法对过滤结果进行反馈处理从而调整过滤模板。如何利用馈结果及其对应的被过滤文档实现对过滤效果的改善是一个有待于解决的问题。本文以文本信息过滤为目标,针对文本信息过滤特别是中文文本信息过滤中存在的问题展开研究,主要创新点包括以下五个方面:(1)提出了一种综合计算文档权重、段落权重、句子权重和特征项权重的权重计算方法基于内容的文本信息过滤通常将过滤训练文档集转换为空间向量的形式供分类算法分析使用。但是,对训练文档集进行分词后通常产生大量的特征项,如果把所有特征项都用来表示类别,会增加文本过滤的时间和空间复杂度,且很多词对文本过滤的贡献极小,甚至会影响过滤效果。本文在研究相关特征权重计算方法的基础上,综合考虑待匹配文档的文档权重、句子权重、段落权重、特征项权重以及上下文关系提出了一种新的特征权重计算方法。(2)建立了遗传算法解决中文文本信息过滤问题的模型并通过理论和实验两个方面证明了其可行性无论采用什么方法建立的过滤模板,都只是过滤需求的一种近似表达。但是,针对某一专题的内容来讲,理论上都存在着一个真实的过滤模板,它能够准确地表达过滤需求,这个真实模板通过数学求解或实验方法是得不到的,只能通过对初始模板的调整使它不断逼近于真实模板。本文针对应用遗传算法解决中文文本信息过滤问题,建立了问题模型,并在理论上证明了可行性。同时,还根据在实际应用中存在的问题,引入了自适应策略解决应用过程中存在的问题。(3)给出一种以特征词概念为中心的逻辑段落结构并实现了基于逻辑段落的匹配机方法应用向量空间模型进行的匹配和分类中,往往都是整个待分类文档的匹配和分类,从而忽略了待分类文本中的段落特征。同时,目前针对于段落的匹配机制也往往是针对传统的物理段落,即给不同的段落赋予不同的权值,从而使用这些段落进行匹配,这就带有一定的机械性。因为这些物理段落往往较短或者本身包含的信息过少,甚至有些段落包含对于分类有副作用的信息。特别是在过滤网络文本时,获得的网络数据文本文档往往都有一些附加信息,如果使用这些段落实施匹配极其容易出现分类误差和匹配率较低的现象。本文从更加广泛的词义出发,建立一种以特征词概念为中心的逻辑段落结构,在此基础上实现了基于概念的语义段落的匹配机制,体现段落个性化特点,提高分类效果。(4)改进了传统微粒群算法并实现了基于改进微粒群算法的、结合协作过滤思想的模板动态更新要想获得更好的分类效果,必须使用大量的训练文本对系统进行训练。而训练文本从收集、筛选再到人工标注需要耗费大量的人力物力。待分类文档又名未标记文档,因不需要标注和整理,在使用过程中就可以获得,所以代价要小得多。如果能有效利用待分类文档来调整过滤系统,将会带来事半功倍的效果。本文在论述内容过滤和协作过滤两种主要技术的基础上,针对它们存在的问题,提出一种结合两种过滤技术的混合方法。该方法应用遗传优化生成服务器端初始模板,应用粒子群优化用户返回信息实现模板更新,并且针对传统微粒群算法进行了改进。(5)设计了基于上述改进策略的文本信息过滤模型并开发实现了系统结合本文提出的融合段落特征的权重计算方法、基于模糊遗传算法的过滤模板生成算法、基于概念的逻辑段落划分方法以及基于微粒群的反馈优化机制,引入分层过滤机制,面向应用提出了分层、分级、分策略的信息过滤技术系统构架,提高信息过滤模型适应能力和过滤效率。
周念[9]2014年在《面向用户定制的文本过滤技术研究及其应用》文中研究说明互联网信息爆炸增长,导致信息泛滥,获取有价值信息越来越困难。针对这些问题,大量的信息过滤系统应运而生。但是,目前的过滤系统都是针对固定主题的,不能满足对于过滤主题个性化的要求。针对这个难题,本文研究了面向用户定制的文本过滤相关技术和原理,并实现了一套面向用户定制的文本过滤系统。本文的工作主要包括下面几个方面:1)提出了面向用户定制的个性化关键词扩展技术,解决了在用户定制主题信息时,由于初始主题模型中关键词数量少而不能准确过滤信息的问题。该技术采用基于局部分析的词扩展方法从海量数据中挑选出与过滤主题相关的词。2)提出了基于两级关键词匹配模型的文本过滤技术,解决了快速准确的从数据集中过滤出满足过滤主题的文本的问题,过滤模型是由用户定制初始主题关键词以及采用关键词扩展技术扩展出的词组成的。3)提出了基于小样本的半监督文本分类技术,解决了采用基于关键词匹配技术过滤文本时,不能很好的识别变异关键词的问题。4)结合上述叁种关键技术,本文实现了一套面向用户定制的文本过滤系统,系统将实时爬取到的微博、博客、新闻和论坛数据作为数据源,针对用户定制的不同主题信息,从数据源中挑选出符合定制主题的信息。本系统经过理论和实践证明,能满足用户快速定制过滤主题模型,并实现实时过滤信息的功能,该系统在进行过滤训练时,不需要人工标注的文本,在很大程度上满足了自主学习的需求。
卢云玲[10]2014年在《基于云服务模式的文本过滤关键技术研究与应用》文中指出互联网的快速发展,使其成为人们交流信息的主要方式之一。但由于它的这种开放性,导致网络上存在很多如色情、暴力、迷信、反动等垃圾信息,严重影响了人们的日常上网活动。虽然目前已有很多文本过滤技术,但是随着外界环境的变化,文本过滤技术也需要不断地改进和提高。同时,随着人们生活水平的不断提高,越来越多的用户通过移动终端来访问互联网。如何保证移动用户能够通过移动设备获得健康的、有效的正常信息,这就需要在面向移动终端的云平台上实现文本过滤技术,从而实现对垃圾网页进行过滤处理。在这种需求下,本文在对现有的文本过滤关键技术进行了分析和讨论的基础上,改进了传统的基于向量空间模型的文本分类算法以及朴素贝叶斯分类算法,并采用这两种改进的文本分类算法构建了一个高性能的文本过滤系统;然后将该系统部署于面向移动终端的云平台,实现了云平台上的文本过滤服务。保证了移动终端用户能够通过移动设备访问互联网上正常的、合法的网页。本文的主要内容为:1、在对文本过滤技术中常用的特征选择算法进行分析研究的基础上,将等比例的思想运用于特征选择,使得提取的文本特征向量能够更准确地体现文本主题、类别信息等。2、在对文本过滤技术中已有的权重计算方法进行分析和讨论的基础上,考虑了特征项的结构信息、长度信息、比重信息等,对传统的权重计算方法进行了改进,使其能够更好地反映特征项对网页分类的重要程度。3、网页是一种结构化或半结构化的文档,因此本文采用模块化的方式对网页进行分类处理;同时将基于比重的改进权值计算方法以及等比例的特征选择方法应用于传统的基于向量空间模型的分类算法和朴素贝叶斯分类算法;从而利用这两个改进的分类算法构造了一个高性能的网页过滤系统,并且将该系统部署于云平台,提供了文本过滤服务。测试结果证明,改进的文本分类算法与传统的算法相比,具有更高的分类准确率、分类精度,较小的误判率和错误率等,进而改进的文本过滤系统具有更好的性能。
参考文献:
[1]. 基于内容的中文文本过滤关键技术研究[D]. 李晓微. 东北师范大学. 2008
[2]. Web文本内容过滤关键技术的分析与研究[D]. 杨春喜. 暨南大学. 2007
[3]. 基于内容的过滤技术研究及其在隔离网闸中的应用[D]. 江飞. 解放军信息工程大学. 2007
[4]. 物理隔离网闸的过滤技术研究和实现[D]. 邬雄崎. 上海交通大学. 2007
[5]. 多媒体信息内容过滤研究[D]. 郭兆亮. 北方工业大学. 2013
[6]. 基于倾向性文本过滤的IM监控系统的研究与实现[D]. 于海燕. 西北大学. 2007
[7]. 短文本语义过滤技术的研究[D]. 覃张华. 北方工业大学. 2008
[8]. 基于微粒群和遗传优化的文本过滤关键技术研究[D]. 朱振方. 山东师范大学. 2012
[9]. 面向用户定制的文本过滤技术研究及其应用[D]. 周念. 北京邮电大学. 2014
[10]. 基于云服务模式的文本过滤关键技术研究与应用[D]. 卢云玲. 电子科技大学. 2014
标签:互联网技术论文; 语义分析论文; 文本分类论文; 网络模型论文; 文本分析论文; 用户分析论文; 网闸论文; 权重论文; 算法论文;