中文邮件分类器的设计与实现

中文邮件分类器的设计与实现

一、中文邮件分类器的设计与实现(论文文献综述)

杜鹏强[1](2021)在《基于BERT模型的敏感邮件分类方法研究》文中进行了进一步梳理电子邮件已经成为人们生活和工作中必不可少的交流媒介,在现阶段人们的生活和工作中发挥着不可或缺的作用。电子邮件在带来便利的同时,也存在这电子邮件整体安全形势不容乐观的现象,邮箱遭遇攻击和数据库泄露事故层出不穷,导致包含大量敏感信息的电子邮件泄露,这些数据对社会、企业,尤其是个人敏感信息安全会造成非常严重的影响。本文通过对敏感邮件的分类和研究,旨在从众多繁杂的邮件中识别出含有敏感信息的邮件,引起用户对高度敏感邮件的关注,对个人和企业做出预警处理。目前,对电子邮件中敏感信息的识别和检测的研究相对较少,常用的方法不能非常准确的识别出敏感信息。本文对BERT模型进行改进,并提出Bi GRU-att敏感邮件分类方法,具体研究工作及贡献如下:(1)针对电子邮件文本词向量稀疏的特点,改进BERT模型来得到高质量的密集词向量,并与其他的分布式表示词向量的文本表示方式进行对比实验,实验结果证明对BERT模型的改进能够增强邮件文本词向量的特征表示,使邮件文本的词向量更契合于本文的邮件分类任务;(2)针对敏感邮件文本稀少的缺点,采用基于翻译的数据扩充方法对敏感邮件文本数据进行扩充,增加了文本数据的多样性和训练集的大小,使数据集更加平衡,有助于BERT模型在微调阶段学习到更多的敏感邮件文本语言的语义信息;(3)本文将正常邮件分为敏感邮件和非敏感邮件,使用的分类模型是Bi GRU-Att,即将两个普通的单向GRU网络合并为一个双向的GRU网络结构,并引入注意力机制对Bi GRU提取的特征进行权重分配,最后使用Softmax对特征结果进行归一化处理,从而得出邮件文本的敏感度倾向,经过实验表明本文提出的敏感邮件分类方法有效提升了敏感邮件分类的的准确率。

向平常[2](2020)在《基于集成学习的个性化垃圾邮件过滤技术研究与应用》文中研究指明随着互联网时代的来临,电子邮件凭借其方便快捷的特点,已经成为人们日常工作学习传递信息不可或缺的一种方式,与此同时垃圾邮件的出现也引起了很多问题。垃圾邮件在传播过程中占用网络资源,分散用户工作学习的注意力,威胁用户隐私安全,给互联网环境带来了消极的影响,因此研究垃圾邮件过滤技术有很大的现实意义,本文针对垃圾邮件过滤技术研究现状中的不足,提出了相关的解决办法,主要工作包括:(1)针对现有的垃圾邮件过滤技术提取邮件特征不完整的问题,本文根据邮件结构化的特点,提出一种基于集成学习的Ada-CK邮件分类方法,该方法主要通过将邮件内容分为邮件头和邮件正文两部分,基于邮件头的邮件行为特征构建CART决策树分类器,基于邮件正文的内容语义特征构建K最近邻分类器,并在K最近邻分类方法中提出一种改进的基于相似度阈值的文本相似度比较方法,将文本相似度比较时的文本关键词划分为近似词语和一般词语,两者分别计算并线性组合得到最终的文本相似度。基于Adaboost的集成学习思想,将邮件头的CART决策树和邮件正文的K最近邻方法作为基分类器,经过多个基分类器对不同样本权重和不同样本特征的训练,集成基分类器的分类结果和话语权,得到最终的邮件分类结果。通过将Ada-CK方法分别与基于单个基分类器的Ada-CART和Ada-KNN方法,以及其它的邮件分类方法Co-PRFC,L1-SVM,TSVM-NB对比,实验表明Ada-CK在邮件分类精度指标上明显优于其它方法,符合邮件应用要求的准确率高的特点。(2)针对不同邮箱用户对垃圾邮件的认知不同的问题,提出一种基于用户个性化的主动学习方法ALUP,通过从邮件的正文文本中引入用户兴趣集的概念,介绍用户兴趣集模型及具体的基于兴趣集的分类方法。同时,在邮件的增量学习过程中,引入主动学习的方法,基于样本的分布密度来选择不确定度高的增量样本进行更新训练,避免将所有增量样本加入到训练集中造成的时间复杂度高的问题。通过将ALUP与其它邮件分类方法ALNSTC,SVM-AL,MFL进行性能上的对比,实验表明ALUP方法在保证较高的邮件分类精度的同时,明显降低了时间消耗,符合邮件在线应用要求的准确率高,速度快,且遵循用户个性化的特点。

裴歌[3](2020)在《针对中文文本分类的对抗样本生成方法》文中认为深度神经网络由于其强大的表达能力,在图像,文本和语音等领域均取得了优异的成绩,并且受到了广泛的关注,因此其安全问题也显得尤为重要。迄今越来越多的研究证明深度神经网络的确存在脆弱性,即其输出结果容易受到对抗样本的误导,这些对抗样本是通过在原始输入上添加特定的扰动得到的。与图像领域中的对像素点添加细小的噪声不同,文本领域中的对抗样本可以理解为,通过对原始文本中的某些词语进行难以察觉的修改从而导致文本分类器作出错误预测。目前已提出的文本对抗样本生成算法大都在白盒条件下对模型实现对抗攻击,并且大多方法应用于英文语境。但是,显然黑盒条件下的攻击更接近现实的攻击场景。此外,由于中文的表意文字和英文的表音文字在结构上存在巨大的差异,针对中文语境下的研究也同样具有深远的意义。基于以上问题,本文进行了主要包括以下三个方面的工作:(1)在黑盒场景下,提出了一种基于多种关键词语修改策略的中文文本对抗样本生成方法。在文本对抗样本的生成过程中,首先要解决如下两个问题:如何在原始文本中确定需要修改的词语的位置,以及如何对这些词语进行修改才能在尽量不影响人类理解的同时还能导致分类器做出错误预测。基于上述分析,本文方法先利用句子独立性设计关键词语贡献值计算方法,来有效定位重要词语位置。并根据中文文本结构和语言特性设计出汉字拆分替换的关键词语修改策略,同时还将汉字交换和字符插入两种修改策略应用于中文对抗样本。(2)验证中文对抗样本生成算法的有效性。在两个情感分析数据集和一个垃圾邮件数据集中,对一个长短期记忆网络(Long Short-Term Memory,LSTM)实施对抗攻击,并通过LSTM模型分类准确率的降低程度来反映对抗样本的有效性。随后,经过讨论将最大的词语修改个数限制为15。实验结果表明由携程,京东和trec06c数据集中的文本所生成的对抗样本,最多能分别使LSTM模型的准确率下降46.36%,47.41%和50.51%,这可以证实本文方法能够对文本分类器实施有效攻击。(3)对生成的文本对抗样本进行全面地讨论和分析。首先,分析被攻击模型提取到的关键词语分布与正负样本中的高频词语分布之间的关系,并讨论不同的分布情况对对抗样本攻击性的影响。之后,基于对可读性和词移距离分布两方面的评估结果表明本文生成的文本对抗样本具有较高质量。此外,详细探讨在对抗样本生成过程中涉及到多种分词方式和多种文本长度时,对抗样本所具有的攻击效果,以说明本文方法具有良好的鲁棒性。最后,使用由LSTM模型生成的对抗样本对具有相同任务的不同分类模型进行对抗性攻击,以验证该方法的迁移性。其中,包括Text CNN,DPCNN,百度AI情感分析开放平台和腾讯云情感分析服务在内的文本分类器,在受到LSTM模型生成的文本对抗样本攻击时,识别准确率均有所下降。该结果可以证明本文生成的对抗样本可以迁移到具有不同结构且使用不同数据集进行预训练的模型中去。

王斯琴[4](2020)在《改进朴素贝叶斯算法在垃圾邮件过滤中的应用》文中认为电子邮件伴随着互联网的发展越来越普及,但是电子邮件的可靠性与安全性引起人们的重视,因为各种垃圾邮件、钓鱼岛邮件、骚然邮件极大地影响了人们的生活。同时,根据我国不良网络不垃圾信息举报受理中心的统计,有一半以上的用户因为垃圾邮件而浪费掉了大量的时间、大量的资源信息,还有一半用户因为垃圾邮件遭受到了一定的经济损失。目前被人们认可的垃圾邮件过滤技术有:身份认证、行为模式识别、和白名单和关键字过滤技术等等之类的技术。与此同时,垃圾邮件的误判会给网民造成一定的经济损失与时间损失,加之很多人都不愿打开垃圾邮件这一过滤功能,而且垃圾邮件本身也携带各种病毒,或多或少给人们带来了一定的困惑。随着科学技术的发展,朴素贝叶斯分类算法已成为现在最流行的技术之一,正是因为传统朴素贝叶斯分类算法良好的邮件分类效果,受到了广大研究者的关注。但是朴素贝叶斯受到自身条件属性需得相互独立的限制,实际上很多样本却不符合属性条件间相互独立等要求导致分类准确率很低,为了提高垃圾邮件分类的准确性,本文提出了结合主动学习的K-近邻局部加权朴素贝叶斯算法,为的是能够在一定程度上提高邮件分类的精确度和效率。本文主要研究工作如下:(1)如果样本本身一旦错分,那么,在训练过程中不断地更新、迭代,会导致错误不断地累积,继而得到一个易误分的分类器。因此,本文采取结合主动学习的K-近邻局部加权朴素贝叶斯算法(K-Locally Weighted Naive Bayes,K-LWNB),即人工选取一些最具有价值的样本进行标注,以此来提高样本本身的准确性,从而降低分类器的误分率。其中K-近邻局部加权朴素贝叶斯算法对垃圾邮件分类,能够让垃圾邮件的分类效果相对于传统的朴素贝叶斯算法来说,能够更有效地提高邮件的分类准确率和精确度。(2)本文采用ham(正常邮件)和spam(垃圾邮件)作为数据样本集,同时将文本内容解析成词向量,去停用词并提取出关键特征词,继而检查细条并保证解析的正确性,同时计算出不同独立特征关键词的条件概率,然后判断是否属于垃圾邮件。

路永鑫[5](2020)在《基于卷积神经网络的邮件管理系统的设计与实现》文中研究指明随着信息技术的发展,电子邮件服务以其高性价比的通信优势,迅速在网络用户中普及,成为人们信息交流的重要工具。但是,电子邮件便利的同时也带来了垃圾邮件泛滥的问题,垃圾邮件不仅占用互联网资源,更是对用户和企业造成严重困扰,耗费时间和精力,导致经济损失。因此,垃圾邮件过滤技术变得越来越重要,使用一款具有垃圾邮件过滤功能的邮件管理系统成为人们的需求。论文根据当前主要垃圾邮件过滤技术的特点与适用场景,基于卷积神经网络算法构建了一种中文垃圾邮件过滤模型。在模型构建前,论文对邮件内容进行了文本预处理和word2vec词向量生成等工作,然后依据卷积神经网络的结构和算法原理,完成了基础模型构建。为了提高模型的速度和准确率,论文依据卷积神经网络算法的结构特点,提出了 Dropout和L2正则化的优化方案。依据正常邮件和垃圾邮件的文本特征,提出了变步长卷积和带权池化的改进方案。然后通过实验,观察优化和改进方案对模型产生的影响。实验结果表明,经过优化和改进的中文垃圾邮件过滤算法,较未优化改进的中文垃圾邮件过滤算法,准确率提高4.43%,精确率提高4.91%,召回率提高6.10%,F1值提高5.50%,且模型较算法改进之前各指标在更快地提升。说明通过Dropout和L2正则化方案来优化算法,以变步长卷积和带权池化方案来改进算法,在提高模型分类速度和准确率方面,取得了一定效果。在对卷积神经网络中文垃圾邮件过滤算法改进后,论文采用JavaMail框架和vue-cli脚手架对邮件管理系统进行了设计与实现,并将基于改进算法构建的中文垃圾邮件过滤模型应用在系统中,使邮件管理系统能够提供用户登录,收发邮件,保存草稿,查看收件箱、发件箱、草稿箱和垃圾箱、管理通讯录、过滤垃圾邮件等主要功能。

周欣[6](2020)在《改进的TF-IDF特征选择和短文本分类算法研究》文中研究指明随着互联网技术的飞速发展,网络很快成为互联网用户获取信息、交流和学习的重要平台,同时该平台也产生了海量的文本数据,这些数据内容简短,上下文语义关联程度大,表达方式多样,但是蕴含大量的信息。如何处理这些短文本并从中获取有价值的信息,一直以来是人们所关心的问题。文本分类是指将文本信息归为一个或多个类型的过程,可以解决短文本杂乱无章的问题、提高信息利用率以及帮助用户缩小信息检索范围。考虑到这些非结构化文本数据的特点,传统的特征表示方法和分类模型对其直接进行处理结果精度有限。针对这种情况,本文主要从两个方面着手改进:文本特征选择方法和文本分类算法。一、鉴于短文本数据集的非均衡性,传统特征选择方法的不适用性,本文首先把类频方差和卡方检验引入词频-逆文档频率算法中,形成两个单模型特征选择算法,将两个单模型融合再引入词向量训练工具Word2vec形成的算法记为WoTFI,用于特征获取,该模型既考虑到文本数据的语义信息,又兼顾到特征词在类内和类间分布的差异。和不同的特征表示模型对比,WoTFI不仅能够灵活实现特征词权重的分配,也对分类结果产生了积极影响。二、对传统分类算法做了改进,采用双向长短时记忆网络框架结合双通道特征输入的卷积神经网络实现短文本分类。WoTFI作为模型的一种通道特征输入,另一个通道为字符级的特征嵌入表示,通过捕获单词或短语形状和形态信息得到短文本特征,再利用卷积神经网络算法对上述两通道特征处理获取更深层次的特征。在池化层和长短期记忆网络层分别引入局部响应归一化和Dropout策略,使得监督学习算法加快,防止模型过拟合,增加算法的泛化能力。本文的分类模型集成卷积神经网络和双向长短期记忆网络模型的优点,既可以捕获双向语义依赖关系,有效保留短文本的语义信息,同时,避免了长序列训练过程中梯度爆炸和消失问题。实验设置的数据集大小不同、包含中文文本和英文文本、分类的类别数目也不一样,通过对比实验可知,本文模型的性能指标优于传统模型。

缪沛恩[7](2020)在《基于Word2vec的电子邮件分类》文中指出随着信息化技术的不断发展,电子邮件以其廉价性、实用性、即时性成为互联网应用最广的服务,电子邮件因为其突出的便捷性极大的便利了人们的日常沟通交流,对社会经济的发展产生了极大的促进作用,玉有微瑕也带来了一个意外的副产品——垃圾邮件。垃圾邮件的泛滥不但造成了极大的经济损失,同时还威胁着信息的安全,不仅影响社会风气,污染人文环境,还扭曲了人们的人生观、价值观,产生了诸多的社会的问题,时刻打击着人们对网络交流的信心,阻碍着互联网的发展。因此,如何解决垃圾邮件的问题,如何提高垃圾邮件过滤技术成了迫在眉睫的难题。目前在国内外垃圾邮件过滤技术研究中,以基于邮件内容的分类成为了主流,但传统的机器学习算法在做文本特征化的过程中不可避免的存在着诸如维度过大、数据集太过稀疏、数据彼此独立没有联系,丢失太多重要特征从而导致分类的准确率达不到人们的理想要求,本文在基于邮件内容的基础上,利用Word2vec中的Skip-gram模型+负采样策略来训练分布式文本词向量,并针对过拟合现象对模型进行相应的调整,本文相关工作如下:(1)数据集采用国际文本检索会议提供的一个公开的垃圾邮件语料库——中文数据集Trec06c,分词后训练词向量,经实验比对,将词向量的维度设置为200维,考虑到邮件内容长短不一,将词向量进行tf-idf加权处理后作为输入数据集输入到BP神经网络模型中,对比传统机器学习模型的性能得到了明显提高。(2)因为深度学习里参数众多,极容易出现过拟合现象并且计算速度慢,所以本文中将会在模型中加入Dropout层,并将数据集分成多个Bitch-size,分批输入模型,另外基于accuracy曲线图会做多次对比实验,选择最好的那个Dropout系数,可以让模型具有更好的泛化性。(3)在以往2分类中一般使用Sigmoid分类器,但鉴于Sigmoid函数越到极限收敛速度越慢的缺点,本文中将采用Softmax分类器,并在分类器中加入L2正则惩罚项,可以让模型对不同的样本表现出更好的鲁棒性。(4)为提高收敛速度,弥补传统的梯度下降法学习率固定无法修改的弊端,改用自适应学习率优化算法Adam算法。(5)将最佳结果与传统的贝叶斯模型和KNN模型进行对比,本文改进后的BP神经网络模型预测结果的Precision、Accuracy和Recall要好于传统的机器学习算法。

王鹿[8](2020)在《基于贝叶斯分类的垃圾邮件过滤技术研究》文中研究指明随着互联网技术的飞速发展,电子邮件以方便、快捷、环保等优点成为人们日常生活工作中不可或缺的一部分。但与此同时,垃圾邮件的出现对用户造成了严重的影响,给社会带来了极大的财产损失和安全威胁,因此研究垃圾邮件过滤技术具有重要意义。本文在基于目前现有的理论和研究基础之上,对垃圾邮件过滤方法进行了系统的介绍,针对当前朴素贝叶斯算法过滤垃圾邮件时尚且存在的不足进行了一定的改进。主要研究内容如下:(1)深入研究反垃圾邮件相关技术,包括邮件的预处理、文本表示模型、特征提取等等。着重研究了朴素贝叶斯分类算法的原理及其来源,并分析它在文本分类方面的优缺点。(2)分析随机森林算法的原理以及在特征选择方面的优势,提出使用随机森林结合朴素贝叶斯的分类算法。针对垃圾邮件过滤系统中普遍存在的维数灾难的问题,通过随机森林特征选择过滤掉邮件集中基尼不纯度为0的特征词,由朴素贝叶斯算法计算出特征选择后的测试邮件的后验概率,得出测试邮件所属类别。(3)提出基于树结构的朴素贝叶斯分类算法。针对朴素贝叶斯算法在分类前期的训练阶段大量消耗系统和网络资源,严重影响分类效率的问题,提出使用树结构代替算法中原本使用的数组来维护训练样本中特征词出现的次数;针对朴素贝叶斯算法在邮件样本属性个数较多时,分类效果较差的问题,对特征词条件概率进行开方处理。(4)通过设计的邮件过滤系统对过滤算法进行分类性能测试。实验结果表明,结合了随机森林的朴素贝叶斯算法较原有算法在分类性能上效果更好;基于树结构的朴素贝叶斯算法较原有算法在邮件样本训练过程中耗时明显减少,随着样本的不断增加,训练耗时也只是缓慢增长,通过选取合适的开方次数z值,来降低垃圾邮件的误判率,使得改进后的算法在垃圾邮件过滤方面具有更好的效果。

黄鹤[9](2019)在《基于深度学习的垃圾邮件过滤方法研究》文中提出随着互联网相关应用的快速发展,广告技术的进步和电子邮件的普及,越来越多的垃圾邮件充斥着我们的生活。如何高效的区分垃圾邮件的研究也逐渐成为了热门课题。因自然语言在结构上有着很强的前后相关性,而且对于中文邮件直接转化成向量会有过高的维度产生,影响最后分类的准确性。基于内容和基于电子邮件源的识别技术现在是常用的两种垃圾邮件过滤方法。例如贝叶斯模型文本识别等就是基于内容的识别技术。白名单与黑名单机制、关键词匹配的是基于邮件来源的技术。电子邮件的数量增加可观、样式层出不穷,基于规则的方法不仅需要对邮件特征规则库进行不断的更新,同时还需要大量的人力。基于内容的方法当前已经取得令人可喜的成效,但随着科技的发展,现在垃圾邮件的制造者们开始大量的使用图像垃圾邮件,然后肆意的进行传播。这种方式的垃圾邮件更加难以检测且消耗的网络宽带也更大。论文主要分析总结当前常用的垃圾邮件的过滤方法,选择基于深度学习的分类算法作为本文研究的重点,建立垃圾邮件过滤模型。这之中具体工作以及贡献包括如下:1.本章设计了一种基于Skip-gram的CNNs-Highway邮件过滤模型(SGCH)。由于以前的词表示方法主要是独热编码(One-hot),但这样做的缺点是维度过高且数据稀疏,对于垃圾邮件过滤,单词之前和之后的语义信息不能很好地保留。目前,词嵌入(word embedding)可以有效地保留词汇语法和语义信息的词向量转换。本文提出的方法将基于词嵌入中Skip-gram模型将词分布式的映射到一个低维空间中,解决传统的One-hot编码词向量维度过高问题,然后结合不同卷积核的CNNs和Highway网络的级联网络,进行文本特征提取,最后在不同的中英文邮件数据集上进实验,证明其有效性。2.本章设计了一种基于深度卷积神经网络(DCNN)和双向GRU网络的垃圾邮件过滤模型(DCNN-BiGRU)。卷积神经网络可以很好的学习研究对象的局部特征,但同时存在其固有缺点,无法学习序列之间的关系。而循环神经网络则相反,在学习序列之间的关系方面有着不俗表现,但是对研究对象的局部信息却不是很敏感。为了弥补二者之间的缺陷,本文提出了改进的深度卷积神经网络和双向GRU网络,最后在CCERT中文邮件数据集上进行实验,证明其有效性。3.本章设计了一种基于决策级融合的垃圾邮件过滤方法。第1、2两个方法都对文本型垃圾邮件过滤技术的改进。然而,近年来,一些垃圾邮件的制造者利用图像承载着垃圾信息,从而进行大量的传播。单一的某一种模态邮件检测,其缺点是不能对邮件的所有信息进行全面的分析。本文基于前二个邮件文本的过滤方法并结合图像分类技术,提出了基于决策级融合的多模态架构模型,并在本文和图像混合的垃圾邮件数据库进行实验,证明其有效性。

丁攀[10](2019)在《基于贝叶斯网络分类算法的有害信息识别研究》文中研究指明对文本形式的有害信息而言,有害信息识别的实质是文本分类,无论是垃圾邮件过滤还是网络舆情分析都可看作是短文本的二分类问题。短文本分类中,大部分中文文本存在文本稀疏,特征高维的问题;同时,贝叶斯分类模型存在特征局限和属性间条件独立性假设不存在的问题。特征高维、特征局限和分类模型条件独立性假设不存在的缺陷成为制约短文本分类的重要因素。为降低以上缺陷给短文本分类带来的不利影响,结合垃圾邮件过滤和网络舆情分析的实际情况,分别对特征提取算法和结构学习算法做出改进。首先,针对特征高维的缺陷和所采用三层贝叶斯分类模型的结构特点,给出中心词扩展的概念,结合词频逆文本频率特征加权算法,提出了基于中心词扩展的频逆文本频率特征提取算法,该算法增加了三层贝叶斯分类模型特征节点的表达能力和特征多样性,实现了特征降维。其次,针对分类模型特征局限和属性间条件独立性假设不成立问题,采用三层贝叶斯分类模型作为分类器模型以避免分类模型特征局限,在遗传算法中加入灰狼优化算法中的三只头狼引领的策略,提出了灰狼遗传结构学习算法,利用该算法训练三层贝叶斯网络模型的结构,放宽了分类器模型的属性间条件独立性假设。最后,将两种改进算法应用到垃圾邮件过滤和网络舆情分析的有害信息识别中,分别通过邮件文本数据和微博文本数据的实验分析,证明了两种改进算法以及三层贝叶斯网络结构模型具有可行性,证明了基于灰狼遗传结构学习算法的三层贝叶斯网络分类器可一定程度的提高中文短文本分类的分类性能,并在此基础上设计完成了一种基于贝叶斯网络分类器的有害信息识别软件。

二、中文邮件分类器的设计与实现(论文开题报告)

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

三、中文邮件分类器的设计与实现(论文提纲范文)

(1)基于BERT模型的敏感邮件分类方法研究(论文提纲范文)

摘要
abstract
1 绪论
    1.1 研究背景及意义
    1.2 国内外研究现状
        1.2.1 敏感信息识别分类研究现状
        1.2.2 词向量研究现状
    1.3 本文主要工作
    1.4 本文研究内容及组织结构
2 相关技术基础
    2.1 邮件预处理
        2.1.1 邮件解析
        2.1.2 分词技术
        2.1.3 去停用词
    2.2 分类模型
        2.2.1 支持向量机
        2.2.2 Softmax回归模型
        2.2.3 FastText
        2.2.4 卷积神经网络
    2.3 本章小结
3 邮件文本表示模型
    3.1 数据扩充
    3.2 文本表示
        3.2.1 One-Hot编码
        3.2.2 分布式表示
        3.2.3 BERT模型
    3.3 向量表示模型的构建过程
    3.4 基于BERT的邮件文本向量表示模型
        3.4.1 BERT的输入处理
        3.4.2 BERT的预训练
        3.4.3 BERT模型进一步预训练
    3.5 实验与结果分析
        3.5.1 实验环境
        3.5.2 数据集
        3.5.3 评价标准
        3.5.4 结果分析
    3.6 本章小结
4 基于BERT模型的敏感邮件分类方法
    4.1 敏感邮件级别划分
    4.2 邮件分类方法
    4.3 BiGRU-Att分类模型
        4.3.1 BiGRU
        4.3.2 注意力机制
        4.3.3 模型结构
    4.4 实验与结果分析
        4.4.1 模型与参数设置
        4.4.2 结果分析
    4.5 本章小结
5 总结与展望
    5.1 总结
    5.2 展望
参考文献
攻读硕士期间发表的论文及所取得的研究成果
致谢

(2)基于集成学习的个性化垃圾邮件过滤技术研究与应用(论文提纲范文)

致谢
摘要
ABSTRACT
1 引言
    1.1 研究背景与意义
    1.2 国内外研究现状
        1.2.1 基于发送方特征的过滤技术
        1.2.2 基于邮件内容的过滤技术
    1.3 本文主要工作
    1.4 本文组织结构
2 垃圾邮件过滤技术概述
    2.1 垃圾邮件过滤步骤概述
        2.1.1 邮件结构及工作原理
        2.1.2 预处理
        2.1.3 邮件文本特征选择
        2.1.4 邮件文本特征表示
    2.2 垃圾邮件过滤方法概述
        2.2.1 增量学习
        2.2.2 主动学习
        2.2.3 集成学习
        2.2.4 半监督学习
    2.3 本章小结
3 基于邮件结构化文本的集成学习
    3.1 研究背景与动机
    3.2 邮件结构化文本集成学习框架
    3.3 基于邮件头的决策树分类方法
        3.3.1 邮件头特征表示
        3.3.2 基于邮件头特征的CART决策树分类算法
    3.4 基于邮件正文的K最近邻分类方法
        3.4.1 word2vec词向量生成
        3.4.2 TF-IDF加权的文本向量表示
        3.4.3 基于相似度阈值的K最近邻分类算法
    3.5 Ada-CK集成学习方法
        3.5.1 Adaboost算法介绍
        3.5.2 Ada-CK算法介绍
    3.6 实验设计与结果分析
        3.6.1 实验环境与数据
        3.6.2 实验评估指标
        3.6.3 实验方法与过程
        3.6.4 参数分析
        3.6.5 内部算法比较
        3.6.6 外部算法比较
    3.7 本章小结
4 基于用户个性化特征的主动学习
    4.1 研究背景与动机
    4.2 用户个性化垃圾邮件过滤框架
    4.3 基于用户兴趣集的分类方法
        4.3.1 兴趣集相关定义
        4.3.2 兴趣集模型
        4.3.3 基于兴趣集的邮件分类方法
    4.4 基于主动学习的样本选择
    4.5 兴趣集和训练集更新
    4.6 实验设计与结果分析
        4.6.1 实验环境及数据
        4.6.2 实验方法与过程
        4.6.3 参数分析
        4.6.4 算法性能比较
    4.7 本章小结
5 总结与展望
    5.1 工作总结
    5.2 未来展望
参考文献
作者简历及攻读硕士学位期间取得的研究成果
学位论文数据集

(3)针对中文文本分类的对抗样本生成方法(论文提纲范文)

摘要
ABSTRACT
符号对照表
缩略语对照表
第一章 绪论
    1.1 研究背景
    1.2 国内外研究现状
        1.2.1 文本分类研究现状
        1.2.2 文本对抗样本研究现状
    1.3 主要内容
        1.3.1 研究内容
        1.3.2 组织结构
第二章 相关技术介绍
    2.1 深度神经网络模型
        2.1.1 卷积神经网络
        2.1.2 循环神经网络
        2.1.3 文本分类方法
    2.2 文本对抗样本生成方法
        2.2.1 白盒方法
        2.2.2 黑盒方法
    2.3 本章小结
第三章 文本对抗样本生成算法
    3.1 方法介绍
        3.1.1 算法概述
        3.1.2 净化操作
        3.1.3 关键词语定位方式
        3.1.4 关键词语修改策略
        3.1.5 算法总体描述
    3.2 验证性实验设置
        3.2.1 数据集
        3.2.2 被攻击模型
        3.2.3 有效性评估方式
    3.3 情感分析领域实验结果分析
        3.3.1 修改阈值选取
        3.3.2 对抗攻击效果
    3.4 垃圾邮件分类领域实验结果分析
        3.4.1 修改阈值选择
        3.4.2 对抗攻击效果
    3.5 本章小结
第四章 讨论性实验与结果分析
    4.1 关键词语分布
    4.2 对抗样本质量
    4.3 鲁棒性
        4.3.1 针对不同分词方式的鲁棒性
        4.3.2 针对多种文本长度的鲁棒性
    4.4 迁移性
    4.5 本章小结
第五章 总结与展望
    5.1 本文工作总结
    5.2 进一步工作方向
参考文献
致谢
作者简介

(4)改进朴素贝叶斯算法在垃圾邮件过滤中的应用(论文提纲范文)

中文摘要
英文摘要
1 绪论
    1.1 研究背景和意义
    1.2 国内外研究现状
        1.2.1 朴素贝叶斯的研究现状
        1.2.2 垃圾邮件的研究现状
    1.3 研究内容
    1.4 论文组织结构
    1.5 本章小结
2 邮件过滤相关技术
    2.1 文本分类技术
        2.1.1 原始文本获取
        2.1.2 分词
        2.1.3 文本清洗
        2.1.4 特征提取
    2.2 主动学习的概念
        2.2.1 主动学习模型
        2.2.2 主动学习算法
        2.2.3 主动学习的应用领域
    2.3 朴素贝叶斯
        2.3.1 贝叶斯算法
        2.3.2 朴素贝叶斯算法
        2.3.3 朴素贝叶斯算法的优缺点
        2.3.4 朴素贝叶斯算法的应用
    2.4 KNN分类算法
        2.4.1 KNN分类算法定义
        2.4.2 KNN算法流程描述
        2.4.3 关于K值的选取
        2.4.4 关于距离的选取
        2.4.5 数据特征的量化
        2.4.6 加权KNN算法
        2.4.7 KNN算法的优缺点
        2.4.8 KNN算法的主要应用领域
    2.5 本章小结
3 基于K-近邻加权朴素贝叶斯改进算法在垃圾邮件过滤中的应用.
    3.1 基于k-近邻局部加权朴素贝叶斯改进算法
        3.1.1 基于K-近邻局部加权朴素贝叶斯改进算法思想
        3.1.2 基于K-近邻局部加权朴素贝叶斯改进算法步骤
    3.2 实验测试
        3.2.1 数据集介绍
        3.2.2 评价指标
        3.2.3 实验结果与结果分析
4 垃圾邮件过滤系统的设计
    4.1 系统总体设计
        4.1.1 需求分析
        4.1.2 系统概要设计
        4.1.3 数据库设计
    4.2 系统详细设计
        4.2.1 原始邮件预处理模块
        4.2.2 改进朴素贝叶斯分类器模块
    4.3 本章小结
5 垃圾邮件过滤系统的实现
    5.1 垃圾邮件系统环境搭建
    5.2 垃圾邮件过滤系统的实现
    5.3 本章小结
6 总结与展望
    6.1 论文工作总结
    6.2 工作展望
参考文献
附录 :作者攻读硕士学位期间发表论文及科研情况
致谢

(5)基于卷积神经网络的邮件管理系统的设计与实现(论文提纲范文)

摘要
Abstract
第一章 绪论
    1.1 研究背景
    1.2 垃圾邮件过滤技术分析
    1.3 基于统计的垃圾邮件过滤研究现状
        1.3.1 朴素贝叶斯
        1.3.2 K-近邻算法
        1.3.3 支持向量机
        1.3.4 垃圾邮件过滤算法评估
    1.4 论文主要内容和结构安排
第二章 卷积神经网络相关技术概述
    2.1 卷积神经网络
        2.1.1 卷积层
        2.1.2 激活函数
        2.1.3 池化层
        2.1.4 全连接层和softmax分类器
    2.2 文本预处理
        2.2.1 字符过滤
        2.2.2 中文分词
        2.2.3 停用词处理
    2.3 word2vec
        2.3.1 独热编码
        2.3.2 分布式词向量
        2.3.3 word2vec
        2.3.4 词向量生成
    2.4 基础卷积神经网络中文垃圾邮件过滤模型构建
    2.5 本章小结
第三章 一种改进的卷积神经网络中文垃圾邮件过滤算法
    3.1 改进方案
        3.1.1 Dopout方案
        3.1.2 L2正则化方案
        3.1.3 变步长卷积方案
        3.1.4 带权池化方案
    3.2 实验设计
        3.2.1 实验环境
        3.2.2 实验数据集
        3.2.3 评价指标
        3.2.4 实验流程
    3.3 实验结果分析
        3.3.1 Dropout的影响
        3.3.2 L2正则化的影响
        3.3.3 变步长卷积的影响
        3.3.4 带权池化的影响
        3.3.5 实验结论
    3.4 本章小结
第四章 邮件管理系统的设计与实现
    4.1 技术支持
        4.1.1 电子邮件格式协议
        4.1.2 电子邮件工作原理
        4.1.3 JavaMail框架
    4.2 邮件管理系统需求分析
        4.2.1 系统功能性需求
        4.2.2 系统非功能性需求
    4.3 后端设计与实现
        4.3.1 系统结构
        4.3.2 用户登录
        4.3.3 接收邮件
        4.3.4 发送邮件
        4.3.5 管理通讯录
    4.4 前端设计与实现
        4.4.1 Vue.js
        4.4.2 页面实现
    4.5 系统功能测试
        4.5.1 用户登录测试
        4.5.2 接收邮件测试
        4.5.3 发送邮件测试
        4.5.4 管理通讯录测试
    4.6 本章小结
第五章 总结与展望
参考文献
致谢

(6)改进的TF-IDF特征选择和短文本分类算法研究(论文提纲范文)

摘要
abstract
第一章 绪论
    1.1 研究背景与意义
        1.1.1 研究背景
        1.1.2 研究意义
    1.2 国内外研究现状
        1.2.1 文本分类综述
        1.2.2 国内外文本表示发展史概述
        1.2.3 国内外文本分类发展史概述
    1.3 论文的研究内容与组织结构
        1.3.1 研究内容
        1.3.2 论文组织结构
    1.4 本章小结
第二章 短文本分类相关技术简介
    2.1 文本规范化处理
        2.1.1 文本预处理过程
        2.1.2 中文分词方法
        2.1.3 分词工具的介绍
    2.2 文本特征选择与提取
        2.2.1 文本特征表示
        2.2.2 文本特征选择
    2.3 文本分类算法
        2.3.1 多项式朴素贝叶斯
        2.3.2 支持向量机
        2.3.3 逻辑回归算法
        2.3.4 k最近邻分类算法
        2.3.5 卷积神经网络分类算法
    2.4 分类算法评价指标
    2.5 深度学习
    2.6 WORD2VEC模型
        2.6.1 CBOW和 Skip-Gram模型简介
        2.6.2 Hierarchical Softmax模型介绍
        2.6.3 Negative Sampling模型介绍
    2.7 本章小结
第三章 改进的TF-IDF特征选择算法
    3.1 改进型TF-IDF特征的权重算法
        3.1.1 WF_TF-IDF
        3.1.2 CHI_TF-IDF
        3.1.3 WoTFI特征选择模型
    3.2 特征选择实验结果
        3.2.1 实验数据
        3.2.2 Word2vec参数配置
        3.2.3 实验结果
    3.3 基于WOTFI特征选择算法的CNN分类结果
        3.3.1 神经网络语言模型
        3.3.2 TextCNN文本分类算法模型
        3.3.3 实验环境和分类模型参数配置
        3.3.4 WoTFI特征选择方法用于短文本分类结果
    3.4 本章小结
第四章 基于BI-LSTM的 CHAR-CNN短文本分类模型的设计
    4.1 字符级嵌入简述
    4.2 本节模型介绍
        4.2.1 引入双向长短时记忆网络算法的双通道卷积神经网络模型
        4.2.2 解决过拟合的方法
        4.2.3 LRN优化
        4.2.4 LSTM模型介绍
        4.2.5 Bi-LSTM模型介绍
    4.3 中英文短文本实验数据
        4.3.1 英文语料库处理
        4.3.2 中文语料库处理
    4.4 实验环境及模型参数配置
        4.4.1 实验环境
        4.4.2 模型参数设置
    4.5 实验结果与分析
        4.5.1 不同实验模型分类精度对比结果
        4.5.2 嵌入方式不同的对比实验结果
    4.6 本章小结
第五章 实验设计结果与分析
    5.1 实验环境的介绍
    5.2 文本数据模块的准备
    5.3 实验结果与分析
        5.3.1 维度对特征表示模型的影响
        5.3.2 改进后的分类模型对SST-1 数据分类的结果
        5.3.3 迭代次数对Bi-LSTM-charCNN模型分类结果的影响
        5.3.4 融合的文本表示模型受单文本表示模型的影响
        5.3.5 分类结果验证
    5.4 本章小结
总结与展望
参考文献
攻读学位期间发表的学术论文
致谢

(7)基于Word2vec的电子邮件分类(论文提纲范文)

摘要
ABSTRACT
第一章 绪论
    1.1 研究背景及意义
        1.1.1 课题研究背景
        1.1.2 课题意义
    1.2 国内外研究现状
    1.3 研究内容及创新点
    1.4 论文框架
第二章 相关理论技术论述
    2.1 对比试验的相关技术
        2.1.1 机器学习模型的数据表示形式
        2.1.2 KNN算法
        2.1.3 贝叶斯算法
    2.2 本文所采取的相关技术
        2.2.1 BP神经网络模型
        2.2.2 BP算法
    2.3 代价函数的选择
    2.4 激活函数的选择
    2.5 Softmax分类器
    2.6 本章小结
第三章 基于Word2vec的中文邮件识别
    3.1 中文垃圾邮件过滤中的问题及解决思路
    3.2 分布式向量化表示
        3.2.1 数据集
        3.2.2 数据过滤
        3.2.3 对文本进行分词及结果
        3.2.4 利用Word2vec训练词向量
        3.2.5 训练词向量的两种加速方式
        3.2.6 词向量训练结果
        3.2.7 邮件文本的向量化表示
    3.3 防过拟合措施
        3.3.1 Dropout层
        3.3.2 添加正则惩罚项
    3.4 加快收敛速度的措施
        3.4.1 Adam算法
        3.4.2 数据输入方式
    3.5 模型性能的评价标准
    3.6 本章小结
第四章 邮件过滤模型实验分析
    4.1 实验环境
    4.2 实验分析
        4.2.1 确定隐藏层神经元个数
        4.2.2 Dropout层对模型的影响
        4.2.3 Dropout值的确定
        4.2.4 确定词向量的维度
        4.2.5 Adam算法对实验结果影响
        4.2.6 与其他算法的实验结果对比
    4.3 实验总结
    4.4 本章小结
第五章 总结与展望
致谢
参考文献

(8)基于贝叶斯分类的垃圾邮件过滤技术研究(论文提纲范文)

摘要
abstract
第一章 绪论
    1.1 课题背景及意义
    1.2 邮件过滤技术国内外研究现状
        1.2.1 基于黑名单的过滤技术
        1.2.2 基于规则的过滤技术
        1.2.3 基于内容统计的过滤技术
    1.3 论文研究内容
    1.4 论文组织结构
第二章 反垃圾邮件相关技术研究
    2.1 邮件的基本结构
    2.2 邮件主要模块的选取
    2.3 邮件的预处理
        2.3.1 英文邮件的预处理
        2.3.2 中文邮件的预处理
    2.4 文本表示模型
        2.4.1 布尔模型
        2.4.2 概率模型
        2.4.3 向量空间模型
    2.5 特征提取
    2.6 贝叶斯分类技术
        2.6.1 贝叶斯定理
        2.6.2 贝叶斯分类器
        2.6.3 朴素贝叶斯算法
        2.6.4 常见的朴素贝叶斯扩展算法
    2.7 本章小结
第三章 基于随机森林的朴素贝叶斯算法垃圾邮件过滤研究
    3.1 随机森林算法
        3.1.1 决策树
        3.1.2 构建组合分类器方法
        3.1.3 随机森林
    3.2 朴素贝叶斯融合随机森林的过滤算法研究
    3.3 基于随机森林的朴素贝叶斯算法垃圾邮件过滤模型
    3.4 本章小结
第四章 基于树结构的朴素贝叶斯算法垃圾邮件过滤研究
    4.1 树结构思想
    4.2 敏感度分析
    4.3 基于树结构的朴素贝叶斯算法
    4.4 树结构朴素贝叶斯算法垃圾邮件过滤模型
    4.5 本章小结
第五章 系统的设计与实现及实验结果分析
    5.1 系统总体设计
    5.2 过滤系统主要模块设计
    5.3 过滤系统实现
    5.4 实验结果及分析
        5.4.1 评价标准
        5.4.2 训练部分对比
        5.4.3 测试部分对比
    5.5 本章小结
第六章 总结与展望
    6.1 总结
    6.2 展望
参考文献
攻读硕士学位期间发表的学术论文及取得的相关科研成果
致谢

(9)基于深度学习的垃圾邮件过滤方法研究(论文提纲范文)

摘要
abstract
第一章 绪论
    1.1 研究背景及意义
        1.1.1 垃圾邮件的定义
        1.1.2 垃圾邮件的危害
    1.2 课题国内外研究现状
    1.3 论文的结构
第二章 邮件文本分类方法
    2.1 电子邮件工作原理
        2.1.1 电子邮件的标准格式和遵循的协议
        2.1.2 电子邮件在网络中的传输
    2.2 文本分类简介
    2.3 文本预处理
        2.3.1 非法字符的过滤
        2.3.2 分词
        2.3.3 去除停用词
        2.3.4 替换相关词
        2.3.5 词向量方法研究
    2.4 常用垃圾邮件分类技术
        2.4.1 Bayes分类模型
        2.4.2 Decision Tree分类模型
        2.4.3 SVM分类模型
        2.4.4 FastText分类模型
        2.4.5 CNN分类模型
        2.4.6 RNN分类模型
        2.4.7 LSTM与 GRU分类模型
    2.5 本章小结
第三章 基于Skip-gram的 CNNs-Highway邮件过滤模型
    3.1 引言
    3.2 相关概念与算法模型
        3.2.1 Word embedding
        3.2.2 模型架构
        3.2.3 模型训练
    3.3 实验结果有分析
        3.3.1 实验环境
        3.3.2 数据集及评价指标
        3.3.3 实验结果分析
    3.4 本章小结
第四章 基于DCNN-BiGRU的邮件过滤模型
    4.1 引言
    4.2 相关概念与算法模型
        4.2.1 DCNN-BiGRU模型
        4.2.2 模型架构
        4.2.3 模型训练
    4.3 实验结果与分析
        4.3.1 实验环境
        4.3.2 数据集及评价指标
        4.3.3 实验结果分析
    4.4 本章小结
第五章 基于数据融合的垃圾邮件过滤模型
    5.1 引言
    5.2 相关概念与算法模型
        5.2.1 基于决策级融合的架构模型
        5.2.2 模型架构
        5.2.3 模型训练
    5.3 实验结果与分析
        5.3.1 实验环境
        5.3.2 数据集及评价指标
        5.3.3 实验结果分析
    5.4 本章小结
第六章 总结与展望
    6.1 本文工作总结
    6.2 工作展望
参考文献
附录1 攻读硕士学位期间撰写的论文
致谢

(10)基于贝叶斯网络分类算法的有害信息识别研究(论文提纲范文)

摘要
Abstract
第1章 绪论
    1.1 研究背景及意义
    1.2 国内外研究现状
        1.2.1 短文本分类研究现状
        1.2.2 中文文本特征提取算法研究现状
        1.2.3 贝叶斯结构学习算法研究现状
    1.3 研究内容及结构安排
第2章 基于中心词扩展的TF-IDF特征提取研究
    2.1 数据抓取与预处理
        2.1.1 数据抓取
        2.1.2 数据预处理
    2.2 基于中心词扩展的TF-IDF特征提取
        2.2.1 词袋模型
        2.2.2 中心词扩展
        2.2.3 基于中心词扩展的TF-IDF特征提取算法
    2.3 本章小结
第3章 基于GWO-GA结构学习的贝叶斯分类器研究
    3.1 基于GWO-GA算法的贝叶斯网络结构学习
        3.1.1 三层贝叶斯网络结构模型
        3.1.2 遗传算法
        3.1.3 GWO-GA结构学习算法
    3.2 贝叶斯网络分类器模型
        3.2.1 参数学习与推理
        3.2.2 基于GWO-GA结构学习的贝叶斯网络分类器
    3.3 本章小结
第4章 基于贝叶斯网络分类算法的有害信息识别
    4.1 垃圾邮件过滤
        4.1.1 数据来源与评价指标
        4.1.2 实验结果及分析
    4.2 微博舆情分析
        4.2.1 数据来源与评价指标
        4.2.2 实验结果及分析
    4.3 有害信息识别软件设计
        4.3.1 开发环境
        4.3.2 功能模块设计
        4.3.3 软件实现
    4.4 本章小结
结论
参考文献
攻读硕士学位期间承担的科研任务与主要成果
致谢

四、中文邮件分类器的设计与实现(论文参考文献)

  • [1]基于BERT模型的敏感邮件分类方法研究[D]. 杜鹏强. 中北大学, 2021(09)
  • [2]基于集成学习的个性化垃圾邮件过滤技术研究与应用[D]. 向平常. 北京交通大学, 2020(03)
  • [3]针对中文文本分类的对抗样本生成方法[D]. 裴歌. 西安电子科技大学, 2020(05)
  • [4]改进朴素贝叶斯算法在垃圾邮件过滤中的应用[D]. 王斯琴. 重庆师范大学, 2020(05)
  • [5]基于卷积神经网络的邮件管理系统的设计与实现[D]. 路永鑫. 华中师范大学, 2020(12)
  • [6]改进的TF-IDF特征选择和短文本分类算法研究[D]. 周欣. 安徽大学, 2020(07)
  • [7]基于Word2vec的电子邮件分类[D]. 缪沛恩. 南昌大学, 2020(12)
  • [8]基于贝叶斯分类的垃圾邮件过滤技术研究[D]. 王鹿. 上海工程技术大学, 2020(04)
  • [9]基于深度学习的垃圾邮件过滤方法研究[D]. 黄鹤. 南京邮电大学, 2019(02)
  • [10]基于贝叶斯网络分类算法的有害信息识别研究[D]. 丁攀. 燕山大学, 2019

标签:;  ;  ;  ;  ;  

中文邮件分类器的设计与实现
下载Doc文档

猜你喜欢