卢忠良[1]2002年在《基于多类的汉语文本自动分类研究》文中研究指明随着计算机应用及“Internet”的日益普及,通过各种渠道获取的数据和信息正以惊人的速度增长,“丰富的数据与可用的信息”之间的矛盾也日见突出。如何快速有效的发掘海量信息中蕴含的有价值信息,合理分类及准确地定位所需信息,同时摒弃大量无用的或不相关内容,已成为知识获取和信息过滤的瓶颈,是当今信息发展和信息处理领域的主流技术。 本文重点讨论基于机器学习的汉语文本自动分类方法。机器学习方法的基本思想是将人的知识和方法以及关于分类识别对象的知识输入机器中,产生分类识别的规则和分析程序;而文本的自动分类则是根据识别规则和分析程序对未分类文本进行判断,达到分类的目的。分类器是分类系统的核心,可以通过机器学习不断改进和完善。 通过对汉语信息自动处理中自动分词、特征提取、文本自动表示等核心技术讨论,对目前汉语文本自动分词和文本降维方法中的不足和缺陷作了改进,提高了分词和文本分类的效率和效果;在文本自动分类方法上,介绍了两种有监督的基于多类的汉语文本自动分类处理方法——模糊聚类方法和Boosting方法,解决了实践中文本分类查全率不高的问题;通过对两种方法的实验比较结果,构建了基于Boosting方法的多类文本自动分类系统,在实际应用中收到了良好的效果,较好的解决了信息的实时分类问题。
柳培林[2]2006年在《基于向量空间模型的中文文本分类技术研究》文中研究表明互联网的迅猛发展导致了网络中的文本数据成指数级的增长,因此如何高效处理这些文本信息成为一个重要的研究课题。而自动分类技术作为文本信息处理中的一个重要环节引起了人们的广泛关注。随着我国的网络普及率越来越高,网络用户越来越多,各种各样的网站中蕴涵着海量的中文信息,这些信息绝大多数是以文本的形式存在着,由于中西文之间的巨大差异,国外在文本分类方面的研究成果无法直接应用于中文文本分类,因此对中文文本分类技术的研究具有非常重要的现实意义。本文对中文文本分类的相关技术进行了研究,对文本表示模型及常用的文本分类算法进行了评价,并且对这些算法在中文文本分类中的应用进行了讨论。对单字词和多字词作为文本特征的优缺点进行了分析研究。在此基础上,本文提出了一种可快速分词的两层结构分词表模型、一种新的特征选择算法和一种新的特征加权算法。文本分类算法是有监督的学习算法,需要一个已分好类的文本数据集来训练分类器,然后用训练好的分类器对新文本分类。一般分类器的精度随着训练文本的增多而提高,但人工分类的文本是一种昂贵的资源,因此在保证分类精度的前提下如何减少训练集中已分类文本数,成为一个需要解决的问题。针对这一问题,本文采用未标识文本来扩充训练集,提出了迭代TFIDF算法,该算法利用大量未标识文本结合少量人工分类文本,通过迭代训练出较高精度的分类器,由于该算法属于爬山算法,容易收敛到局部最优值,针对这一问题,本文引入了主动学习的概念,提出了基于主动学习的迭代TFIDF算法,实验结果表明,主动学习可以有效抑制算法收敛到局部最优值,并且在同等条件下,该算法精度明显高于已有的TFIDF算法。
曹勇[3]2007年在《中文Web文本分类技术研究》文中研究指明Web文本分类是指将Web文档集合中每个文档归入一个预先定义的类别之中,是Web文本挖掘的一项重要技术,同时也是智能信息检索和处理领域的一个新兴和重要的研究方向。由于国内相关技术起步较晚,加上中文语言的特殊性,中文Web文本分类技术相对落后。本文分析了Web文本分类的重要意义,介绍了国内外文本分类研究现状特别是中文Web文本分类研究现状,详细介绍了中文Web文本分类的过程与关键技术:首先是Web文本预处理,然后是文本表示、索引生成、特征选取等步骤,包括多种特征选取方法;接着,详细介绍了几种文本分类算法,包括KNN和SVM、朴素贝叶斯等;然后,介绍了常用的文本分类算法的评价指标。本文重点对中文Web文本分类技术进行了发展和改进。本文将SVM和KNN的结合算法SVM-KNN算法应用于Web文本分类,以弥补传统SVM算法的一些缺点,获得更好的分类效果;提出了一种基于密度的调整KNN训练集的方法,通过对训练集的调整,降低了KNN算法的分类计算复杂度,同时提高了分类准确性;提出了一种用无监督聚类算法指导文本分类的方法,以解决没有训练集的文本分类问题。对于所提出的每种算法,本文都给出了相关的实验数据,通过实验,验证了改进效果,证实了算法的有效性。最后,本文设计并实现了一个中文Web文本分类系统,详细介绍了系统的各个模块的设计以及系统训练集和测试集的选取。本文的实验均是在这个系统上完成的。
王雅玡[4]2008年在《基于朴素贝叶斯和BP神经网络的中文文本分类问题研究》文中指出随着数据库技术和网络的迅速发展以及数据库管理系统的广泛应用,人们积累的数据越来越多。这些信息大都是文本数据,想从其中迅速有效地获得所需信息是非常困难的事情。这些海量的数据背后隐藏着许多重要的信息,人们希望能够对其进行更高层次的分析,以便更好地利用这些数据。为此,中文文本自动分类被研究者提出并进行了应用研究,研究中文文本分类具有重要的理论意义和实际应用价值:自动分类在速度和效率上要大大优于人工分类,它能节省大量的人力、物力和资金;自动文本分类可以提高中文信息搜索的查全率和查准率,而且可以建立自动的分类信息资源,为用户提供帮助。现今,文本分类技术已经逐渐与电子政务、搜索引擎、信息推送、信息过滤等信息处理技术相结合,有效地提高了信息服务的质量,方便了人们的工作和生活。本文围绕文本分类技术展开了讨论,首先介绍了选题的研究的背景和意义,概述了国内外文本分类技术的研究现状,而后对文本分类的技术进行了详细的阐述,介绍了文本分类的一般过程。本文对文本表示、文本分词、特征选择、特征降维、分类算法和分类评估标准等文本分类领域所用到的技术进行了介绍并提出了一定的思考和见解。(1)介绍了现有语料库的问题和本系统的语料库的建立和维护,分析了文本的基本结构特点及文本中对分类过程有贡献的信息成分,对中文分词的常用方法和本文所用到的中科院计算所的ICTCLAS分词系统的框架结构和各部分作了描述。采用改进的CHI方法作为本文特征选择方法,并对此作了阐述。(2)在现有的文本向量特征权重的表示方法基础上,提出了一种改进的TF-IDF方法,使得特征词在不同长度的文档中的重要程度不同,从而体现了特征的区分能力并对该方法的正确性加以证明。(3)介绍了朴素贝叶斯分类方法,并给出了朴素贝叶斯分类算法。介绍了神经网络的基本特点,给出了一种改进的BP神经网络方法进行文本分类的思想,该方法使用VC维来确定隐层神经元个数,从而改进了BP隐层神经元只能由经验给出的问题。与传统单隐层的BP网络相比,本文使用含有2个隐藏层的BP神经网络,从而降低了网络误差。同时对该方法进行了算法描述和算法分析。(4)在以上研究的基础上,运用Visual C#2005和MS Access2000开发工具进行了部分实现工作,构建了一个中文文本分类系统CTCS (Chinese Text Classification System).文本分类作为数据挖掘的一项技术,随着数据库技术的发展,越来越得到研究者的重视,并进行应用研究。目前,文本分类技术已经逐渐与电子政务、搜索引擎、信息推送、信息过滤等信息处理技术相结合,有效地提高了信息服务的质量,方便了人们的工作和生活。本文首先对数据挖掘和文本挖掘作了概述,其中包括数据挖掘和文本挖掘的现状和文本分类的研究现状。在文本与处理阶段,总结了中文文本分词的主要特点和方法,包括主要的分词的常用方法,未登录词识别,并给出了中文分词目前的成果以及现有分词方法的局限等内容。其次,对文本的特征表示和特征选择的方法作了研究,包括中文文本表示的常用方法和特征选择的常用方法,对文档频率,互信息,信息增效益,卡方方法,文本证据权,交叉熵和优势率等方法作了介绍和比较。而后对主成分分析,潜在语义索引,非负矩阵分解,词汇聚类等特征提取和降维的方法作了介绍并指出了各个方法的优点和缺点。再次,研究了中文文本分类的常用的分类方法。包括贝叶斯分类方法,KNN分类方法,决策树分类方法,粗糙集分类方法,SVM分类方法以及遗传算法和神经网络分类方法等各种分类方法的特点和不足作了总结,并介绍了分类性能的评定方法。在文章的最后对文本分类的未来发展方向给出了一个展望。
张海燕[5]2002年在《基于分词的中文文本自动分类研究与实现》文中研究说明随着信息技术的不断发展,特别是Internet应用的普及,网上信息成指数级增长,如何自动处理这些海量的信息,以有效地保留大的文本集合就成为了目前重要的研究课题。对文本进行有效管理的方法之一,就是将它们进行系统地分类,即文本自动分类问题。文本自动分类是一项重要的智能信息处理技术,是文本检索技术的基础,在新闻自动分类、电子会议、电子邮件自动分类和信息过滤等方面极具应用价值。 本文详细分析了中文文本分类的模型构造及对应的分类算法,对常用的文本分类算法进行了评价(主要有SVM方法、Boosting方法、Na(?)ve Bayes方法、KNN法、基于向量空间模型方法等)。文本分类算法是一种监督式的学习方法,在对文本进行自动分类时,需要解决以下几个问题,如:获取训练文档集、建立文档表示模型、文档属性选择、选择分类算法和性能评估模型等。 本文对中文文本分类的分词技术进行了着重讨论。对于基于信息过滤的自动分类问题,使用字典分词并不是一个必须的过程,因而本文提出了基于2元语法短语标引的分词方法,它将设立切分标志法与基于词频统计的方法相结合,可以识别基于词典方法处理不了的词汇,如:人名、地名、专业术语等。由于这种方法获取信息简单,用此进行分类可使文档分类系统摆脱对复杂切词处理程序和庞大词典的依赖,因此可以替代基于字典的机械分词方法。 在第叁章分词的基础之上,结合KNN,Na(?)ve Bayes和简单向量距离分类算法,建立了一个基于分词的自动分类系统。它运用基于2元语法短语标引的自动分词方法来抽取向量空间模型需要的特征词来表征文档的内容,并表示成向量。其中:分词模块由分词预处理与分词两部分所组成;然后,对向量的维数加以缩减,以降低系统的复杂度,同时提高分类的精度;最后结合新闻语料库(文章采用网上下载的新闻语料库500篇,所有的新闻稿都由领域专家事先进行了分类,按照中图法分成政治、经济、军事等共十大类)进行验证。实验结果表明了分词算法的有效性。
李淑鹏[6]2008年在《基于神经网络的文本自动分类系统的研究》文中指出文本自动分类是信息处理领域的一个研究热点,它是指在给定的分类体系下,根据文本内容自动确定文本所属类别。文本自动分类技术是文本挖掘的核心,是组织和管理海量信息的有效手段,是几乎所有基于内容的文本管理的研究基础,并被广泛应用于信息处理领域。因此文本自动分类的研究具有广泛的商业前景和现实意义。本文对现有文本自动分类领域的关键技术:中文分词、特征选择、权重计算、分类算法做了深入的研究分析,并在此基础上,对该课题进行进一步的探讨,设计实现了一个基于神经网络的文本自动分类系统。该系统采用模块化的设计,关键算法和功能均封装在模块中,使系统具有良好的扩展性。本文设计的文本自动分类系统的核心模块是预处理模块、文本表示模块和分类器模块。在预处理模块中首先调用中科院分词算法ICTCLAS对语料进行分词,接着进行特征词的提取即剔除文档中的对文本自动分类贡献不大甚至影响分类效果的虚词、标点等部分。在目前的文本自动分类系统中,一般通过手工建立停用词表来实现特征词的提取,但这种方式的效果在实际应用中并不理想,本文开发的系统则采用根据单词词性和停用实词表相结合的方式来实现剔除停用词,较大的提高了系统的预处理速度。文本表示模块中采用不同的特征评估函数和权重计算方法选取出相应的特征项并根据用户的选择确定特征向量的维数,构建文本向量空间。分类器模块中,分类算法的选择是设计和实现模块功能的关键。在详细研究了各种分类算法的基础上,本模块选择神经网络作为系统的分类算法。并在分类器模块中,根据需求的不同选择不同的方式调用神经网络分类器。本文遵循软件工程的思想,采用VC++作为开发平台,设计和开发出一个基于神经网络的文本自动分类系统。在论文的核心模块开发部分给出了实现这些核心模块所需的数据结构和算法。本系统的核心功能和算法都采用标准C++进行开发,使得系统有较高的处理效率且易于移植到其他平台环境。同时,在系统中加入了异常处理机制,保证了系统的稳定性和健壮性。
王志玲[7]2007年在《基于神经网络的文本自动分类系统研究》文中研究表明文本自动分类(Automatic Text Categorization, ATC)是指在给定的分类体系下,根据文本的内容自动确定文本所属类别的过程。文本自动分类使信息趋于有序化,便于信息的存储、检索、传播、开发和利用,是组织和管理海量信息的有效手段,是几乎所有基于内容的文本管理研究的基石,因此文本自动分类的研究具有较强的现实意义和应用价值。神经网络分类法作为一种常用的文本自动分类方法,具有较强的自学习性和鲁棒性,但同时也普遍存在训练时间长,可解释性较差等缺点。径向基函数神经网络(Radial Basis Function Neural Network,简称RBFNN)具有网络设计简单、收敛速度快、泛化能力强、可解释性较好等特点,本文对RBFNN分类算法在中文文本自动分类中的应用进行了深入研究。本文设计实现的RBFNN文本自动分类系统分为文本向量表示和RBFNN分类器的构建两个主要过程:首先,选用中国科学院计算所开发的汉语词法分析系统ICTCLAS对训练语料进行分词、去停用词处理,采用不同的特征选择和权重计算方法选取出相应的特征项构建文本向量空间;其次,通过k-均值聚类法对输入样本聚类,得到隐含层的最佳节点个数、中心及宽度,然后利用最小平方误差法训练得到输出层连接权值,完成RBFNN文本分类器的训练,并进行相关测试。实验结果表明,RBFNN分类器在中文文本自动分类中具有较理想的性能,测试平均F1值在85%以上。此外,本文在总结常用分类器评价指标的基础上,提出了基于层次分析法(AHP)的文本自动分类系统影响因素指标体系,并根据专家调查问卷结果构造判断矩阵,利用AHP专用软件Expert Choice计算得到各评价指标的权重,即各指标对文本自动分类系统的影响程度,对本文文本自动分类系统的设计实验、性能测试起到指导作用。
张玉芳[8]2014年在《基于知识库的多层次文本自动分类研究》文中提出随着计算机技术的快速发展和网络的日益普及,用户可获取的信息量呈现指数级增长,极大地丰富了用户所处的信息环境,但是,同时造成了信息过载等问题,增加了用户获取所需信息资源的难度。文本分类作为一种简单有效的解决方法,被认为是处理和组织大量文本数据的关键技术,获得了广泛的关注,具有广阔的应用前景。当前对于文本分类的研究主要是从技术角度进行算法改进研究,本文从知识组织的角度提出改进策略,以满足信息层次化组织管理的需求,具体是指:以数据库中标引经验数据为基础,结合《中图法》的类目层次结构,构建了一个多层次知识库,并基于该知识库实现了自顶向下的多层次文本自动分类。全文共分为四部分:(1)绪论部分:主要介绍了论文的研究背景和意义,并给出本文的主要内容和结构。(2)理论和综述部分:对分类知识库和多层次文本分类两个概念及其相关理论基础做了详尽的介绍,并且综述了国内外相关研究。(3)实验设计部分:在理论和综述的基础上,提出了本文的研究方法,具体包括两个主要模块,一是基于《中图法》构建多层次的分类知识库,二是基于知识库实现自顶向下的多层次文本自动分类。通过对涉及到1497个类别的6万余条的语料进行训练获得分类模型,采用300条测试语料做测试,证实加入类别层次有助于改善分类性能,即从知识组织的角度优化文本分类具有可行性。(4)总结部分:对本文的研究结果作总体概况,并总结了文章的不足之处以及下一步工作需要改进的方面。
褚金正[9]2005年在《面向特定领域的文本识别和分类》文中认为随着互联网的快速发展,越来越多的信息可以从网络上获得。但如何从大量的信息中抽取有用的信息仍然是一个问题。互联网上的信息大部分都是以文本方式存在的,文本的内容识别就构成了高效信息获取的基础。本文设计了一个面向特定领域的文本内容识别系统。该系统可以有效地将我们所需要的文本从大量的文本中分离出来。我们还可以把自动识别得到的文本进行更进一步细分,并对每一个文本生成一个摘要,这样就大大提高了信息获取的效率。 文本识别不但要考虑属于该领域的文本的内容特征,而且还要对不属于该领域的文本的内容特征进行研究。考虑不属于该领域的文本特征,可以有效地增加不同类文本特征模式之间的距离并优化其概率分布。文本表示方面采用近年来应用较多且效果较好的向量空间模型(VSM),给出了基于几何距离的可分性判据和基于后验概率的可分性判据。根据这些可分性判据,阐述了基于熵概念的特征提取方法和直接特征挑选法。 中文分词技术是文本识别的技术基础,也是近年来的研究热点。本文比较详细地介绍了分词的算法和步骤,并对多个分词算法的优劣进行了比较。阐述了分词中的难点。最后,在基于词典的分词算法的基础上,改进并给出了全词索引词典结构,大大提高了分词算法的速度。根据可分性判据,作者采用了直接次优搜索算法对初步特征进行提取和选择,还采用中文信息处理常用的标准TF-IDF公式进行特征提取和选择。 特征项权重的确定没有太多的理论基础,大多是根据训练样本库的统计知识和中文信息本身的语言特点来确定的。本文除了介绍了中文信息处理中的常用权重确定算法,还提出一种基于特征词语长度的权重确定方法。该方法主要基于较长的词语是由较短的词语或词根所组成这一特点而提出的。 本文以通信领域的文本识别为例,给出了文本识别的方法和整个过程。通过对文本的识别实验,验证了算法的有效性。本文还给出了文本的分类算法,并简要介绍了文本摘要的自动生成。
郝立柱[10]2008年在《汉语文本自动分类》文中认为文本自动分类作为自动信息管理的一项核心技术,其研究一直受到高度关注.本文从市长公开电话文本分类具体的实际问题出发,在真实数据集上展开研究,研究主要包括以下几个方面:为了能对市长公开电话的海量文本数据进行全面的统计分析,研发了信息综合管理系统控制平台.该平台是集开发与应用为一体的大型工具软件,内含笔者设计的独立的平台语言和大量的通用化功能模块,其代码的高度可重用性避免了大量低水平重复开发造成的巨大人力物力资源的浪费,它的研发成功为后续的众多统计分析提供了便捷的环境,也是后续所有工作能够顺利完成的根本保障.本文介绍了平台构建的原理及关键性技术,在平台之上建立了单位分类机和行业分类机、统计分析与预警预报系统.在文本预处理阶段提出了提取未登录词及套话的一种方法,在特征提取方面提出了一个基于加权的卡方统计量提取停用词的方法,删除停用词后的分类器效率有了显着提高.虽然仅删除了500停用词,但由于停用词占训练集总词量的43.7%,因而数据噪音得到大幅度降低.在低频词方面提出了针对每一类按一定比例删除低频词,分类效果增加了一个百分点,如70%,低频词由13909降为3445,向量空间维数显着降低.在分类器构建方面,针对市长公开电话的实际需要,笔者认为朴素贝叶斯分类器有其自己的特点,算法简单且速度快,更适合要求实时的分类数据,但正确率较低,在项目早期的实际测试中,通过对其进行改进,提出了一种基于多重假设检验的特征加权朴素贝叶斯分类器,其优点是在正确率有所提高的情况下速度更快,缺点是参数选择较为困难.鉴于实际数据的类别数目较多,单层分类提高性能较为困难,基于地域信息提出了一种文本分类层次结构模型,和特征加权朴素贝叶斯分类器相比较,该模型构建更简单、实用,同时误判率更低.考虑到工单派发的实际需要,将几个分类器有机组合提出了一种基于分类委员会的文本分类模型构成单位自动分类机,它极大地减轻了受理处和办理处的工作压力,同时使投诉受理量有了大幅度的增加,其直接派发率高达80.76%,派发准确率81.04%.
参考文献:
[1]. 基于多类的汉语文本自动分类研究[D]. 卢忠良. 中国人民解放军国防科学技术大学. 2002
[2]. 基于向量空间模型的中文文本分类技术研究[D]. 柳培林. 大庆石油学院. 2006
[3]. 中文Web文本分类技术研究[D]. 曹勇. 厦门大学. 2007
[4]. 基于朴素贝叶斯和BP神经网络的中文文本分类问题研究[D]. 王雅玡. 云南师范大学. 2008
[5]. 基于分词的中文文本自动分类研究与实现[D]. 张海燕. 湖南大学. 2002
[6]. 基于神经网络的文本自动分类系统的研究[D]. 李淑鹏. 武汉理工大学. 2008
[7]. 基于神经网络的文本自动分类系统研究[D]. 王志玲. 山东理工大学. 2007
[8]. 基于知识库的多层次文本自动分类研究[D]. 张玉芳. 南京理工大学. 2014
[9]. 面向特定领域的文本识别和分类[D]. 褚金正. 湖南大学. 2005
[10]. 汉语文本自动分类[D]. 郝立柱. 吉林大学. 2008
标签:计算机软件及计算机应用论文; 分类器论文; 文本分类论文; 中文分词论文; 贝叶斯分类器论文; 神经网络算法论文; 分类数据论文; 文本分析论文; 监督学习论文; 自然语言处理论文; 分词论文; 算法论文;