Web文本自动分类技术研究综述_自然语言处理论文

Web自动文本分类技术研究综述,本文主要内容关键词为:技术研究论文,文本论文,Web论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

1 引言

近年来,Web已经成为拥有数十亿个异构的、半结构化的、动态的分布式信息空间,在这些Web信息源中有80%以上的信息是以Web文本的形式存在的。如何从这些海量的Web信息资源中寻找并获取有价值的信息和知识模式,已成为信息处理的一个关键问题。Web自动文本分类技术有助于人们完成这个目标,自动文本分类[1]是指根据预先定义的主题类别,按照一定的规则将文档集合中未知类别的文本自动确定一个类别,涉及数据挖掘、计算语义学、人工智能等多个学科,是自然语言处理的一个重要应用领域。目前,越来越多的统计分类方法、机器学习方法、数据挖掘技术和其他的新技术被应用到自动文本分类领域中,如最近邻分类器、专家投票分类法等,这些方法都能对一个预先分好类的文本集进行学习,获取每个类别的特征,自动生成分类规则,建立一个文本分类器。当前对Web自动文本分类方法及其关键技术已有大量的研究,因此有必要对当前的研究现状进行深入分析。

2 Web自动文本分类方法的研究现状

在Web出现之前,人们已经对文本自动分类问题进行了大量的研究,形成了文档自动分类技术。随着Web上海量的文本信息的增加,文档自动分类技术的处理对象从普通的文档扩展到了Web文本。很显然,文档自动分类技术也成为Web自动文本分类技术的基础。

2.1 国外Web自动文本分类方法的研究现状

国外有关自动文本分类的研究,至少可以追溯到20世纪50年代末,H.P.Luhn在这个领域进行了开创性的研究,提出了基于词频统计思想的自动文本分类方法。1960年,Maron发表了关于自动分类算法的第一篇论文:Automatic indexing:an experimental inquiry,此后,在人工智能技术、信息检索技术和机器学习技术的推动下,在文本信息智能处理的巨大需求的牵引下,自动文本分类技术的研究引起了人们越来越多的关注与重视,并在诸多领域取得了初步的应用成果。虽然,商用自动文本分类系统远不如商用信息检索系统来得普及,但是自动文本分类系统的实验研究早已脱离了原型开发阶段[2]。代表性的有网页搜索结果自动分类系统SWISH[3],多国语言新闻智能过滤系统HERMES[4]等。

直到20世纪80年代末期,大多数实用的自动文本分类系统都是基于知识的人工智能系统。90年代以后,情况发生了翻天覆地的变化。几乎所有重要的机器学习算法在自动文本分类领域都得到了广泛应用。由于基于学习的自动文本分类系统进行正确分类的能力几乎可以与人类专家相媲美,同时其分类效率远远高于人类专家,因而完全取代文本分类专家系统,成为信息系统学科最重要的研究领域之一。

目前国外的自动文本分类研究已经从实验性阶段进入到了实用化阶段,并在邮件分类,电子会议等方面取得了广泛的应用,其中较为成功的有麻省理工学院为白宫开发的邮件分类系统和卡内基集团为路透社开发的construe系统[5]。

2.2 国内Web自动文本分类方法的研究现状

相比于英文文本分类,中文文本分类的一个重要的差别在于预处理阶段:中文文本的读取需要分词,不像英文文本的单词那样有空格来区分。在很长一段时间内,中文文本分类的研究没有公开的数据集,使得分类算法难以比较。现在一般采用的中文测试集有:北京大学建立的人民日报语料库、清华大学建立的现代汉语语料库等。其实一旦经过预处理将中文文本变成了样本矢量的数据矩阵,那么随后的文本分类过程和英文文本分类相同,也就是随后的文本分类过程独立于语种。因此,当前的中文文本分类主要集中在如何利用中文本身的一些特征来更好地表示文本样本。国内对于自动文本分类的研究起步较晚,但从简单的查词典的方法,到后来的基于统计语言模型的分词方法,中文分词的技术已趋于成熟。

1981年,侯汉清教授对计算机在文本分类工作中的应用作了探讨和阐述[6]。此后,我国陆续研究产生了一些文本分类系统,其中具有代表性的有上海交通大学研制的基于神经网络算法的中文自动分类系统,清华大学的自动分类系统等。同时在不同的分类算法方面也展开了广泛的研究和实现,中科院计算所的李晓黎、史忠植等人应用概念推理网进行文本分类[7],召回率达到94.2%,准确率达到99.4%。中国科技大学的范众等在KNN、贝叶斯和文档相似性研究的基础上提出了一个超文本协调分类器[8],正确率接近80%,它的特点是适当地考虑了HTML文本中结构化信息。复旦大学和富士通研究中心的黄营著、吴立德等研究了独立语种的文本分类[9],并以词汇和类别的互信息量为评分函数,考虑了单分类和多分类,最好的召回率为88.87%。上海交通大学的刁倩、王永成等结合词权重和分类算法进行分类[8],基于VSM的封闭式测试实验中分类正确率达到97%。

目前,一些常用的比较成熟的文本分类算法已经被应用到了Web自动文本分类中,主要包括三大类:一类是基于TFIDF权值计算方法的分类算法,其基本思想是利用TFIDF权值公式计算一个词在文档中的重要性,然后用cosine距离公式计算两个文档的相似度,这类算法包括Rocchio算法,TFIDF算法,K.近邻算法(K-Nearest Neighbors,K-NN)等;另一类是基于概率和信息理论的分类算法,如朴素贝叶斯算法(Naive Bayes,NB),最大嫡算法(Maximum Entropy)等;第三类是基于知识学习的分类算法,如决策树(Decision Tree),人工神经网络(Artificial Neural Networks,ANN),支持向量机(Support Vector Machine,SVM)等算法。

2.3 自动文本分类方法的新发展

传统文本分类算法大多数采用经典的向量空间模型(Vector Space Model,VSM),即将文本表示成向量,作为向量空间中的一个点,然后通过计算向量间的距离决定向量的类别归属。该模型的不足之处在于它一般不考虑向量中各个特征间的关系,这使得距离的计算不够准确,从而导致分类精度不够高。为此,近年来研究者们从不同的角度把越来越多的知识引入自动文本分类领域,推动着自动文本分类的不断发展,产生了许多新的分类方法。

2.3.1 多分类器融合(fusion)的方法

多分类器(ensemble)融合的思想为:多个分类器错判的概率比单分类器错判的概率要小,通过构造多个分类器,将各分类器的分类结果进行加权整合来最终决定待分类文本的类别。实际应用的复杂性和数据的多样性往往使得单一的分类方法不够有效,为此学者们对多种分类方法的融合(fusion)进行了广泛的研究,取得了一系列研究成果。综观文献中的研究,可以大致将多分类器的融合技术分为以下几类:投票机制(voting)、行为知识空间方法(Behavior-Knowledge Space,BKS)、证据理论(Dempster-Shafer theory)、贝叶斯方法和遗传编程(Genetic Programming,GP)。

采用投票机制的方法主要有装袋(bagging[10])和推进(boosting[11])。Buhlmann P.和Yu B[12]对bagging进行了深入的分析;Hothom T.and Lausen B.在文献[13,14]中将bagging用于决策树,并在文献[15]中对bagging进行了发展,采用boot strap aggregation来融合分类器。而Schwenk和Bengio则将boosting用于神经网络,提出了AdaBoost方法[16],从而提高了神经网络的预测精度。

文献[17]采用BKS进行分类器融合。

文献[18]用证据理论将4个不同的分类方法(SVM,KNN,KNN Model-based approach和Rocchio)结合起来,形成融合的分类器。

用贝叶斯方法进行分类器融合有两种情况:一种是有独立性假设的贝叶斯方法[19],另一种是没有独立性假设的贝叶斯方法[20,21]。

2.3.2 基于模糊-粗糙集的文本分类模型

文本分类过程中由于同义词、多义词、近义词的存在导致许多类并不能完全划分开来,造成类之间的边界模糊。此外交叉学科的发展,使得类之间出现重叠,于是造成许多文本信息并非绝对属于某个类。这两种情况均会导致分类有偏差,针对上述情形,文献[22]提出利用粗糙-模糊集理论结合KNN方法来处理在文本分类问题中出现的这些偏差。模糊-粗糙集[23,24]理论有机地结合了模糊集理论与粗糙集理论在处理不确定信息方面的能力。粗糙集理论体现了由于属性不足引起集合中对象间的不可区分性,即由于知识的粒度而导致的粗糙性;而模糊集理论则对集合中子类边界的不清晰定义进行了模型化,反映了由于类别之间的重叠体现出的隶属边界的模糊性。它们处理的是两种不同类别的模糊和不确定性。将两者结合起来的模糊-粗糙集理论能更好地处理不完全知识。

2.3.3 基于群的分类方法(swarm-based approaches)

这种方法可以看作是进化计算的一个新的分支,它模拟了生物界中蚁群、鱼群和鸟群在觅食或者逃避敌人时的行为。综观文献中对基于群的分类方法的研究,我们将这种方法分为两类:一类是蚁群算法或者蚁群优化(Ant Colony Optimization ACO),另一类称为Particle Swarm Optimisers(PSO)。

用蚁群优化来进行分类规则挖掘的算法称为Ant-Miner[25,26],Ant-Miner是将数据挖掘的概念和原理与生物界中蚁群的行为结合起来形成的新算法。文献[25,26]通过试验比较了Ant-Miner与著名的分类算法CN2[27],结果证明在预测精度方面Ant-Miner可与CN2相媲美,而Ant-Miner发现的规则比CN2发现的规则简洁。Ant.Miner3[28]对Ant-Miner进行了改进,它的预测精度高于Ant-Miner。PSO是进化计算的一个新的分支,它模拟了鱼群或鸟群的行为。PSO将群中的个体称为Particles,整个群称为swarm。在优化领域,PSO可以与遗传算法相媲美。文献[29]将PSO用于分类,文章对Discrete PSO(DPSO)[30]、Linear Decreasing Weight PSO(LDWPSO)[31]和Constricted PSO(CPSO)[32]进行了比较,并选取CPSO作为挖掘分类规则的工具。文献[33]对CPSO进行了改进,并和遗传算法(GA)以及C4.5算法进行了比较,试验结果表明,在预测精度和运行速度方面PSO方法都占优势。

对ACO或者PSO在数据挖掘中应用的研究仍处于早期阶段,要将这些方法用到实际的大规模数据挖掘中还需要做大量的研究工作。

2.3.4 基于RBF网络的文本分类模型

基于RBF网络的文本分类模型把监督方法和非监督方法相结合,通过两层映射关系对文本进行分类,首先利用非监督聚类方法根据文本本身的相似性聚出若干个簇,使得每个簇内部的相似性尽可能高而簇之间的相似性尽可能低,并由此产生第一层映射关系,即文本到簇的映射,然后通过监督学习方法构造出第二层映射关系,即簇集到目标类集合的映射[34]。然后为每一个簇定义一个相应的径向基函数(Radial Basis Function,RBF),并确定这些基函数的中心和宽度,利用这些径向基函数的线形组合来拟合训练文本,利用矩阵运算得到线性组合中的权值,在计算权值时,为了避免产生过度拟合的现象,采用了岭回归技术,即在代价函数中加入包含适当正规化参数的权值惩罚项,以保证网络输出函数具有一定平滑度。

2.3.5 潜在语义分类模型

潜在语义索引方法,已经被证明是对传统的向量空间技术的一种改良,可以达到消除词之间的相关性、化简文档向量的目的[35~37],然而LSI在降低维数的同时也会丢失一些关键信息。LSI基于文档的词信息来构建语义空间,得到的特征空间会保留原始文档矩阵中最主要的全局信息。但在某些情况下,一些对特定类别的正确分类非常重要的特征,因为放在全局下考虑显得不重要,而在维数约减的过程中被滤掉;该情况对稀有类别尤为明显。事实上也是,稀有类中出现的词很可能是整个文档集中的稀有词,那么被滤掉的可能性就很大了。而如果这样,稀有类的分类性能就肯定会受到影响。针对上述问题,在扩展LSI模型的基础上,文献[38]提出了一种新的文本分类模型:潜在语义分类模型(Latent Semantic Classification,LSC)[38,39]。与LSI模型类似,文献[38]希望从原始文档空间中得到一个语义空间;然而不同的是,通过第二类潜在变量的加入,把训练集文档的类别信息引入到了语义空间中。也就是在尽量保留训练集文档的词信息的同时,通过对词信息和类别信息联合建模,把词和类别之间的关联考虑进来。这样,就可以得到比LSI模型的语义空间更适合文本分类的语义空间。

2.3.6 K-近邻算法(K-NN)的新发展

K-NN是一种有效的分类方法,但是它存在着一些缺陷:一是不很适合在线分类,响应速度较慢;二是K-NN是懒散学习方法(lazy learning),基本上不学习,要存储所有的训练实例,所以对大规模数据集进行分类是低效的;三是K-NN分类的效果在很大程度上依赖于k值选择的好坏。Gongde Guo和Hui Wang等[40,41]针对K-NN的缺陷,提出了一种新颖的KNN类型的分类方法,称为基于KNN模型的分类方法。新方法构造数据集的KNN模型,以此代替原数据集作为分类的基础,而且新方法中k值根据不同的数据集自动选择,这样减少了对k值的依赖,提高了分类速度和精确度。实验证明,基于KNN模型的方法在分类精确度上与C 5.0和标准的K-NN相当。文献[41]还将这种基于KNN模型的方法成功用于文本分类。另外,针对K-NN方法的第二个缺陷,Nong Ye和Xiangyang Li将聚类方法和经典的K-NN方法结合起来,提出了一种新颖的分类方法,称为CCA-S[42]。CCA-S能够处理大规模数据集,可伸缩性好,并且支持增量式学习。但CCA-S只能处理连续属性,而且只针对类别为两类的分类问题。如何扩展CCA-S,以使其能够处理多类别的问题,还有待进一步研究。文献[43]将遗传算法和KNN-Fuzzy方法[44]结合起来,用遗传算法来寻找最优的k值,从而优化KNN.Fuzzy方法,提高了分类精确度。文献[45]基于模糊粗集理论提出了一种新的KNN分类方法,与传统的NN和fuzzy NN相比,新方法有更高的预测精度。

2.3.7 支持向量机(SVM)方法的新发展

SVM是进行分类、聚类和时间序列分析的有效数据挖掘工具。但是,由于SVM的训练时间会随着数据集的增大而增加,所以在处理大规模数据集时,SVM往往需要较长的训练时间。而实际的数据挖掘应用往往包含了数以百万计的数据,这使得SVM很难发挥作用。针对这个问题,文献[46,47]用选择性采样或者主动学习方法来训练SVM,它的基本思想是从整个训练数据集中选择一小部分最有代表性的数据来最大化学习效果。与主动学习思想类似的方法还有随机采样[48,49]。这两种方法都需要对数据集进行多遍扫描。与主动学习和随机采样不同,文献[50]将层次聚类用于SVM,以加快SVM对大规模数据的处理速度,文中所提出的新方法称为Clustering-Based SVM(CB-SVM),CB-SVM用一个层次微聚类(hierarchical micro-clustering)算法对整个数据集进行单遍扫描,为SVM提供带有整个数据集统计概要信息的高质量样本。CB-SVM对于大规模数据集有很好的伸缩性,而且有较高的分类精确度。另外,为了解决实际应用中数据集大小动态变化的问题,G.Fung和O.L.Mangasarian[51]提出了增量式SVM,新提出的方法用于二分类问题。文献[52]在文献[51]的基础上,提出了一种有效的基于内存的增量算法,以支持多分类问题。

除了以上所归纳的几种新的方法之外,还有基于粒度计算的分类方法、基于投影寻踪回归的文本模型及一些正处于探索阶段的新方法。粒度计算是人工智能领域中新兴起的一个研究方向,是目前人们关注的热点之一。粒度计算是模糊信息粒度理论、粗糙集理论和区间计算理论的超集,是粒度数学的子集,它像一把大伞覆盖了所有有关粒度的理论、方法论、技术和工具的研究[53],基于投影寻踪回归的文本模型[54~56],基于投影寻踪回归的文本分类模型的思想是:将文本表示为向量形式,然后将此高维数据投影到低维子空间上,并寻找出最能反映原高维数据的结构和特征的投影方向,然后将文本投影到这些方向,并用岭函数进行拟合,通过反复选取最优投影方向,增加岭函数有限项个数的方法使高维数据降低维数,最后采用普通的文本分类算法进行分类。

3 Web自动文本分类中的关键技术

在对Web文本进行分类的过程中,包括几个关键步骤:文本预处理、文本表示、特征降维、训练方法和分类算法,这些关键技术的研究和实现对最终的分类算法都有一定程度上的影响。

3.1 Web文本预处理

Web文本预处理即去掉一些标记,例如HTML中的Tag,去除停用词,词根还原。对于中文文本而言,因为词与词之间没有明显的切分标志,所以需要分词。此外还需要进行词性标记、短语识别等。

汉语自动分词是机器翻译、文献标引、智能检索、自然语言理解与处理的基础,也是中文自动文本分类的一个关键的环节。汉语自动分词系统的实现及效果依赖于分词理论与方法。目前国内分词系统所采用的或者正在研究的方法基本上分为三类:基于字符串匹配的方法、基于理解的方法和基于统计的方法。

3.2 文本表示

Web文档的内容是用自然语言描述的,计算机很难处理其语义,所以必须将文本的内容特征转化为计算机可以处理的格式。向量空间模型是近几年来信息检索领域应用较广且效果比较好的模型。除此之外,文本表示还有布尔逻辑型、向量空间型(VSM)、潜在语义索引模型、概率型以及混合型等。

文本经过预处理后进行词频统计,最终表示为上面描述的向量。根据TF-IDF公式,文档集中包含某一词条的文档越多,说明它区分文档类别属性的能力越低,其权值越小;另一方面某一文档中某一词条出现的频率越高,说明它区分文档内容属性的能力越强,其权值越大。

3.3 特征降维

训练文本和待分类文本经过分词并去除停用词和高频词后,表示文本的向量空间和类别向量的维数也是相当大的,因此需要进行特征降维。是否进行特征降维对文本分类的训练时间、分类准确性都有显著的影响,而且分类器的算法和实现的复杂度都随特征空间维数的增加而增加。所以,特征集的降维操作是文本分类准确率和效率的关键。特征选择(Feature Selection)和特征抽取(Feature Extraction)是特征降维中的主要方法。

3.3.1 特征选择

选择的准则是经特征选择后能有效提高文本准确率。选择没有改变原始特征空间的性质,只是从原始特征空间中选择了一部分重要的特征,组成一个新的低维空间。

文献[57]认为文本分类中,用于特征选择的统计量大致有:特征频度(Term Frequency),文档频度(Document Frequency),特征熵(Term Entropy),互信息(Multi-Information),信息增益(Information Gain),-统计量(Chi-square),特征权(Term Strength),期望交叉熵(Expected Cross Entropy),文本证据权(Weight of Evidence for Text),几率比(Odds Ratio)等。这些统计量从不同的角度度量特征对分类所起的作用。

目前,也出现了一些新的特征选择方法,如低损降维方法、频率差方法、Bayes准则法、值准则法和Fisher简便量法等[58]。

3.3.2 特征抽取

特征抽取也叫特征重参数化(Feature Reparameterization)[59]。特征抽取是文本分类系统中十分关键的问题,它可降低向量空间的维数,提高系统的速度和精度,还可以防止过拟合。由于自然语言中存在大量的多义词、同义词现象,特征集无法生成一个最优的特征空间对文本内容进行描述。特征抽取是将原始特征空间进行变换,重新生成一个维数更小、各维之间更独立的特征空间。常用的特征抽取方法可以分为三类:主成分分析、潜在语义标引、非负矩阵分解。

在自动文本分类过程中,文本的特征抽取应该注意词条项所在的区域。文本的标题、副标题以及关键字中的词条项包含了有关文档类别的重要信息,所以应该把其中的特征项作为一类重要特征保留;其次摘要中的特征词条对于分类的贡献也很大,但是仅仅这些特征信息是不够的,还需从正文内容中抽取特征信息。对于正文内容中特征的抽取,通常是构造一个评估函数,对特征集中的每个特征进行独立的评估,每个特征项都将获得一个评估分,然后对所有的特征按照其评估分的大小排序,选取预定数目的最佳特征作为文本的特征集。

3.4 训练方法和分类算法

Web文本分类是一个典型的有教师的机器学习问题,一般的可分为训练和分类两个阶段。其中训练算法的工作是对训练文档集合中每篇文本对应的词表进行统计,计算出类别向量矩阵同时进行归一化,最后保存训练得到的向量表,即得到了分类知识库;分类算法(也可称为识别算法)则依据训练得到的分类知识库,并用一定的算法对待分类文本进行分类。

4 研究述评

4.1 存在的问题

目前国内对Web自动文本分类的研究还没有到达一个成熟的阶段,其中还存在一些有待进一步研究的问题:

一是缺乏标准、开放的分类测试文档集:一般地,训练文档集应该是公认的经人工分类的语料库。国外文档研究都使用共同的测试文档库,这样就可以比较不同分类方法和系统的性能,而就中文文档分类而言,各研究者使用自己建立的训练文档库进行测试,测试结果没有可比性,这一现状应当引起国内文本处理界的重视。

二是分词问题:分词是影响文本分类的重要因素之一,分词的速度和准确率与最终的分类结果密切相关。尤其是Web上不断出现新词汇,对分词理论的创新和词典的构造都提出了较高的要求。就中文文档分类而言,分词是一项非常复杂的工作,分类系统一般都比较复杂和庞大,分词速度慢,且准确度不高,因此,研究无须词典支持、领域独立的文本分类系统无疑具有重要价值,这使得文档分类系统成为真正意义上的通用系统。

三是分类系统缺乏层次性:现有文档分类系统基本上把文档类看成是互不相交的,它们处在一个平面层次上,而实际上文档概念类别之间存在层次关系,即一个大类往往包含许多小类,因此按照层次结构对文档库进行分类更能体现文档之间的语义关系,这就是层次化文档分类成为当前自动文本分类研究的一个热点的原因。

四是目前还没有发现“最佳”的特征选择方法:针对中文Web文本分类的组织特点,需要结合特定的特征选择,因此在使用不同分类算法时如何选择最佳的特征选择方法也是我们需要深入研究的问题。

五是新技术的应用有待进一步研究:将自然语言理解和处理技术、语义Web概念、Agent技术和机器翻译等技术应用于Web自动文本分类中,进一步解决中文文本分类的难点,提高自动文本分类的智能化水平。

六是分类算法应用的单一性:目前存在多种成熟的文本分类算法,大部分分类系统都是应用某一种分类算法,分类性能受到制约。

4.2 发展趋势

通过以上分析,可以看出Web自动文本分类技术存在着以下几种发展趋势:

一是新分类方法不断涌现:比如基于群的分类方法和基于粒度计算的分类方法。新分类方法出现得益于人工智能、机器学习、进化计算和粒度计算等领域中新技术的涌现和发展。

二是传统分类方法的进一步发展:比如支持向量机的不断改进和KNN方法的发展。传统分类方法的发展主要利用了机器学习、进化计算、数据挖掘、模糊集和粗糙集等理论中的原理和方法。

三是多技术融合:一方面根据实际问题需要,有针对性地综合众多领域的技术,以提高分类的性能;另一方面,文本、语音和图像分类技术的融合,随着互联网和多媒体技术的进一步发展,文本分类技术将与图像识别、语音识别融合,比如图像文本的分类、语音文本的分类、多媒体数据库索引等。

5 结语

Web自动文本分类是信息检索与数据挖掘领域的研究热点与核心技术,近年来得到了广泛的关注和快速的发展;但Web自动文本分类技术还存在着这样那样的问题,仍需要加强对人工智能、语义Web、机器学习、数据挖掘、进化计算、模糊集和粗糙集等领域技术的研究,以促进Web自动文本分类技术得到更加理想的发展。

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

Web文本自动分类技术研究综述_自然语言处理论文
下载Doc文档

猜你喜欢