基于概念的文本自动分类研究

基于概念的文本自动分类研究

苏伟峰[1]2002年在《基于概念的文本自动分类研究》文中指出随着因特网的迅猛发展,大量的信息朝着人们扑面而来,如何管理好所得到的信息的问题变得越来越突出,对文本进行分类管理是人们经常采用的一种文件管理方法。 本文提出了一个基于概念的自然语言文本自动分类模型,该模型以《知网》为主要的概念知识源,以词所表示的概念为分类基础,把概念继续分解至义原,并在可分义原组成的向量空间进行文本分类。该模型概述如下:文本分类系统分为训练模块和分类模块,义原分为可分义原和不可分义原,文本在经过预处理后,按一定规则提取出关键词,对有岐义的关键词,根据其词性和上下文对对其进行概念排岐,根据关键词所表示的概念在《知网》中的定义,把关键词分解成义原,并将不可分义原剔除,从而把文本表示成可分义原向量空间中的一个向量。在训练集中的文本均表示成向量空间的文本之后,训练集中相似的向量在向量空间中会形成文本聚类。对于将要进行分类的文本,亦按上述的方法将其表示为一向量,并在训练集中找出k个与其距离最近的邻居的类别作为该文本的类别。实验表明,该模型相对于基于关键词的文本分类方法有更好的召回率和精确率,进行分类时所需的空间较少,计算时间也相对较短。 本文在叁个方面提出了新的思想:第一,首先提出把义原分类为可分义原和不可分义原,并提出分类的原则和方法。这种分类方式可以实现在进行文本分类时,获取概念中最重要的领域特性。第二,虽然现有文献提出用概念来表示文本,但这种概念的表示方式都基于同义词的,把概念分解到义原更能反映出概念的本质和概念之间的相关性,采用义原来表示文本则更反映出文本所要表达的中心意思。第叁,首先把概念排岐引入到文本分类中,并提出一种新的概念排岐算法。

刘大伟[2]2008年在《基于WordNet本体库的文本分类方法》文中研究说明针对用于文本表示的向量空间维数过大、包含语义信息不足及向量空间中词形统计的局限性,阐述了引入概念的优势。通过介绍语义词典WordNet的结构、概念间的多种关系、概念链的定义和应用,将WordNet本体库中的每个同义词集合(synset)看作是能明确表示语义的一个概念,文本中的词条均用与该词条对应的概念来代替,即用该词条所属的同义词集合来代替,通过WordNet中的上下文关系,利用WordNet中的概念链,并引入概念的概括度和反类别频度,调整特征向量空间的权值,建立了文本的概念向量空间模型作为文本的特征向量空间模型,从而体现了文本中更抽象的语义信息。在本文中,提出了一种基于语义分析的文本分类方法,将文本分类技术和语义词典WordNet提供的知识相结合研究实现了一个文本分类系统,分类器采用朴素贝叶斯分类器。对基于语义的向量空间模型的生成步骤做了详细的论述,对基于语义的和基于词形的两种分类系统的性能做了比较实验。实验结果表明,这种概念向量空间模型取得了较好的准确率、召回率和F1值,从而验证了本文基于语义的向量空间模型的可行性和有效性。

旺建华[3]2007年在《中文文本分类技术研究》文中进行了进一步梳理随着信息技术的迅猛发展,大量的文字信息开始以计算机可读的形式存在,其数量每天都在急剧增加,如何在浩若烟海而又纷繁复杂的文本中掌握最有效的信息始终是信息处理需要解决的问题之一,如何实现信息的自动分类,尤其是中文文本信息的有效分类是目前中文信息处理研究的一个重要分支领域。文本自动分类技术能够有效地将文本信息组织管理起来,帮助人们准确高效的定位文本信息,为用户获取所需信息提供有力的支持。本文详细介绍了文本分类的各个方面,主要涉及文本分类的类型、文本表示方法、中文分词技术、文本特征抽取算法、文本特征权重算法及各种文本分类算法等相关技术,本文对其中一些技术进行了深入分析并且通过了一系列实验对此进行了性能比较和验证,最后给出了实验结果和分析。

张玉芳[4]2014年在《基于知识库的多层次文本自动分类研究》文中认为随着计算机技术的快速发展和网络的日益普及,用户可获取的信息量呈现指数级增长,极大地丰富了用户所处的信息环境,但是,同时造成了信息过载等问题,增加了用户获取所需信息资源的难度。文本分类作为一种简单有效的解决方法,被认为是处理和组织大量文本数据的关键技术,获得了广泛的关注,具有广阔的应用前景。当前对于文本分类的研究主要是从技术角度进行算法改进研究,本文从知识组织的角度提出改进策略,以满足信息层次化组织管理的需求,具体是指:以数据库中标引经验数据为基础,结合《中图法》的类目层次结构,构建了一个多层次知识库,并基于该知识库实现了自顶向下的多层次文本自动分类。全文共分为四部分:(1)绪论部分:主要介绍了论文的研究背景和意义,并给出本文的主要内容和结构。(2)理论和综述部分:对分类知识库和多层次文本分类两个概念及其相关理论基础做了详尽的介绍,并且综述了国内外相关研究。(3)实验设计部分:在理论和综述的基础上,提出了本文的研究方法,具体包括两个主要模块,一是基于《中图法》构建多层次的分类知识库,二是基于知识库实现自顶向下的多层次文本自动分类。通过对涉及到1497个类别的6万余条的语料进行训练获得分类模型,采用300条测试语料做测试,证实加入类别层次有助于改善分类性能,即从知识组织的角度优化文本分类具有可行性。(4)总结部分:对本文的研究结果作总体概况,并总结了文章的不足之处以及下一步工作需要改进的方面。

朱乔利[5]2015年在《面向本体的地理信息语义自动分类研究》文中指出随着社会信息化程度的不断提高,GIS从传统意义上单一理解为地理信息系统逐步拓展出地理信息科学和地理信息服务等多个方面,其理论技术和应用均得到了蓬勃的发展,向着可运行的、开放的、分布式和网络化的全球GIS的方向发展。全球GIS催生出对地理信息共享与互操作的迫切需求,地理本体研究得到快速发展,地理信息语义研究体现出重要的现实意义,但同时也容易忽视以下几个值得深入研究的问题:其一,欠缺对地理信息分类自身合理性和现实性的研究;其二,缺少对地理概念复杂语义关系的分析;其叁,地理本体构建自动化与开放程度较低。针对上述问题,本文以基于本体论的地理信息语义分类研究为出发点,提出通过地理概念本体属性自动抽取来进行形式概念分析以实现地理信息语义自动分类。基于地理本体、形式概念分析以及自然语言处理等理论,深入展开相关研究,着重研究了地理概念的本体属性来源和地理信息语义分类的形式概念分析方法,以及顾及地理信息领域的中文分词方法和本体属性自动标注与抽取方法。总结全文,文章主要的研究内容分为以下方面:首先,全面分析了地理信息语义分类的方法研究与实际应用的研究现状,指出本文研究所要解决的主要问题:地理信息分类的合理性与现实性问题、地理概念语义关系的丰富性问题、以及地理本体构建的开放性与自动化问题。针对这些问题,提出通过地理概念本体属性自动抽取与形式概念分析实现地理信息语义自动分类的构想。其次,针对传统地理信息分类体系随着计算机技术发展逐渐出现的不足之处,对现行的各类地理信息分类标准进行了比较分析,探讨了基于本体论的地理信息语义分类来完善现行分类体系的方法,并提出通过形式概念分析的方法形成地理信息语义分类体系。针对GB/T 13923-2006中的居民地要素和陆地水系要素进行实例研究,从理论和实践方面验证了面向本体的地理信息语义分类方法的可行性,并对该方法得到的分类结果进行了分析以及与传统分类的比较。然后,针对以往研究对地理概念本体属性的确定需要通过人工判断的问题,提出对地理概念定义的描述语句进行中文分词与自动标注来实现本体属性的自动抽取。研究了顾及GIS领域专业的分词方法,为本体属性标注打下了坚实的基础。同时提出采用更丰富的语义关系类型对分词结果进行分析,丰富语义关系内容以辅助地理信息语义分类。接着,分析了从地理概念描述语句中提取本体属性的基本方法,提出地理概念描述语句中的词汇与地理概念本体属性的映射关系,将信息抽取方法中的命名实体识别机制应用于地理信息概念描述语句中表达本体属性的词语识别,实现非结构化自然语言语句到本体属性标注的结构化文本的转换。针对地理概念描述语句的中文分词结果,通过构建地理本体属性词表和JAPE规则,借助GATE语义标注插件实现了陆地水系概念本体属性自动抽取并生成形式概念表,与人工判断结果进行了比较分析。最后,在本文的理论与方法研究基础上,提出了地理信息语义自动分类实验系统的总体架构,集成了中文分词、本体属性标注以及形式概念语义分类等各项功能,对部分地理信息概念进行实验操作得出语义分类层次结构,使地理信息语义自动分类由理论研究向实际应用迈出了重要的一步。面向本体的地理信息语义自动分类研究,旨在从基础的地理信息分类层面进一步丰富地理本体构建的理论体系。借助于地理本体和自然语言处理相关理论与方法,在一定程度上对解决地理信息分类的合理性与现实性问题、复杂语义关系分析以及语义分类自动化程度提升具有参考借鉴意义。

张薇娟[6]2008年在《基于模糊认知图的分步文本层次分类研究》文中认为数据挖掘是当前国际学术界一项前沿的研究课题,它融合了数据库、人工智能、机器学习、统计学、智能计算、认知科学等多个领域的知识,是数据库研究中很有应用价值的一个新方向,对各个行业领域的决策具有极大的指导作用。文本分类是数据挖掘领域中重要分支之一,其任务是对未知类别的文本进行自动处理,判断它们所属的预定义类别集合中的类别。随着网络的飞速发展和各种电子文本数量的迅速增长,有效的信息检索和过滤等变得越来越困难和重要。文本分类便是一个有效的解决办法,它已成为一项很有实用价值的技术。目前,已经有很多机器学习算法在文本分类领域中得到应用,并取得了一定的成果,比较普遍典型的是类中心向量法。但是这些算法大部分都是基于统计计算的,缺乏反馈体系机制,忽略了文本整体的有机性和文本之间的联系性。同时,这些算法几乎都是在单层次上做一次终结式分类,没有考虑到文本类别的逐层分类。为此,本文在对模糊认知图的概念、特性以及它的知识表示和推理机制进行初步研究的基础上,根据模糊认知图中各节点相互关联和文本整体有机性结合起来,通过充分考虑特征项之间、特征项与类别之间、类别与类别之问的因果关系和相互影响,提出一种基于模糊认知图的文本分类推理算法,采用迭代推理体现反馈机制,它特别适用于训练和测试文本数量不多的情况以及交叉学科、新兴学科。同时,在常规中文文本的单层次分类基础上,本文提出了基于大类小类(父类子类)的文本类层次树的概念。而在每一层上,采用类中心向量法和基于模糊认知图分类推理算法组合的分步补充的分类方法,从而构造出分步文本层次分类模型和算法(即SHTC),并对此进行了实验验证。结果表明,该方法可以有效提高文本分类的精度和效能。

倪茂树[7]2007年在《基于语义理解的观点评论挖掘研究》文中研究说明随着互联网技术的迅速发展,网上文本数量呈指数级增长,如何从这些海量的文本中挖掘有用的信息成为当前研究的重要课题。文本挖掘是指以计算语言学、统计数理分析为理论基础,结合机器学习和信息检索技术从大量文本数据中抽取事先未知的、可理解的、最终可用的知识的过程,同时运用这些知识更好地组织信息以便将来参考。本文就是立足于文本挖掘技术的研究,结合当前电子商务和网上评论的盛行,从商品的观点评论中挖掘信息,反馈给商家和消费者。本文第一部分详细地介绍了文本挖掘和观点评论挖掘的发展概况和相关技术,随后在第二部分系统地分析了文本挖掘所采用的技术及算法。同时,对文本挖掘中的重要分支——文本分类做了深入的研究,探讨了文本分类的一般过程,以及目前比较流行的分类方法。在文章的第叁部分对前人所做的工作做了一些改进,分为两个方法,第一由于传统粗糙集规则匹配方法过于复杂,设计了一种简化算法的分类方法;第二是基于词共现概念的文本分类方法,弥补了传统向量空间模型中特征项的独立性,用词共现的概念特征体现了文档中的语义。两种方法虽然都提高了分类结果,但所面对的问题不一样,第一种是为了优化算法复杂度,而第二种是侧重于语义概念的。本文的后叁部分鉴于网络评论的流行,结合一些文本挖掘的思想,对网络商品评论的挖掘做了一些研究。借助于国外一些学者的研究成果,设计了两种商品评论挖掘算法。第一种算法为基于关联规则和语义理解的商品特征挖掘,思想主要侧重于挖掘商品评论中的特征,整体思想比较简单,但过分依赖于统计的方法,缺乏深入的语义分析;第二种算法是在第一种方法的缺陷上做了一定改进,利用依存关系定位观点词,同时将语义相似度的思想引入中文的商品评论中,结合中文和英文的区别,正确率和召回率均有所提高,但总体来说,由于网络评论的自由性,召回率不如正确率。

曹勇[8]2007年在《中文Web文本分类技术研究》文中进行了进一步梳理Web文本分类是指将Web文档集合中每个文档归入一个预先定义的类别之中,是Web文本挖掘的一项重要技术,同时也是智能信息检索和处理领域的一个新兴和重要的研究方向。由于国内相关技术起步较晚,加上中文语言的特殊性,中文Web文本分类技术相对落后。本文分析了Web文本分类的重要意义,介绍了国内外文本分类研究现状特别是中文Web文本分类研究现状,详细介绍了中文Web文本分类的过程与关键技术:首先是Web文本预处理,然后是文本表示、索引生成、特征选取等步骤,包括多种特征选取方法;接着,详细介绍了几种文本分类算法,包括KNN和SVM、朴素贝叶斯等;然后,介绍了常用的文本分类算法的评价指标。本文重点对中文Web文本分类技术进行了发展和改进。本文将SVM和KNN的结合算法SVM-KNN算法应用于Web文本分类,以弥补传统SVM算法的一些缺点,获得更好的分类效果;提出了一种基于密度的调整KNN训练集的方法,通过对训练集的调整,降低了KNN算法的分类计算复杂度,同时提高了分类准确性;提出了一种用无监督聚类算法指导文本分类的方法,以解决没有训练集的文本分类问题。对于所提出的每种算法,本文都给出了相关的实验数据,通过实验,验证了改进效果,证实了算法的有效性。最后,本文设计并实现了一个中文Web文本分类系统,详细介绍了系统的各个模块的设计以及系统训练集和测试集的选取。本文的实验均是在这个系统上完成的。

王爽[9]2007年在《基于知识库的自动分类系统设计与实现》文中进行了进一步梳理随着计算机技术和网络技术的飞速发展,网络上的文本信息资源数量急剧增长。极其丰富的数据资源却让使用者陷入困境,如此多的信息分散、无序,增加了人们对网络信息资源利用的难度。因此,需要一种简单有效的方法把这些信息有序地组织起来,使用户方便快速地获取其中潜在的有价值的知识。文本自动分类是一个有效的解决方法,成为信息处理领域的一个研究热点。本文以已有的标引经验数据为基础,从构建知识库,自动分词,特征项选取,特征项权重计算,分类算法几个方面进行论述,最后设计并实现了一个基于知识库的文本自动分类系统。全文共分为五部分:第一章绪论,主要介绍了论文的研究背景和意义,以及文本分类技术在国内外研究现状,并给出本文的主要内容和结构。第二章以《中图法》分类体系为基础构建分类知识库。知识库的数据主要来源于《中图法》,《期刊网》和厦门大学图书馆书目数据。对这些数据进行收集、整理,形成一个多词表的分类知识库。第叁章讲述的是自动标引过程,包括特征项粒度的选取、分词算法、词典的组织以及特征项选取。以关键词作为特征项粒度,通过对目前常用的几种分词算法进行比较研究,采用逆向最大匹配算法作为本文的分词算法,特征项选取原则采用词频与位置加权结合的方式。最后对自动标引的结果进行了评测,标引结果达到了比较满意的效果。第四章针对特征项权重计算方法进行了改进,并提出了基于类目概念组配原理的分类方法。根据本文样本数据的特点,采用Dice系数作为特征项权重计算方法。从影响关键词在某类中的权重的角度考虑,对原算法进行改进,引入关键词在当前类包含的所有关键词中占的比例、类别平均样本数与当前类别样本数之比两个参数。根据类目概念组配原理,将各关键词的权重归并计算得到权值最大的分类号作为待分类文本的最佳分类号。第五章是中文文本分类系统的设计与实现,并对自动分类进行测试。实验结果显示,改进算法的各个评测指标均比其它两种算法高出5-6个百分点。最后总结了文章的不足之处以及下一步工作需要改进的方面。

熊回香[10]2011年在《面向Web3.0的大众分类研究》文中认为随着社会化软件的发展,越来越多的Web2.0网站以应用的开放性、技术的渗透性和信息传播的交互性等特性及其读写并存的表达方式、社会化的联合方式和便捷化的体验方式等优势,影响和改变着人们的工作和学习方式;同时,Web2.0自身具有的开放性、去中心化、聚合性、高度交互性和创新性等特性,也使得越来越多的用户参与到网络信息的创造和发布中。然而,一方面,伴随着信息源和信息量的激增,衍生出了信息杂乱无章、信息纯净度和可信度降低、搜索引擎精准度下降等问题;另一方面,用户迫切希望通过便捷的互动交流和协同共享方式来及时准确地获取符合自身需求的信息和知识。面对这些问题,注重信息筛选与个性化信息聚合,以“个性、精准和智能”为核心理念的Web3.0模式应运而生;这一新型模式为问题的解决带来了新的希望。Web3.0是以Web2.0为基础,因此,大众分类(Folksonomy), Web2.0环境下产生的新型信息分类法仍然是Web3.0环境下的主要信息分类方法之一。但是,大众分类在给网络用户提供方便、自由的标签标注和检索的同时,也存在着诸如标签的多样性、模糊性、扁平化结构和语义关系缺乏等缺陷;这些缺陷制约着Web3.0“个性、精准和智能”这一核心理念的真正实现,因此,从Web3.0对大众分类法的需求出发,对大众分类体系的优化展开相关研究,是非常有必要并且具有重要的意义。基于此,本文综合运用社会学、语言学、数学统计、计算机科学等多学科的理论,使用实证分析、数学统计学、社会网络分析、数据挖掘等方法,充分利用中文语料资源对大众分类的优化展开研究。全文共分为8章,每章的具体内容如下:第1章,对本论文的选题背景、研究现状和研究意义进行了全面的阐述,提出了研究目的和研究内容,并对研究方法和研究思路进行了介绍,总结了本研究的主要创新点。第2章,主要是针对研究所涉及到的相关理论进行简要述评。首先,对大众分类的定义与内涵、大众分类的运行机制、大众分类的类型、大众分类的基本特征等进行阐述;接着对语义网的基本思想、体系结构、本体论等内容进行了归纳性的介绍:然后,对Web3.0的产生、Web3.0的内涵和特征、Web3.0的技术支撑以及现状等进行分析总结;最后剖析了大众分类、语义网及Web3.0叁者之间的关系,为后续的研究提供了思路。第3章,首先分析了标签的内涵及特点,接着通过典型中文Web2.0网站展开标签的实证研究,主要分析了标签的语言特征、标签的分布规律、标签与用户和资源的关系、标签的质量及规范性、标签的分类体系及标签的推荐等,从而明晰了大众分类体系的运行机制和不足,为后续研究思路的形成提供依据。第4章,首先比较分析了大众分类与情报检索的受控语言之间的异同;接着阐述了标签库的构建方法,与此同时,把中文语义词典《同义词词林》引入到标签库的构建中,通过词语相似度比较来规范标签库中的语词;然后从标签的推荐、用户管理机制、以及垃圾标签处理几个方面探讨了用户标注的控制;最后分析了用户标签优选的机制。本章研究的目的是提高标签的质量,为挖掘标签间的语义奠定基础。第5章,首先详细地剖析了Tag资源自动分类的过程,构建了Tag资源自动分类的算法模型,在Tag资源的自动分类模型中,借鉴了文本自动分类的思想,用标签的使用频率表示Tag资源的向量空间,并在Tag资源的向量表示中,引入《同义词词林》进行向量的语义表示,从而提高自动分类的精度;接着分析如何利用标签库构建标签的层级,并通过内容管理系统Drupal介绍了标签层级化的实现方法。本章的研究主要是结合传统分类法的思想,构建标签的层级,从而为用户提供标签和导航,进而提高标签的检索效率。第6章,首先分析了标签的聚类及其相关算法;接着分别从标签的共现分析、标签的向量表示、关联规则挖掘叁个方面探讨了标签或Tag资源的自动聚类,在聚类算法的选择上,综合考虑不同聚类算法的优点,并基于不同的数据模型选择了不同的聚类算法,同时在标签样本数据集进行了理论上的验证,证明了这几种算法的可行性。这部分的研究为标签与本体的结合奠定了基础。第7章,首先探讨和分析了标签概念空间的构建,并分别运用不同的算法构建了标签的层次空间和网状空间,同时用实例证明了其可用性和有效性;接着详细地分析了标签与本体的映射机制和方法,并在进行概念的匹配过程中,引入了另一个中文语义词典《知网》进行概念间的相似度比较,增加了匹配度的可靠性;最后从标签的语义控制入手,提出了标签本体模型的概念,并对目前典型的标签本体模型进行详细地比较,同时以SIOC本体模型为例,介绍了标签的语义控制过程。本章的内容主要是围绕标签语义关系的提取展开相关研究,其研究成果有助于语义网(Web3.0)的最终实现。第8章,对论文进行了总结,总结了论文的主要研究内容,得出的主要结论,主要创新之处,并剖析了研究中存在的不足,基于此展望了未来的研究重点和方向。

参考文献:

[1]. 基于概念的文本自动分类研究[D]. 苏伟峰. 厦门大学. 2002

[2]. 基于WordNet本体库的文本分类方法[D]. 刘大伟. 北京交通大学. 2008

[3]. 中文文本分类技术研究[D]. 旺建华. 吉林大学. 2007

[4]. 基于知识库的多层次文本自动分类研究[D]. 张玉芳. 南京理工大学. 2014

[5]. 面向本体的地理信息语义自动分类研究[D]. 朱乔利. 武汉大学. 2015

[6]. 基于模糊认知图的分步文本层次分类研究[D]. 张薇娟. 天津师范大学. 2008

[7]. 基于语义理解的观点评论挖掘研究[D]. 倪茂树. 大连理工大学. 2007

[8]. 中文Web文本分类技术研究[D]. 曹勇. 厦门大学. 2007

[9]. 基于知识库的自动分类系统设计与实现[D]. 王爽. 厦门大学. 2007

[10]. 面向Web3.0的大众分类研究[D]. 熊回香. 华中师范大学. 2011

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

基于概念的文本自动分类研究
下载Doc文档

猜你喜欢