一、基于k-近邻方法的渐进式中文文本分类技术(论文文献综述)
王大兴[1](2020)在《子空间集成学习研究》文中指出多年以来,集成学习方法得到了研究人员的广泛关注。大多数传统的单一学习算法,都有各自的局限性,并不同时适用于所有的数据类型。例如基于核函数的方法适用于小样本的高维数据,而基于卷积神经网络的方法则需要足够多的样本。集成学习方法能够将多次学习的结果结合起来,减小集成中的单个组成部分带来的误差,因此研究人员将集成学习用于分类问题,聚类问题,半监督问题等多种领域,并进行了大量的研究。集成学习当中的主要问题就是如何增加集成中的成员的准确性和多样性。增加成员的准确性和多样性,有助于提高集成的效果。针对这一点,研究人员提出了各种处理数据的方法,这些技术从不同的角度来对机器学习算法进行改进,例如从特征的角度处理数据的子空间方法,从样本的角度处理数据的采样方法。本文的重点是集成学习当中的子空间学习方法,子空间方法在学习过程中使用矩阵投影方法将数据投影到低维空间,或者随机选取一部分特征在低维空间进行分类、聚类。选取子空间的过程往往是随机的,因此经常被用于在集成学习的环境中增加算法的多样性。在分类、聚类或者其他算法中加入子空间技术能够减少冗余的特征对结果的影响,同时增加集成中的成员的多样性,并从一定程度上减少数据处理的时间,提高集成学习的效果。本文将子空间技术与不同的机器学习问题相结合,并将子空间学习用于分类、聚类和流数据分类领域。在以往的工作中,子空间方法往往是单独使用的,然而,如果能够将子空间技术与样本采样等其他方法结合起来使用,就能够进一步地提高集成学习的结果。不同于过去大多数算法只考虑数据的特征维或者只考虑数据的样本维,本文把数据的特征空间和数据的样本空间的优化结合起来以提供更好的结果。本文还将子空间技术与多视图技术结合来处理聚类问题,与集成选择结合来进行分类。本文的主要内容如下:(1)针对如何在分类问题当中选择合适的子空间的问题,本文提出了渐进式子空间集成学习算法(PSEL),在这个算法当中,PSEL首先结合随机子空间算法和样本采样算法生成最初的分类器集合。然后,PSEL通过一个渐进式的选择过程对分类器进行选择,通过新定义的短期损失函数和长期损失函数进行分类器的选择,最终进行加权投票得出最终的结果。本文通过实验将PSEL与现有的算法进行对比,并取得了较好的结果。(2)针对如何在聚类集成当中选择合适的子空间的问题,本文提出了基于多视图学习的方法来解决聚类问题。首先提出3个视图转换方法,将数据的特征维度进行一定的转换。然后,提出将3种视图转换与多视图聚类算法结合来解决聚类问题,并提出基于随机变换和混合多视图学习的聚类集成算法(RTHMC),然后在这个基础上提出增加了随机子空间技术的SRTHMC算法和进一步增加了自适应选择算法的SORTHMC算法。本文也将算法与现有的聚类集成进行了比较,并取得了较好的效果。(3)针对如何在流数据分类当中选择子空间的问题。本文提出了基于双层优化的流数据子空间分类集成(DOSDSCE)。DOSDSCE算法结合了子空间选择和样本选择,在处理新的数据块的时候,用新生成的子空间来训练分类器,并去除集成中的权重低的分类器,本文同时提出用多目标优化算法选择新数据块中的样本来更新旧分类器。
王娇娇[2](2020)在《基于融合语义和BiLSTM的短文本分类技术研究》文中认为在信息时代的今天,各式各样大量的短信息数不胜数,包括手机短信、垃圾邮件、问答及推荐系统的留言、购物平台的商品评价等,及时准确的从短文本库中抽取人类所需的信息是目前文本分类领域面临的一大难题;研究快速、灵活、高效、低耗的短文本内容提取策略是当前学术界的发展趋势,有助于提高用户获取有效信息的质量和速度,满足不同部门新闻分类、情感分类、舆情分析的需求。影响文本分类效果的因素有很多,本文主要从特征提取和分类器的选择两个方面来进行改进。本文在研究分析和总结特征选择和深度学习模型Bi LSTM原理的基础上,对运用特征选择和深度学习模型解决文本分类问题做了深入研究,本文的主要研究工作如下:(1)针对传统TF-IDF特征选择函数缺乏语义的问题,本文定义并引入权重系数和长度系数,并结合改进的word2vec模型,构建了融合语义的特征选择函数。其中改进的word2vec解决了传统word2vec只要有冗余的词向量,就会使计算发生差错,从而使整个文本的表达出现差错的问题,提高了准确率。同时改进的word2vec可以通过距离来表征语义相似度,具有一定的语义性,并可以将词映射到低维向量中,避免了维度灾难,提高了准确率。(2)针对短文本长度较短,文本蕴含的信息量较少,深度学习模型易受到干扰导致分类性能差的问题,本文提出一种在双向长短期记忆网络的基础上结合注意力机制和对抗训练的多层级短文本分类模型,双向长短时记忆时间递归神经网络(Bi LSTM)每个序列向前和向后分别是两个LSTM层,弥补了LSTM缺乏下文语义信息的不足。注意力机制(Attention)解决了传统的方法直接把Bi LSTM层每个时刻对应的更新输出向量求和取平均值,导致分类精度不高的问题。对抗训练是一种正则化的方法,可以提高分类模型的鲁棒性。
李文慧[3](2019)在《基于特征融合和biLSTM的短文本分类方法研究》文中提出在信息时代的今天,各式各样大量的短信息数不胜数,包括手机短信、垃圾邮件、问答及推荐系统的留言、购物平台的商品评价等,及时准确的从短文本库中抽取人类所需的信息是目前文本分类领域面临的一大难题;研究快速、灵活、高效、低耗的短文本内容提取策略是当前学术界的发展趋势,有助于提高用户获取有效信息的质量和速度,满足不同部门新闻分类、情感分类、舆情分析的需求。目前,短文本分类主要包括两种:基于特征工程的机器学习方法和基于神经网络的深度学习方法,本文做的主要工作是:构建多因素(特征的重要性、语义、维度)融合的特征选择函数FS,和传统的特征选择函数对比,FS不仅融入了特征的语义性,而且能够去除大量冗余特征,提高具有类别区分能力特征的权重;把FS作为新的特征选择函数,使用搜狗实验室的中文语料库进行短文本分类实验,验证了方法有效性,提高了短文本分类的准确率。提出一种在双向长短期记忆网络(biLSTM)的基础上结合注意力机制(Attention)和对抗训练的多层级短文本分类模型,模型包括输入层、biLSTM层、注意力机制层、模型优化层,其中输入层由词嵌入部分和词嵌入扰动部分构成,词嵌入扰动部分通过对抗训练对模型输入制造很小的扰动来增加训练过程中的参数更新,biLSTM层可以提取上下文不同距离语义化的信息,注意力机制层对经过biLSTM层编码的数据进行转变加权提升序列化的学习任务;模型优化层利用softmax函数使误差loss极小化并对短文本语料进行分类;在数据集(DBpedia)上进行实验,与分类性能较好的模型(Attention-LSTM)、(Attention-biLSTM)、(CNN-LSTM)、相比,这个多层级的深度学习模型分类性能更好,稳定性、泛化能力较强,预测分类准确率达97%,损失函数值稳定在0.5%左右。
赵冬[4](2019)在《基于遗传算法的模型参数选取及其在文本分类中的应用》文中进行了进一步梳理随着计算机技术的不断发展,信息数据大量增加,甚至呈指数级态势迅猛增长。有效利用这些信息数据的难度也随之增加。同时,在这些信息数据中还存在大量的无用信息以及有害信息,为处理信息的过程带来了极大的负面影响。因此,如何高效地利用信息数据,已经成为了机器学习领域的研究热点。此外,文本作为一种常见的信息数据形式,如何有效地对文本数据加以分类,则是文本信息处理过程中的重要任务。为了提高文本分类的快速性和准确性,针对分类效率及分类准确率的问题,本文采用了一种将遗传算法(GA)和支持向量机(SVM)相结合的文本分类方法。该方法将支持向量机的参数看作遗传算法的一个染色体,并进行二进制编码,将支持向量机的分类准确率用作遗传算法的适应度函数,对每一个个体适应度进行评价,并通过选择、交叉和变异的遗传操作,得到对文本分类数据最优的支持向量机参数,最后利用带有最优参数的支持向量机对属于既有类别的文本数据进行分类。一般情况下,对于新进的文本信息数据,我们可将其归入既有类别,然而既有类别往往无法满足大量新进的文本信息内容,即新进文本数据的类别往往会超出既有类别的范围。因此,如何有效地判断新进文本信息数据是否可以分类至既有类别,同时又可将不属于既有类别的文本信息数据进行分群处理,新增不属于既有类别的群聚类别,同样具有一定的实际意义。针对新进文本信息数据无法被分类至既有类别的问题,本文提出了一种渐进式分群方法。首先利用遗传算法选取合适的特征词组合来训练既有类别文本信息的支持向量机,并用测试文本信息将属于既有类别的文本信息数据进行分类;然后对于未分至既有类别的文本信息进行分群,利用遗传算法进行分群群数的最优化,并且选取模糊分群法(即FCM)的最佳分群中心点。最后,使用效果衡量指标Precision、Recall以及F-measure评估本研究的效率及分类准确率Macro-average和Micro-average。实验结果表明,使用GA-SVM方法可以有效地提升分类效果,而使用GA-FCM方法进行分群也可以取得较好的分类效果。
杜昌顺[5](2019)在《面向细分领域的舆情情感分析关键技术研究》文中指出客户对于服务的满意与否关系到服务提供商的效益,为了有效维护现有客户和开发新客户,服务提供商需要及时分析客户对于服务的反馈中所蕴含的情感信息以便快速采取措施应对,从而提升客户体验。随着信息产业、互联网以及移动互联网的飞速发展,客户对于服务的满意程度能够更加方便的通过网络平台进行反馈,互联网已经取代传统渠道成为主要的反馈载体,庞大的客户群体每时每刻都会产生海量的非结构化文本反馈,传统的依靠人工的反馈分析方式已经难以满足企业对于客户关系管理的需求;同时,企业服务涉及不同的主题,需要精确的将不同领域的反馈传达到相应的部门才能使反馈得到有效的处理。而每一个细分领域文本的情感具有领域特殊性,相同的语言表达在不同领域的情感倾向具有差异。因此,如何设计一种能够对海量非结构化客户反馈文本进行分类,同时进行舆情情感分析的方法,并利用该方法构建能够对细分领域非结构化文本的舆情情感信息进行快速自动分析并能够自动适应不同领域情感表达方式的系统,成为了企业客情关系维护亟需解决的问题。基于上述背景,为了高效的对非结构化客户反馈文本进行自动分析处理,本文针对生活服务网站中面向机票服务、酒店服务、餐饮服务等细分领域的舆情情感分析这一需求,对其中的文本细分领域分类、舆情情感分析等关键技术进行了深入研究,主要研究内容及成果如下:(1)提出了一种基于注意力机制与对抗训练的文本分类算法作为文本分析的重要任务,文本分类已经受到广泛研究,并涌现出了许多方法,例如隐藏狄利克雷分布(Latent Dirichlet Allocation,LDA)文档主体生成模型的文本分类方法、基于词袋(Bag-of-word)模型的文本分类方法与基于支持向量机(Support Vector Machine,SVM)的文本分类方法等。这些方法都是将词作为一个符号,记录文本中有无出现该符号以及该符号对某一主题(类别)的贡献程度,而忽略单词本身所代表的语义以及词语之间的顺序等关系。本文在循环神经网络(Recurrent Neural Network,RNN)的基础上通过引入注意力机制,使模型能够较好的保留文本词语之间的顺序关系与长距离依赖,同时自动提高关键词对于文本分类的权重,使分类器具有较好的效果。同时,利用对抗训练在模型训练的过程中产生词嵌入的扰动,使模型具有更高的泛化能力及鲁棒性。实验表明该方法具有优于基线方法的性能。(2)提出了一种融合分段卷积神经网络(Piecewise Convolutional Neural Network,PCNN)与生成对抗网络(Generative Adversarial Network,GAN)的情感分析算法文本情感分析作为目前网络环境下进行舆情监控、服务评价及满意度分析等领域最为重要的任务之一,需要对文本中客户的观点、喜好等情感加以判别。相比于传统自然语言处理分析工具,卷积神经网络(Convolutional Neural Network,CNN)作为深度学习中自动捕获句子特征的有效方法,可以从句子中学习与情感分析任务关联性最强的特征,提升情感分析模型的性能。然而原始的卷积神经网络模型忽略了对于文本情感分析十分重要的句子结构信息,而且很容易发生过拟合。针对上述的不足,本文采用分段池化的策略,使基于深度学习的卷积神经网络模型能够对句子结构进行建模,分段提取句子不同结构的主要特征来对文本的情感倾向进行分析,并且利用Dropout算法提升模型的泛化能力。同时,用户对于服务的反馈涉及到众多不同领域,每一个领域中的标注数据都较少,为了缓解数据的稀疏性,本文还利用生成对抗网络进行共同特征提取,使模型能够获取在不同领域的反馈中与情感相关的共同特征,增强模型在训练数据较少的情况下的泛化能力。在不同数据上的实验,证明了以上方法的有效性。(3)提出了一种基于门控单元的循环-卷积神经网络(Recurrent-Convolutional Neural Network,R-CNN)与卷积-循环神经网络(Convolutional-Recurrent Neural Network,C-RNN)的集成情感分析方法目前效果较好的情感分析算法都是基于统计学习的方法,这类方法性能的好坏取决于特征提取的质量,而良好的特征工程需要较高的专家经验且费时费力,可迁移性较差;神经网络的方法能够减少特征工程的依赖,RNN能够获得上下文信息但是有语义信息偏置问题;基于CNN的文本分析方法能够通过池化获得文本的重要特征但较难获得上下文信息,如本文提出的融合分段卷积神经网络与生成对抗网络的情感分析模型利用分段池化策略能够部分缓解CNN的不足,然而对于长距离依赖建模仍然较差。针对上述问题,本文提出了一种基于门控单元的R-CNN与C-RNN融合的情感分析方法,首先通过不同的方式组合RNN与CNN,缓解二者的不足,分别构建子分析网络R-CNN与C-RNN,最后通过门控单元自动融合两种网络,组成最终的分析模型。我们在不同的数据集上进行了充分实验,验证了方法的有效性。(4)提出了一种融合群稀疏与排他性稀疏正则项的情感分析模型压缩方法本文提出的融合PCNN与GAN的情感分析方法与基于门控单元的R-CNN与C-RNN集成情感分析方法,都使用了较大规模的卷积神经网络来保证模型的效果,导致模型的参数规模较大。而在实际运用中,标注数据较少,模型得不到较为充分的训练。同时,为了能够快速对出现的舆情进行分析,及时对客户的反馈进行应对,有效进行客情关系管理,情感分析系统需要具有较高的时效性。为了解决上述问题,本文提出在模型预训练过程中,利用群稀疏与排他性稀疏正则项对模型进行剪裁,首先利用稀疏正则项剪除权值较小的边,并去除连接稀疏的神经元节点,然后继续训练剪枝后的模型。我们在不同的数据集上进行了充分实验,验证了压缩方法的有效性,提升了网络在进行预测时的效率,同时保证模型的性能不会有较大的下降。(5)基于上述方法设计构建了客户满意度分析原型系统在上述研究的基础上,本文基于B/S架构,利用Spring-Boot框架设计实现了客户满意度分析原型系统。实现了数据预处理、垃圾信息过滤、细分领域划分及客户情感分析等核心功能,并进行了原型系统模拟测试,充分展示了本文所提出的方法的有效性、实用性。
吴剑云[6](2018)在《面向社会化商务的产品缺陷识别模型构建及算法改进研究》文中提出随着互联网经济的快速发展,产品缺陷会给企业带来致命的负面影响,及时准确地发现产品缺陷,可最大程度减少产品缺陷对用户和企业品牌带来的伤害。社会化商务以社交媒介上的用户交互与电子商务的结合为特色,其丰富的用户生成内容为企业提高产品质量提供了重要的需求知识。如何从大量的用户生成内容中发现和量化潜在的产品缺陷是学者和企业关注的重点。首先,在学者研究基础上,对现有社交媒体分析框架(SMART)进行改进,结合不同的平台特征,构建了产品缺陷识别通用框架。其次,基于个体、商家、社交关系以及平台特征构建虚假评论识别PESI模型,提出SDDCOF聚类方法,基于异常点检测理论识别虚假评论,确保评论的有效性。再次,综合分析比较后采用信息增益作为特征评估函数,结合五类特征利用支持向量机分类方法对不同平台数据进行缺陷识别,构建产品缺陷语料集,有效提升识别的准确性和召回率。最后,结合产品层次及企业内部产品缺陷信息改进LDA模型,对缺陷主题聚类,识别产品质量问题,为企业提供产品质量管理方面的决策信息。本文将以企业为中心的产品质量内部管理延伸到以用户为中心的从评论中识别产品质量问题的外部质量控制,将大数据分析和文本挖掘应用到产品质量管理领域,深化并拓展了产品质量控制的相关研究,具有重要的理论价值及实践意义。本文的主要研究工作与创新点如下:(1)提出面向社会化商务的产品缺陷识别通用框架。基于改进的SMART框架,从数据准备、虚假评论识别、产品缺陷识别、产品缺陷聚类四个阶段构建通用产品缺陷识别框架。(2)构建基于个体、商家、社交关系及平台特征的虚假评论识别PESI特征模型。在考虑个体(评论内容、个体信誉、写作风格、星级评定)、商家(商家信誉、产品特征、行业特征)、平台以及关系(评论内容和评论者之间关系、商家和评论者之间、评论者之间)的基础上,提出基于多维度特征的虚假评论识别PESI模型。(3)提出基于密度和聚类异常因子的虚假评论点检测算法SDDCOF。把文本聚类和异常点检测理论应用到虚假评论识别上,提出检测算法SDDCOF,该算法相比传统异常点检测算法的优势在于,降低决策欺诈现象,不需人工输入参数,提高了聚类的可靠性及虚假点检测的效率。实验结果表明,该算法能很好的进行虚假信息的识别。(4)改进LDA模型。结合产品层次结构及企业内部产品缺陷信息,构建新的LDA模型CLDA以识别和获取产品缺陷的主题信息,采用定性定量相结合的方法评估缺陷聚类的效果,以确保发现缺陷信息的质量。实验结果表明,该模型优于标准的LDA模型,能够找到更有价值的信息。
陈秀平[7](2012)在《基于Markov随机游走的渐进式半监督文本分类研究》文中进行了进一步梳理随着互联网技术以及数据存储技术的迅猛发展,科学研究以及社会生活等领域都积累了大量的数据,对这些数据进行分析和挖掘得到其所蕴含的有用信息,成为几乎所有领域的共同需求。传统的机器学习方法通常只利用有标签数据或者只利用未标记数据,而在实际问题中往往是两者并存,如何有效利用这些数据成为几乎所有领域关注的问题。作为能有效解决这个问题的关键技术,半监督学习引起了机器学习和数据挖掘界的高度重视。根据学习目的的不同半监督学习大致可以分为半监督分类和半监督聚类。其主要思想是在已标记训练数据集较少的情况下,如何结合大量的未标记数据来改善学习性能,本文中探讨的是半监督分类。基于Markov的随机游走算法,可用概率的形式表示低维数据的结构信息,同时具有非常强大的学习功能,因而被广泛地应用于半监督学习问题中。本文首先提出了一种基于Markov随机游走的半监督文本分类模型(简称为SMRW),该模型对传统的基于Markov随机游走的分类模型进行了改进。在随机游走过程中,计算待标注数据到各类的迁移概率时,只考虑相应类别样本的影响,而忽略其他类别样本对随机过程的影响,同时利用衰减函数来约束不同游走步数对迁移概率的影响,并在20newsgroups数据集上进行了实验,实验结果表明,该模型具有较好的分类性能。本文提出了一种基于Markov随机游走的渐进式半监督分类模型,在初始阶段已标记训练样本较少时,训练得到的分类器性能不高。且在Markov随机游走迭代过程中,样本的错分引起的误差,会在后续的迭代中不断被放大,从而影响模型的准确性。针对此问题提出了一个基于Markov随机游走的渐进式半监督文本分类模型(简称为PSMRW),即在半监督分类模型中引入了渐进学习的思想,试图“纠正”半监督学习迭代过程中产生的“错误”,,从而提高模型的预测精度的目的。在20newsgroup数据集上的实验结果表明,所提出的方法能够提高半监督分类的精度。
马鹏飞[8](2012)在《中文文本分类算法研究》文中认为几十年信息技术和网络的发展,极大地方便了人们的交流和沟通,人类文明的发展得到了很大推动,但是技术的发展也带来了信息海量式膨胀和有害信息等各种问题,如何在海量数据环境下有效地管理并快速地将所需的数据进行分类,成为信息科学领域迫切需要解决的问题。随着技术的发展,文本分类作为一门有着很大实用价值的独立学科成长了起来,并在信息检索、搜索引擎、舆情分析等领域得到了广泛应用。由于文本用向量空间模型表示存在维度高、稀疏性大的特点,对于文本的分类有一定的难度。信息增益是目前最为常用的文本特征选择方法,但是对于非平衡集的分类效果不佳。支持向量机是最适合文本分类的方法,但是支持向量机目前仍然存在复杂度较高、花费时间较长、对参数敏感性较强等问题,在实际应用中仍在存在着一些难题。本文针对上述问题做了如下工作:总结分析了文本分类的研究背景和相关技术;研究了特征选择方法和支持向量机的基础理论并总结了它们目前依然存在的问题;针对信息增益没有考虑特征项分布信息而导致的在非平衡集上效果不佳的问题,结合Theil熵定义了类间离散度和类内离散度,提出了一种基于Theil熵的信息增益特征选择方法T-IG;针对支持向量机对参数的敏感性,结合GLOA优化算法提出了一种新的分类算法GLOA-SVM,并实验证明了算法在分类上的有效性;基于T-IG方法和GLOA-SVM算法设计并实现了一个中文文本分类原型系统,实验验证了T-IG方法和GLOA-SVM算法在中文文本分类领域的效果。
刘健[9](2009)在《面向信息检索的文本信息组织关键技术研究》文中研究指明信息检索系统是人们获取信息必不可少的工具,但是随着互联网的日益发展,信息资源呈现出了爆炸式增长的趋势,对信息检索系统带来了巨大的挑战。如何高效地组织、处理和管理这些信息,并快速、准确、全面地从中获得用户所需要的信息,是亟待解决的问题。多项研究表明,合理的信息组织是解决这一系列问题的关键环节。本文致力于综合运用文本分类/聚类技术、文本索引技术提高文本信息组织的性能与自动化程度,实现海量数据条件下的文本信息组织系统。目前,这些关键技术和方法在实际应用中还存在着很多不足之处,主要表现在:(1)现有文本聚类算法研究集中在如何提高算法的准确率与效率,忽视了聚类算法的有效性,如参数难以确定,算法仅对特定的数据分布有效等,导致算法难以满足文本主题挖掘的需求;(2)文本分类需要利用大量的有标记样本进行训练,而有标记样本在实际应用中又难以获取,这使得分类器的泛化能力较低,分类精度不能满足文本自动归类的要求;(3)文本采用向量空间模型表示使得文本向量高维且稀疏,严重影响了文本分类的效率与精度;(4)现有的索引模型都是针对西方语言设计,而中文与西方语言之间存在着较大的差异,这些索引模型都无法对中文文本建立理想的索引。本文针对这些问题,采用理论分析、实验研究等手段,重点研究了这些关键技术中的算法与模型,并提出了相应的解决方法,取得的主要研究成果如下:(1)针对文本集主题结构挖掘中聚类算法的有效性问题,提出了一种基于动态阈值选择模型的无参数局部密度聚类算法DTSLD。该算法首先在小波去噪中分层滤波思想的启发下,建立了分层阈值选取的动态阈值选择模型,对算法参数自动选取;其次,在RDBKNN算法的基础上进行改进,为了避免全局参数对算法的影响,提高参数选择的正确性,不再使用全局统一的近邻参数k,而是利用动态阈值选择模型为每个数据点选择各自合适的近邻,形成更为自然的邻域;相对密度阈值参数δ的选择也利用动态阈值选择模型进行选取,但采取不同的策略执行;最后,在文档集主题挖掘应用中,利用多项式核函数改进了文档相似度计算方法,使之更加适合于高维文本数据的聚类应用。相关实验表明,该算法易于使用,并且对各种云状、流形数据分布都具备很好的适应能力,能够充分满足文本集主题结构挖掘提出的有效性要求。(2)针对文本分类技术在自动文档归类应用中面临的小样本问题,提出了基于半监督学习与数据剪辑的直推式文本分类算法――Tri-ed-training-Tsvm。该算法的设计思路是将半监督学习算法与TSVM算法相结合,在初始训练样本不足时利用半监督学习算法对未标记样本的学习能力,逐步扩大训练集规模。再利用扩大后的训练集对TSVM进行训练,得到一个相对准确的分类面,从而屏蔽TSVM算法中的参数N,避免人为设置的困难与误差;然后利用TSVM算法中最大化两类样本间隔的方法,成对交换边界样本标记的以获得最佳的分类精度。此外,由于初始训练集规模较小时,半监督学习算法在扩大训练集的过程中势必会引入大量误标记和噪声数据,为弥补这一负面影响,本文引入了基于最近邻一致性约束规则的数据剪辑(data editing)技术对学习过程进行误标记样本修正、噪声数据剔除等净化操作,以提高扩大后的训练集质量。(3)针对文本数据采用向量空间模型表示,文本向量高维稀疏导致文本分类性能降低的问题,对文本降维技术中的特征选择方法进行了研究。首先在Fisher线性判别模型的基础上,从特征选择的角度出发,经理论推导与相关定理证明,提出了一种稳定性高、特征选择能力强的FS特征选择算法。其次,通过对互信息方法的实验与理论分析,对其进行了改进,摒弃了原算法中以特征项对某个类别最高的贡献度作为最终评估值的方法,利用特征对各个类别之间贡献度的差异作为评估标准,从而使其特征选择能力得到了极大提升。最后通过相关实验,分析验证了相关算法在文档降维中的准确率与时间效率,并且证明了yang等人关于特征选择的经典论文中提出的特征文档频数与分类能力存在相关性的结论存在错误。(4)针对现有索引模型无法建立高效中文文本索引的问题,首次提出了一种符合中文语言特点的字词混合一体化索引模型。该模型以互关联后继树索引模型为基础,利用其保存字符先后关系的特点,通过对叶节点结构的扩展,增加了词汇索引信息,实现了中文字、词一体化混合索引;同时,针对互关联后继树索引模型检索效率较低的缺陷,通过对原模型中后继树层次的扩展,将“根节点-叶节点”结构扩展为“根节点-分支节点-叶节点”结构,克服了原模型仅能顺序查找无法使用快速定位技术的缺点,极大提高了检索速度。实验表明,本文提出的一体化混合索引模型成功结合了字、词索引模型的优点,具有创建速度快、查询效率高的特点。与基于字的索引模型相比,检索速度及查准率有较大提高;与基于词的索引模型相比,在查全率方面有明显进步。(5)综合运用本文提出的关键技术,基于流程化、组件化、层次化的先进设计理念,实现了一个面向信息检索的文本信息组织平台,并且该平台已在多项科研任务与工程实践中得到了应用。
陈光[10](2009)在《优化K-近邻方法及其应用》文中研究指明K-近邻方法是一种基于统计的分类方法,是分类领域中比较常用的一种方法。针对当今存在的电子邮件泛滥的问题,在分类准确率较高的K-近邻方法的基础上,提出了利用渐进式思想及树状存储结构优化算法的思想。通过对电子邮件这一特殊文本群体进行分析,在保证分类准确率的基础上有效地提高分类效率。
二、基于k-近邻方法的渐进式中文文本分类技术(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、基于k-近邻方法的渐进式中文文本分类技术(论文提纲范文)
(1)子空间集成学习研究(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 子空间集成学习的意义及背景 |
1.2 子空间集成学习的起源和发展 |
1.3 子空间学习的主要难点和挑战 |
1.4 本文的主要工作 |
1.5 论文的章节和组织 |
第二章 子空间集成学习等相关理论的介绍 |
2.1 集成学习方法 |
2.2 集成学习中的子空间方法 |
2.2.1 分类集成与子空间分类集成学习 |
2.2.2 聚类集成与子空间聚类集成学习 |
2.2.3 半监督集成与子空间半监督集成学习 |
2.3 多视图学习 |
2.4 流数据学习 |
2.5 集成选择问题 |
2.6 本章小结 |
第三章 渐进式子空间集成分类 |
3.1 概述 |
3.2 渐进式子空间集成学习 |
3.2.1 渐进式子空间集成学习的概述 |
3.2.2 渐进式选择过程 |
3.2.3 算法的时间复杂度 |
3.3 实验 |
3.3.1 参数的影响 |
3.3.2 基分类器类型对分类结果的影响 |
3.3.3 渐进式选择过程的影响 |
3.3.4 与单一分类算法进行比较 |
3.3.5 与其他集成分类器进行比较 |
3.3.6 显着性测试 |
3.4 本章小结 |
第四章 基于混合多视图聚类方法的子空间聚类集成 |
4.1 概述 |
4.2 基于混合多视图聚类方法的子空间聚类集成 |
4.2.1 视图转换 |
4.2.2 基于随机变换和混合多视图学习的聚类集成框架 |
4.2.3 基于视图的自我演化过程 |
4.3 实验 |
4.3.1 参数的影响 |
4.3.2 视图转换方法的效果 |
4.3.3 不同多视图聚类算法对SORTHMC的结果的影响 |
4.3.4 RTHMC,SRTHMC和 SORTHMC算法的比较 |
4.3.5 与其他聚类集成方法进行比较 |
4.3.6 显着性测试 |
4.4 本章小结 |
第五章 基于双层优化的流数据子空间分类集成 |
5.1 概述 |
5.2 基于双层优化的流数据子空间分类集成 |
5.2.1 算法框架 |
5.2.2 基分类器与样本选择算法 |
5.2.3 子空间优化方法 |
5.3 实验 |
5.3.1 参数的影响 |
5.3.2 与其他流数据分类集成算法的对比 |
5.4 本章小结 |
结论 |
参考文献 |
攻读博士学位期间取得的研究成果 |
致谢 |
附件 |
(2)基于融合语义和BiLSTM的短文本分类技术研究(论文提纲范文)
中文摘要 |
abstract |
第一章 绪论 |
1.1 研究的背景及意义 |
1.2 国内外研究现状 |
1.3 主要研究工作 |
1.4 论文的组织结构 |
第二章 短文本分类相关技术介绍 |
2.1 短文本分类流程 |
2.2 短文本预处理与短文本表示 |
2.2.1 中文短文本分词 |
2.2.2 短文本语料去停用词 |
2.2.3 短文本表示 |
2.3 文本特征信息抽取 |
2.3.1 文档主题法 |
2.3.2 主成分分析法 |
2.3.3 传统的TF-IDF特征选择函数 |
2.4 短文本分类算法及模型 |
2.4.1 常见文本分类器 |
2.4.2 神经网络模型 |
2.5 短文本分类性能评价 |
2.6 本章小结 |
第三章 融合语义的特征选择方法的研究 |
3.1 影响文本特征提取的因素 |
3.1.1 短文本特征的语义性 |
3.1.2 短文本特征重要性 |
3.1.3 短文本特征降维 |
3.2 word2vec模型 |
3.3 改进word2vec模型 |
3.3.1 优化词向量更新 |
3.3.2 对比实验 |
3.4 融合语义的特征选择函数 |
3.4.1 类别相关系数 |
3.4.2 位置权重系数 |
3.4.3 特征长度系数 |
3.4.4 融合语义的特征选择评价函数 |
3.5 实验 |
3.5.1 实验数据预处理 |
3.5.2 不同分类器上的对比实验 |
3.6 本章小结 |
第四章 基于双向长短期记忆网络的文本分类研究 |
4.1 注意力机制 |
4.2 对抗训练 |
4.3 基于双向长短期记忆网络的文本分类研究 |
4.3.1 输入层 |
4.3.2 BiLSTM层 |
4.3.3 注意力机制层 |
4.3.4 模型优化层 |
4.4 基于深度学习的短文本分类实验 |
4.5 本章小结 |
第五章 总结与展望 |
5.1 总结 |
5.2 未来研究方向 |
参考文献 |
致谢 |
攻读学位期间发表的学术论文 |
(3)基于特征融合和biLSTM的短文本分类方法研究(论文提纲范文)
中文摘要 |
abstract |
第一章 绪论 |
1.1 研究的背景及意义 |
1.2 国内外研究现状 |
1.3 主要研究工作 |
1.4 论文的组织结构 |
第二章 短文本分类相关技术介绍 |
2.1 短文本分类流程 |
2.2 短文本预处理 |
2.2.1 中文短文本分词 |
2.2.2 短文本语料去停用词 |
2.3 短文本表示 |
2.3.1 布尔模型 |
2.3.2 向量空间模型 |
2.3.3 概率模型 |
2.4 文本特征信息抽取 |
2.4.1 信息增益 |
2.4.2 期望交叉熵 |
2.4.3 文档主题法 |
2.4.4 粗糙集 |
2.4.5 主成分分析法 |
2.5 短文本分类算法及模型 |
2.5.1 支持向量机(SVM) |
2.5.2 K近邻算法 |
2.5.3 朴素贝叶斯分类器 |
2.5.4 人工神经网络 |
2.6 短文本分类性能评价 |
2.7 本章小结 |
第三章 多因素融合提取短文本特征 |
3.1 影响文本特征提取的因素 |
3.1.1 短文本特征的语义性 |
3.1.2 短文本特征重要性 |
3.1.3 短文本特征降维 |
3.2 Word2vec模型 |
3.3 改进Word2vec模型 |
3.3.1 优化词向量更新 |
3.3.2 cygwin环境下利用改进后的Word2vec模型训练词向量 |
3.4 多因素融合的短文本分类方法建模 |
3.4.1 实验数据预处理 |
3.4.2 计算特征重要性 |
3.4.3 提取低维、语义化特征 |
3.4.4 构造特征选择评价函数 |
3.4.5 文本向量化及权重修正 |
3.5 特征融合短文本分类实验 |
3.6 本章小结 |
第四章 改进bi LSTM网络的短文本分类方法研究 |
4.1 循环神经网络 |
4.1.1 长短期记忆神经网络 |
4.1.2 双向长短期记忆神经网络 |
4.2 注意力机制 |
4.3 对抗训练 |
4.4 改进biLSTM网络的短文本分类方法研究 |
4.4.1 输入层 |
4.4.2 biLSTM层 |
4.4.3 注意力机制层 |
4.4.4 模型优化层 |
4.4.5 实验设置与数据处理 |
4.5 基于深度学习的短文本分类实验 |
4.6 本章小结 |
第五章 总结与展望 |
5.1 总结 |
5.2 未来研究方向 |
参考文献 |
致谢 |
攻读学位期间发表的学术论文 |
(4)基于遗传算法的模型参数选取及其在文本分类中的应用(论文提纲范文)
摘要 |
abstract |
第1章 绪论 |
1.1 研究背景 |
1.2 研究目的与研究意义 |
1.3 国内外研究现状 |
1.3.1 国内研究现状 |
1.3.2 国外研究现状 |
1.4 本文的主要研究内容 |
第2章 文本分类的基本理论 |
2.1 文本分类的基本流程 |
2.2 文本预处理 |
2.2.1 文本标记的预处理 |
2.2.2 中文分词的预处理 |
2.2.3 停用词的预处理 |
2.3 文本表示 |
2.4 特征处理 |
2.4.1 特征提取 |
2.4.2 特征加权 |
2.5 评价指标 |
2.6 小结 |
第3章 常用文本分类方法对比分析 |
3.1 朴素贝叶斯算法 |
3.2 K近邻算法 |
3.3 支持向量机算法 |
3.3.1 线性可分支持向量 |
3.3.2 线性不可分支持向量 |
3.3.3 多分类支持向量 |
3.3.4 核函数 |
3.4 文本分类算法对比 |
3.5 小结 |
第4章 SVM参数优化方法的改进 |
4.1 SVM参数 |
4.2 SVM参数优化方法 |
4.2.1 交叉验证法 |
4.2.2 网格搜索法 |
4.3 遗传算法优化SVM参数 |
4.3.1 遗传算法 |
4.3.2 遗传算法优化SVM参数 |
4.4 小结 |
第5章 基于GA-SVM与 GA-FCM的渐进式分群模型 |
5.1 GA-FCM算法 |
5.2实验 |
5.2.1 实验数据 |
5.2.2 实验设计 |
5.2.3 实验分析与实验结论 |
5.3 小结 |
第6章 结论 |
参考文献 |
致谢 |
(5)面向细分领域的舆情情感分析关键技术研究(论文提纲范文)
致谢 |
摘要 |
ABSTRACT |
1 绪论 |
1.1 研究背景与意义 |
1.1.1 研究背景 |
1.1.2 研究意义 |
1.2 相关任务简介 |
1.2.1 文本分类任务简介 |
1.2.2 情感分析任务简介 |
1.3 本文研究内容与结构 |
1.3.1 研究内容 |
1.3.2 论文结构 |
1.4 本文的主要创新点 |
2 相关研究综述 |
2.1 引言 |
2.2 文本表示方法 |
2.2.1 向量空间模型 |
2.2.2 潜在语义分析模型 |
2.2.3 隐藏狄利克雷分布模型 |
2.2.4 词嵌入模型 |
2.3 文本领域分类方法 |
2.3.1 朴素贝叶斯模型 |
2.3.2 K-近邻算法 |
2.3.3 支持向量机模型 |
2.4 文本情感分析方法 |
2.4.1 基于情感词典的情感倾向分析方法 |
2.4.2 基于特征学习的情感倾向分析方法 |
2.5 评测数据集与评价指标 |
2.5.1 评价指标 |
2.5.2 文本分类评测数据集 |
2.5.3 情感分析评测数据集 |
2.6 本章小结 |
3 基于注意力机制与对抗训练的文本分类方法 |
3.1 引言 |
3.2 基于注意力机制与对抗训练的文本分类模型 |
3.2.1 基于LSTM和GRU节点的循环神经网络分类模型 |
3.2.2 基于注意力机制的双向LSTM和GRU分类模型 |
3.2.3 基于词嵌入扰动的对抗训练 |
3.3 实验 |
3.3.1 数据集 |
3.3.2 数据预处理 |
3.3.3 实验参数的设置 |
3.3.4 实验结果与分析 |
3.4 本章小结 |
4 融合分段卷积神经网络与生成对抗网络的情感分析方法 |
4.1 引言 |
4.2 融合PCNN与GAN的情感分析模型 |
4.2.1 基于卷积神经网络的情感分析模型 |
4.2.2 基于分段池化卷积神经网络情感分类模型 |
4.2.3 基于生成对抗网络的多领域共同情感特征提取 |
4.3 实验 |
4.3.1 数据集 |
4.3.2 数据预处理 |
4.3.3 实验参数的设置 |
4.3.4 实验结果与分析 |
4.4 本章小结 |
5 基于门控单元的R-CNN与C-RNN集成情感分析方法 |
5.1 引言 |
5.2 基于R-CNN的文本情感特征提取模型 |
5.2.1 基于RNN的词汇级语义特征提取 |
5.2.2 基于R-CNN的句子级语义特征提取 |
5.3 基于C-RNN的文本情感特征提取模型 |
5.3.1 基于卷积神经网络的局部情感特征提取 |
5.3.2 基于C-RNN的句子级特征提取 |
5.4 基于门控单元的R-CNN与C-RNN集成情感分析模型 |
5.4.1 基于门控单元的特征融合 |
5.4.2 Softmax分类器获取评论情感倾向 |
5.5 实验 |
5.5.1 数据集 |
5.5.2 数据预处理 |
5.5.3 实验参数的设置 |
5.5.4 实验结果与分析 |
5.6 本章小结 |
6 融合群稀疏与排他性稀疏正则项的情感分析模型 |
6.1 引言 |
6.2 深度学习模型压缩简介 |
6.3 基于群稀疏正则项的卷积滤波器神经元节点剪枝 |
6.4 基于排他性稀疏正则项的神经元连接剪枝 |
6.5 融合群稀疏与排他性稀疏正则项的情感分析压缩模型 |
6.6 融合群稀疏与排他性稀疏正则项的情感分析模型优化 |
6.7 实验 |
6.7.1 数据集 |
6.7.2 数据预处理 |
6.7.3 实验参数的设置 |
6.7.4 实验结果与分析 |
6.8 本章小结 |
7 客户满意度分析原型系统的设计与实现 |
7.1 引言 |
7.2 客户满意度分析原型系统需求分析 |
7.2.1 客户关系管理业务流程 |
7.2.2 原型系统需求分析 |
7.3 原型系统架构 |
7.4 原型系统的实现与应用 |
7.5 原型系统模拟测试 |
7.5.1 原型系统效率模拟测试 |
7.5.2 原型系统性能模拟测试 |
7.6 本章小结 |
8 总结与展望 |
8.1 总结 |
8.2 未来工作的展望 |
参考文献 |
作者简历及攻读博士学位期间取得的研究成果 |
学位论文数据集 |
(6)面向社会化商务的产品缺陷识别模型构建及算法改进研究(论文提纲范文)
摘要 |
abstract |
第一章 绪论 |
第一节 研究背景 |
第二节 研究目的与意义 |
第三节 文献综述 |
第四节 研究内容 |
第五节 技术路线及研究方法 |
第二章 文本挖掘相关理论概述 |
第一节 文本挖掘 |
第二节 中文信息处理 |
第三节 特征选择 |
第四节 文本分类 |
第五节 文本聚类 |
第六节 本章小结 |
第三章 面向社会化商务的产品缺陷识别模型构建 |
第一节 传统社交媒体分析框架SMART |
第二节 SMART框架的改进 |
第三节 面向社会化商务的产品缺陷识别模型构建 |
第四节 本章小结 |
第四章 虚假评论识别PESI模型及识别算法SD_DCOF |
第一节 虚假评论识别研究中存在的问题 |
第二节 虚假评论识别PESI特征模型的提出 |
第三节 基于PESI模型的虚假评论识别处理流程 |
第四节 虚假评论识别算法改进——SD_DCOF算法 |
第五节 基于SD_DCOF算法的虚假评论识别实验设计 |
第六节 本章小结 |
第五章 社会化商务中产品缺陷文本分类研究 |
第一节 产品缺陷识别流程 |
第二节 产品缺陷特征集构建 |
第三节 产品缺陷特征选择 |
第四节 基于支持向量机的产品缺陷分类 |
第五节 产品缺陷识别分类结果评价 |
第六节 本章小结 |
第六章 产品缺陷特征提取及基于LDA模型的聚类方法改进 |
第一节 传统文本聚类模型 |
第二节 产品特征聚类LDA主题模型改进——CLDA模型 |
第三节 面向社会化商务的产品特征聚类流程 |
第四节 基于CLDA模型的手机产品实验分析 |
第五节 本章小结 |
第七章 结论与展望 |
第一节 理论贡献 |
第二节 管理启示 |
第三节 工作展望 |
参考文献 |
攻读学位期间的研究成果 |
附录 |
致谢 |
(7)基于Markov随机游走的渐进式半监督文本分类研究(论文提纲范文)
摘要 |
Abstract |
1 引言 |
1.1 研究背景及研究意义 |
1.2 本文工作 |
1.3 本文的内容组织 |
2 半监督学习 |
2.1 半监督学习的概念及意义 |
2.2 半监督学习的研究现状 |
2.3 半监督学习的算法 |
2.3.1 Co-training 算法 |
2.3.2 Self–training |
2.3.3 半监督支持向量机 |
2.3.4 基于图的方法 |
2.4 本章小结 |
3 文本分类关键技术 |
3.1 文本分类问题描述 |
3.1.1 文本分类的定义 |
3.1.2 文本自动分类系统 |
3.2 文本预处理 |
3.2.1 去除文档中的格式标记 |
3.2.2 过滤非法字符和字母大小写转换 |
3.2.3 去除停用词、稀有词和词干化处理 |
3.2.4 中文分词 |
3.3 文本表示模型 |
3.4 几种文本特征选择方法 |
3.4.1 信息增益 |
3.4.2 期望交叉熵 |
3.4.3 互信息(MI) |
3.4.4 基于文档频率(Document Frequency,DF)的方法 |
3.4.5 χ~2统计量 |
3.5 常用的文本分类方法---文本分类方法 |
3.5.1 K 近邻 |
3.5.2 Rocchio 分类方法算法 |
3.5.3 支持向量机 |
3.5.4 朴素贝叶斯 |
3.6 分类器性能评估 |
3.7 本章小结 |
4. 基于 MARKOV 随机游走的渐进式半监督文本分类研究 |
4.1 MARKOV 随机游走图的生成 |
4.2 基于 MARKOV 随机游走半监督分类模型 |
4.3 加入渐进学习思想的半监督 MARKOV 随机游走模型 |
4.4 本章小节 |
5 实验设计及结果分析 |
5.1 实验准备 |
5.2 实验设计 |
5.2.1 初始点的选择 |
5.2.2 对比试验设计 |
5.3 参数调整 |
5.3.1 剪枝邻接点数k 的选择 |
5.3.2 衰减函数参数α值的选择 |
5.3.3 最优游走步数t的选择 |
5.4 实验结果及分析 |
5.5 本章小结 |
6 总结与展望 |
6.1 总结 |
6.2 未来工作 |
参考文献 |
简历 |
致谢 |
(8)中文文本分类算法研究(论文提纲范文)
摘要 |
Abstract |
目录 |
1 绪论 |
1.1 课题背景及研究意义 |
1.2 国内外研究现状 |
1.2.1 国外研究现状 |
1.2.2 国内研究现状 |
1.3 本文主要工作 |
1.4 本文内容安排 |
2 文本分类相关技术 |
2.1 文本分类概述 |
2.2 文本预处理 |
2.2.1 中文分词 |
2.2.2 去除停用词 |
2.3 文本表示模型 |
2.3.1 布尔逻辑模型 |
2.3.2 向量空间模型 |
2.4 文本特征约简 |
2.5 文本分类方法 |
2.5.1 朴素贝叶斯 |
2.5.2 KNN |
2.5.3 决策树方法 |
2.5.4 人工神经网络 |
2.5.5 支持向量机 |
2.6 多分类问题 |
2.7 分类评价方法 |
2.8 本章小结 |
3 支持向量机理论 |
3.1 统计学习理论 |
3.1.1 VC维 |
3.1.2 结构风险最小化原则 |
3.2 支持向量机 |
3.2.1 支持向量机理论 |
3.2.2 最优超平面 |
3.3 支持向量机存在的问题 |
3.4 本章小结 |
4 基于Theil熵的信息增益方法 |
4.1 常用的文本特征选择方法 |
4.2 信息增益评价方法目前存在的问题 |
4.3 一种改进的信息增益方法 |
4.3.1 Theil熵 |
4.3.2 一种基于Theil熵改进的信息增益方法 |
4.4 本章小结 |
5 基于GLOA的支持向量机算法 |
5.1 支持向量机参数选取问题 |
5.1.1 实验与数据分析 |
5.1.2 结论 |
5.2 GLOA算法 |
5.3 一种基于GLOA的SVM算法 |
5.3.1 算法描述 |
5.3.2 实验与数据分析 |
5.4 本章小结 |
6 中文文本分类系统设计及实验 |
6.1 总体流程及模块设计 |
6.2 系统开发平台与开发环境 |
6.3 系统原型详细设计 |
6.3.1 语料库处理 |
6.3.2 预处理模块 |
6.3.3 特征选择模块 |
6.3.4 向量空间组建模块 |
6.3.5 分类模块 |
6.3.6 结果评价模块 |
6.4 实验组一:验证T-IG方法在中文文本分类上的有效性 |
6.5 实验组二:验证GLOA-SVM算法在中文文本分类上的有效性 |
6.6 本章小结 |
7 展望与总结 |
7.1 研究工作总结 |
7.2 后续工作与展望 |
致谢 |
参考文献 |
(9)面向信息检索的文本信息组织关键技术研究(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 研究背景与意义 |
1.1.1 信息检索对文本信息组织的需求 |
1.1.2 文本分类/聚类技术在文本信息组织中的作用 |
1.1.3 混合索引模型在文本信息组织中的作用 |
1.2 相关领域研究进展 |
1.2.1 文本表示研究进展 |
1.2.2 文本分类技术研究进展 |
1.2.3 文本聚类技术研究进展 |
1.2.4 文本索引模型技术研究进展 |
1.3 相关研究工作的不足 |
1.4 本文主要工作 |
1.5 论文结构 |
第二章 基于无参数聚类算法的文本集主题结构挖掘 |
2.1 引言 |
2.2 问题分析 |
2.2.1 问题提出 |
2.2.2 相关工作的不足 |
2.3 动态阈值选择模型 |
2.3.1 设计思路 |
2.3.2 动态阈值选择方法 |
2.4 无参数局部密度聚类算法DTSLD |
2.4.1 动态近邻选择 |
2.4.2 相对密度阈值自动选取 |
2.4.3 DTSLD 算法基本定义 |
2.4.4 DTSLD 算法流程描述 |
2.4.5 DTSLD 算法性能分析 |
2.5 DTSLD 在文本集主题结构挖掘中的应用 |
2.5.1 文本相似度计算方法分析 |
2.5.2 基于核方法的文本相似度计算方法 |
2.6 实验与分析 |
2.6.1 实验设置 |
2.6.2 DTSLD 算法有效性分析 |
2.6.3 RDBKNN 参数敏感性分析 |
2.6.4 DTLSD 自动参数选择分析 |
2.6.5 DTSLD 算法在文本集主题挖掘中的实验 |
2.6.6 DTSLD 算法效率分析 |
2.7 小结 |
第三章 基于直推式分类算法的文本自动归类 |
3.1 引言 |
3.2 问题分析 |
3.2.1 利用未标记样本辅助学习的基本原理 |
3.2.2 现有工作的不足 |
3.3 基于半监督学习与数据剪辑的直推式文本分类算法 |
3.3.1 训练集扩充方法 |
3.3.2 扩充训练集数据剪辑方法 |
3.3.3 边界样本的处理方法 |
3.3.4 Tri-ed-training-Tsvm 算法流程描述 |
3.3.5 Tri-ed-training-Tsvm 算法复杂度分析 |
3.4 实验与分析 |
3.4.1 实验设置 |
3.4.2 实验数据 |
3.4.3 Tri-ed-training-Tsvm 算法与其他两种算法准确率比较 |
3.4.4 有标记样本数量对算法的影响分析 |
3.4.5 数据剪辑对训练集扩大的作用分析 |
3.5 小结 |
第四章 基于特征选择的文本数据降维 |
4.1 引言 |
4.2 基于Fisher 线性判别模型的FS 文本特征选择算法 |
4.2.1 Fisher 线性判别模型 |
4.2.2 FS 文本特征选择算法 |
4.3 基于互信息的改进特征选择算法MI-1 |
4.3.1 互信息特征选择算法分析 |
4.3.2 MI 算法的改进 |
4.4 实验与分析 |
4.4.1 三种常用的文本特征选择方法 |
4.4.2 评价标准 |
4.4.3 实验数据 |
4.4.4 降维算法运行时间比较 |
4.4.5 降维算法对文本分类准确率的影响 |
4.4.6 降维算法对文本分类效率的影响 |
4.4.7 特征评估值与DF 相关性分析 |
4.5 小结 |
第五章 字词混合一体化中文索引模型 |
5.1 引言 |
5.2 设计思路 |
5.2.1 互关联后继树模型 |
5.2.2 互关联后继树模型分析 |
5.2.3 混合索引的构建 |
5.3 基于互关联后继树的字词混合索引模型MWIRST |
5.3.1 基本定义 |
5.3.2 存储结构 |
5.3.3 相关算法 |
5.4 实验与分析 |
5.4.1 评价标准 |
5.4.2 实验设置 |
5.4.3 时间复杂度分析 |
5.4.4 空间复杂度分析 |
5.4.5 查全查准率分析 |
5.4.6 查询完备性与动态性分析 |
5.5 小结 |
第六章 面向信息检索的文本信息组织平台 |
6.1 引言 |
6.2 平台总体框架 |
6.2.1 总体结构 |
6.2.2 总体工作流程 |
6.3 主要功能模块的设计与实现 |
6.3.1 文本预处理模块 |
6.3.2 文本管理模块 |
6.3.3 文本索引模块 |
6.4 小结 |
第七章 结论与展望 |
7.1 本文的主要贡献与创新点 |
7.2 未来的研究工作 |
致谢 |
参考文献 |
攻读博士学位期间发表的学术论文 |
攻读博士学位期间所获科研奖项 |
四、基于k-近邻方法的渐进式中文文本分类技术(论文参考文献)
- [1]子空间集成学习研究[D]. 王大兴. 华南理工大学, 2020(01)
- [2]基于融合语义和BiLSTM的短文本分类技术研究[D]. 王娇娇. 太原科技大学, 2020(05)
- [3]基于特征融合和biLSTM的短文本分类方法研究[D]. 李文慧. 太原科技大学, 2019(04)
- [4]基于遗传算法的模型参数选取及其在文本分类中的应用[D]. 赵冬. 河北大学, 2019(08)
- [5]面向细分领域的舆情情感分析关键技术研究[D]. 杜昌顺. 北京交通大学, 2019(01)
- [6]面向社会化商务的产品缺陷识别模型构建及算法改进研究[D]. 吴剑云. 青岛大学, 2018(07)
- [7]基于Markov随机游走的渐进式半监督文本分类研究[D]. 陈秀平. 江西师范大学, 2012(08)
- [8]中文文本分类算法研究[D]. 马鹏飞. 南京理工大学, 2012(07)
- [9]面向信息检索的文本信息组织关键技术研究[D]. 刘健. 国防科学技术大学, 2009(04)
- [10]优化K-近邻方法及其应用[J]. 陈光. 福建电脑, 2009(02)