数字图书馆中词频提取和自动文本分类方法的研究

数字图书馆中词频提取和自动文本分类方法的研究

任美睿[1]2002年在《数字图书馆中词频提取和自动文本分类方法的研究》文中研究说明数字图书馆是一个新兴的、涉及到互连网、多媒体、数据仓库、数据挖掘、版权保护等诸多技术的计算机应用领域,应用和商业前景非常广阔。现在国内外对数字图书馆的研究刚刚起步。 我们在吸取前人经验的基础上,基于机群并行计算环境研制了一个并行数字图书馆系统,该系统除了具备现有数字图书馆的一些功能外,还可以根据用户的资源特点创建适合自己图书馆的元数据模式和分类体系模式。此外,该系统还提供了基于结构和内容的查询,这些功能是其它数字图书馆系统所做不到的。 本文设计并实现了数字图书馆中的词频提取和自动文本分类子系统,其中自动文本分类子系统克服了现有文本分类系统把文本类看作是互不相交的,处在一个平面层次上的弊端,依据数字图书馆中分类体系模式,实现了基于朴素贝叶斯原理的层次化自动文本分类。并提出了一个在特征提取阶段的有效的特征向量降维方法。在词频提取子系统中,本文根据中文词和英文词串的特点设计了一个高效的散列算法,这种散列方法能够较均匀地将文本中的词散列到散列表中,并快速定位到词的入口,有效提高了词频提取的效率。此外,本文还研究了基于向量空间模型的自动文本分类方法,提出了一个新的词权重计算方法,该方法有效提高了分类精度。

李书明[2]2011年在《数字化学习中知识组织模型及应用研究》文中研究表明数字教育资源是数字化学习的核心。教育资源因信息爆炸性增长造成了广大学习者的认知过载,一方面存在海量的信息资源,另一方面却难以发现符合个人需求的资源。这要求传统的信息资源组织与服务方式应向更简洁、准确的知识服务发展。知识服务以知识为对象,通过教育资源的描述、分类、关联等组织策略,为学习者提供个性化的资源检索、导航、推送等服务,并成为数字化学习中教育资源有效应用研究的热点问题。数字教育资源与学科知识分类体系密切关联,具有知识性、逻辑性、专业性等特点。传统的资源组织方法,如主题词表、分类法、元数据描述法等难以满足海量教育资源的内在关联关系,实现教育资源的有效组织和管理,导致教育资源的应用效率、效果低下。另一方面,由于数字教育资源包含的学科门类众多、知识体系各异、语义关系特征复杂,对面向学科的知识理解和语义互联的知识组织方法提出新的需求。针对教育资源应用中存在的问题,论文研究基于学科本体的知识组织模型,结合教育技术标准、自然语言处理(NLP)等技术,研究教育信息资源特征信息自动提取方法,以及学科自动分类机制,探索知识组织模型应用策略和方法。论文的主要研究工作体现在:(1)教育资源知识组织模型。论文构建了基于学科本体的教育资源组织模型,包括资源语义特征、元数据特征以及关联特性等。论文构建的基于学科本体的教育资源组织模型包括资源实体层,资源逻辑层、资源本体层和用户接口层,通过逻辑描述和和组织,屏蔽资源实体的不一致,解决教育资源在知识表示上的异质性问题,为提高用户的访问和查询效率提供有效支持。此外,论文以教育技术学学科为例,参照《中国图书馆分类法》的分类体系,建立了教育技术学教育资源的知识组织分类体系,通过实例分析的方式来验证与分析模型的有效性。(2)面向学科的教育资源元数据自动提取方法。论文将教育资源描述信息划分为描述类元数据和语义内容类元数据,提出了一种面向学科的、规则和统计模型有机结合的教育资源元数据自动提取方法。该方法结合关键词、位置、文档结构信息等特征进行描述类元数据自动抽取,结合学科主题词、学科知识分类体系等,采用统计学习的方法抽取语义内容类元数据信息。论文设计和实现了教育资源元数据抽取系统,对教育技术学的2000多篇期刊论文进行了可行性实验证明。(3)面向学科特征的教育资源自动分类方法。论文提出了一种面向学科的、基于主题词特征的教育资源自动分类方法。论文结合教育技术学学科知识分类体系,构建一个面向学科的教育资源主题分类模型;并以教育技术学主干课教材以及核心期刊论文作为知识源,研制了教育技术学主题分类词表;通过构建面向学科的主题特征抽取方法、以及基于学科主题的文档分类方法,提出了一种面向学科的、基于主题词的学科分类策略,并开发了面向教育技术学学科的教育资源自动分类系统。实验结果验证了面向学科的教育资源自动分类方法有效性。(4)基于知识组织的教育资源导航原型系统及应用研究。将教育资源知识组织模型应用于数字教育资源的组织、导航与检索,构建基于知识组织模型的数字教育资源导航原型系统。论文以教育技术学学科为应用背景,利用教育资源知识组织模型实现了教育技术学学科网站的知识组织,实现对网络教育资源的分类导航。论文的特色之处体现在:1)构建了基于学科本体的教育资源组织模型,建立了教育技术学教育资源的知识组织分类体系,通过实例分析的方式来验证与分析模型的有效性。2)基于学科知识分类特征,提出了一种规则和统计模型有机结合的教育资源元数据自动提取方法。3)提出了一种面向学科特征的教育资源自动分类方法。研究成果对于面向教育的知识服务体系建设具有一定的理论和实践指导意义。

王询[3]2011年在《面向航运领域的文本分类系统》文中认为目前世界上许多国家已开始着手数字文献的整理与永久保存工作,研究和探讨数字文献的开放获取与共享、知识库的领域专业化和图书馆的数字化等数字资源建设问题。在我国航运信息文献库的建设和维护过程中,同样面临航运专业文献尤其是网络文献人工分类的精度低、时效性差和代价高等严重问题,必须借助自动分类技术加以解决。本文在描述文本自动分类常用技术方法的基础上,通过深入研究文本分类技术及相关算法,包括分词、特征提取、训练、性能评估等几个主要部分内容,针对航运领域的文献特点,开展了面向航运领域文本分类系统的需求分析和总体设计。构建了用于对航运领域专业文献进行文本分类所使用的语料库以及必要的航运专业文献的分类体系,并完成了对语料库中文本的预处理工作。进而,在系统中采用五种文本分类方法,实现了对航运领域专业文献大规模真实文本的文本自动分类工作,并进行了实验验证和结果分析。分类中实现的算法包括最邻近、朴素贝叶斯、支持向量机、决策树和类中心分类五种常用的文本分类方法。通过列举大量的实验数据,分析出了各分类器在不同类别样本上分类能力的差异性。建立面向航运领域的中英文文本分类系统,能够极大地推动我国航运信息资源建设进程,带动相关领域信息资源建设的迅速发展,具有重要社会意义和科学研究价值。通过实验分别对以上算法进行了评测和比较,得到了相关参数的经验值,实验数据可用于航运领域文献的信息检索、信息过滤、图书馆文献分类等研究中。

王占一[4]2012年在《Web文本挖掘中若干问题的研究》文中认为随着互联网和电信网的飞速发展,网络文本成为信息的重要载体及不可或缺的主要来源。Web文本挖掘采用数据挖掘、模式识别、信息检索、自然语言处理等学科的知识,解决如何从纷繁复杂的文本信息中获取可理解、易用的知识的问题。本文针对Web文本挖掘中文本分类、短信过滤、信息检索和复杂网络等若干关键问题进行了如下的研究:(1)多类文本分类。本文针对纠错输出编码法ECOC (Error Correcting Output Code)在解码方面的不足,提出了一种基于支持向量机和概率纠错输出编码的多类文本分类算法。通过构造合适的编码矩阵训练多个两类分类器,并采用Sigmoid函数使其决策函数值概率化。提出两种判别测试文本类别的解码方式:类序列概率计算法和求编码矩阵伪逆法。在标准中英文数据集上的实验结果表明,本文的方法优于ECOC法传统的解码方法及其他经典分类算法。在样本类别分布不均的情况下,该算法仍保持较稳定的准确率。(2)演进式垃圾短信过滤。针对垃圾短信过滤中存在的内容变化快、用户个性强、训练样本少等问题,本文提出了一种演进式垃圾短信过滤算法和系统。首先提出了基于朴素贝叶斯分类器的演进式基本过滤算法和系统,主要创新点在于灵活的用户反馈方式、自适应学习和进化学习。根据用户使用手机的习惯,提出叁种个性化反馈训练样本和类别标签的方式。自适应学习和进化学习的功能分别是更新短信模型中各特征项的权重及特征项本身。为了解决短信训练样本少且精度要求高的问题,提出一种基于中间层映射的垃圾短信过滤算法。实验结果表明,演进式短信过滤方法能够有效接收以数据流传入的短信,并自动更新过滤器。基于中间层映射的过滤算法精度收敛迅速,且在训练样本充足后可与传统分类算法结合使用,继续提高过滤精度。(3)面向Web实体的搜索。本文以参加的文本检索会议TREC(Text REtrieval Conference)评测的实体追踪(Entity Track)任务为主线,针对网页中的实体提出了一系列挖掘和检索的算法。实体抽取采取了手工辅助自动、规则结合统计的方法,创建了包含多个类型的实体词典。为实体排序提出了文档中心模型DCM(Document-Centered Model)和实体中心模型ECM (Entity-Centered Model),并在此基础上引入语义类别标签,提高检索的精度。另外,基于网页中实体应存在唯一标识的设定,提出了基于规则的主页分配算法。排名第一的评测结果验证了算法的有效性。另一方面,在半结构化的英文维基百科数据集上测试,引入语义类别标签将原有两种模型算法的NDCG指标分别提升了12.1%和25.6%。(4)基于激活力和亲和度的复杂网络建模与应用。本文以自然语言文本为例,通过词频、共现、距离等统计量模拟生物学和心理学上的词激活效应,计算词激活力WAF (Word Activation Force)。基于WAF计算词的亲和度,建立无向的词网络,研究词的语义相似性在此基础上,将WAF和亲和度用于文本表示、特征选择和文本分类。本算法还可以用来对蛋白质相互作用网络建模,分析蛋白质的关联性除此之外,实体的亲和度还有助于改善实体检索的排序效果。实验结果表明基于激活力和亲和度的复杂网络建模对Web文本挖掘具有重要意义。

陈果[5]2015年在《基于领域概念关联的网络社区知识聚合研究》文中研究表明本文从网络社区用户知识交流特征出发,提出一种用户需求的知识聚合方案。网络社区知识组织的主要依据是用户交流内容中的主题及其对应的领域概念关联。因此网络社区知识聚合的核心是构建面向特定领域的概念关联体系。传统知识组织体系不能很好地满足网络社区中的知识聚合需求,因此本文研究的重点为通过融合已有的领域背景知识体系和基于UGC内容挖掘生成的知识关联体系,构建领域多元概念关联体系;以此为支撑实现面向网络社区的多维知识聚合。第一章研究网络社区知识聚合的模式问题。首先,在分析网络社区用户交流特征的基础上讨论了其知识聚合需求,在回顾网络社区知识聚合发展路径的基础上,重点探讨了概念知识关联的特征与形式,以此为基础提出了网络社区知识聚合的模式。第二章以领域知识分析为视角,讨论基于领域概念关联的网络社区知识聚合模型构建问题。在引入领域知识分析视角的基础上,进一步讨论了以领域知识为背景的领域概念关联的特征,及其在知识组织中的作用机制。在此基础上,提出了包括领域多元概念关联体系构建流程和基于概念关联的网络社区知识聚合实现方案在内的总体模型。第叁章研究领域结构化概念关联体系的构建。通用性和专业性的结构化知识组织体系(分类法、主题词表、本体、主题图等)为构建面向特定领域的结构化概念关联体系提供了基础,因此从已有的结构化概念关联体系中提取领域概念单元、合并概念关联是最直接的方案。另一方面,大多数领域都缺乏可利用的有针对性的结构化知识组织体系,因此从其他资源途径获取领域概念单元和概念关联有其必要性。本文讨论了基于用户用词领域概念单元抽取、基于资源内容挖掘的领域概念单元抽取、基于资源挖掘的领域概念关联识别等问题;并进一步阐述了如何将这些从其他资源途径获取的领域概念关联体系基本元素与已有的概念关联体系进行合并,包括概念映射和标准化、概念关联合并等问题。领域结构化概念关联体系的形式化是后续知识利用的基础,通过对比SKOS和OWL 2两种语言对概念关联体系的表述细节,本文选定基于OWL 2语言的领域结构化概念关联体系形式化方案。为了检验上述思考和方案的有效性,本文开展了基于主题词表和百科内容挖掘的心血管领域结构化概念关联体系构建实验。第四章研究领域共现型概念关联体系的构建,其思路是从网络社区用户交流内容中挖掘概念关联。文本图模型为概念单元在用户交流内容中的共现关系表示提供了理论基础,通过探讨基于文本图模型的领域概念共现网络构建流程,本文将领域共现型概念关联体系划分为两大阶段。其一是由用户交流文本集向概念共现关系矩阵转化,核心步骤包括文本集构建、中文切分词与同义词合并、领域术语识别、概念共现关系提取与共现矩阵构建;其二是概念共现关系矩阵向概念共现网络的转化,核心步骤包括概念共现关系强度的标准化、概念相似度计算、基于相似度的概念关联边强度映射和概念共现网络生成。根据上述思路和方案,本文以着名的医学社区丁香园为例,选定其中影响力较大的心血管论坛作为对象,构建了基于用户交流内容挖掘的心血管领域共现型概念关联体系。第五章研究领域多元概念关联体系的融合。本部分研究开展的前提是探讨结构化概念关联体系和共现型概念关联体系融合的机理,在对两者优劣势分析的基础上可提出基于优势互补的融合原则,并制定将结构化概念关联体系中的概念内涵、概念和关联类型、层次组织结构赋予共现型概念关联体系的融合方案。融合方案的实现主要体现为体系间元素映射,包括概念术语映射和语义关系映射,在语义映射部分重点探讨了语义相似度融合方案和细粒度关系发现两个问题。此后,通过对多元概念关联体系融合后的数据关系进行梳理,确立了基于关系数据模型的多元概念关联体系形式化方案。在实验部分,对前文已构建的心血管领域结构化概念关联体系和共现型概念关联体系进行了融合。第六章研究基于多元概念关联体系的网络社区知识聚合实现问题。在探讨了多元概念关联体系对网络社区知识聚合作用机制的基础上,本部分提出了以知识单元粒度和知识聚合形式为维度的多维知识聚合模式。此后,分别对不同知识单元粒度的知识类聚和知识共聚方案和实现方法进行了探讨。知识共聚方案是本文有别于传统知识聚合形式的创新点,以概念单元的多维度和细粒度关联为支撑,可实现网络社区分面检索与导航、主题多维推荐、知识元链接体系构建和资源关联发现等功能。在实验部分,专门针对丁香园心血管论坛的知识聚合方案实现进行了实验。

李慧[6]2016年在《面向商业舆情的网络智能分析系统研究与实现》文中研究表明互联网的低门槛、快速、互动量大等特点,使民意、言论自由都得到了空前展现,网络舆情成为影响着执政者的决策行为的重要因素。目前国内外商业竞争加剧、消费者的消费意识与自我保护意识逐渐成熟,而市场上商业机构危机应对能力薄弱,这就凸显了网络商业舆情引导策略的重要性。国外舆情系统体系较为完整,而目前国内网络舆情系统多偏向于政府应用、军事监管,涉及商业应用的舆情系统寥寥无几,且构建舆情系统的技术繁杂,多种算法直接影响到舆情信息提取的精确度。本课题将面对舆情分析中的几种主要技术,针对提高聚类和信息提取精度的技术进行研究分析,主要工作如下:1.结合现有的几种舆情语料库,针对商业内容进行提取,对爬取的信息采用布尔模型进行粗分,再使用向量空间模型进行表征,减小了后续聚类文本的数量,也为提高聚类精度提供了可能。2.根据TF-IDF文本表示方法的思路提出一种新的EM-NWTF算法,重点处理公式中IDF因子的计算方式、增加位置考虑和分部状况设置加权系数,结合布尔模型粗分后的结果,计算不同类别间的反文档频率,解决了原算法中生僻词影响、同类文本区分度低的问题;主要依靠增加位置权重和强调因子,在算法精度和复杂度间取得平衡,前者考虑首尾段落中特征值的重要性,后者考虑文本中间段落特征值均匀分布的状况。仿真分析影响算法精度的相关原因。3.针对K-means算法事先要求给出聚类数目K、对噪声敏感、初始中心影响大等缺点,在此基础上提出Miniter-means算法,采用相似度度量文本间距离,设定阈值过滤噪声和孤立点,增加影响系数,用已聚类的簇生成新聚类簇质心的新方法进行计算。设计仿真实验,对比两种算法的性能与鲁棒性,分析算法精度与相关参数。4.为提高海量数据并发处理效率,在Hadoop分布式平台对上述新算法及优化措施进行运行和测试,并进行效果分析。

黄建年[7]2009年在《农业古籍的计算机断句标点与分词标引研究》文中指出中国文化典籍是中华民族在数千年历史发展过程中创造的重要文明成果,蕴含着中华民族特有的精神价值、思维方式和想象力、创造力,是中华文明绵延不绝的历史见证,也是人类文明的瑰宝。对古籍的整理、保护与开发是炎黄子孙应尽的义务和职责。中国的古籍整理,有着悠久的历史和传统。从孔子删定《六经》、刘向父子编撰《七略》,到清人编定《四库全书》、《古今图书集成》,大规模的古籍整理持续不断,影响深远。建国后古籍整理领域取得的巨大成就举世瞩目,目前仅整理出版的农业古籍就达140余种。尽管如此,农业古籍的整理与开发仍然不足,已经整理出版的农业古籍只占全部存世农业古籍的15%左右,大量的农业古籍亟待整理。中国古籍的断句标点最晚于东汉时期已经开始了,其后各代这一工作连绵不绝,只是盛衰易势,治乱更迭而已。明代《永乐大典》所收各书无一不加圈点,而综观清代《四库全书》却无一圈一点。虽同为官方编撰类书,然差距之大、观念之异令人惊奇。民国后新式标点兴起,古籍断句标点之风方始流行,新中国建立后政府更是极力推动,新式标点整理古籍因而数量渐增。1989年我国制订《信息处理现代汉语分词规范》,然以现代文本为处理对象,而应用于古籍整理领域的专用古籍文本的分词规范尚未引起注意。正是基于这一现状,本文以农业古籍为研究对象,研究了农业古籍的断句标点、分词以及索引编制的历史与现状,重点探讨了计算机技术在农业古籍断句标点、分词标引中的应用,构建了农业古籍断句标点、分词标引的原型系统。主要研究内容如下:1)借鉴文本模式匹配、句法分析等技术,研究并设计出农业古籍自动断句标点的算法,设计出农业古籍断句标点的原型系统。通过对约2,000万汉字古籍文本语料的统计与分析,总结出断句标点常用的11种方法。首先采用句法特征词、同义语标志词进行初步断句;进而利用反义复合词、引书标志、时序词、数量词、重迭字词、动名结构词及比较句法进一步对子句进行断句、标点;最后使用农业用语和禁用模式进一步提高断句、标点后农业古籍的可读性和准确性。根据这些断句标点方法与规则,采用自动构建与人工优化相结合的办法构建了断句标点模式库与断句标点禁用模式库2类断句标点知识库。两者共同保证了断句标点功能的正常开展,目前已经构建的标点模式库共有1,166条规则,断句标点禁用模式库共184条规则。依据这些断句标点规则,利用本系统对6种农业古籍的断句标点测试,取得了60.5%的断句正确率与40.5%的标点正确率。2)借助N元分词、词典分词等技术,设计出农业古籍自动分词专用算法,设计出农业古籍分词的原型系统。考虑到目前尚无现成的古籍分词词典可用,因此构建古籍分词词典势在必行。而构建一部全面而权威的古籍分词词典又非短时间所能够完成,因此采用基于词典分词与N元语法分词的综合分词方法成为目前古籍分词较理想的方法。有基于此,本实验构建了基本词典群与禁用词典群等两个分词词典群共10多个数据库,其中基本词典群包括人名、地名、书名、职官名、物产名等数据库,而禁用词典群则包括成语、年号、虚词、数量词、时序词等数据库。分词词典群目前共收录各类词汇20万条,基本上满足了古籍分词的需要。综合采用分词词典分词和N元语法分词2种方法进行古籍文本分词,并采用子串比较过滤、相邻词过滤、高频词过滤、低频词过滤等方法对分词结果进行过滤,分别以12种农业古籍和379种《广东方志物产》为语料进行了古籍分词测试。从12种农业古籍中共识别出已有词1,164个,约占总词汇量的31%;未登录词2,530个,占总词汇的69%。从379种广东方志物产资料中共识别出已有词6,314个,占总词汇的8%;未登录词75,438个,则占总词汇的92%。其中出现10次以上的词汇为8,044个,占总词汇的10%。出现20次以上的词汇共3,760个,占总词汇的5%左右。通过对379种《广东方志物产》分词结果的分析,我们发现这样一个事实:当词频等级位于区间(2000,8000)时,词频等级与频次乘积基本为常数23,000,000,这一结果说明齐夫第一定律在古籍文本中同样适用。利用计算机实现农业古籍文本的断句标点与分词标引,并开发出相应的原型系统,是国内农业史、情报学、中文信息处理技术等学科结合的一次全新尝试。正因为如此,本项研究仍然稍显稚嫩,尚有进一步深入的必要。(1)目前采用的断句标点模式库共有各种规则1,100余条,数量有限,而且各个规则之间仍然有待于进一步梳理与优化。再者,目前断句标点所用的方法为模式识别方法,主要基于语词的应用,而对于句法特征的采用仍然有限。这主要因为目前缺少农业古籍分析的熟语料库,特别是缺少农业古籍词汇属性库,使本实验难以进行有效的句法分析。随着农业古籍词汇属性库的构建,古籍句法规则的分析将会逐步深入。立足于农业古籍词汇属性库与古籍句法规则库的断句标点将会取得更佳的效果。(2)分词系统采用词典分词与N元语法结合的综合分词方法,通过词典识别出的词汇占总词汇的比例仍然不高,在农业古籍中占31%,这一结果很显然乃分词词典收录的词汇在各子学科中分布并不均匀所致。所以,优化分词词典将是下一步需要继续研究的问题之一。尽管本课题得到了国家社科基金与教育部人文社会科学基金的支持,但是,因为课题涉及的范围太过广泛,且因为时间因素很难作全面而深入的探讨,只能留待于将来作更进一步的探讨与研究。

赵一鸣[8]2013年在《基于多维尺度分析的潜在主题可视化研究》文中研究指明本文的研究目标是“使用可视化方法表示、挖掘、早现和解释文本集包含的潜在主题,展示不同层次和观测水平上的潜在主题、发现主题之间的关联,将潜在主题可视化方法应用于特定领域的文本知识发现”。论证了使用词条集合表示潜在主题的原理、在转置向量空间中词的邻近关系表示集聚关系的原理、用多维尺度分析(MDS)将邻近关系投影到低维空间的原理,构建了使用MDS可视化方法挖掘并展示潜在主题的基本流程。本文认为可以找到一组在文本集中具有集聚关系的词条集合来表示潜在主题,将这种集聚关系抽象出来,就能得到从属于同一个主题的词条集合。为了将集聚关系抽象出来,使用词条在转置向量空间中的邻近关系表示词条在原始文本集中的集聚特性,有集聚关系的词条会在高维转置向量空间中相互邻近。由于高维空间不具有可以观测的儿何结构,选择了MDS可视化的方法将词条在高维空间中的邻近关系投影到人们可视的低维MDS空间图中,使用低维的空间对象结构来映射高维空间中的对象之间的关系和结构。由于保持了高维空间中的拓扑结构,从属于同一个主题的词条在低维可视空间中仍然相互邻近,在MD5空间图中形成一个个类团,每一个类团就是一个潜在主题。这个方法流程克服了共词分析和数据库内容结构分析使用MDS进行空间聚类时对统计共现次数和必须事先选定种子词等步骤的依赖。针对可视化展示空间容量的局限,引入了开放式编码的方法,先形成父类潜在主题,再分别进行可视化展示。设计了“先分词、后编码”和“先编码、后分词”两种策略,前者将文本分词得到的词条分成若干个类属,每个类属就是一个父类潜在主题,适用于短篇幅、完全非结构化文本构成的文本集,比如在线问答等网络文本;后者先根据章节标题等文本主题特征将文本划分到不同的子文本集中,再分别进行分词,适用于大篇幅、弱结构化文本构成的文本集,比如招股说明书等商业文本和项目申报书等科技文本。针对MDS在结果可解释性、可理解性方面的欠缺,本文将扎根分析的思想融入到潜在主题可视化的流程中,并进行了流程再造,将潜在主题展示出来以后,返回原始资料解释潜在主题及其关联,定位主题内容、为词条集合提供更丰富的上下文情景,寻找特殊案例、重点案例进行深入分析。为了寻找改进潜在主题可视化方法的突破口,论证了潜在主题及词条的情景依赖特性,结合实证分析中的文本集,提出了潜在主题可视化中叁个层次的情景:领域情景、主题情景和上下文情景,为可视化的方法设计提供了理论支撑。为了能在更高的观测水平上研究潜在主题、发现同一层次潜在主题之间的关联,设计了质心邻近矩阵,用词条在高维向量空间中的质心代表一个父类主题,将所有父类潜在主题展示在同一个MDS空间图中,使用户可以忽略具体词条等细节的干扰,聚焦于所有主题及其相互关系的整体视图。同时,质心邻近矩阵的设计也大大增加了可视空间的信息容量。为了解释主题之间的关联、发现新的潜在主题、为潜在主题及词条提供更多的上下文情景,构造了属性迭加邻近矩阵,强关联的父类主题包含的语义信息和细分潜在主题得到整合和属性迭加。最后,使用潜在主题可视化的方法,以计算机应用服务业的97家上市公司招股说明书中关于“风险因素”的文字描述为目标文本集,进行了上市公司风险识别的知识发现。研究结果表明:潜在主题可视化的方法体系成功挖掘、展示并解释了上市公司风险文本中不同层次的潜在主题及其内部结构,发现了潜在主题之间的关联,实现了多层次的知识发现。

谭翀[9]2009年在《基于领域概念体系的学术论文主题提取》文中研究表明本文通过对人类认知模型的分析,提出了学术论文的主题提取系统模型。该系统模型分为构建领域概念体系和主题提取二个模块,构建领域概念体系的目的是使计算机具备领域知识,主题提取是使计算机能分析论文并提取主题。为了构建领域概念体系,本文探讨了建立领域词典和基于术语共现的术语关系提取相结合的途径,提出了基于术语共现的术语关系提取算法。通过分析论文中术语的共现关系,借用向量空间模型(VSM)理论和潜在语义分析(LSA)理论,用以表示和改良术语关系矩阵。并提出了叁种关系提取算法。为改良提取结果,本课题还提出了二次关系提取算法。实验证明了这些算法的有效性。随后本文通过模仿人类对论文主题的提取过程,提出了基于篇章特征分析的主题结构提取算法。实验证明了该算法比单纯的基于词频统计的提取算法更有效。

参考文献:

[1]. 数字图书馆中词频提取和自动文本分类方法的研究[D]. 任美睿. 黑龙江大学. 2002

[2]. 数字化学习中知识组织模型及应用研究[D]. 李书明. 华中师范大学. 2011

[3]. 面向航运领域的文本分类系统[D]. 王询. 大连海事大学. 2011

[4]. Web文本挖掘中若干问题的研究[D]. 王占一. 北京邮电大学. 2012

[5]. 基于领域概念关联的网络社区知识聚合研究[D]. 陈果. 武汉大学. 2015

[6]. 面向商业舆情的网络智能分析系统研究与实现[D]. 李慧. 电子科技大学. 2016

[7]. 农业古籍的计算机断句标点与分词标引研究[D]. 黄建年. 南京农业大学. 2009

[8]. 基于多维尺度分析的潜在主题可视化研究[D]. 赵一鸣. 华中师范大学. 2013

[9]. 基于领域概念体系的学术论文主题提取[D]. 谭翀. 国防科学技术大学. 2009

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

数字图书馆中词频提取和自动文本分类方法的研究
下载Doc文档

猜你喜欢