一、XLM文档转换为关系数据的一种方法(论文文献综述)
马文倩[1](2021)在《How People Learn Ⅱ:Learners, Contexts and Cultures(Chapter 8)英汉翻译实践报告》文中研究说明数字技术在现代学习中发挥着重要作用,各类学习技术的突破和发展为学习提供极大的便利,学习并引进西方先进的技术以促进教育发展至关重要。在本次翻译实践中,笔者选取了教育学报告How People LearnⅡ:Learners,Contexts and Cultures中的第八章作为翻译文本,结合具体案例从词汇和句法角度对文本翻译中一些典型问题进行了讨论和研究。针对此文本,笔者运用增译法、词类转换法分析了词汇层面的翻译问题;在句法层面,针对被动句的翻译,运用保持被动形式不变,译为主动形式或是译为无主句的翻译策略;针对定语从句的翻译,采用状译法将其翻译为原因、目的和结果状语从句。通过翻译文本和撰写翻译实践报告,笔者希望能够丰富该领域的翻译实践成果,探讨适用于同类体裁文本的翻译方法,从而为该领域的译者提供借鉴和参考。
戚园园[2](2021)在《基于特征表示学习的文本检索研究》文中认为文本检索是自然语言处理领域中的重要内容,也是大数据和人工智能时代的基础支撑技术。文本检索不但是人们从互联网大数据中获取所需信息的有效手段,也是开发其他智能系统,如问答对话系统的重要条件。判断一篇文档是否与用户查询相关是文本检索的核心问题。为了解决这一问题,文本检索模型通常将用户查询和候选文档映射到同一向量空间,继而计算它们之间的相关性。这便是文本检索的文本特征表示和相关性计算。文本特征表示有经典统计和机器学习两类方法。而查询与文档的相关性定义也有逻辑值和实数值两种。当相关性为逻辑值时,还需要利用专门的排序算法对所有相关文档进行排序。当相关性为实数值时,相关性本身便是对文档进行排序的依据。本文对上述问题进行了深入系统的研究,取得的主要创新性成果如下:1.提出一种基于显着上下特征表示的文本检索模型。采用滑动窗口的方法寻找文档中与查询具有显着语义相关性的上下文,利用这些上下文获得文档的显着上下文特征表示,从而更好解决长文档与查询间的匹配问题。新的文本特征表示中包含上下文信息,联合构建层次化的文本相关匹配,实验结果表明该模型同时提高了文本检索的精度和召回率。2.提出一种基于卷积图拓扑特征表示的文本检索模型。将查询和文档的上下文向量转换为图拓扑结构后,利用图卷积网络生成新的文本特征。此类文本特征表示不仅包含上下文信息,同时还包含全局结构化信息。实验结果表明该模型有效改善了文本检索精度。3.提出一种交互图拓扑特征表示的文本检索模型。结合双向注意力网络和图注意力网络将上下文向量表示转换为基于交互图拓扑特征的文本表示。此类文本特征表示不仅包含上下文信息,同时还包含交互信息和不同注意力加权后的全局结构化信息。实验结果验证了该模型的有效性。
林泽斐[3](2020)在《基于在线百科的社会网络抽取及语义化研究》文中研究指明基于社会网络的研究方法已被广泛应用于人文社会科学的众多领域。社会网络研究的基础是社会网络的构建,随着大数据研究的兴起,面向海量数据的社会网络自动抽取成为社会网络构建的新兴热点。社会网络抽取是指基于明确或隐含的信息,从信息源中自动抽取出社会成员及其联系的技术。在在线百科中,蕴含着海量的社会成员及其社会关系信息。如何从此类信息源中抽取出大规模社会网络,是值得探讨的一大课题。此外,社会网络构建的目的在于对所构建的社会网络进行进一步的分析和利用。近年来,将语义网技术与社会网络相结合的语义社会网络开始得到学术界的关注,借助于本体和推理引擎,语义社会网络可以具备一定的逻辑推理能力,这有助于从社会网络中挖掘大量潜在的语义信息和社会成员联系,进而服务于学术研究。在此背景下,本研究以在线百科作为主要信息源,探索一种基于百科半结构化文本的社会网络抽取机制,在此基础上对大规模社会网络的语义化方法及其在数字人文领域的应用模式展开研究,主要的研究内容包括:(1)针对在线百科中的社会网络抽取问题,提出一种新的基于在线百科的大规模社会网络抽取方法,其主要创新点在于利用排序学习方法综合多种特征计算人物关系权重,通过估计人物生存时空来发现人物间的时空耦合关系。通过此方法,本研究首次从中文在线百科中抽取出完整的带有权重和时空信息的社会网络。(2)在对当前社会网络本体调研的基础上,提出了一种新的社会网络本体MSTSN。与同类社会网络本体相比,MSTSN本体主要面向数字人文领域的社会网络构建,特别对人物所处的时空、人物的不同类型,以及人物间的不同关系类型等信息进行了细粒度的刻画。基于MSTSN本体,对在线百科中所抽取的社会网络进行实例化,形成一个大规模人物知识图谱。(3)针对人物知识图谱中的人物关系预测这一难点问题,提出一种新的知识图谱关系预测方法,该方法将关系路径和反映实体间关系的文本矩阵化,通过卷积神经网络学习与特定关系类型相关的结构和文本模式特征,在此基础上训练模型实现关系预测。对比实验结果表明,本研究提出的方法在评测数据集上的性能表现超过了主流方法的水平。(4)针对非结构化文本中的人物关系三元组抽取问题,提出一种新的中文命名实体链接方法,该方法融合了单实体消歧和多实体消歧特征,并根据不同文本长度选用不同的特征组合;同时,在传统一阶段式消歧的基础上添加了第二阶段消歧以改善消歧结果。对比实验显示该命名实体链接方法的总体性能优于当前主流同类系统的水平。(5)基于本研究所提出的MSTSN本体和所构建的人物知识图谱,阐述了四类面向数字人文研究的社会网络语义查询策略,并通过可视化方法展示各策略的执行效果。相比传统的社会网络构建策略,本研究所提出的方法可从在线百科中有效地抽取社会成员及其关系,且更加关注与社会成员相关的时空和语义信息,在人名消歧和人物关系权重算法等方面也进行了改进,这可为大规模社会网络的自动化构建研究提供理论和方法参考。通过对社会网络进行语义化处理所形成的大规模人物知识图谱,在与人文学科相关的社会网络分析系统、问答系统、知识发现系统中均具有实际应用价值,这可为探索文本挖掘和语义网技术在数字人文研究中的应用模式提供参考借鉴。
肖遥[4](2020)在《化工过程安全评价信息标准化方法研究》文中进行了进一步梳理石油化工行业作为我国的支柱行业之一,近年来,随着经济的发展,石化工业发展迅速,规模越来越大,工艺也越来越复杂,人们对于工艺安全也越来越重视,为了保证工厂能够进行安全生产,越来越多的研究者对于工艺安全做了诸多研究,最有效的一种方法就是对反应设备进行危害分析。过程危害分析对于主动识别潜在的安全问题并建议可行的缓解措施非常重要。在现有的过程危害分析技术中,危险和可操作性分析是原油和天然气加工过程中使用最广泛的安全分析方法。传统的危险与可操作性方法以头脑风暴形式展开的,将分析的结果以文档形式存储,使得大量的分析案例无法得到共享和复用,同时基于计算机软件的分析结果也只有对应的分析软件才能识别,同样存在难于复用、共享的问题,造成大量数据无法得到充分利用,因此,针对于现有的化工过程安全分析数据的共享与复用研究具有重要意义。本文以煤层间接液化项目油品合成设备的危险与可操作性分析报告数据为基础,提出的方法可以解决石油化工行业数据共享和复用问题,第一种方法是利用知识本体可共享和复用的特性,以自然语言技术抽取报告中数据来构建领域知识本体,并存储在OWL文件中,再利用Protege软件对知识本体进行可视化,方便知识管理和知识验证,最终结果表明,该方法能够很好地表达项目的危险与可操作性分析文本数据,可以实现石化行业危险与可操作性分析数据的共享和复用;第二种方法是构建石油化工行业危险与可操作性分析的知识图谱,同样可以达到数据共享和复用的目的,命名实体识别是知识图谱构建过程中重要部分,本文主要的工作是利用深度学习技术对危险与可操作性分析数据进行命名实体识别,为构建知识图谱的构建打下基础,最终,通过实验对比可知,本文提出的命名实体识别模型在本领域较现有的模型具有较好的命名实体识别效果。
石泽[5](2020)在《基于XLM-R的多语言网络评论情感分类研究》文中指出移动互联网技术的不断发展以及网络应用软件的普及,使得人们已经习惯在社交媒体,技术博客等各种新兴网络平台上发表自身的观点和看法。大家各抒己见促进了社会的进步。但随之而来也有很多问题,比如网络暴力,性别歧视等,这些问题给人们的生活带来了不可忽视的影响。因此,对网络中带有恶意的评论进行识别是很有意义的工作。但随着全球化进程的不断加快以及全球网民数量的不断增加,互联网当中的语言开始变得多种多样,有些软件中还包括多种语言。如果对于互联网中的每一种语言都建立相应的模型进行评论识别,显然不论从语料的搜集上,还是从模型的创建和应用上都有一定的困难。所以,使用跨语言模型对多语言网络评论进行识别是很有必要的。本文研究多语言网络评论分类问题,主要工作包括改进跨语言模型中提取文本特征的方法以及评估不同文本分类算法的分类效果,具体而言包括如下几点:1.本文对近年来四种较有代表性的跨语言模型进行理论方面的阐述,并对四种模型的分类效果做出对比实验。四种模型分别为m BERT、XLM、Unicoder、XLM-R。在理论叙述的基础上,本文又对四种模型进行了实验分析。实验结果表明,XLM-R模型的准确率及AUC值最高。因此后续研究以XLM-R模型作为主体。2.针对XLM-R模型如何获取更多文本特征的问题,本文提出对其网络结构进行改造的方法。具体是将XLM-R模型的第10、11、12层(后三层)进行拼接,构造出XLM-R-3模型。实验结果表明,XLM-R-3模型的准确率和AUC值高于初始模型及其它拼接模型。之后将XLM-R-3模型作为词嵌入层,与不同的传统分类算法相结合。实验结果表明,XLM-R-3与支持向量机结合时准确率及AUC值最高。3.本文使用深度学习分类算法对特征进行进一步提取。文中以XLM-R-3模型作为输入层,分别结合卷积神经网络和循环神经网络及其变体。最终提出XLM-R-3-BGA模型。该模型使用XLM-R-3与双向GRU网络进行结合,以双向GRU作为主体网络,提取文本的上下文特征,最后使用注意力机制,将重点词语重点突出,从而进行评论分析。实验结果表明,本文提出的XLM-R-3-BGA模型的准确率和AUC值高于初始模型及其他结合模型。4.跨语言模型与单语言模型的分类效果对比。本文使用谷歌翻译将英文翻译为西班牙文与意大利文。之后使用跨语言模型分别与西班牙文,意大利文的BERT模型进行对比。实验结果表明,跨语言模型的准确率和AUC值高于单语言模型。
林哲昊[6](2020)在《文本挖掘在电力营销管理中的应用研究》文中认为我国电网企业由于经营性质的特殊性,在电力市场中长期作为卖方,以主导地位存在。因此出现了电网企业对客户资源重视程度不高,主动服务意识欠缺的现象。随着我国经济体制改革及电力市场供需态势的转变,开展市场营销、占领增量售电市场慢慢成为电网企业的核心工作,电力营销的职能和地位得到进一步凸显。现代电力营销工作要求电网企业满足客户个性化、多样化的用电需求,提供差异化的服务,这就需要对电力客户相关数据进行获取、整合、挖掘。95598是电网企业面向客户的主要窗口,在为客户提供服务的过程中会生成大量的客户诉求数据,它们超过80%是非结构化数据,主要以文本形式存在。文本挖掘属于数据挖掘的一个分支,它使用计算机处理技术从文本数据中提取有价值的信息和知识。进行文本挖掘在电力营销领域的应用研究,能够提高客户服务管理水平和客户满意度,提升企业形象和企业经济效益。因此,本文探究了95598系统所产生的客服工单文本的利用价值,一方面从提升数据本身精细化程度的角度出发,提出了一种基于角色语义标注和HMM-Viterbi模型的用电地址识别方法,实现对批量真实客服工单中客户用电地址的自动识别,将识别并提取得到的地址集通过前端web地图进行地点标注及热力图聚合展示,借助可视化结果的分析,为基层供电单位的管理安排提供决策辅助,也为其他高级应用提供基础数据支撑;另一方面,从深度挖掘客户诉求的角度出发,提出了一种基于XLM-Att-Bi LSTM模型的深度学习文本分类方法,根据客服工单内容的业务类型,实现工单的自动分类,将分类结果和用电地址识别结果结合应用到统计分析中,完成客户诉求关于时间、区域、业务特征的多维度分析,为基层供电单位的营销服务水平评估和监督考核提供参考,为发现电力营销管理工作中的优点和不足提供方法。首先,本文对电力营销管理和文本挖掘的研究现状进行了介绍,阐述了文本挖掘技术应用的重大意义。其次,指出了实现智能化营销必须注重数据支撑决策和主动关注用户需求,分析了客服工单数据的利用价值,对工单挖掘过程中需要涉及的命名实体识别和文本分类两项关键技术的应用场景进行了阐述。根据客服工单文本数据价值密度低的特点,提出适用的文本预处理技术,包括数据清洗以及基于外部词典和分词器优化的改进文本分词方法。然后,对上面讲述的命名实体识别和文本分类两种方法的应用进行具体阐述:介绍两种方法各自的具体实现流程,通过实验及主客观多项性能指标对比,验证方法的有效性,再提出两种方法的落地应用实例。最后,对本文的研究进行总结并指出文中所存在的不足及未来努力的方向。
陈东华[7](2020)在《面向决策支持的医学文本语义分析方法研究》文中提出随着医疗信息化的快速发展,医疗信息系统中存储着各类医疗数据的体量不断增长,海量异构医疗数据的分析成为推动医疗健康领域管理决策支持的挑战。医学文本信息是推动该领域相关研究的重要数据基础。患者的电子病历中包含了大量症状、诊断、病程、会诊等文本信息,充分利用这些包含丰富临床医学知识的医学文本对医疗健康领域决策支持非常重要。然而,当前这些有价值的医学文本却难以有效地应用在实际医院管理、临床决策支持、个人健康管理、公共卫生决策等实际场景中,原因包括:非结构化医学文本无法精准结构化、医学文本丰富的语义信息致使难以分析、医学文本信息无法脱离具体的医学情境、不一致的医疗信息标准导致信息交换困难、不同医疗机构之间共享数据机制的缺失等。这些问题的根源在于医学文本是特殊的专业领域语言,不仅具有各类语义信息,还包含丰富医学领域知识。有效的医学文本语义分析成为解决这些难题的关键技术。当前语义分析研究更多地是研究面向通用领域的自然语言处理技术,相关技术虽然在方法上进行创新,却无法结合医学场景和领域知识推动医学文本语义的分析,致使无法为机器学习乃至深度学习模型提供高质量训练数据集,降低决策的质量。同时,海量医疗文本在分布式计算环境的分析和处理也成为利用这些数据分析决策的障碍和挑战,现有研究遇到了方法和性能上的瓶颈。本博士研究依托国家自然科学基金重点项目“大数据驱动的智慧医疗健康管理创新”(编号:71532002),在充分对国内外理论和技术文献综述基础上围绕着面向决策支持的医疗文本语义分析相关方法进行研究,研究内容包括医学场景下的文本语义分析、医疗信息标准化、领域知识建模、机器学习和大数据分析等方法,解决当前医疗信息行业中海量医学文本数据挖掘和分析的难题,为大数据时代下我国医疗信息化发展提供借鉴。研究内容和结果如下:(1)基于自然语言处理的医学文本结构化和标准化方法首先分析现有中文和英文电子病历中存在的医学文本特征和信息结构,建立基于N-Gram的医学文本语义模型。然后,针对非标准化的医学叙述性文本,研究具体的医学文本分析任务,对医学文本进行分词、词性标注、语义关系提取等分析,提出针对中文病历文本的自动结构化处理方法;结合医学场景的语义和语境知识,以中文超声检查报告分析为例,对该类文本关键信息进行分解、标注和重组。结果表明,基于语义分析的医学文本分析方法在医学文本结构化、分词、标注等文本分析任务的性能得到明显提升。(2)基于领域知识库的医学文本语义分析和知识发现方法首先研究医学领域的相关知识库,并分析这些知识库在医学文本数据挖掘和知识发现上的应用前景。然后,为了解决医学文本语义相似度计算方法,提出一种基于加权Levenshtein距离和N-Gram的文本相似度计算方法。为了解决医学概念相似度计算的问题,提出基于UMLS的医学文本相似度和相关性度量的计算方法。结果表明,在融入医学文本语义特征和领域知识库中医学概念文本定义信息后,基于文本相似度和相关性计算的医学文本分析任务能更好地满足实际需求。最后,针对医院中计算机辅助ICD编码的决策支持场景,融合Word Net语义知识库,提出一种基于语义分析的计算机辅助ICD-11编码方法,提高患者诊断信息编码的精确度和ICD编码员的工作效率。(3)面向决策支持的海量医学文本分析方法及应用案例研究在研究内容(1)和(2)基础上研究面向海量医学文本分析的方法和应用案例,并提出大数据分析性能自动优化方法。首先,研究面向具有复杂结构的医学文本的主题建模方法,分析相关机器学习算法在不同场景的应用特点;然后,针对海量医疗文本数据的分析,创新地提出基于Map Reduce分布式计算模型的医学文本处理方法,并以医疗数据的关联操作和自动编码等应用场景,对提出的分布式医学文本分析方法性能进行实验和分析。最终,提出基于无导数优化理论的Map Reduce性能自动调优方法,解决了海量医学文本分析方法在分布式计算环境运行的方法设计和性能自动优化的关键问题。
李月[8](2020)在《BIM技术在框架剪力墙结构中的模型转换方法研究》文中进行了进一步梳理BIM技术在我国处于快速发展阶段,但对建筑业的应用还存在很多问题,有待进一步解决。为了扩大BIM技术的应用范围,本文以住宅项目为案例,以中天建设集团有限公司在住宅项目中遇到的实际问题为导向,深入研究利用BIM技术进行精细化建模问题以及模型接口转换问题,以达到提升项目质量、工期、工程量的目标。本文首先对BIM技术的应用背景以及BIM技术在国内外发展现状进行分析,引出本文的研究课题,并对本文的研究方法与研究内容进行系统阐述。针对模型应用标准流程进行研究,包括对模型精细化标准的制定、模型色彩的制定、归档文件命名、储存标准的制定以及各构件命名标准制定的研究。接下来对BIM模型构建方法进行研究,总结出Revit软件在建模方面存在的不足。其次,本文通过对比分析各软件的适用范围,提出结合Revit和Tekla对模型构建方法进行分析研究。紧接着对三种国内基于Revit平台的BIM模型转换方式进行对比分析,针对通过传统IFC格式导入出现的构件材质信息丢失问题、构件类型属性发生变化问题、构件导入后会发生不同角度的旋转问题、受电脑硬件影响不能导入整栋模型只能按楼层进行导入等问题,最终提出API二次开发的方式来研究模型的转换问题。重点对Revit中的两种族类型进行深入研究,分析解决了多边形楼板的导入及楼板出现孔洞的问题,包括单个孔洞、多个孔洞以及不同开洞方法对模型导入的影响,并开发了通过几何图形数据导入避免从分析模型导入的方法,解决了多层异形柱的导入以及如何实现构件经任意角度旋转后的正确导入和构件位置的准确导入,并由此形成了初步的标准截面族库,提出了开发接口时的应用标准,最终成功开发标准构件梁、柱、墙、楼板的接口。最后本文结合三个实际案例来验证模型转换接口的可行性。经转换后的模型避免了IFC格式出现的不可预测错误,构件属性信息准确无误,构件位置保持一致,实现模型精准可控导入。
付茜雯[9](2020)在《计算机科技论文摘要的机翻错误类型及译后编辑》文中认为科研论文在知识传播过程中作用重大,推动国际范围内的知识共享。摘要是科研论文中必不可少的一部分,既是对论文的概括性总结,也是读者发现和探寻相关领域知识的快捷途径。然而,目前英文摘要的机器翻译质量在精确性和专业性方面都不尽人意,需要通过后期编辑和人工校对才能产出高质量的中文翻译文本。本文以计算机科学论文摘要为例,对谷歌机器翻译的300篇计算机英文论文摘要的中文版本进行了翻译错误类型分析并归类,并提出相应的译后编辑策略。首先在赖斯文本类型理论翻译策略指导下,对机器翻译系统生成的译文进行译后编辑,再邀请计算机专业以及翻译专业的专业人士进行确认。之后以DQF-MQM错误类型分类框架为依据,对机器翻译系统生成的译文中的错误进行分类。研究发现,机器翻译的计算机英文论文摘要的中文版本中存在七大类翻译错误,其中不符合中文表达习惯的翻译错误占比最大,其次是术语误译、误译、欠译、漏译、过译以及赘译。本论文研究发现,由于源文本的信息型学术文本特征,长难句、被动语态以及术语翻译是造成机器翻译错误的主要原因。针对源文本的逻辑缜密、语步序固定等特征,本研究针对性地对各类错误类型提出了相应译后编辑策略。建议译者在译后编辑中通过将隐性连接转换为显性连接从而保持源文逻辑性,通过增加主语以及调整语序处理被动语态保持源文的学术精准,通过恰当选取词意处理半技术词汇等。本研究采用定性和定量分析方法,系统归类了计算机科技文本摘要中机器翻译出现的错误,并提出相应译后编辑策略,为该领域的译者提供参考建议,从而提高该领域的机器翻译质量。
刘璐[10](2020)在《基于语义相似度的学术文献引文网络社区发现算法改进》文中认为引文网络是一种以科技文献为节点,文献之间的引用关系为边所形成的一种网络,是知识发现领域使用最多的重要工具之一,引文网络属于复杂网络的一个分支,具有复杂网络的一般性特征,比如小世界、集聚性等。引文网络是科研人员用来进行学科预测和评估热点领域的一种工具,最初并不涉及文本的研究,随着人工智能的发展,文本数据作为重要的信息来源之一,在引文网络中引入文本属性已经变成可能,但由于文献篇幅通常较长,对每一篇文献的全部内容进行文本分析往往效率低下而且并无必要。学术文献具有结构规范,特征清晰的特点,仅标题、摘要和关键词就可以了解文章大致主题,所以对引文网络进行文本分析时,只需要利用上述三者组成的文本作为文献的文本属性即可获得文章的主题信息。对引文网络进行文本特征分析时,使用的是标题、摘要和关键词组成的短文本,由于短文本的词汇矩阵稀疏性,传统的BOW+TFIDF+VSM/LSA体系和神经网络模型在分析引文网络的文本特征时效果并不理想。基于此,结合文本挖掘和社区发现技术,本文提出一种基于语义相似度的引文网络模型,以文档之间的语义关系以及引文之间的引用关系为基础,结合词汇在文档中的位置关系和结构,构建基于词汇语义相似度加权的学术文献引文网络。首先,利用GloVe模型对词汇向量化以充分利用词汇的语义信息,通过WMD方法度量文献之间的相似度,把文档相似度的计算转变为在约束条件下求线性规划最优解的问题,避免BOW+TFIDF+VSM体系中短文本的文档-词汇矩阵过度稀疏造成的信息丢失,也可以避免利用神经网络模型训练词汇向量,再由词汇向量转换为文档向量时造成的语义失真。然后基于上述算法,综合考虑文本的语义内容和网络的结构特征对引文网络中的节点引用关系进行赋权,以Louvain社区发现算法对加权后的引文网络进行社区发现实验。在实验部分,本文选用Web of Science数据库中的文献为原始数据对模型进行验证,对无权网络、BOW+TFIDF+VSM引文网络和基于语义相似度的学术文献引文网络分别从定量和定性两方面对实验结果进行分析比较,结果证明,对基于语义相似度的学术文献引文网络模型进行社区发现,效果有较明显的改善。
二、XLM文档转换为关系数据的一种方法(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、XLM文档转换为关系数据的一种方法(论文提纲范文)
(1)How People Learn Ⅱ:Learners, Contexts and Cultures(Chapter 8)英汉翻译实践报告(论文提纲范文)
中文摘要 |
Abstract |
第一章 任务描述 |
第一节 原文题材与体裁分析 |
一、题材分析 |
二、体裁分析 |
第二节 翻译目的与意义 |
一、翻译目的 |
二、翻译意义 |
第二章 译前准备 |
第一节 文献综述 |
一、相关翻译研究文献评述 |
二、相关翻译实践成果评述 |
第二节 准备事项 |
一、工具、参考文献的准备 |
二、平行文本的选择与分析 |
三、翻译策略的选择 |
第三节 实施计划 |
一、翻译计划 |
二、写作计划 |
三、应急预案 |
第三章 翻译执行情况 |
第一节 翻译过程 |
一、术语表制定 |
二、翻译过程执行概述 |
三、翻译过程监控策略 |
第二节 译后事项 |
一、译文审校 |
二、译文评价 |
第四章 案例分析 |
第一节 教育学文本中词汇的翻译 |
一、词类转译法 |
二、增译法 |
第二节 被动句的翻译 |
一、译为汉语主动句 |
二、译为汉语被动句 |
三、译为汉语无主句 |
第三节 兼有状语功能的定语从句的翻译 |
一、译成原因状语从句 |
二、译成目的状语从句 |
三、译成结果状语从句 |
第五章 翻译实践总结 |
第一节 翻译过程中遇到的问题 |
第二节 翻译过程中的收获与思考 |
参考文献 |
附录 |
附录1:原文、译文 |
附录2:平行文本 |
附录3:术语表 |
致谢 |
(2)基于特征表示学习的文本检索研究(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 课题的研究背景 |
1.1.1 文本检索 |
1.1.2 文本检索的应用 |
1.2 课题的研究意义 |
1.3 课题的研究现状 |
1.3.1 经典统计的文本检索模型 |
1.3.2 深度文本匹配模型 |
1.3.3 文本检索的突出问题 |
1.4 本文的主要工作及研究成果 |
1.5 论文的组织结构 |
第二章 文本检索的基本理论 |
2.1 文本表示 |
2.1.1 基于离散式向量的文本表示 |
2.1.2 基于分布式向量的文本表示 |
2.1.3 基于上下文向量的文本表示 |
2.2 基础检索模型 |
2.2.1 概率模型 |
2.2.2 深度文本匹配模型 |
2.3 文本检索常用的数据集与工具 |
2.3.1 文本检索常用数据集 |
2.3.2 文本检索常用工具 |
2.3.3 文本检索常用评估指标 |
2.4 本章小结 |
第三章 基于显着上下文特征表示的文本检索 |
3.1 引言 |
3.2 相关工作 |
3.3 显着上下文特征表示 |
3.3.1 先导实验 |
3.3.2 显着上下文的定义 |
3.3.3 显着上下文的搜索 |
3.4 上下文显着性的计算 |
3.4.1 显着上下文 |
3.4.2 上下文显着性 |
3.4.3 聚合相关度 |
3.4.4 复杂度分析 |
3.5 实验 |
3.5.1 数据集与实验设置 |
3.5.2 实验结果与分析 |
3.5.3 参数分析 |
3.6 本章小结 |
第四章 基于卷积图拓扑特征表示的文本检索 |
4.1 引言 |
4.2 相关工作 |
4.2.1 BERT模型 |
4.2.2 图卷积网络 |
4.3 基于卷积图拓扑特征表示的检索模型 |
4.3.1 检索模型的网络框架 |
4.3.2 图卷积拓扑特征表示 |
4.3.3 卷积图拓扑特征表示 |
4.3.4 联合排序 |
4.4 实验 |
4.4.1 评测数据集 |
4.4.2 实验设置 |
4.4.3 实验结果与分析 |
4.4.4 参数分析 |
4.5 本章小结 |
第五章 基于交互图拓扑特征表示的文本检索 |
5.1 引言 |
5.2 相关工作 |
5.2.1 图注意力网络 |
5.2.2 注意力机制 |
5.3 基于交互图拓扑特征表示的检索模型 |
5.3.1 检索模型的网络框架 |
5.3.2 图注意力拓扑特征表示 |
5.3.3 交互图拓扑特征表示 |
5.3.4 联合排序 |
5.4 实验 |
5.4.1 实验设置 |
5.4.2 实验结果及分析 |
5.4.3 参数分析 |
5.5 本章小结 |
第六章 总结与展望 |
6.1 工作总结 |
6.2 研究展望 |
参考文献 |
附录 缩略语表 |
致谢 |
攻读学位期间发表的学术论文目录 |
(3)基于在线百科的社会网络抽取及语义化研究(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 研究背景 |
1.2 研究目的与意义 |
1.2.1 研究目的 |
1.2.2 研究意义 |
1.3 研究框架与研究内容 |
1.3.1 研究框架 |
1.3.2 研究内容 |
1.4 技术路线 |
1.5 研究方法与工具 |
1.5.1 研究方法 |
1.5.2 使用的工具与技术 |
1.6 贡献与创新 |
1.7 论文组织结构 |
第2章 相关概念与理论 |
2.1 复杂社会网络理论 |
2.1.1 复杂网络的概念 |
2.1.2 社会网络的概念 |
2.1.3 典型的复杂社会网络模型 |
2.2 知识表示理论 |
2.2.1 知识表示的概念 |
2.2.2 语义网 |
2.2.3 知识图谱 |
2.3 本章小结 |
第3章 相关研究综述 |
3.1 社会网络抽取研究 |
3.1.1 传统社会网络抽取研究 |
3.1.2 基于在线百科的社会网络抽取研究 |
3.2 社会网络语义化研究 |
3.2.1 社会网络语义化的相关工作 |
3.2.2 典型的社会网络本体 |
3.3 知识图谱补全研究 |
3.3.1 知识图谱补全的任务 |
3.3.2 知识图谱关系预测的相关研究 |
3.3.3 知识图谱实体类型预测的相关研究 |
3.4 命名实体链接研究 |
3.4.1 命名实体链接的任务 |
3.4.2 命名实体链接的相关研究工作 |
3.5 本章小结 |
第4章 在线百科中的社会网络抽取 |
4.1 社会网络抽取的整体框架 |
4.2 初始社会网络生成 |
4.3 关系权重计算 |
4.3.1 人物相关性特征 |
4.3.2 人物相关度学习 |
4.4 人物时空分析 |
4.4.1 人物生存时空估计 |
4.4.2 时空耦合网络的构建 |
4.5 百科社会网络的结构特征分析 |
4.6 百科人物网络的可视化分析 |
4.7 本章小结 |
第5章 社会网络语义建模与语义表示 |
5.1 社会网络语义建模 |
5.1.1 MSTSN本体的整体架构 |
5.1.2 人物时空信息的语义建模 |
5.1.3 关系类型和人物类型的语义建模 |
5.2 社会网络的语义表示 |
5.2.1 人物基本信息的语义表示 |
5.2.2 人物时空信息的语义表示 |
5.2.3 人物关系信息的语义表示 |
5.3 本章小结 |
第6章 基于百科内部信息的人物知识图谱补全 |
6.1 人物关系类型的预测 |
6.1.1 关系预测模型设计 |
6.1.2 模型评测 |
6.1.3 基于Conv F模型的人物关系类型补全 |
6.2 人物类型的预测 |
6.3 本章小结 |
第7章 基于百科外部文本的人物知识图谱补全 |
7.1 命名实体链接的整体框架 |
7.2 指称识别 |
7.3 候选实体集合生成 |
7.4 候选实体消岐 |
7.4.1 消歧特征 |
7.4.2 排序学习 |
7.4.3 消歧结果优化 |
7.5 命名实体链接方法评测 |
7.5.1 评测语料 |
7.5.2 文本相似度特征筛选实验 |
7.5.3 多特征消歧实验 |
7.5.4 对比实验 |
7.6 基于命名实体链接的人物关系补全 |
7.6.1 设计思路 |
7.6.2 方法评测 |
7.7 本章小结 |
第8章 人物知识图谱的语义查询与可视化 |
8.1 基于关系的社会网络语义查询 |
8.1.1 查询中心人物的相关人物 |
8.1.2 查询限定类型的相关人物 |
8.2 基于作品的社会网络语义查询 |
8.2.1 生成与特定作品相关的社会网络 |
8.2.2 生成与特定作者相关的社会网络 |
8.3 基于时间的社会网络语义查询 |
8.3.1 生活于特定历史时期的人物查询 |
8.3.2 生成特定历史时期的人物关系网络 |
8.3.3 生成特定朝代的人物关系网络 |
8.4 基于空间的社会网络语义查询 |
8.4.1 与地理特征点相关的人物查询 |
8.4.2 同乡关系网络的生成 |
8.4.3 查询特定历史时期的热点地理区域 |
8.5 本章小结 |
第9章 总结与展望 |
9.1 本文总结 |
9.2 研究局限与展望 |
参考文献 |
中文参考文献 |
英文参考文献 |
附录 人物知识图谱的RDF表示(示例) |
攻读博士学位期间科研成果 |
致谢 |
(4)化工过程安全评价信息标准化方法研究(论文提纲范文)
摘要 |
abstract |
第一章 绪论 |
1.1 研究背景与意义 |
1.1.1 研究背景 |
1.1.2 研究意义 |
1.2 研究现状 |
1.2.1 石油化工过程HAZOP数据标准化研究现状 |
1.2.2 命名实体识别研究现状 |
1.3 本文的主要研究内容 |
1.4 本文的组织结构 |
第二章 知识本体与命名实体识别相关概念介绍 |
2.1 知识本体 |
2.2 命名实体识别相关模型介绍 |
2.2.1 机器学习模型 |
2.2.2 词向量模型 |
2.2.3 深度学习模型 |
第三章 基于知识本体的HAZOP信息标准化研究 |
3.1 引言 |
3.2 自然语言技术 |
3.3 基于知识本体的HAZOP信息标准化框架构建 |
3.3.1 数据处理 |
3.3.2 句法分析 |
3.3.3 相似度计算 |
3.3.4 数据存储 |
3.4 实验与结果分析 |
3.4.1 数据获取和预处理 |
3.4.2 数据存储 |
3.4.3 数据可视化 |
3.5 本章小结 |
第四章 基于深度学习的化工过程安全评价信息标准化研究 |
4.1 引言 |
4.2 知识图谱的定义与架构 |
4.2.1 知识图谱的定义 |
4.2.2 三元组表示 |
4.2.3 知识图谱的架构 |
4.3 命名实体识别问题建模 |
4.4 DCNN-BILSTM-CRF模型构建 |
4.5 实验 |
4.5.1 实验数据与实验环境 |
4.5.2 词分布式表示 |
4.5.3 实验评价指标 |
4.5.4 模型训练 |
4.5.5 模型参数选择 |
4.5.6 实验结果与分析 |
4.6 本章小结 |
第五章 总结与展望 |
5.1 工作总结 |
5.2 展望 |
参考文献 |
致谢 |
研究成果及已发表的学术论文 |
作者及导师简介 |
附件 |
(5)基于XLM-R的多语言网络评论情感分类研究(论文提纲范文)
致谢 |
摘要 |
ABSTRACT |
1 引言 |
1.1 研究背景与意义 |
1.2 国内外研究现状及发展趋势 |
1.2.1 基于机器翻译的方法 |
1.2.2 基于平行语料库的方法 |
1.2.3 基于词映射的方法 |
1.2.4 基于深度学习的方法 |
1.3 本文主要研究内容 |
1.4 论文结构 |
1.5 小结 |
2 文本分类相关理论介绍 |
2.1 文本情感分类 |
2.2 文本预处理 |
2.2.1 文本分词 |
2.2.2 过滤停用词及特殊符号 |
2.3 词向量表示方法 |
2.3.1 One-hot词向量表示方法 |
2.3.2 Word2vec模型 |
2.3.3 BERT模型 |
2.3.4 RoBERTa模型 |
2.3.5 跨语言词向量的表示方法 |
2.4 文本分类算法 |
2.4.1 逻辑回归算法 |
2.4.2 支持向量机算法 |
2.4.3 卷积神经网络算法 |
2.4.4 循环神经网络算法 |
2.5 小结 |
3 基于跨语言模型的情感分类研究 |
3.1 实验数据的选取与预处理 |
3.1.1 实验数据的介绍 |
3.1.2 实验数据的预处理 |
3.2 四种跨语言模型的介绍 |
3.2.1 mBERT模型 |
3.2.2 XLM模型 |
3.2.3 Unicoder模型 |
3.2.4 XLM-R模型 |
3.3 四种跨语言模型的对比 |
3.3.1 四种跨语言模型的理论对比 |
3.3.2 四种跨语言模型的实验对比 |
3.3.3 XLM-R模型与BERT模型的实验对比 |
3.4 基于XLM-R模型的改进 |
3.4.1 XLM-R模型的网络结构改造 |
3.4.2 XLM-R-3 模型的实验结果 |
3.5 基于逻辑回归的评论分类 |
3.5.1 XLM-R-3-LR评论分类模型 |
3.5.2 XLM-R-3-LR分类模型实验结果 |
3.6 基于支持向量机的评论分类 |
3.6.1 XLM-R-3-SVM评论分类模型 |
3.6.2 XLM-R-3-SVM分类模型实验结果 |
3.7 模型实验结果对比 |
3.8 小结 |
4 基于深度学习的多语言情感分类研究 |
4.1 传统机器学习与深度学习的对比 |
4.2 基于卷积神经网络的评论分类 |
4.2.1 XLM-R-3-CNN评论分类模型 |
4.2.2 XLM-R-3-CNN分类模型实验结果 |
4.3 循环神经网络的变体 |
4.4 基于循环神经网络的评论分类 |
4.4.1 XLM-R-3-BGA评论分类模型 |
4.4.2 XLM-R-3-BGA分类模型实验结果 |
4.5 模型实验结果总结 |
4.6 小结 |
5 结论 |
5.1 总结 |
5.2 展望 |
参考文献 |
作者简历及攻读硕士学位期间取得的研究成果 |
学位论文数据集 |
(6)文本挖掘在电力营销管理中的应用研究(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 课题的研究背景及意义 |
1.2 相关研究现状 |
1.2.1 电力营销研究现状 |
1.2.2 文本挖掘研究现状 |
1.3 论文主要研究内容 |
1.3.1 论文主要工作 |
1.3.2 论文整体结构 |
第二章 电力智能化营销对文本挖掘的需求分析 |
2.1 智能化营销业务对文本挖掘的需求 |
2.2 客服工单在电力营销管理中的作用 |
2.3 智能化营销中的文本挖掘关键技术 |
2.4 本章小结 |
第三章 电力营销文本数据预处理技术 |
3.1 客服工单文本特征及分析 |
3.2 客服工单文本清洗 |
3.3 中文文本分词 |
3.3.1 HanLP分词 |
3.3.2 改进HanLP分词 |
3.4 本章小结 |
第四章 用电地址识别方法及其应用 |
4.1 用电地址实体特点 |
4.2 用电地址实体标注 |
4.3 基于HMM-VITERBI的用电地址识别方法 |
4.3.1 方法实现流程 |
4.3.2 隐马尔科夫模型(HMM) |
4.3.3 维特比算法(Viterbi) |
4.3.4 Aho-Corasick(AC)算法 |
4.4 实验及结果分析 |
4.4.1 用电地址识别实验设置 |
4.4.2 用电地址识别结果分析 |
4.5 客户诉求可视化应用 |
4.6 本章小结 |
第五章 客服工单自动分类方法及其应用 |
5.1 客服工单分类类别研究 |
5.2 基于机器学习的客服工单分类方法 |
5.3 基于XLM-ATT-BILSTM的客服工单分类方法 |
5.3.1 方法实现流程 |
5.3.2 XLM模型 |
5.3.3 Att-Bi LSTM算法 |
5.4 实验及结果分析 |
5.4.1 客服工单分类实验设置 |
5.4.2 客服工单分类结果分析 |
5.5 客户诉求多维度分析应用 |
5.5.1 用电地址识别结果结合应用 |
5.5.2 客户诉求的时间分布分析 |
5.5.3 客户诉求的区域分布分析 |
5.5.4 客户诉求的业务分布分析 |
5.6 本章小结 |
结论与展望 |
参考文献 |
攻读学位期间发表的论文和参加科研情况 |
致谢 |
附录1 |
(7)面向决策支持的医学文本语义分析方法研究(论文提纲范文)
致谢 |
摘要 |
ABSTRACT |
1 引言 |
1.1 研究背景及研究意义 |
1.2 研究内容及关键问题 |
1.3 研究创新点 |
1.4 技术路线 |
1.5 章节安排 |
2 文献综述和相关方法 |
2.1 文献综述 |
2.1.1 医学文本分词方法 |
2.1.2 医学文本结构化方法 |
2.1.3 语义分析和医学概念抽取 |
2.1.4 基于医学文本的决策支持 |
2.2 相关数据与方法 |
2.2.1 医学领域知识库 |
2.2.2 机器学习方法 |
2.2.3 大数据分析方法 |
2.2.4 评估方法和指标 |
2.3 本章小结 |
3 基于自然语言处理的医学文本结构化和标准化方法 |
3.1 医学文本特征和语义复杂性分析 |
3.1.1 医学文本数据的来源和特征 |
3.1.2 医学文本分析的N-Gram语言模型 |
3.1.3 医学文本语料库的使用及影响分析 |
3.2 基于医学文本语料库的文本结构化方法 |
3.2.1 基于字典的机械分词和N-Gram分词方法研究 |
3.2.2 基于序列标注的医学文本分词方法研究 |
3.2.3 基于语义理解的医学文本分析方法研究 |
3.3 中文超声检查报告文本分析和性能评估 |
3.3.1 专家辅助的超声检查报告文本标注方法 |
3.3.2 超声检查报告的文本结构化方法 |
3.3.3 超声检查报告的文本语义分析方法 |
3.3.4 标注系统的性能评估方法 |
3.3.5 标注系统的整体性能测试与分析 |
3.4 本章小结 |
4 基于医学领域知识的医学文本语义分析和知识发现方法 |
4.1 面向医学文本的语义相似度计算方法 |
4.1.1 语义关系与文本特征提取方法 |
4.1.2 基于加权Levenshtein距离和N-Gram的文本相似度计算方法 |
4.1.3 评估方法和实验分析 |
4.2 基于UMLS的医学概念相似度和相关性计算方法 |
4.2.1 医学文本语义相似度计算方法 |
4.2.2 医学文本语义相关性计算方法 |
4.2.3 相关方法的测试和分析 |
4.3 基于语义分析的计算机辅助ICD-11编码方法 |
4.3.1 相关知识库 |
4.3.2 ICD-11编码语义模型 |
4.3.3 ICD-11编码规则建模方法 |
4.3.4 ICD-11候选编码相关性计算方法 |
4.3.5 相关方法的测试和分析 |
4.4 本章小结 |
5 面向决策支持的海量医学文本分析方法及应用案例研究 |
5.1 医学文本主题建模和知识发现方法 |
5.1.1 基于LDA的医学文本主题建模方法 |
5.1.2 知识约束下医学文本主题建模和预测方法 |
5.1.3 相关方法性能的对比分析 |
5.2 基于大数据分析的典型医学文本分析方法设计和分析 |
5.2.1 基于Map Reduce模型的大规模数据集连接方法 |
5.2.2 基于Map Reduce模型的大规模文档相似度计算方法 |
5.3 面向医疗大数据分析的HADOOP性能自动调整优化方法 |
5.3.1 Hadoop性能自动调优框架设计方法 |
5.3.2 基于无导数优化理论的Hadoop最优参数搜索方法 |
5.3.3 典型Map Reduce算法性能调优和实验分析 |
5.4 本章小结 |
6 总结与展望 |
6.1 总结 |
6.2 展望 |
参考文献 |
作者简历及攻读博士学位期间取得的研究成果 |
学位论文数据集 |
(8)BIM技术在框架剪力墙结构中的模型转换方法研究(论文提纲范文)
摘要 |
Abstract |
1 绪论 |
1.1 选题的背景与研究意义 |
1.1.1 选题背景 |
1.1.2 研究意义 |
1.2 国内外研究现状 |
1.2.1 国内研究现状 |
1.2.2 国外研究现状 |
1.3 研究内容 |
2 基于BIM的深化设计方法 |
2.1 模型构建标准的研究 |
2.2 BIM软件的选择 |
2.3 BIM模型构建方法研究 |
2.3.1 结构主体模型方法研究 |
2.3.2 钢筋模型方法研究 |
2.4 不同软件BIM模型转换方式研究 |
2.4.1 基于IFC标准的方式 |
2.4.2 基于二次开发的方式 |
2.4.3 中间文件转换的方式 |
2.4.4 三种转换方式的对比 |
2.5 本章小结 |
3 Revit与 Tekla模型直接转换接口的开发 |
3.1 二次开发简介 |
3.2 Revit中结构梁导入Tekla模型方法研究 |
3.3 Revit中结构柱导入Tekla模型方法研究 |
3.4 Revit中结构墙导入Tekla模型方法研究 |
3.5 Revit中结构楼板导入Tekla模型方法研究 |
3.6 本章小结 |
4 BIM技术在住宅项目中的验证 |
4.1 孔雀城花园项目验证 |
4.1.1 项目简介 |
4.1.2 模型的建立 |
4.1.3 模型转换 |
4.2 龙湖道义项目验证 |
4.2.1 项目简介 |
4.2.2 模型的建立 |
4.2.3 模型转换 |
4.3 中南旭辉和樾项目验证 |
4.3.1 项目简介 |
4.3.2 模型的建立 |
4.3.3 模型转换 |
4.4 本章小结 |
5 结论与展望 |
5.1 结论 |
5.2 创新点 |
5.3 展望 |
参考文献 |
作者简介 |
作者在攻读硕士学位期间获得的学术成果 |
致谢 |
(9)计算机科技论文摘要的机翻错误类型及译后编辑(论文提纲范文)
摘要 |
Abstract |
CHAPTER1 INTRODUCTION |
1.1 Research Background and Significance |
1.2 Aims of the Study |
1.3 Organization of the Thesis |
CHAPTER2 LITERATURE REVIEW AND FRAMEWORK |
2.1 Overview on Machine Translation and Post-editing |
2.2 Previous Studies on MT Error Types and Post-Editing Strategies |
2.3 DQF-MQM Error Classification Framework |
2.4 Previous Studies on MT Error Types of Paper Abstracts |
2.5 Text Typology Theory |
2.5.1 Text Typology Theory of Reiss |
2.5.2 Previous Studies on Informative Texts and Translation Principles |
CHAPTER3 METHODOLOGY |
3.1 Source Text and Text Analysis |
3.1.1 Source Text |
3.1.2 Text Analysis |
3.2 Research Method |
3.3 Translation Process |
3.3.1 Translating300 computer science abstracts with MT system |
3.3.2 Post-editing the MT-generated translation based on Text Typology Theory |
3.3.3 Conducting a semi-structured interview for ensuring post-editing quality |
3.3.4 Analyzing and summarizing the errors in300 abstracts |
3.3.5 Preliminary error classifications based on DQF-MQM Framework |
3.3.6 Conducting the2nd semi-structured interview to confirm error classifications |
3.3.7 Quantitative analysis of all MT errors in the300 abstracts |
CHAPTER4 RESULTS AND DISCUSSION |
4.1 Error Types of Machine Translated English Abstracts |
4.1.1 Unidiomatic Translation Errors in MT output |
4.1.2 Terminology Mistranslation Errors in MT Output |
4.1.3 Mistranslation Errors in MT Output |
4.1.4 Under-translation Errors in MT Output |
4.1.5 Omission Translation Errors in MT Output |
4.1.6 Over-translation Errors in MT Output |
4.1.7 Errors of Addition in MT Output |
4.2 Post-editing Strategies for Machine Translated Abstracts |
4.2.1 Post-editing Strategies for Long and Complex Sentences |
4.2.2 Post-editing Strategies for Passive Voice Sentences |
4.2.3 Post-editing Strategies for Technical Terms |
CHAPTER5 CONCLUSION |
5.1 Major Findings |
5.2 Limitations and Suggestions |
References |
Appendix Source Texts and Target Texts of300 Abstracts |
1-20 Abstracts |
21-40 Abstracts |
41-60 Abstracts |
61-80 Abstracts |
81-100 Abstracts |
101-120 Abstracts |
121-140 Abstracts |
141-160 Abstracts |
161-180 Abstracts |
181-200 Abstracts |
201-220 Abstracts |
221-240 Abstracts |
241-260 Abstracts |
261-280 Abstracts |
281-300 Abstracts |
ACKNOWLEDGEMENTS |
(10)基于语义相似度的学术文献引文网络社区发现算法改进(论文提纲范文)
摘要 |
abstract |
第一章 绪论 |
1.1 选题背景及研究意义 |
1.1.1 选题背景 |
1.1.2 研究意义 |
1.2 研究现状分析 |
1.2.1 引文网络挖掘相关研究 |
1.2.2 文本分析相关研究 |
1.2.3 社区发现技术相关研究 |
1.2.4 基于语义的引文网络社区发现综合研究 |
1.3 组织结构与研究方法 |
1.3.1 组织结构 |
1.3.2 研究方法与技术路线 |
1.4 研究创新点 |
第二章 相关理论概述 |
2.1 复杂网络理论 |
2.1.1 复杂网络基本概念 |
2.1.2 复杂网络统计特征指标 |
2.1.3 节点相似性度量 |
2.2 文本挖掘与分析 |
2.2.1 文本挖掘概念 |
2.2.2 经典文本分析模型 |
2.3 社区发现理论 |
2.3.1 社区发现概念 |
2.3.2 社区发现算法分类 |
2.3.3 Louvain算法 |
2.4 本章小结 |
第三章 基于语义相似度的加权引文网络模型的实现 |
3.1 构建基于语义相似度的学术文献引文网络 |
3.1.1 构建引文网络 |
3.1.2 词移距离—文档相似性度量 |
3.2 词嵌入模型训练 |
3.2.1 GloVe全局词汇向量模型 |
3.2.2 GloVe模型原理 |
3.2.3 GloVe实现步骤 |
3.3 词汇赋权方法 |
3.3.1 TF-IDF加权 |
3.3.2 根据词汇区域赋权 |
3.4 本章小结 |
第四章 语义加权引文网络模型验证及实验结果评估分析 |
4.1 数据的获取与预处理 |
4.1.1 数据的获取 |
4.1.2 数据预处理 |
4.2 训练词汇向量及文本相似度计算 |
4.2.1 训练词汇向量 |
4.2.2 构建语义加权引文网络 |
4.3 社区划分结果分析 |
4.3.1 文本相似度分析 |
4.3.2 社区划分结果定量分析 |
4.3.3 社区划分结果定性分析 |
4.4 本章小结 |
第五章 语义加权引文网络模型的应用 |
5.1 语义加权网络在检索中的应用 |
5.2 语义加权网络在推荐系统中的应用 |
5.3 本章小结 |
第六章 结论与展望 |
6.1 主要研究成果 |
6.2 下一步研究工作 |
参考文献 |
致谢 |
附录 |
四、XLM文档转换为关系数据的一种方法(论文参考文献)
- [1]How People Learn Ⅱ:Learners, Contexts and Cultures(Chapter 8)英汉翻译实践报告[D]. 马文倩. 黑龙江大学, 2021(09)
- [2]基于特征表示学习的文本检索研究[D]. 戚园园. 北京邮电大学, 2021(01)
- [3]基于在线百科的社会网络抽取及语义化研究[D]. 林泽斐. 南京大学, 2020(09)
- [4]化工过程安全评价信息标准化方法研究[D]. 肖遥. 北京化工大学, 2020(02)
- [5]基于XLM-R的多语言网络评论情感分类研究[D]. 石泽. 北京交通大学, 2020
- [6]文本挖掘在电力营销管理中的应用研究[D]. 林哲昊. 广东工业大学, 2020(07)
- [7]面向决策支持的医学文本语义分析方法研究[D]. 陈东华. 北京交通大学, 2020(03)
- [8]BIM技术在框架剪力墙结构中的模型转换方法研究[D]. 李月. 沈阳建筑大学, 2020(04)
- [9]计算机科技论文摘要的机翻错误类型及译后编辑[D]. 付茜雯. 大连理工大学, 2020(06)
- [10]基于语义相似度的学术文献引文网络社区发现算法改进[D]. 刘璐. 济南大学, 2020(12)