计算机汉语理解的初步实践

计算机汉语理解的初步实践

朱钦隽[1]2001年在《计算机汉语理解的初步实践》文中研究指明本论文主要是研究利用计算机分析汉语文章。在论文中,详细介绍了计算机汉语理解的算法思路和具体实现。本文一共包括六章。 第一章主要是介绍开发本系统的背景和系统的功能。第二章介绍了国内外关于自然语言理解的研究情况、取得的理论成果和实践成果。第叁章主要讨论了知识库在汉语理解中的重要性,以及如何设计和建立知识库。第四章讨论了该系统中最重要的部分:如何解决汉语中存在的代词指代的问题,提出了一套基于规则和可信度的解决方法。第五章更进一步讨论如何对文章进行深入的语义分析,重点在于确定文章的主题和有用信息的提取。第六章主要介绍了软件的特点和使用方法。最后,我们在结束语中,对前面各章的论点进行了一个总结,对存在的不足之处,提出了可能的解决方案。

詹思瑜[2]2003年在《自然语言的计算机处理模型》文中进行了进一步梳理自然语言的计算机处理是一个多学科交叉研究领域。来自计算机科学、语言学、数学等不同学科的研究人员构成了目前这一领域的主要研究力量。随着计算机应用的日益普及,其功能也从主要是数值计算发展到数值计算和信息处理并重。自然语言处理就是研究如何能让计算机理解并生成人们日常所使用的(如汉语、英语)语言,使得计算机懂得自然语言的含义,并对人给计算机提出的问题,通过对话的方式,用自然语言进行回答。目的在于建立起一种人与机器之间的密切而友好的关系,使之能进行高度的信息传递与认知活动。 目前自然语言理解的研究程度还远远没有达到这个要求,还处在努力让计算机正确的理解语言信息上。目前对于自然语言理解的研究主要有基于语料库的统计方法和基于规则的语义处理方法。这两种方法都取得了不少的成绩。不过,最终它们都需要依赖可靠的语言知识驱动计算机正确地处理自然语言,由此可见后台语言知识表示的重要性。 本文提出了一个粗略的自然语言处理模型并在后台语言知识库和文章知识提取方面做了初步的研究。对于知识库的设计,即后台的语言知识表示系统,我们采用了程序表示和数据库结合的方法,即采用面向对象的程序设计方法对知识的概念进行表示,同时在数据库中记录词和程序的对应关系。这样在分析自然语言的时候,面对的不再是一些字符编码的组合,而是一个能描述词意义的对象集合。该知识库能够实现现阶段对语言知识驱动计算机分析的需要。在知识库的基础之上我们还尝试地做了文章知识的提取,提取后的知识表示为对象集的形式,根据对象集,能够回答出一些简单的问题。最后,本文指出了在设计时的不足以及可能的解决方案。

艾朝阳[3]2016年在《语言边界论》文中提出21世纪科技高度发达,但语言到底是什么的老问题还没有解决。不仅老问题还没有很好解决,而且新问题也在亟待解决。这些问题都可以归结为语言在哪里的问题,或语言与存在的问题,也即语言的边界问题。本文企图通过回答语言在哪里的问题来寻求找到语言是什么的问题的新视角,以此促成语言存在的边界转向。因此其主要贡献在于(1)明确提出语言是边界。(2)发现语言有边界。(3)建立了语言边界运动体系。(4)提出并实施哲学的“whereis”范式。(5)提出并初步建立了语言边界方法论。(6)回答了语言在哪里的问题。总之,某个意义上找到了语言的本质:语言是边界。也即是回答了语言是什么的根本问题。思想史上还少有提出过语言在哪里的问题,更没有科学地回答过语言在哪里的问题。我们希望通过回答语言在哪里的问题来接近对语言是什么的问题的回答。我们的回答是:语言在边界。本文围绕语言在哪里的问题探索了叁个方面、回答了叁个基本问题。本文探索了(1)边界的属性及语言边界思想的源头(2)语言边界的宏观、中观以及微观层面(3)语言边界方法论。本文根据语言的边界属性也就是语言的边界性回答了语言是什么、在哪里、语言能力是什么、语法的本质是什么等问题。本文提出边界是语言、知识和主体性叁位一体的存在,所以,语言是边界的基本属性之一,由此提出建立新语言观、新知识观和新主体性观。文章把语言纳入整个宇宙的考虑中,认为语言是有层级性的存在,不是人类所独有的,指出人类语言(HL)的普遍语法受制于宇宙(世界)普遍语法,而人类语言的语法与语言能力也是有层级性的,各自有各自的边界条件。该研究为语法的自然属性和社会属性划界,发现现代有关的语言理论各有自己的正确性,而语言边界思想有利于消解有关语言的一些冲突进而达到统一。本文通过对人类语言的中观和微观的边界运动,探索了边界语法,揭示了人类语言的边界性,并运用语言边界方法对语言的历时与共时的本质、词与句的边界问题、外语教育问题、语言的感知与产出问题、人-机翻译的边界问题进行了具体的探索。通过该研究的实施,本文超越传统的“whatis”范式,开启了“whereis”的哲学范式,建立了语言学的语言边界理论,提供了另一种解决语言问题的途径。如果说海德格尔为存在找到了家——语言,那么我们为语言找到了“家”——边界,进而说明存在的循环本质。最终回答了语言是什么这个根本问题:语言是边界。

刘根辉[4]2005年在《计算语用学基础理论及其应用研究》文中指出自20 世纪50 年代Chomsky 创立形式语言与自动机理论以来,计算语言学研究已经历了近半个世纪的发展历程,取得了丰硕成果。自然语言处理从字符的输入到词法分析、句法分析、语义分析,一步步接近人类自然语言的本质。语用分析在自然语言处理,尤其是自然语言理解系统中起着至关重要的作用,计算语用学研究也开始受到关注。作为一门新兴的计算语言学分支学科,计算语用学研究才刚刚起步。目前国外的研究虽已取得部分成果,但分散于多个研究领域而不成体系。国内的研究除了在人工智能领域曾有相关分析外,也不见系统的有关论述和探讨。因此,以计算语用学为研究内容,开展系统的理论分析和探讨,建立相应的形式化模型系统,具有十分重要的理论意义和实践价值。介绍了计算语言学研究中的几个重要概念,包括计算语言学、自然语言处理、自然语言理解以及计算语音学、计算词汇学、计算语义学等,概要介绍了国内外计算语言学研究概况,以及计算语用学研究的主要内容和研究现状,在此基础上阐明了本研究的理论意义和实践价值。从哲学角度重点讨论和分析了语用学研究的哲学基础,包括指示语、预设、言语行为理论、会话含意理论和关联理论等语用学主要论题,其中既有哲学角度的深入探讨,又有语言学角度的科学分析和评价。这些理论从不同侧面为人类语言交际中的语用现象提供了多种可能的解释,也为计算语用学研究提出了新的研究课题。在已有研究成果的基础上,分析了国内语言学界的语用学研究内容和现状,结合语用学理论在国内的发展历程和汉语语用学研究状况,从哲学思辨的角度探讨了汉语语用学研究今后的发展方向,着重指出应在四个方面开展工作,尤其是开展立足汉语的研究,并着力培养文理交叉的复合型人才。系统探讨了形式语用学研究中的有关问题。介绍了形式语用学的起源,阐述了形式语用学与计算语用学的关系,给出了形式语用学的定义; 在介绍和分析形式语用学发展状况的基础上,提出了汉语形式语用学研究的发展思路,指出应进一步明确形式语用学的研究范围,构建相对完整、独立的学科体系,同时培养文理兼通的科学人才。从理论上探讨了计算语用学研究的实现途径和方法。结合语言学领域语用学研究的主要成果,提出了计算语用学研究所做的主要工作,其中包括语言理解与语用推理、溯因推理及其在自然语言处理中的应用、信任推理、动态语境的构建等。这项工作为

王晓音[5]2013年在《对外汉语教师素质研究》文中认为本研究针对对外汉语教师队伍现存的基本素质未得到应有的重视、专业素质有待完善等问题,以及当前研究中对教师素质界定的视角微观、内涵模糊等缺憾,提出“大素质”概念,从基本素质、专业素养两个大的方面着眼,对对外汉语教师应具备的职业素养、人格素养以及心理素质进行了详尽描述;对对外汉语教师应具备的汉语知识素养、语言素养、业务素养、跨文化交际素养等进行了全面分析。本研究重实践性、实用性,以期为从事对外汉语教学的新教师提供一个全面的、操作性较强的自我成长指南。对外汉语教师的职业素养包括职业意识、专业意识、职业精神、职业操守等。对外汉语教师应当秉持正确的职业意识,以成为一名“多项全能选手”为目标,摒弃偏颇观念,从社会、个体、学术等角度认识自己的价值,实现自我专业身份认同,既不可轻视自己为教书匠,也不可将职业与学术研究割裂开来。职业精神除了对本职业要充满热爱与激情,还要对学生充满爱心、耐心与同理心。作为涉外工作者,对外汉语教师要有符合规范的职业操守,言行得体,维护民族尊严。由于道德水平难以用数字量化,且本文也无意批评或评价,因此本研究从教师“高尚的道德品行”、“良好的精神状态”两方面对外汉语教师的人格素养提出设想。从“践行公民道德”、“践行教师道德”两方面提出了建议与期待,希望对外汉语教师拥有良好的公共道德和可作表率的私德,在工作中有责任心、有激情,并且真心关爱学生。从“积极的精神面貌”、“健康的人格”两个方面指出对外汉语教师应当精力充沛、向学生输出正能量并且具有坚定的意志和工作激情,表现出健全、和谐、积极的人格状态以及良好的性格。本研究引用了“信念”(Belief)这一概念,从教师对自我的信念、对学生的信念以及对教与学的信念这叁个角度来探讨对外汉语教师的心理素质。我们认为,对外汉语教师对自我的信念包括“认识自己”、“教学机智”、“心理应激”叁个方面。教师要尊重自我,同时也要敞开自我,不断自我完善。在教学中,教师要明确自己的身份是“中介者”、“导师”。准确的自我信念还包括稳定的心态、较强的心理承受力,以及善于调适自我心理、情绪等。对外汉语教师对学生的信念包括“认识学生”、“认识学习者的情感”。对于教与学的信念,包括“对学习的信念”和“对教学的信念”。如何营造适宜的学习环境,以实现第二语言学习的目标;如何实现高成效的教学,这都是在明晰了对教与学的信念之后才有可能得到答案的。对汉语作为第二语言的理解是对外汉语教师专业素养的根本。“对汉语作为第二语言的理解”是本研究的一个独特提法。对外汉语教学的难点就在于汉语作为第二语言教学时凸显出来的独特之处,教师对此深入的了解和认识以及在此基础上处理教学中的疑难问题,是极其重要的专业素养。本研究着重分析了语音、汉字、词汇、语法等语言要素在对外汉语教学中表现出来的难点以及处理实际问题的方法。本研究从“语言表达”、“语言运用”两个角度来分析对外汉语教师所应具备的语言素养。在语言表达部分,分析了教师语言物理层面、意义层面、情感层面所应当具备的特点和发挥的作用。在语言运用部分,我们借用了英文相关着作的部分研究角度,从生理方面、人际方面、教学法方面分析了教学语言。最后,我们从建立和维持课堂交际模式、营造课堂气氛、与学生有效沟通叁个方面分析了教师语言的作用。在每个层面的分析中,我们都引入了教学实例,使分析更具体,建议更实用。对外汉语教师的业务素养主要包括教学准备、课堂教学素养以及各种课型的课堂教学技巧。备课不仅包括备教材、备学生,还包括教师对自我的长期与短期的准备。教师从备课到上好一堂课,是一个完整的过程,备课是上课的前提与基础,上课是备课内容的实践、展现与调整,二者之间的关系是动态联接的。我们提出了“课堂教学基本素养”的概念,将“板书”、“范读”、“肢体语言”归为教师课上良好素养展示的因素,将“回顾反思”、“收集学生反馈”、“自我修正与调整”归为课后总结的良好习惯,并详尽分析了如何上好一堂课。掌握各种基础语言课的特点、教法,是对外汉语教师必备的业务素养之一。每一位教师都必须是教学中的多面手,各种课型全面适应。本文从教师教学实践的角度对各种课型在教学实际中存在的问题进行梳理,包括听力教学、口语教学现状中的偏差和误区,阅读教材的缺陷,写作教学目标和写作模式的反思。以此梳理为基础,提出具有针对性、实用性的修正途径以及详尽的教学建议。跨文化交际是对外汉语教师专业素养的一个重要组成部分。这一专业素养一方面表现在教师自身的跨文化交际活动中,以跨文化交际意识为基础,搭建跨文化交际知识,有能力处理自身所经历的跨文化交际活动,另一方面表现在教师处理语言教学中跨文化交际知识的方式,以及应对教学管理中出现的跨文化交际障碍的手段。

周杨[6]2008年在《计算机汉语方言辨识的理论与方法探讨》文中指出计算机汉语方言辨识是计算机自动判别说话人所讲汉语方言语音片段的方言属性,并据此辨别说话人所属地域的一项技术。这项技术在言语工程、公共安全、语言研究等众多领域均具有十分重要的价值。这是一项跨学科的综合研究,融合了语言学、心理学、数学、计算机技术、模式识别和语音信号处理等诸多学科的相关内容。言语工程领域的汉语方言辨识研究主要基于言语产生模型,采用概率统计方法进行系统的设计和实现,在研究对象、方法及功能等方面都存在一定缺陷和问题。“基于语言的汉语方言辨识”建立在汉语方言的语言学研究之上,将感知模式和语言规律作为方言辨识的重要依据,能够较好地克服上述缺点。基于语言的汉语方言辨识研究的研究重点是为汉语方言建立能反映其语言学性质的数学模型,而研究难点在于如何选取用于方言辨识的方言语音特征以及如何实现语音特征物理属性、心理属性和语言学属性的统一。通过深入分析汉语方言辨识所涉及的相关语言理论问题,特别是汉语方言语音系统性、结构性的特点,首次提出了一种基于“音类—音值”结构的汉语方言数学模型,并在此基础上构造了方言语音特征“音类—音值—区别性特征”的数学模型,从而为方言辨识系统的构建打下良好的理论基础。针对方言语音特征的相关问题,通过对汉语方言辨识认知模式的分析以及对语音区别性特征的探讨,提出方言语音特征的内部必须包含最大区别性差异,通过这种区别性差异来克服声学性质与感知存在的矛盾。同时针对不同类型的方言语音特征,提出处理方言语音特征的求值型策略和比较型策略;并提出利用区别特征检测器法和频域比较法来提取方言语音特征中的区别性特征。在此基础上,提出一个汉语方言辨识系统的基本框架。该系统利用具有语言学意义的方言语音特征进行方言辨识。这些方言语音特征在汉语方言辨识系统中依据一定的层级和顺序运作,从而逐级确定方言的属性;同时依据方言语音特征在地域的分布特点,辨别方言所属县一级行政区域;在方言特征混杂的情况下,则利用核心特征和共同特征确定方言的地域归属。在上述模型和框架的基础上,通过田野调查和录音制作了黄孝片20余个方言代表点的语音数据库和语音音档,并利用黄孝片方言作为汉语方言辨识理论研究的主要材料。通过对黄孝片方言语音进行了全面、系统的分析和研究,从中提取了30余组语音特征,逐一探讨这些语音特征的性质、来源以及在汉语方言辨识中所起的功能与作用;并从这些语音特征中归纳出10余对区别性特征,通过实验语音分析指出这些区别性特征的声学对应物和具体的处理方法。在考察黄孝片方言语音特征时,注重将这些语音特征置于汉语方言的宏观背景下,细致考察语音特征在汉语方言中的分布及其所包含的类型意义。针对黄孝片方言语音特征中的一些具体问题,利用多种方法进行了全面细致的研究。如对黄孝片方言?韵系的音系特点、语音性质及在汉语方言的分布规律进行了全面的考察,提出?来源于~*u(<~(*i)u<~*iu)的看法;利用声学语音实验的方法对黄孝片方言入声韵尾、松紧元音、鼻韵尾等问题进行了深入的分析。同时从行政区划沿革、移民史等几个方面较全面地分析了黄孝片方言的来源、性质和归属;并根据全浊入声的归并规律等特征将黄孝片方言划分为叁个小片。从理论上看,利用本文提出的基于语言的汉语方言辨识系统及其一整套的解决方案,能够较好地实现以非连续语音、特定词汇为对象,以确定方言关系及归属地为目标的汉语方言辨识。但是汉语方言辨识系统的构建是一个复杂的系统工程,目前由于各方面条件的限制,未能最终完成方言辨识系统的实现,这有待于各领域专家的进一步探索。

吴宣乐[7]2016年在《基于句模的初等数学问题题意理解方法研究及应用》文中提出近年来,基于人工智能技术的问题求解、自动证明、类人答题等应用已经成为研究的热点,并不断取得新的突破。自然语言处理是人工智能研究的一个重要内容,其研究方法主要包括基于规则的方法和基于统计的方法,尤其是基于大规模语料库的机器学习算法的成熟,使得基于统计的自然语言处理方法成为主流。但是随着求解问题变得复杂,单一的自然语言处理方法很难取得很高的效率。本文利用上世纪90年代提出的句模理论,并结合机器学习方法对文本形式的初等数学问题进行自然语言处理,实现数学问题的题意理解。本文主要进行了以下几个方面的研究:首先,在句模理论的指导下,结合汉语形式的初等数学问题的表述特点,对数学问题中的动词进行了分类讨论,并在此基础上,研究了由动核结构形成的常见句模,包括简单句模和复杂句模。数学问题的句模研究为本文的数学问题语义处理提供了基础。其次,根据数学问题概念知识的层次性和复杂性,本文采用面向对象的方法表示数学问题的知识,并提出一种具有层次结构的面向对象知识表示框架。面向对象方法具有抽象、封装和继承等基本特征,利用这些特征,能够很好地处理数学概念以及概念间关系的表示问题。本文还对传统的知识对象模型进行了改进,将其中的规则属性分离出来,简化了知识对象的结构。然后,研究数学问题题意理解的方法,其中最核心的是基于句模的句子语义处理算法。该算法对所属句模不同但意义等价的句子进行语义归一化处理,提取句子中所含的知识。在此之前,分析了句模的表示问题,主要包含句模特征、语义成分数据和归一化函数等。为了提高句模匹配的效率,本文还研究了基于条件随机场的数学实体识别方法,用于提取句子的标注特征。通过实验验证,该方法的识别准确率和F1值分别达到了97.13%和94.98%。最后,根据本文提出的方法,构建了一个题意理解系统,用于初等数学问题的题意分析。通过测试分析了系统性能和题意理解的效果,其结果表明本文实现的题意理解系统基本能够实现数学问题的题意分析。

王爱云[8]2014年在《当代中国文字改革研究》文中研究说明当代中国文字改革,既是对近代以来在中国面临被世界列强瓜分的严重危机下兴起的文字改革思潮与实践的继承和发展,又是对对近代以来文字改革思潮与实践的扬弃。中国共产党继承、发展其中的合理部分,扬弃、摒弃其中的激进、错误主张,使当代中国文字改革取得前所未有的成功,成为中国百年文字改革上最辉煌的一章。论文以1949-1986年间中国共产党领导开展新中国文字改革的叁大任务(即整理和简化汉字、推广普通话、制定和推行《汉语拼音方案》)为主要研究对象,系统考察当代中国文字改革理论与实践的来龙去脉和改革发展的曲折历程,客观评价当代中国文字改革所取得的巨大成就和所发挥的重要影响,并深刻分析当代中国文字改革工作中的缺陷不足,从中总结经验教训,以期对当代语言文字工作有所启示。论文共分为八个部分。绪论部分主要阐述选题的缘由和研究的意义,本选题的海内外研究现状述评,论文的研究思路、方法和基本框架,并对论文的重点、难点和创新之处作了说明。第一章主要回顾近代以来至新中国成立前夕文字改革的历史。先是梳理清朝末年、民国初年、五四时期至上个世纪二叁十年代的文字改革思潮和文字改革运动中的理论主张和实践情况,然后追溯民主革命时期中国共产党领导进行文字改革的主要历程,指出中国共产党的文字改革思想和理论是对近代以来文字改革探索的继承、扬弃和发展,而中国共产党在根据地所推行的文字改革实践为当代中国文字改革积累了宝贵的经验教训。第二章论述当代中国开展文字改革的历史背景和中国共产党对文字改革的战略认识。一是分析新中国成立初期文字改革的理论准备,包括对马克思主义语言文字理论、近代以来文字改革理论以及对文字发展规律的认识等;二是阐述文字改革的时代需求,主要分析当时中共将文字改革提上日程所面临的国内外形势——新中国建设的需要和当时世界范围内拼音化文字改革的发展趋势。第叁章记述1949-1978年社会主义革命和建设时期文字改革工作的全面展开,重点梳理中共在领导文字改革过程中如何确定文字改革的目标和文字改革叁大任务,文字改革工作如何掀起高潮、在调整巩固中稳步前进,并在“文化大革命”时期和两年徘徊时期在低潮中蹒跚前行,展现新中国文字改革所取得的伟大成就和所走过的曲折历程。第四章考察1979-1986年党对建国以来文字改革工作进行的反思和新时期文字改革工作方针的调整。主要分析改革开放新形势下党和政府对文字改革“拼音化”方向、是否要继续推进文字改革工作等问题的反思,以及根据新形势需要对新时期语言文字工作方针所做出的调整,包括废除“文化大革命”时期制订的《第二次汉字简化方案(草案)》,完成文字改革工作的拨乱反正;召开1986年全国语言文字工作会议,确立新时期语言文字工作方针,将新时期语言文字工作重点由文字改革转向加强语言文字的规范化和标准化。第五章按专题概述1986年以后的新时期语言文字工作的主要内容和成就。由于这一时期的语言文字工作的重点已经不是文字改革,因此对这一时期的工作不作全面深入研究,而是从中共中央对新时期语言文字工作的重视和支持、大力推广积极普及普通话、努力推进汉字规范化标准化建设、继续推行并完善《汉语拼音方案》、积极开辟中文信息处理工作新局面这五个方面来概述这一时期的语言文字工作情况。第六章对当代中国文字改革作出总体评价。论文采取辩证唯物主义和历史唯物主义的原则,对当代中国文字改革的性质和特点、成就和影响予以客观评价,分析当代文字改革工作存在的不足和缺点,在此基础上总结对当前语言文字工作的若干启示。结束语部分主要对目前学术界关于文字改革等问题的继续探索,即“中国语文现代化”研究进行评述,并对如何大力推进语文现代化建设的探索提出了叁点建议。

吴大慧[9]2012年在《对外汉语初级听力课堂教学策略研究》文中提出听力课是对外汉语教学中比较重要的一门课程,听力教学也一直是人们关注的问题。本文根据学习共同体理论,结合自然教学法,针对对外汉语初级听力教学中发现的听力课效率不高、学生兴趣不大的问题,探讨在初级听力课堂实施新型课堂教学策略的可行性。研究重点包括叁方面内容:理论探索、现状考察、实践教学。本研究采用了理论和实际相结合的方法,按照现有理论大胆假设,然后进行小范围实验,实验包括课堂演练,课堂观察,课后录音等。通过实验和观察的结果分析,我们得出以下结论:利用学习共同体和自然法理论而建立的课堂教学策略对学生的学习具有一定的帮助。对外汉语听力教学是对外汉语教学的重要组成部分,初级汉语听力课课堂教学策略在教师的教学过程中起着非常重要的作用,其中包括教学目标、学生、教师自身能力、教学条件等等。总体看来,将学习共同体理论和自然法引入对外汉语听力教学是可行的,以往的课堂教学策略存在着较大的缺陷和不足,新型的课堂教学策略管理下的学习效果要好于原来的经验型课堂教学效果。

陈宏彦[10]2007年在《规则和统计相结合的分词算法》文中研究说明我们已经进入一个信息革命的新时代,这个信息时代的显着特点是计算机在人类生活的各个方面,起着越来越大的作用。自然语言是人们最重要的交际工具,它与信息处理有着十分密切的关系。在书面汉语中,词在句中没有显式的标记。因此,理解汉语的首要任务就是把连续的汉字串分割成词的序列,即自动分词。目前大多数分词研究都完全依赖计算机完成切分工作,不希望人工介入。但其结果往往不尽如人意。因为计算机要想准确切分文本,就一定要建立在对文本语义理解的基础之上;而要想让计算机能够理解中文语义,则首先要进行分词。不难理解,陷入这样的循环之中,是很难得到理想的切分结果的。作者在本文中提出了一种新的规则与统计相结合的分词方法。本方法的新颖之处在于,解决了理解与切分孰先孰后的两难问题,通过人工介入来选择特定领域词库,从而缩小了规则匹配的范围,提高了词库与待切分语料的匹配度;在此基础上,优先采用规则方法初分语料,最后使用统计方法对已切分的语料进行进一步处理。由于本实验的核心目的是为证明经过人工介入选择特定领域词库,会使规则与统计相结合的方法对文本的切分准确率明显提高,所以,作者采用了最有代表性的正向最大匹配的规则切分方法和切分准确率较高的md统计切分方法,分别使用规则切分、统计切分以及规则与统计相结合的方法处理相同语料,并对切分结果进行统计分析。实验用到的词库关键在于分类合理、内容准确以及符合实际。作者经过认真地总结和细心的整理,完成了词汇的归类和遴选的工作,包括地名、区划、计算机、俗语、动漫游戏、人名、网络新词以及各学科术语等等共25个专业领域词库,均采用文本文件格式保存。实验所用语料是《中国计算机》报《产品与应用》栏目的1423篇文章(.txt格式)为数据源建立语料库,不计空格,共含中文、英文及标点156,453个,其中,中文字符数为123,764个。经过具体实验验证,将上述两种分词方法通过新方法结合后,对语料的切分精度明显高于单纯使用规则或统计方法的精度。

参考文献:

[1]. 计算机汉语理解的初步实践[D]. 朱钦隽. 电子科技大学. 2001

[2]. 自然语言的计算机处理模型[D]. 詹思瑜. 电子科技大学. 2003

[3]. 语言边界论[D]. 艾朝阳. 湖南大学. 2016

[4]. 计算语用学基础理论及其应用研究[D]. 刘根辉. 华中科技大学. 2005

[5]. 对外汉语教师素质研究[D]. 王晓音. 陕西师范大学. 2013

[6]. 计算机汉语方言辨识的理论与方法探讨[D]. 周杨. 华中科技大学. 2008

[7]. 基于句模的初等数学问题题意理解方法研究及应用[D]. 吴宣乐. 电子科技大学. 2016

[8]. 当代中国文字改革研究[D]. 王爱云. 武汉大学. 2014

[9]. 对外汉语初级听力课堂教学策略研究[D]. 吴大慧. 新疆大学. 2012

[10]. 规则和统计相结合的分词算法[D]. 陈宏彦. 太原理工大学. 2007

标签:;  ;  ;  ;  ;  ;  ;  

计算机汉语理解的初步实践
下载Doc文档

猜你喜欢