基于Python自然语言处理的轻度阿尔茨海默症患者的话语研究论文

基于Python自然语言处理的轻度阿尔茨海默症患者的话语研究

潘玥¹庞伟奇²

（1.镇江市高等专科学校，江苏镇江 212028；2.江苏大学文学院，江苏镇江 212000）

摘要：本研究组从河南新乡采集到220名轻度阿尔茨海默症患者语料，结合患者及其护理人员的问卷和访谈记录以及对指定图片描述的话语自建小型语料库，并使用Python软件对文本进行分类筛选和抓取统计，尝试从语言深层挖掘患者话语的信息加工和意义建构，从词类和小句层面对患者语言功能损伤情况作多维分析。

关键词： AD患者；话语分析；Python

语言是思维的外壳，影响阿尔茨海默症患者（以下简称“AD患者”）思维活动的因素极其复杂，DSM-5诊断标准中已将语言障碍列为痴呆的六项主症之一，而“AD作为临床最常见的退行性神经系统病变，其病理改变累及不同脑区时可出现一系列症状不尽相同的临床亚型，产生原发性或者继发语言障碍”^［1］。近20年，脑科学的进展（包括神经学和信息学的进展）给语言学研究带来了众多启示，人类对大脑研究的发展“在很大程度上也表明了语言科学研究的进展”^［2］。我们把研究的重点放在说话者对意义的选择上，力图找出患者的言语风格和言语行为之间的对应关系，以期更好地阐释AD患者语言障碍的发病机制、评估手段及推断患者言语困难的发展进程。

一、AD患者言语障碍分析的心理学基础

“语言产生、语言理解和语言的获得被认为是心理语言学的三大主要研究领域，其中，关于语言产生领域的研究相对薄弱。”^［3］语言的产生不仅仅是说出目标词汇，还必须对所说的词语进行合理的句法结构安排，否则生成的语言是杂乱无章、令人难以理解的。近年来，各种特殊群体（儿童自闭症患者、失语症患者等）在语言产生方面出现的加工困难现象（如舌尖现象、表达犹豫、停顿、语误等）日益增多，引起了大批神经学、语言学方面专家对言语领域产生兴趣。在过去的20年里，国内外学者对AD患者的发病机理、认知障碍、语言流畅性等进行了广泛研究，普遍认为“在AD的早期即出现轻度词命名障碍，轻度复述障碍，听理解障碍及书写障碍（P＜0.05）；病情发展到中期，患者的语言障碍类似于经皮质感觉性失语；晚期向Wernicke失语过渡，最终发展为完全失语”^［4］。健康人的语言加工涉及解码和编码的过程，即将语言的表层（语音、文字等）转化为深层语义信息的输入，从而获得理解（解码），再由深层语义信息转化为合适的语音代码或字形字音代码输出（编码），完成语言的交流。“语言加工的目的是建构起有意义的心理表征，从而实现对声音或文本的理解，包括字、词、句子、语段理解等层面。”^［5］汉语语义加工的相关脑区主要涉及左侧颞上回、颞中回、颞叶前部、额下回以及左额叶中部，这些组成额颞工作网共同支持语义加工，其中，左侧颞上回后部和颞中回与语义加工关系最密切。而英汉两种语言在词汇语义通达路径方面存在明显差别。通过考察汉字语义加工的脑区和皮层电位特征的相关实验，我们发现汉语句法加工依赖于语境，容易产生歧义。鉴于此，在心理学框架下对人类大脑神经机制和语义加工网络进行探究有助于科学评估和诊疗患者话语。

1.基尼系数。基尼系数具有以下属性：转移性原则，即若将收入从富人转移到穷人手中，收入分配差异程度将降低；均值独立性，即所有人的收入同时翻番，收入变异程度不变；人口规模独立性，如果各收入阶层的人数发生同比例的变化，收入差异程度不变；可分解性，可按收入来源对收入差异进行分解。

二、基于Python第三方词库统计的AD患者话语语义加工和生成的分析

Python为我们探索临床话语提供了诸多有益启示，我们可以从认知理解和信息处理的角度对AD患者的话语进行准确定位，实现对语料的筛选和提取。中英文两种语言符号之间存在显著差别，“英语的特点是注重形合，而汉语注重意合，英文单词是以空格作为分词标志，与中文的分词标志、语义分析存在较大差异”^［6］。中国的语料库语言学起步较晚，直至20世纪90年代后期才开始建设学习者语料库。语言学者广泛使用的语料库软件（如Wmatrix、Wordsmith、AntConc、BNCweb等）在最初开发时是针对英语文本而设计的，尚不能对汉语语料进行直接分析。互联网技术日新月异，中文文本分词技术已取得了较大突破，可利用语言模型对文本进行分词。Python作为一种解释性脚本语言，从20世纪90年代初发展至今，已被广泛应用于各种系统管理任务的处理和Web编程中。人们可以通过Python及其第三方词库解决自然语言处理的具体问题，包括文本处理与理解、文本分类、文本相似度计算、语义分析和情感分析等，这为探究AD患者的言语规律等提供了一个全新的视角。

（一）AD语料的收集和分析

本研究以从河南新乡AD养老院收集的220篇看图会话语篇为数据源进行文本分析，编译器选Python3.7.2版本，把采集到的语篇保存为.txt格式并降噪，编码选择为“UTF-8”（互联网上使用最广的一种Unicode的实现方式），对AD患者的语篇文本进行分词、功能词频统计，并对统计结果进行分类筛选和优化，获得能直观体现患者言语特征的结果。

（二）AD患者文本分词和词频统计

for item in word_1st：

表1 AD患者文本功能词检索统计结果

以语料中代词和连词出现的频率为例，从表1中可以看出，患者组代词使用的频率较高，220篇语料的统计结果显示：患者一共使用了822次第一人称代词“我”，709次第三人称代词“他”。一定的语境下，频繁地使用同一个主语有文体意义或能反映出讲话人的性格特征^{［7］（P104-114）}。患者在展开叙述时多用第一人称，心理活动多以自我为中心，极少能对他人的行为或情感作出判断，并且在口语中经常使用“那个、什么、他/它”作为替代词，缺乏明确的指向性，但在接下来的选择任务测试中，患者能准确完成识别任务，也就是说，患者知道自己想表达什么，但对所要表达词汇的语义信息提取失败。而在连词的使用方面，患者使用的频率低于参照组，且使用的连词较单调。词汇是自然语言中有意义的最小单位，通过适当的连词可以组合成短语、小句或语篇，患者在表述时倾向于反复使用“然后、后来、就”这样的简单词，极少使用明确表示条件、转折或递进关系的连贯词，因此，在语义的逻辑关系上较混乱，而健康人的话语中多呈现“鉴于、不仅……还、既……又、就算……也、却”等衔接词，句式的表达更加丰富多样。此外，研究还发现患者的有些话语虽然在语法成分上并不缺失，但有的句子缺少必要的意义关联，主题性并不突出，传递给医护人员的意图不明确，经常造成交际失败。

（三）Python语言在AD患者语料衔接和连贯中的应用

Beaurande提出了篇章性概念，认为“从表层（结构连接）而言，篇章是语法要素的有机结合；从深层（内容意义连接）而言，篇章是由意义连锁组成的”^［8］，要达到成功交际的目的，就要充分考虑到语篇中的各种要素在语言结构中的纽带作用。学者普遍认为连贯的语篇需要借助一定的词汇手段，如适当的重复、省略、替代来突出信息焦点，以及正确使用因果、解释、递进、比较、转折等关联词来组织句式。这些衔接与连贯的手段可以使段落语义通畅，便于对方理解。语料库软件在开发时大多只考虑到分词的原则，很少延伸至整个小句乃至语篇层面。本研究收集的AD语料中有较多衔接与连贯的手段，可分为语音手段、词汇手段和语法手段，接下来，本研究运用Python对指称衔接、省略衔接和逻辑连接衔接词等作了抓取统计，语言实现代码（部分源代码）如下所示：

中文文本的处理相对英文文本单词的提取方法而言较为复杂。jieba库是一款优秀的Python第三方中文分词库，支持三种分词模式：精确模式、全模式和搜索引擎模式。精确模式可将句子最精确地切开，适合文本分析；全模式把句子中所有可以成词的词语都扫描出来，速度非常快，但不能消除歧义；搜索引擎模式是在精确模式的基础上对长词再次切分，提高召回率，适合用于搜索引擎分词^［6］。选取AD患者组语篇220篇，字数42 116；参照组220篇，字数40 171，进行统计分析，结果如表1所示。

if item not in word_dict： # 统计数量

对上下左右四个方向产生的结果进行评估，评估方式为建立多个子算法加权得分，而得分最高的方向即为当前行动的最佳方向，下一步向该方向移动，为局部最优策略。由于不同子算法之间评判标准的不同，可能出现相互干扰，甚至相互对立的情况，同时不同时期受到的影响也可能不同，所以我们需要通过调整数字权重以及子算法权重完成优化，找到较好的评判标准，提高胜率。

word_dict［item］=1

else：

# printorderList

orderList=list(word_dict.values())

orderList.sort(reverse=True)

word_dict［item］ +=1

wf2.write(key+' '+str(word_dict［key］)+'\n')# 写入txt文档

for key in word_dict：

worddict［key］=0

fori in range(len(orderList))：

要产出具有连贯性的话语，说话者需要借助一定的词汇手段（如重复关键词、代词替代，因果、对比、转折、让步、时间、顺序等衔接过渡词）和语法手段（如动态助词着、了、过，结构助词的、得、地以及将合适的词汇连成一个有机共同体的方法）。经过统计分析，220篇患者语料中出现指称衔接的词(这、那、这个、那个、他)共4 971次，明显高于健康人话语；省略衔接词（包括合理的名词性省略、动词性省略和分句性省略）的使用频率较低，仅出现329次，且多数用法不正确；逻辑连接词（因为、所以、首先、其次）共出现266次，词汇同义衔接词（意义相同或相近的词）共出现1 299次，使用频率高于健康人话语；词汇反义衔接词（好坏、前后、冷热等）共出现64次，局部—整体衔接词（总之，可见、由此）共出现93次。对比健康人词频统计结果发现，患者出现的衔接错误中有40%是因为词汇不断重复而产生的，还有近50%是由于语义关系错误导致的。

ifword_dict［key］==orderList［i］：

key_list.append(key)

在网络迅猛发展的当今社会，依托信息技术推动智慧农业发展，在农业精细化管理模式应用过程中，经过依托发达的网络技术，能够大幅提高农业经营管理收益，经过运用发达的定位技术等，能够实现播种、施肥等农业活动的机械化、智能化。依托网络构建一种直接销售的全新形式，可以构建互联网销售体系，依托信息技术整合农产品信息，借助网络技术，实现对农产品质量的追踪监测，最终实现农业的科学化生产与运营。

2.寒山诗的文化特征：寒山诗融合了中国儒释道多重文化，思想深刻、内容丰富。著名学者钱学烈指出，寒山诗熔铸了儒、道、释三大哲学体系，是作者百余年生活经历的真实记录，也是他由儒入道，由道入佛，由佛入禅，这一新路历程的形象反映。她把寒山诗分为自叙诗、风俗诗、隐逸诗和禅佛诗，并认为自叙诗和风俗诗，大都打上了儒家思想的烙印；隐逸诗则浸润老庄，颇俱仙风道骨，是艺术水平最高者；禅佛诗为释家禅林称道，至有“诗僧”之名。[7]

鲍恩和李广洲等人的研究结果，依据生物学概念的特点，将生物学概念的心理表征划分为文字表征、具体表征、抽象表征和形象表征四个水平，各表征水平的评价指标见表1。

2.4.2 非结构化数据挖掘能否实施。数据分析和数据挖掘在大数据中起到非常重要的作用，传统的数据挖掘相对单一，满足不了关系型数据和非结构化的数据，大数据是针对计算对象的数据处理，所以非结构化数据能正确的分析读者的显性行为和挖掘隐性行为，正式体现了大数据数据处理的优越性。

由以上分析结果，我们可以对AD患者的言语和行为作出正确的推理和描述。一般研究认为，AD患者发展到中晚期，其在言语逻辑上层次混乱、缺乏连贯性，在心理上难以调整、无法完成正常的交际。而在AD隐匿期或早期往往会出现一些“不得体”的言语，无法保证交际渠道的通畅。在本次收集的轻度AD患者的语料中，词汇衔接方面的错误大多是由词语过度重复造成的，例如：“我看到一个人手伸得很高，他要拿东西，有的东西比较大，有的东西比较小，他这个东西够不到……”短短的一句话中接连出现了4次“东西”，表达的内容含糊且没有起到有效衔接的作用。因此，医护人员在同患者沟通时要想正确理解患者言语中的词汇所指，就需要结合所处语境对句法信息和语篇信息进行整合。另外，还有一些词汇衔接方面的错误则反映了患者的语法资源受损，如“那些柜子饼干他拿了”，对产出此类被动句现象的解释可以参照句法障碍的语迹假说^［9］，有关汉语语迹的神经机制问题，可采用动态模型对AD患者的句法障碍进行科学描述和解释。

三、结语

Python具有强大的语料库功能，能对中文文本进行分词、词频统计，这也为计算机技术处理自然语言、探索语言范畴与患者病情发展的关联提供了无限可能。本研究对AD患者话语中高频词汇、整体连贯性、话题维系等方面做了统计和分析，发现患者在使用功能词方面存在一定的选择性，其言语障碍也呈现一定的规律，如话语信息的相关性、连贯性与意义传递之间的规律等。因此，在交际过程中，医护人员可以根据患者的话语习惯和常用高频词来推断患者产出话语的含义和新信息，对患者的语言资源作出更精确的评估，从而更好地理解和把握患者的表述意图，帮助其维系言语活动的主题而不发生偏离。

随着校园信息化这几十年突飞猛进的发展，由于最先10兆局域网已经必展成为主干网是万兆，上网速度成几何数字往上涨，速度较快。在校的师生都会较多地通过校园网去互联网上获取更多的信息。同时，青年人又喜欢上网，使得校园网平时里用户规模比较大。而校园网的建设时，出于成本的考虑，会买些低端的设备，更有些学校连一些基本的安全设备都配备不全，主要考虑的还是教学与管理的应用，对网络安全不够重视。

参考文献

［1］陈涵丰，罗本燕.阿尔茨海默病的语言障碍研究进展［J］.现代实用医学，2017（4）：421-423.

［2］赵俊海，杨炳钧.临床话语分析的系统功能语言学理据及途径［J］.中国外语，2012（6）：42.

［3］余林，舒华.西方语言产生研究中的几个主要问题［J］.心理科学进展，2002（3）：248-256.

［4］王荫华，王健.阿尔茨海默病的语言障碍研究［C］//中华医学会.第四届全国痴呆与认知障碍学术研讨会及高级讲授班论文汇编，2015.

［5］陈卓铭.汉语语言心理加工与失语症评估［J］.中国康复医学杂志，2015（11）：1091-1094.

［6］杨旭东.基于Python的《水浒传》中人物分析［J］.网络安全技术与应用，2019（1）：45-46.

［7］张德禄.语言的功能与文体［M］.北京：高等教育出版社，2005.

［8］YunmiL.韩国CFL学习者汉语写作中语篇连贯性分析及教学方案制定［D］.杭州：浙江大学，2018.

［9］Grodzinsky Y.The Syntactic Characterization of Agrammatism［J］.Cognition，1984（2）：0-120.

中图分类号： H313

文献标志码： A

文章编号： 1008-9640（2019）06-0053-03

doi： 10.3969/j.issn.1008-9640.2019.06.025

收稿日期： 2019-06-03

基金项目： 2017江苏省高校哲学社会科学基金项目“临床语言研究的系统功能语言学途径”（项目编号：2017SJB1121）。

作者简介：潘玥（1982—），女，江苏镇江人，镇江市高等专科学校副教授，硕士。研究方向：语言学。庞伟奇(1978—)，男，重庆人，江苏大学文学院讲师，博士后。研究方向：文学。

（责任编辑：李汴红）

标签：AD患者论文; 话语分析论文; Python论文; 镇江市高等专科学校论文; 江苏大学文学院论文;