基于Coh-Metrix的中美英语新闻连贯性对比研究
梁嘉齐
(广州大学 外国语学院,广东 广州 510006)
摘 要: 借助自然语言处理工具Coh-Metrix,从局部连贯性和整体连贯性两方面对中美英语新闻语篇进行对比分析,研究发现中美英语新闻在局部连贯性和整体连贯性层面均存在一定程度的差异,该结论为跨文化背景下的英语新闻写作提供启示,并进一步验证语篇连贯性量化分析的可操作性和实用性。
关键词: 中美新闻;连贯;Coh-Metrix
英语新闻是我国媒体对外传播的重要方式之一,英语新闻的写作质量将直接影响着对外传播的效果,而连贯性是衡量写作质量的重要标准[1],甚至是最重要的标准[2]。语篇连贯性是一种逻辑关系,将文本中的命题有机连接,使得文本在意义上具有连续性,从而促进读者对文本的理解。在英语新闻连贯性的研究方面,已有研究主要基于Halliday和Hasan的衔接理论[3],从词汇衔接的视角对新闻语篇进行文本分析[4-6],这些研究着重对新闻语篇中起衔接作用的语言表层特征的考察,而缺乏从更宏观的层面对语篇内在逻辑关系的探讨。可见,从语篇层面上对英语新闻连贯性的考察十分必要。因此,本研究借助自然语言处理工具Coh-Metrix 3.0,自建中美英语新闻语料库,从局部连贯性和整体连贯性两方面考察中美英语新闻的连贯性特征,以期为跨文化背景下英语新闻写作提供借鉴,并进一步验证语篇连贯性量化分析的可操作性和实用性。
一、语篇连贯性和 Coh- Metrix
篇章语言学认为,语篇的基本特征是连贯和衔接[7],两者相互联系,又存在本质区别。连贯是一段话语或某个语篇的不同部分在意义上的联系,是通过文本所表达的言外行为所实现的。衔接是句子在语义和表层结构中的连接方式,是通过语言形式体现的。衔接手段的使用有助于提高连贯性,但并非是必备条件[7-8],其本身不能确保语篇连贯。传统的语篇连贯性研究大多基于词汇衔接层面,但随着计算机语言学和语料库语言学的发展,不少学者借助自然语言处理工具Coh-Metrix在更宏观的层面对语篇连贯性进行量化研究。
教育部高等学校信息安全专业教学指导委员会在2014年出版了《高等学校信息安全专业指导性专业规范》,在《专业规范》中给出了信息安全专业的知识体系,其结构如图1所示:
Coh-Metrix是由美国孟菲斯大学McNamara等人研发的文本分析工具,能有效测量语篇连贯性和阅读难易度。该软件整合了多项自然语言分析技术,能从文本中提取多个变量,涉及衔接程度、概念清晰度、句法复杂度等多个方面。最为重要的是,Coh-Metrix整合了信息检索中的一项新技术,即潜在语义分析法(Latent Semantic Analysis,LSA)[9]。该方法不依赖语篇的表层特征,能对语篇各部分之间的语义相关性进行分析,从而有效测量连贯性[10]。国内外不少学者已经采用Coh-Metrix研究语篇连贯性[11-13],该软件的信效度已得到充分验证。
二、研究设计
1.研究问题
本文的研究问题如下:
(1)中美英语新闻在局部连贯性层面有何差异?
(2)中美英语新闻在整体连贯性层面有何差异?
2.研究工具
本研究的语料选自中美权威报刊China Daily 和USA Today 的政治类和外交类新闻报道,选取2018—2019年间中美新闻各30篇,基本信息见表1。本研究选取新闻的正文部分并自建语料库,将其分别命名为中国新闻库和美国新闻库。为了控制新闻篇幅长短对研究结果的潜在干扰,笔者对两个语料库的词数和段落数的差异进行独立样本T检验。结果显示,两个语料库的平均词数和平均段落数均不存在显著性差异(p词数=0.415>0.05;p段落数=0.168>0.05)。
其中,局部连贯性涉及到照应、替代、连接等多种语篇衔接特征,包括相邻论元重叠、相邻词干重叠、相邻句子间LSA、人称代词、连词等9项指标。相邻论元重叠指共享一个或多个论元的相邻句对占文本句子总数的比例,范围在0~1之间,数值越大,语义互指性越强,连贯性越高。相邻词干重叠是相邻论元重叠的有效补充。相邻句子间LSA指相邻句子之间语义向量的LSA余弦均值,范围在0~1之间,若数值趋向1,说明两个句子的语义相关性较大,所讨论的是同一或相似命题,具有较高连贯性。人称代词指标指平均每百词中人称代词的数量比例,表示照应关系。与连词相关的指标包括各类连词总数以及表示条件关系的连词,即因果、逻辑、时序和附加连词。
整体连贯性包括论元重叠、词干重叠、所有句子间LSA、新旧信息LSA、情景模型等7项指标。论元重叠和词干重叠指标用于衡量同一段落中的所有句子是否服务于同一命题,指标数值越大,连贯性越高。所有句子间LSA指文本内每一个句子和其他所有句子间语义向量的LSA余弦均值,反映文本内所有句子的连贯性。新旧信息LSA能反映概念或命题的延续或相似程度,数值越接近1,说明已知信息越多,文本越连贯。与情景模型相关的指标包括因果动词、意向动词和时态语态重复率3个指标,分别反映客观世界或人心理世界的事件变化、人的意向性行为和时间衔接。
(1)中美英语新闻的局部连贯性分析
3.语料选择
本研究以Coh-Metrix 3.0为工具考察中美英语新闻的连贯性特征。Coh-Metrix 3.0能提供106项关于语言特征的指标,涵盖文本基本信息、词汇复杂性、句法复杂度、连贯性、可读性、文本难易度等主要模块。根据本研究的需要,笔者将选取与连贯性相关的16项指标,归入局部连贯性和整体连贯性两个类别。
表1 中美新闻语料库的基本信息
4.数据收集和分析
笔者借助Coh-Metrix 3.0对60篇中美新闻进行计算机自动评估并选取与研究相关的16项指标数据,再利用SPSS20.0对通过正态分布验证的两个语料库各项指标数据进行独立样本T检验。
5.结果分析
中国新闻库和美国新闻库的16项连贯性指标分析结果见表2。
表2 中美新闻语料库的连贯性指标对比
采用SPSS17.0统计学软件进行数据处理,计量资料以表示,组间差异比较采用t检验,计数资料以%表示,组间差异比较采用χ2检验。
中美英语新闻在各类连词总数指标上存在显著差异(MD=11.216,p<0.01),说明中国新闻使用连词的数量显著多于美国新闻。在连词的类别方面,附加连词的使用差异最为显著(MD=17.787,p<0.001),表明中国新闻频繁使用附加连词来表示命题或概念的延展和增加,而美国新闻则不倾向使用附加连词来表征命题或概念的增加关系。而在因果连词、逻辑连词和时序连词的使用方面,中美新闻不存在显著差异,说明两者在因果、逻辑、时序关系的表征方式上较为相似。
中美英语新闻在相邻论元重叠指标上存在显著差异(MD=0.135,p<0.01),说明中国新闻倾向于使用更多的相邻论元重叠,共享同一或多个论元的相邻句对显著多于美国新闻,反映了中国新闻相邻命题或概念的重复率较高,信息较为冗余,体现出更高的局部语义共指性,文本局部概念的构建更加连贯。
②相邻词干重叠
中美英语新闻在相邻词干重叠指标上也存在显著差异(MD=0.154,p<0.01),说明中国新闻使用相邻词干重叠显著多于美国新闻,相邻词干重叠是相邻论元重叠的一个有效补充,这同样表明了中国新闻的局部共指程度更高。
③相邻句子间LSA
我国企业在激烈的市场竞争中,要想有效地提升企业发展竞争力,应重视会计成本核算,以此提升企业的经济利益,促进企业健康发展,但在我国大部分企业中,一部分会计成本核算人员素质较低,难以在实际工作中运用正确的计算方式。同时,缺乏职业胜任力,难以对企业的未来发展制定合理的经济计划,从而影响我国企业的发展。除此之外,企业中成本核算会计人员的素质较低,严重影响成本核算工作效率,在短时间内难以向企业领导提供准确率较高的成本核算结果,从而影响企业领导的决策,降低企业的经济水平,难以参与激烈的市场经济竞争。
中美英语新闻在这一指标上不存在显著差异,说明两者邻近命题或概念的相似度比较接近,相邻句子间的语义相关性比较相似。
④人称代词
中美英语新闻在人称代词指标上不存在显著差异,说明两者使用人称代词的数量比较接近,反映了相似的照应手段。
⑤连词
1714年7月12日(康熙五十三年六月初一),图理琛使团一行抵达土尔扈特汗国阿玉奇牙帐所在地马奴托海,次日,阿玉奇汗在其汗帐举行了隆重欢迎仪式。
①相邻论元重叠
(2)中美英语新闻的整体连贯性分析
①论元重叠
《中华人民共和国侵权责任法》第八十一条规定:动物园的动物造成他人损害的,动物园应当承担侵权责任,但能够证明尽到管理职责的,不承担责任;《中华人民共和国侵权责任法》第三十七条:宾馆、商场、银行、车站、娱乐场所等公共场所的管理人或者群众性活动组织者,未尽到安全保障义务,造成他人损害的,应当承担侵权责任。因此,在本次案件之中,动物园是否有尽到自己的职责就显得极为重要了。
②词干重叠
③所有句子间LSA
中美英语新闻在这一指标上存在显著差异(MD=0.160,p<0.01),说明中国新闻共享同一或多个词干的所有句对显著多于美国新闻,同样表明其整体语义共指程度更高。
中美英语新闻在所有句子间LSA指标上存在显著差异(MD=-0.081,p<0.05),说明美国新闻的整体概念相似度显著高于中国新闻,文本内所有句子间的语义相关性更强,具有更高的整体连贯性。
中美英语新闻在论元重叠指标上存在显著差异(MD=0.158,p<0.001),说明中国新闻共享同一或多个论元的所有句对显著多于美国新闻,中国新闻的整体语义共指程度更高。
④新旧信息LSA
(2)管理学、商学和经济学依次为中国发文较多的前三种学科。跨学科研究已经演变成为科学研究实践的重要形式之一。
中美英语新闻在这一指标上不存在显著差异,两者指标数值较低,说明两者在概念的延续和相似程度上较为接近,均倾向使用一定的新信息来表征概念。
运用DEAP2.1软件对2009~2016年我国各地区高技术产业的Malulquist生产率指数进行测算和分解,得到高技术产业创新效率的动态变化情况,具体运算结果见表3,全要素生产率及其分解指标变化趋势如图1所示。
⑤情景模型
在情景模型变量中,因果动词在中美英语新闻中的使用差异最为显著(MD=-8.270,p<0.001),说明美国新闻使用因果动词的数量显著多于中国新闻,能更清晰地反映客观世界或人心理世界的事件变化,有助于情景模型的构建,从而促进读者对新闻的理解。中美新闻在意象动词、时态语态重复率指标上均无显著差异,说明两者使用意象动词的数量相当,时态语态较为一致,反映出整体句式结构均较为统一,时序概念均比较清晰。
由研究组成员向每一位研究对象解释本研究的目的和意义,签订知情同意书,保证在知情同意的情况下,由同一名护士抽取研究对象同一侧肘部静脉血1 mL,用微量移液枪取新鲜全血100 µL均匀划于干燥滤纸上,一式两份,自然风干后装自封袋中保存。全部标本送山西医科大学营养与卫生学教研室进行血硒含量测定,采用2,3-二氨基萘荧光法。
三、讨论
本研究发现中美英语新闻的连贯性存在一定程度的差异,具体而言:(1)在局部连贯性层面,中国新闻更倾向于通过相邻论元、词干来重复相同的命题或概念,并频繁使用连词,特别是附加连词来延展或增加相似的命题,体现出较强的局部连贯性。(2)在整体连贯性层面,中国新闻倾向于使用论元、词干重叠来提高整体语义共指程度;而美国则倾向于通过加强句间深层语义的相关性,更多地使用因果动词来构建情景模型,从而提高整体连贯性。笔者认为该结果与英语新闻的语类特点以及中美文化和思维方式差异有关。
梁鲁晋认为英语新闻具有主题性、客观性等特点,这些因素参与英语新闻连贯性的构建过程[14]。受不同文化背景下思维方式的制约,中美新闻在构建语篇连贯的方式上存在差异。中国民族思维具有整体性、辩证性的特点,因此更倾向于多次重复主题词以达到点明主题的作用,从而达到连贯的效果,这种连贯是通过表层语言形式来构建语义关系的。而西方民族注重理性逻辑思维,善于推导语义内部的关联,通过词汇层和句法层的因果联系帮助读者构建对于文本深层意义的心理表征,即情景模型。情景模型是基于文本的命题表征与读者的背景知识相互作用而形成的心理表征,连贯的情景模型有助于对文本的理解[15]。可见西方民族善于通过深层语义联系来构建情景模型,从而达到连贯效果。
(1)施涂 选择水基石墨涂料,波美度控制在55~60°Bé,如图7所示;流涂前的白模必须用垫料做好支撑,防止流涂过程中出现变形,使用翻转机和专用支撑架流涂2遍,不允许直接放置在地面上流涂,如图8所示;流涂完毕需要检查流挂性,内腔拐角的涂料堆积及大面的涂层厚度,涂层厚度控制范围:非拐角/热节区域厚度0.8~1.2mm,拐角/热节区域1.5~2.0mm。
结语
本文借助自然语言处理工具Coh-Metrix从局部连贯性和整体连贯性两方面对中美英语新闻语篇进行对比分析,研究发现中美英语新闻在局部连贯性和整体连贯性层面均存在一定程度的差异,这些发现提供了两点启示:第一,中国英语新闻需平衡各类连词的使用,尤其是恰当使用附加连词,使英语新闻写作更接近英语母语者水平,力图使表达更地道。第二,除了使用论元重叠、词干重叠等表层词汇衔接以外,还应注意加强句子间深层语义的相关性,可通过因果动词等的使用构建情景模型,使得新闻语篇在表层和深层意义上均具有较高连贯性。总之,跨文化背景下的英语新闻写作应逐渐消除连贯方式上的差异,以便更好地加强我国英语新闻外传播的效果和影响力。受语料样本规模的局限,本研究结果有待进一步验证。
式中:qe(mg/g)表示吸附量;Ce(mg/L)表示平衡浓度;a(mg/g)表示最大吸附量;b表示Langmuir系数,与吸附质和吸附剂之间的亲和力相关联[9]。
参考文献
[1]Higgins D,Burstein J,Marcu D,et al.Evaluating multiple aspects of coherence in student essays[C].Proceedings of the Human Language Technology Conference of the North American Chapter of the Association for Computational Linguistics:HLT-NAACL 2004,2004.
[2]Crossley S,Mcnamara D.Text coherence and judgments of essay quality:Models of quality and coherence[C].Proceedings of the Annual Meeting of the Cognitive Science Society,2011.
[3]Halliday M a K,Hasan R.Cohesion in english [M].Routledge,2014.
[4]朱昱.英汉新闻语篇衔接手段对比分析[J].首都师范大学学报(社会科学版),2004(S2):147-150.
[5]张红.英语报纸与广播新闻语篇衔接的对比研究[J].新疆大学学报(哲学人文社会科学版),2009,37(04):143-146.
[6]曹军,张绍杰.VOA新闻语篇中指称词more的双重指代与多维衔接——兼论Halliday&Hasan的比较指称衔接观[J].中国外语,2014,11(06):38-42+52.
[7]Brown G,Yule G.Discourse analysis [M].Cambridge university press,1983.
[8]De Beaugrande R,Dressler W U.Introduction to text linguistics [M].Routledge,1981.
[9]Mcnamara D S,Graesser A C,Mccarthy P M,et al.Automated evaluation of text and discourse with Coh -Metrix [M].Cambridge University Press,2014.
[10]桂诗春.潜伏语义分析的理论及其应用[J].现代外语,2003(01):76-84.
[11]梁茂成.学习者书面语语篇连贯性的研究[J].现代外语,2006,29(3):284-292.
[12]Duran N D,Mccarthy P M,Graesser A C,et al.Using temporal cohesion to predict temporal coherence in narrative and expository texts[J].Behav Res Methods,2007,39(2):212-223.
[13]Mcnamara D S,Louwerse M M,Mccarthy P M,et al.Coh-Metrix:Capturing Linguistic Features of Cohesion[J].Discourse Processes,2010,47(4):292-330.
[14]梁鲁晋.新闻英语中的连贯[J].外语教学,2003(05):72-76.
[15]Kintsch W,Van Dijk T A.Strategies of discourse comprehension [M].New York:Academic Press 1983.
A Contrastive Analysis of Coherence in Chinese and American English News Based on Coh -Metrix
Liang Jiaqi
(Foreign Languages Institute,Guangzhou University,Guangzhou,Guangdong 510006,China)
Abstract :The paper presents a contrastive analysis of coherence in Chinese and American English news with Coh-Metrix tool based on 60 texts.The results show significant differences between Chinese and American English news on local and global coherence.The findings provide enlightenment for English news writing in a cross-cultural context,and further verify the operability and practicality of quantitative analysis of coherence.
Key words :Chinese and American news;coherence;Coh-Metrix
中图分类号: H05
文献标识码: A
作者简介: 梁嘉齐,在读硕士,广州大学外国语学院课程与教学论专业2017级。研究方向:二语习得和英语教育。
文章编号: 2096-3874(2019)08-0139-05
Class No .:H05
Document Mark: A
(责任编辑:蔡雪岚)
标签:中美新闻论文; 连贯论文; Coh-metrix论文; 广州大学外国语学院论文;