《语料库语言学中的统计学-实用指南》评述论文

《语料库语言学中的统计学-实用指南》评述论文

《语料库语言学中的统计学——实用指南》评述

李虹霏

(东北大学 外国语学院,辽宁 沈阳 110819)

[摘 要] 统计分析已经成为现代语言学中必需的研究工具,统计学的应用极大提高了语言学研究的科学性和有效性。Vaclav Brezina编著的《语料库语言学中的统计学——实用指南》(Statistics in Corpus Linguistics—A Practical Guide)主要介绍了统计思维的核心原则,对如何在语料库语言学研究中应用统计学进行数据分析提供了详尽指导。本文旨在对该专著进行评述,梳理语言研究中统计学的应用方法,为语料库语言学研究提供借鉴。

[关键词] 语料库;语料库语言学;统计学;数据可视化

一、引言

随着现代语言学研究领域的日渐扩展,其研究的综合性、交叉性和跨学科性不言而喻,这使得语言学的研究方法亟须推陈出新。语言学家需要对真实发生的语言现象进行描写,对广泛提出的语言理论甄别验证,因此统计学成为语言学分析的重要助力。《语料库语言学中的统计学——实用指南》(以下简称《指南》)是由兰卡斯特大学学者Vaclav Brezina编著的一本全面介绍统计学原理、方法及在语料库语言学研究中应用的专著。本书由剑桥出版社于2018年出版,全书共296页,旨在将统计学知识与语料库语言学研究相结合,增强语言学研究的科学性,让读者在无须具备统计知识的情况下掌握统计学核心原则,在语言研究中熟练运用统计分析方法[1]

二、结构与内容

《指南》整体根据语言学研究主题进行编排,全书内容分为三大部分,共8章。第一部分有1章,为全书的导入部分,通过实例说明了统计思维基本原则在语料库数据分析的应用过程,解释了统计学在语料库语言学研究中的重要性。第二部分为第二章到第七章,根据语言话题进行编排。第二章关注了独立的词汇,主要讲解词汇频率、离散性和多样性等特征的测量分析方法;第三章探究词汇在语境中的含义,讨论了搭配、关键词和人工编码可信度等内容;第四章介绍词汇语法特征的统计分析;第五章涉及不同文本和语域中语言变量的相关分析;第六章展示社会语言学和文体变体的统计方法;第七章是基于语料库中历时语言数据的统计分析。第三部分为本书的总结部分,包括1章,重点将前文所述不同层次的统计知识进行结合,以便全面分析语料库统计数据。本文现将对每章的主要内容进行扼要介绍。

第一章:导入。作者在本章中简要涉及四个方面:一是给出科学和语料库语言学的定义,指出语料库和科学同样需要进行实证研究,即遵循系统收集实验数据,验证理论假说的过程。概括了统计学主要包含的两个方面,即描述性统计学(descriptive statistics)和推论性统计(inferential statistics)。前者通过平均数、中位数、标准差等具有代表性的统计量来描述一组数据的全貌;后者利用对一小部分样本(sample)数据的观察来概括它所代表的总体(population)的特征。二是简要地介绍统计学相关术语及其定义。三是针对如何收集语料、建立语料库以及区分研究设计提供有意义的参考。四是通过大量图表展示数理统计分析是如何被应用于语言研究中数据探索和数据可视化。

第二章:词汇:频率、离散性和多样性。本章首先定义了语料库语言学对于有意义的语言使用模式,即形符(token)、类符(type)、词源(lemma)和词位(lexeme)等单词统计标准, 并针对单词频数/频率的测量引入绝对频数(absolute frequency)和相对频率(relative frequency)的概念,然后运用统计学中的齐夫定律解释语料库中单词出现频率与其在频率表中的负相关关系。由于语料库数据中存在分布不均的情况,因此在描述语料库频率特征时需要考虑整个语料库中单词、短语的离散情况。作者由浅入深,简要介绍了几种测量离散程度的指标,如全距(range)、标准差(SD)、变异系数(CV)和Juilland’s D系数和比例偏差(DP),而对于具体指标的选择应依据研究目的而定。在英语中存在一些可以应用于多种语境下的高频词汇,运用平均降低频率(ARF)可以对频率列表中的单词进行排序,以突显出频率最高且最均匀分布的词项。词汇多样性分析在语料库语言学研究中扮演非常重要的角色,作者解释了一种常用的词汇多样性统计数值——类符形符比(TTR),由于其对所测试文本的容量大小要求较为精确,易导致测试结果受文本长度影响,因此作者在此基础上介绍了另外两种可以应用于不同长度文本的测量方式,即标准化类符形符比(STTR)和移动平均数类符形符比(MATTR)。

第三章:语义学和语篇:搭配、关键词和人工编码的可靠性。这一章重点关注语义学和语篇分析中单词的语境特征。语料库语言学认为文本和语料库中的单词是以结合的形式出现的,即搭配关系。搭配可以通过频率(frequency)和关联度测量(association measure)两种方法进行测量,其中,后者需针对搭配关系侧重的不同方面采取不同的统计标准。为了更直观地展现单词的搭配关系,作者介绍了节点和其搭配词之间配置关系的可视化表示形式——搭配图和搭配网(collocation networks)。搭配图可以清晰展现节点与搭配词之间的搭配强度、搭配频率和文本中的搭配位置,而搭配网则更宏观地呈现了搭配模式,揭示了距离较远的搭配词是如何通过与节点词共享相似概念空间来影响节点词意义的情况,其可以用来解释单词间的概念隐喻关系。识别关键词是语料库语言学中一项重要技术[2](P233-245),而与关键词相对的是Baker提出的锁词(lockwords)概念,对这两种词类的测量需要选取两个语料库,即目标语料库(corpus of interest)和参照语料库(reference corpus),并比较其关键词的频数。在语料库语言学的语篇分析研究中涉及判断变量,而研究者的主观成分可能会影响编码的可信度和一致性,因此有必要对评估者间一致性(inter-rater agreement)进行测量,测量指数包括Cohen’s Kappa (κ) 和 Gwet’s AC1 。

实际上,公共服务均等化供给受到的影响因素显然不限于本文所列举的几个变量。从回归结果中的拟合优度R2值比较低可以看出,我们无法在建模过程中把所有解释变量全部列出,因此三个模型不能排除因为遗漏变量而产生的内生性。

第五章:语域变化:关联、词簇和因素。这一章探讨了可以同时处理大量具备不同文本和语域特征的语言变量的测量方法。第一种方法是对相关系数的测量,变量的相关性指是通过观察两个典型的有序变量(ordinal variables)或尺度变量(scale variables)。非参数的斯皮尔曼相关系数(Spearman’s correlation)可以分析两个或两个以上的变量间的线性相关关系。接下来,作者介绍了采用层级凝聚聚类(hierarchical agglomerative clustering)的技术对单词、文本和语域的分类问题的研究,展示了集中聚类识别方法,并对聚类分析结果进行完整的解释。最后,由于语言使用存在多文体性的特征,因此不同语域中的语言具备不同的语言特征。有鉴于此,本章讨论了一种处理大量语言变量并通过观察单个语言变量如何在文本中共现的情况来确定潜在变异功能原则的分析方法,即多维分析(MD)。多维分析使用因素分析(factor analysis)的方式来提取跨多个模式的变量,这可以将大量的语言变量减少为少量结合了多种语言变量特征的因子进行分析。作者对变量选择的初始过程、因子载荷(factor loadings)和维度图(dimension plots)等方面进行详细解释。

Vaclav Brezina的《指南》一书对语料库语言学中统计学的应用进行多层次、由浅入深的讲解。作者条理清晰、层次分明,以深厚的学术修养对语料库研究中统计学应用的相关概念、研究方法及数据分析原理进行详细阐释。

Step 2 Solve the IKPI value ujof the manipulator when the end-effector is located at scatter pjin the degraded workspace by the constructed IKPI.

第八章:汇集:统计思维的十个原则、元分析和效应量。此章为本书的最后一章,重点讲解了如何将不同层次的东西结合起来运用。首先,它回顾了本书中讨论的统计学知识,并强调了统计思维应用与语料库的十个关键原则。其次,本章介绍了一种成为元分析的统计技术(meta-analysis),元分析是一种将多个研究结果综合起来并系统结合的办法。这样,元分析有助于更好地理解语言学研究领域的成果。与通常单独考虑单个研究的标准叙述性文献综述不同,元分析可以将多个研究的结果结合成一种数学综合方法。虽然形式元分析在语言学、二语习得、医学等学科中已经相当普遍,但由于缺乏对效应量的报告,其在语料库语言学中的应用一直存在问题。本章支持语料库研究中对效应量的标准化报告,并展示了如何进行元分析的过程。最后,本章回顾了常用的效应量度量方法,并对其解读提供了指导。

第七章:随时间而变:处理历时数据。本章讨论了用于探究历时数据的统计方法,即分析随时间而发展的语言变量数据。首先,作者概述了历时研究的具体特点,并介绍了能够有效地可视化历时变化的技术;其次,重点关注了如何使用bootstrapping程序对两个时间段进行统计比较;再次,作者讨论了聚类分析的历时应用,讲解了一种考虑数据历时性排序的聚类计数方法——相邻聚类分析(neighboring cluster analysis);最后,本章提出一种统计识别数据波峰(peaks)和波谷(troughs)的方法,并将其扩展为使用波动分析法(UFA)。波峰和波谷技术将非线性回归模型应用于数据,以识别话语发生急剧变化的极端时间点(离群值)。UFA可以追溯所研究单词的时间发展历程,运用波峰和波谷技术可以确定一个单词用法发生重大变化的点。

第六章:社会语言学和文体学:个体与社会变体。本章讨论了用于分析语料库中文体变体和社会语言学变体的多种统计方法。首先,回顾了拉波夫社会语言学变量的概念,即口语或笔语文体变体方式的语言变量会根据个体或集体语言使用者的不同展示出系统性的差异,并分析了拉波夫社会语言学变量潜在的局限性。其次,作者详细列举了几种数据统计方法,每种方法针对不同类型的社会语言学分析,在使用时需要进行具体的研究设计。其中,组间比较包括四种方法:t检验、方差分析(ANOVA)、独立双样本检验(Mann-Whitney Test)和独立多样本检验(Kruskal-Wallis Test),前两者为参数检验,用以检验两个样本平均数间、三个或三个以上样本平均数间差异的显著性,后两者是与其相对应的非参数性检验法,“在分析时研究者无须掌握总体中研究变量的参数信息”[3](P68)。而对于个体语言文体的研究应采用对应分析的方法。最后,在传统(拉波夫)社会语言学关注的语言环境变体分析的基础上,作者引入一种新型的多元统计技术——混合效应模型(mixed-effects models),可用于分析复杂的语言环境,它既能解释由于外部因素和内部因素不同所引起的系统变化,也可以解释由说话者偏好等因素引起的个体变化。

三、简评

同样因为开启状态的麦克风,两人这段本不对外开放的双边会谈得以向媒体“直播”。当时,外界把奥巴马的话解读为,他不愿意和内塔尼亚胡打交道。

第四章:词汇语法:从简单计算到复杂模型。本章主要关注词汇语法特征的相关研究,讲解了两种关于语料库词汇语法的研究方法,即全面语料库设计法(whole corpus)和语言特征设计法(linguistic feature design)。这两种方法既可以用以分析语言变量在子语料库中的分布频率,又可以精确定位语言变量出现的具体语境情况。此外,作者又介绍了两种将数据可视化的数据汇总图表,即交叉表(cross-tab)和马赛克图,马赛克图可将频数信息转化为图中区域,呈现语料库中预测变量范畴比例和每种预测变量范畴下语言变量范畴的比例。而对于交叉表中的词汇语法变量数据的处理则可采用计算百分比、方差(chi-squared)、Cramer’s V、概率比(probability ratio)、让步比(odds ratio)和逻辑回归(logistic regression)等方式进行测量,其中,逻辑回归是一种较高级的统计方式,运用解释变量来预测其对于语言变量的影响程度。

首先,当前语言研究具有跨学科的性质,其发展与人文社会科学联系密切,因此语言学的研究方法不再只局限于定性研究,以数理统计为基础的定量研究方法在语言研究中得到广泛应用。统计学是归纳分析数据、进行统计推理的重要工具,而语料库语言学本质上亦是一种量化研究语言数据的研究方法,所以将统计学原理运用到语料库语言学研究当中可以保证语言研究的可重复性和可解释性。《指南》一书概述了运用统计学进行语料库数据分析的先进方法,详细介绍了许多当前语言研究领域并未普及的高级统计分析技术,着重展现了研究设计和不同类型数据对统计分析结果的影响,通过对比使读者可以清晰了解不同分析方法的利弊,为选择统计研究方法提供新思路。

其次,《指南》在结构安排上,“不仅有宏观的把握,而且有微观的考察,还有系统的归纳”[4](P15-16)。全书以“导入—分类话题—汇总”的形式呈现,以语言学关注的热点问题为重点进行主要讲解,循序渐进,使前后章节既为铺垫,又为补充。书中各个章节都以对本章的内容简介和研究问题为开端,并在正文中采取问题探究的形式对所讲解内容一一展开。作者选取了大量实例来解释统计分析的基本概念、统计技术及其应用,避开了复杂的数学推导,以精简的方式呈现统计指标的运算过程,并在介绍常用统计量的同时,引入许多的高级统计分析方法,例如,多维分析、混合效应模型、相邻聚类分析等,既清楚地展现各种研究方法的利弊,又让读者认识到不同的语料库类型和研究问题需要使用不同的研究方法和工具,大大地增强了语料库语言学研究的科学性与解释性[5](P93-97)。在每小节的最后,作者通常举例展示对如何对统计数据进行汇报,以便加深读者对统计数据的实际应用与深度解读。每章的后两节均为实例分析和实践活动,在为读者展示具体分析过程的同时,又可以让读者运用所学统计学知识进行语言学分析练习,而且为增强读者对章节主要内容的把握,作者总结了各章节的主要知识,并附以推荐阅读书目以供进一步学习。

最后,本书通过对统计分析过程的逐步指导,展现统计方法是如何应用与分析和可视化语言数据,可以促进统计学在语料库语言学研究中的综合运用,为语料库语言学研究提供了巨大的方法论贡献。

2)资金补贴类:例如工业电窑炉、电动汽车等电能替代领域用电设备初期投资较大从而限制推广的,建议出台类似家电下乡等绿色电器政策,加大补贴力度和广度。

[参 考 文 献]

[1]Brezina V. Statistics in corpus linguistics: A practical guide[M]. Cambridge University Press, 2018.

[2]Scott M. PC analysis of key words—and key key words[J]. System, 1997(2).

[3]Dodge Y. The concise encyclopedia of statistics[M]. Springer Science & Business Media, 2008.

[4]司艳辉, 葛晓帅. 二十一世纪语料库语言学的新发展——《语料库语言学: 方法、理论与实践》评述[J]. 文教资料, 2017(5).

[5]张懂. 语料库语言学研究的新进展——《语料库语言学研究中的三角验证方法》评介[J]. 语言教育, 2017(3).

Review of Statistics in Corpus Linguistics ——A Practical Guide

LI Hong-fei

(College of foreign Languages,Northeastern University,Shenyang 110819,China)

Abstract :Statistical analysis has become a necessary research tool in modern linguistics. The application of statistics has greatly improved the scientificity and effectiveness of linguistic research. Statistics in Corpus Linguistics—A Practical Guide by Vaclav Brezina introduces the core principles of statistical thinking and provides detailed guidelines on how to apply statistics to data analysis in corpus linguistics. The present paper aims to review this monograph, sort out the application methods of statistics in language research, and to provide references for corpus linguistics.

Key words :corpus; corpus linguistics; statistics; data visualization

[中图分类号] H08

[文献标志码] A

[文章编号] 2095-0292( 2019) 03-0100-04

[收稿日期] 2019-03-11

[基金项目] 辽宁省社会科学规划基金资助项目“互联网+时代混合教学模式推动个性化语言学习的研究”(L18BYY010);东北大学研究生培养资助项目

[作者简介] 李虹霏,东北大学外国语学院硕士研究生,研究方向:认知语言学。

[责任编辑 薄 刚]

标签:;  ;  ;  ;  ;  

《语料库语言学中的统计学-实用指南》评述论文
下载Doc文档

猜你喜欢