汉语声调研究中的大数据思维

龙国治 ¹,潘悟云 ²

(1.广西职业师范学院,广西南宁 530007；2.上海师范大学，上海 200234)

[摘要] 以汉语声调数目为例，阐述了运用大数据三个核心思想——总体思维，容错思维，相关思维以及语言地理信息系统研究汉语方言及其演化的方法。运用大数据获取汉语声调类型，通过地理信息系统绘制语言同演区，从中可以观察语言演化与历史行政区划的相关性，由此追寻语言演化的历史原因。

[关键词] 大数据；地理信息系统；声调数；历史地图；同演区

大数据进入到人文与社会科学，势必会引起一场革命。在人文与社会科学中，它会首先进入到语言学。这同语言科学的性质有关。

大数据的第一个特征是总体思维，研究对象应该有足够的量，可以观察研究对象的总体，而不是个别和局部。所以大数据的研究当然要以庞大的数据为基础。在自然现象和社会现象中，我们很容易得到庞大的数据。但是在人文与社会科学中能够得到的数据是有限的，这就是大数据分析迟迟不能进入到人文和社会科学的重要原因。数据分析的目的，是获取我们所需要的信息。信息有结构性的与非结构性的两种。我们从自然现象和社会现象中获取的庞大数据，基本上是非结构性的数据。但是语言数据是结构性的，语言的语音、词汇、句法、语用、语义，都是复杂的结构，其中包含丰富的信息量。所以，即使语言数据不够庞大，但是语言数据本身已经给我们提供足够的信息，足以弥补数据量的不足，这就是大数据分析能够首先进入语言学的原因。

简析：据奥维云网（AVC）线下零售监测数据显示，2018年10月冰箱零售市场监测销量59万台，同比下降13.2%，环比下降2.4%。本月多门零售量市场规模同比下降0.2%，多门市场比重同比上升5.7。

下面举声调个数研究为例来说明大数据分析的基本方法。

本文研究的对象是潘悟云教授提供的1282个汉语方言，每个方言点有1000到7000个字音不等，与通常大数据研究的数据量相比，好像是非常小。但是，因为我们研究的对象是语言，每个声调数据以及它们与声母、韵母之间的相互关系，都是结构性的，当中已经包含有大量的信息量，所以这样的数目用来开展声调大数据研究是足够的。

此外，以往声调研究的对象通常是少数几个方言，一个材料的错误往往会影响到整个研究的结果，所以对材料的精确性要求很高。但是数据量一多，所选的材料来源良莠不齐，各人的记音方法也各不相同。而且声调在记音过程中，是最难把握的，每个人归纳调位的方法和习惯也各不相同，对这些数据的处理非常复杂。但是对大数据进行类型归纳、规则提取的时候，个别数据异常，并不影响到总体规则。例如，本文所选的声调数最多的语言点为广西博白水鸣镇粤语，有12个，采用的是李连进教授的调查结果[注] 最早是由李连进调查结果为13个声调，曹志耘先生在汉语方言地图集中引用该调查成果，后有冉启兵在其著作《汉语方言声调极限清单研究》(2016)中支持李教授早期的调查观点。。但同样是这个语言点，曾娜(2008)则认为是10个声调。因为本研究的分析以2-3个声调为一组，4-5个声调为一组，6个声调以上为一组。不管博白是12个声调或10个声调，并不影响到声调数的归组。此外，每个方言字的声调记音都会有错，可能会把一个字的声调记作另一个字的声调。因为我们的研究关心的是一个方言的声调数，而不是每一个字记的是这个方言调类中的哪一个。所以，只要个别字声调不是记为这个方言不存在的声调，就不会影响到声调数，因而也就不会影响到我们的研究结果。这就是大数据分析的容错思维。

近年来，由于海南省大力发展乡村旅游，各个市县在乡村旅游方面发展快速，海南全省各地陆续出现了许多拥有地方特色的乡村旅游项目，比如三亚的中廖村，琼海的北仍村，定安的百里百村等项目，这些乡村旅游项目凭借地缘优势和地方特色，吸引了很多国内外游客前往旅游，已经形成一定知名度。因此这些地方都是分流什寒村旅游客源的有力的竞争对手。

表 1汉语方言声调调值及其对应的方言数

汉语方言声调数最少的方言点是甘肃省兰州市红古区(雒鹏1999)，只有2个声调；声调最多的语言点是广西壮族自治区博白县水鸣镇粤语，有12个声调。因此，汉语方言根据声调数总共可分为11种。那么我们怎么样展开大数据分析呢？

风影哭笑不得，他下意识地瞅了她一眼，一头雾水。她过去有什么事，风影茫然，真的一无所知。他只记得那时候她是一个清纯的小姑娘，像一泓清泉，像一颗露珠，像一首小诗。那时候她喜欢听他吹笛子，还喜欢把红腰带解下挂到树枝上，打上一个美丽的结，看上去就像彩虹一样。她越说越激动，腰间系着的围裙还没有解下来，这使得她丰满的胸脯格外地高耸着，两只手叉着腰，似乎是在痛苦地拧自己的腰。她亭亭玉立的姿势英姿飒爽，挺拔俊秀，好像要将东泉岭上高耸入云的松树比下去。

大数据的分析有许多方法，我们采用的是语言地理学的方法。我们对这11种声调数予以分组，如两分、三分、四分、五分，等等，把分组的结果画成语言地图，由于地理信息系统快速绘制语言地图与可视化的特点，我们很容易判断不同分类的有序性。我们发现，根据下面分组画出来的地图最为有序： 2-3声调数为一类，都为兰银官话；4-5声调数为一类，集中在官话方言；6个以上声调为一类，分布在东南方言。

声乐演唱的情感的表现，演唱者不仅要理解音乐作品的内涵，展开丰富的想象，用最佳的音色及情感感染观众，用情带声，用声传情，声情并茂的演唱。

(3)6个以上声调数为东南方言同演区，古代是三国时期的东吴区域。

《基础教育课程改革纲要(试行)》中明确指出：教师应尊重学生的人格，关注个体差异，满足不同学生的学习需要，创设能引导学生主动参与的教育环境，激发学生的学习积极性，培养学生掌握和运用知识的态度和能力，使每个学生都能得到充分的发展。小学数学阶段是对学生的数学教育进行基础巩固的阶段，是培养学生数学综合能力的关键时期，分层异步教学作为小学数学的重要教学方式，能够逐渐平衡学生之间的差异，提升整体学生的综合能力，提高教师的教学质量，对不同程度的学生进行针对性地指导，依照学生的实际情况，尊重学生的个体差异，能够照顾到不同学习水平的学生，对小学数学教师的教学效果具有很大的提高作用。

通过统计全国1282个汉语方言点[注] 使用材料来源详见龙国治《汉语语音地理类型研究》，上海师范大学博士学位论文，2017。的声调数据，得出汉语方言声调有142种。表1是具体的每个声调调值所对应的方言点的个数(在本文中，我们把超高调值标记为6；促调在调值前加0，其他按照5度标音制标记)。

大数据方法的另一个特点，是相关思维。科学研究是探究现象之间的因果关系，但是，在许多情况下因果关系并不容易得到，通过量之间的相关，可以为因果关系提供有意义的线索。

在讨论声调数以前，我们先来介绍一下潘悟云教授提出的同演区(龙国治，2017)概念。一个行政区内，往往有相同的语音特征。例如上海境内，入声都带喉塞韵尾，中古的浊声母现在还读浊声母。赣语区域，中古的全浊声母不管平仄都读送气音。这是由于一个行政区内会有一个行政中心，形成文化上的优势，这种文化的优势就导至语言的优势。由于强势语言(方言)的存在，附近语言(方言)都会受它的影响，向它靠拢。这种影响可能来自两个原因。一方面，是弱势语言(方言)不断地向强势语言(方言)借用的结果；另方面，习得者在听到的许多语言变体中，与强势语言(方言)读音相同的变体会得到加强，促使习得者对这个变体进行选择。于是，围绕着这个语言(方言)，会形成一个向心结构(如图1所示，在同一区域内，各地点向中心点趋同)：

中国历史上，一个行政区通常都有一个政治、经济、文化的中心，围绕着这种强势文化中心，会形成一个语言的同演区，即具有相同演变的方言区。这就导致了行政区与同演区相一致。如果能够找到某张古代行政图与某个同演区重合，这个古代行政区与这个同演区之间很可能有某种内在联系。

图1 同演区和行政区

(二)激怒杀人。激怒状态下的人，对于自身行为的控制是有限的。尤其是被对方激怒，更是无辜。这种情况也被英国的法律所关注。霍根在《英国刑法》中写道：“陪审团在决定犯罪嫌疑人是否具有杀人故意时候，他们一定要考虑激怒的证据，同时，在普通法中激怒仍然是‘谋杀罪’的常用辩护理由，这个理由可以使行为人只能被指控为犯有杀人罪。”这说明了在英国的司法实践中，“激怒杀人”常会因辩护而被判处“杀人罪”。为了使这一做法能明确得到推广，英国《1957年杀人罪法》把“激怒杀人”从“谋杀罪”中提出来，放到“一般杀人罪”中。史密斯曾说这个新规定“不是创设，而是接受了它的存在”。

(1)汉语官话区域的声调数一般是4-5个，形成一个同演区。

通过统计全国所有汉语语言点的数据，我们最终得到下面这个声调数的地理同演区(如图2，横线区域为声调数2-3个，竖线区域声调数为4-5个，斜线区域声调数为6-11个)：

设置目标与雷达站初始横向距离x(0)=0 m，初始高度y(0)=50 000 m，初始横向速度vx(0)=100 m/s，初始纵向速度vy(0)=200 m/s，仿真时长为500 s，目标运动轨迹如图1所示。

利用同演区的概念，我们可以追寻一种音变的历史原因。行政区与同演区的历史相关，是汉语方言历史演变的一大特点。同演区的有序分布，以及它同行政区之间的相关性，都反映了某种有序，有序反应规则，规则反映事实。如果类型分析所得到的某种语言特征，能够形成规则的同演区，而且这个同演区同行政区之间有较强的相关性，我们可以认为这种类型特征反应一种规则和事实，可以进一步探讨其中的因果关系。

(2)西北个别兰银官话为一个同演区，因为其底层语言为无声调语言，所以声调数为2-3个。

那么这种分组在地理分布上的有序性说明了什么问题呢？

还有个别方言点，与上述三个同演区的地理分布不符。在湖南江西一带，由于声母的清化，阴阳调合并，会出现5个声调。

(4)晋语中由于存在入声调，因此声调数会达到6个或以上。

图2 汉语声调数地理类型分布

其中，东南方言同演区是最值得我们注意的。不仅声调数的地理分布会形成这么一个同演区，还有许多其他一些语言特征也会形成东南方言同演区。如见母开口二等字读k、从邪的现代声母不分、咍泰现代韵母不同、寒韵端系与见系现代不同韵、覃谈现代不同韵、麻韵开口二等现代带圆唇元音、唐韵现代带圆唇元音，等等，这些语音特征的同演区都与东南方言区相重合。如果把古代行政区一张张覆盖上去，我们会发现只有三国东吴行政区与上面的同演区有最大的相关性。有这么多的同演区相重合，就决不是一个偶然的现象。

江南在魏晋以前属百越地区，《三国志》载许靖与曹操书，自述从会稽“南至交州，经历东瓯、闽越之国，行经万里，不见汉地”。魏晋以前，中央政府对百越地区没有实现有效的统治，一直到东吴，在强势汉文化的影响下，各地的百越居民纷纷汉化，在学习汉民族先进文化的同时，也接受了汉语。他们所学的汉语实际上是带有自己母语特征的混合语，这就是汉语东南方言的前身。

但是这里会有一个问题，以上的语言特征都是现代的，为什么三国东吴辖区会对这些语言特征的形成产生影响？我们上文已经提到过，大数据所反映的只是相关性，而不是因果性。东南地区有6个以上的声调，只是反应与三国东吴辖区相关。不过我们可以从这个相关性进一步探索形成这个声调数的因果性。中国古代只有四个声调，后来因为声母的清浊分别分化为阴阳两类。再后来，随着双音词的大量出现，有些声调分别成为冗余，于是声调又朝向合并的方向发展。东南方言还存在入声韵尾，还存在声母的清浊对立，他们的合并速度会比较慢，所以声调数比起其他方言来更多。至于为什么声调数会是4-5为一类，6个以上为一类，更会涉及许多因素之间错综复杂的关系，需要进一步深入探讨。

另一个反映相关性的例子是，见母开口二等字在东南方言区读k-，在其他的方言区会读c-、t-、tʃ-、ts-等等，读k-的同演区也在三国东吴辖区内(见图3，横线部分区域为见母开口二等字今声母读音为k-类，斜线部分区域为见母开口二等字今声母读音为非k-类)。在三国的时候，见母开口二等字在全国各地都读k-，后来其他方言区都变了，只有三国东吴辖区还保留k-的读音。这其实也只是反映一个相关性，从这个相关性出发，可以探索到因果性。原来见母开口二等字的现代声母读音同二等介音在全国各地的演化有关。在官话区，在二等介音的演化影响下，开口二等的见母发生了以下变化： k^r->k->k->k->c->t->tʃ->ts-。但是在三国东吴境内，见母开口二等的介音有的地方失落，有的地方变作-u-，却不变作-i-，所以声母k-不会发生腭化。

图3 见母开口二等字读k-类型地理分布

综上所述可知，对语言进行大数据分析，庞大的数据会透露原来被掩盖着的语言现象的相关性，这些相关性，可以引导我们去探讨现象之间的因果关系。这就是语言的大数据分析跟传统语言研究的不同之处。

[参考文献]

[1] Anderson, Gregory D.S. The Velar Nasal()[C]// Martin Haspelmath Et Al.(Ed.) .The World Atlas Of Language Structures. New York: Oxford University Press， 2005.

[2] 龙国治.汉语语音地理类型研究[D].上海：上海师范大学人文学院，2017.

[3] 李连进.平话音韵研究[M].南宁：广西人民出版社，2000

[4] 曾娜.广西博白地老话研究[D].桂林：广西师范大学文学院，2008.

[5] 冉启兵.汉语方言声调极限清单研究[M].天津：南开大学出版社，2016.

[6] 彭敏.广西博白地佬话比较研究[D].桂林：广西师范大学文学院，2011.

[7] 雒鹏.一种只有两个声调的汉语方言——兰州红古话的声韵调[J].西北师范大学学报(社会科学版)，1999(6).

[8] 谭其骧.中国历史地图集[M].北京：中国地图出版社.1982.

Big Data Thinking in Chinese Tone Research

LONG Guo -zhi ¹,PAN Wu -yun ²

(1.Guangxi Vocational Normal University, Nanning 530007; 2.Shanghai Normal University, Shanghai 200234, China)

Abstract : The number of tones in Chinese taken as an example, this paper presents the three core ideas of big data: general thinking, fault-tolerant thinking, related thinking and linguistic geographic information system as the methods of studying Chinese dialects and their evolution. By using large data to obtain Chinese tone types, and drawing language co-occurrence areas through GIS, we can observe the correlation between language evolution and historical administrative divisions, and thus seek the historical reasons for language evolution.

Key words : big data; geographic information system; tone number; historical map; co-concurrence areas

doi: 10.16088/j.issn.1001-6597.2019.04.015

[收稿日期] 2019-01-15

[基金项目] 国家社科基金项目“广西地名的语言地理学分析研究”(18BMZ016)

[作者简介] 龙国治(1977- )，男，湖南耒阳人，广西职业师范学院讲师，文学博士，研究方向：方言学、实验语言学；潘悟云(1943- )，男，浙江温州人，上海师范大学教授，研究方向：音韵学。

[中图分类号] H116.4

[文献标识码] A

[文章编号] 1001-6597(2019)04-0119-06

[责任编辑阳欣]

标签：大数据论文; 地理信息系统论文; 声调数论文; 历史地图论文; 同演区论文; 广西职业师范学院论文; 上海师范大学论文;

汉语声调研究中的大数据思维论文

Big Data Thinking in Chinese Tone Research

猜你喜欢