基于碎片化信息采集的东莞方言语料库建设过程研究论文

基于碎片化信息采集的东莞方言语料库建设过程研究

李玉嵩，胡建慧，吴娜

（东莞理工学院城市学院，广东东莞 523000）

摘要：基于碎片化信息采集的多模态东莞方言语料库建设，能有效丰富采集内容、立体描述语言体系，提高语言采集效率、准确度，便于公众共享与检索，是目前较为理想的语料库搭建模式。文章从碎片化信息采集为切入点，集中论述了东莞方言语料库建设过程中出现的情况。

关键词：碎片化信息；信息采集；方言；语料库

语言档案资料库建设的关键点和难点在于语言动态采集，在语言交流和接触越来越频繁的今天，语料库建设不能停留在单个方言代表人的采集上，而要广泛采集语言使用者的语言档案，不断地扩大语言采集范围，逐渐消除语言的个体差异，同时也要掌握更多语言变异的情况。

构建PLS模型的第一步是选取主成分，此处选取前4个主成分，然后对CODeff和SSeff两个输出变量进行预测，仿真结果如图3～图6所示。

东莞地处珠江口，与广州、惠州、深圳接壤，处于广州话与客家话两种方言之间，境内主要通行东莞话，部分地区通行客家话，在语言调查及语言变异等方面都具有较高的研究价值。目前对东莞方言的调查研究比较丰富，但基本都停留在书面层面。基于碎片化信息采集的语料库可以打破传统语料库采集对象较为单一，采集语料多为预设语料的局限，可以结合自然语料与预设语料，通过多模态的采集方式，整合地方的语言档案。

一、发音人的选取及语言档案采集内容

（一）发音人的选取

发音人的选择是语言档案采集质量的前提与基础。东莞方言语料库在发音人的选取上遵循以下原则：

代表性原则：发音人作为东莞方言的典型代表。在语言调查当中，发音人的选择往往会直接影响到一个调查的准确性，因此发音人的代表性至关重要。传统方言学研究在选择发音人的时候往往会通过年龄、性别、教育和生活环境等因素来甄别。这样的方法在人口流动较少，方言差异比较稳定的地区比较有效。因此过去的方言田野调查只需在选定的地区选取年龄相当、口齿清晰、没有长期离开该地的发音人即可。现代社会，由于人口流动、教育普及、媒体传播等模糊了发音人是否满足代表属性的界限，因此在收集东莞方言语料库时，发音人的代表性尤为关键，应当采用“代表属性”^（1）来确定具备代表性的发音人。

山水画的笔墨总是在概括一山一水的自然物象，一时一地的风土人情，正如宋代郭熙对不同地方的山的描写也不同：“嵩山多好溪，华山多好峰，衡山多好别岫，常山多好列岫，泰山特好主峰。天台、武夷、庐霍、雁荡、岷峨、巫峡、天坛、王屋、林虑、武当皆天下名山巨镇，天地宝藏所出，仙圣窟宅所隐，奇绝神秀，莫可穷其要妙。欲夺其造化，则莫神于好，莫精于勤，莫大于饱游饫看，历历罗列于胸中。”

本文论述的东莞方言语料库的语料采集采取预设语料与自然语料相结合的方式。

通过以上原则，课题组选取了若干位东莞当地人作为本研究的主要发音人。

发展性原则：兼顾发音人的年龄差异，体现语言发展的动态演变。语言是发展的，不同年龄阶段的人群所使用的母语也有所不同。汤志祥，陈永康（2007）调查了深圳一个纯客家话村落20个家庭中三代人的语言使用情况，发现年轻一代的母语方言使用比例下降，出现双语或三语的语言使用状态^（2）。双语或多语必然会造成母语的变异，事实上不管是移民还是原居民，在双语或多语的背景下其母语也会发生变异，因此在东莞这个城市化程度较高、语言使用情况较复杂的环境下，要动态收集东莞方言的语料，需要考虑发展性原则，兼顾不同年龄阶段的发音人。

东莞方言语料库主要发音人名单

（二）语料采集

月亮躲进云层里，夜更黑了，甲洛洛长长地打了个呵欠，眼睛很涩，他便抽出一根烟叼在嘴上，突然睡在仓库门口的莽子站了起来，竖起耳朵，警惕地望着暗处。甲洛洛一下擦亮了眼睛，取下烟，随着莽子的视线望过去——天啦！有个黑影出现在黑暗里，那黑影低低地吼了一声莽子，投过去一根骨头，莽子听出是丁主任的声音，便叼起骨头回窝了。

预设语料为诱发式语料，语言调查员根据预设的调查材料引导发音人用母语方言说出相应的语料，预设语料分字、词及句子。字的调查用表为中国科学院语言研究所的《方言调查字表》（修订本）以及暨南大学的《广东方言调查通用字表》。其中使用了《方言调查字表》第x、xi、xii页的声调、声母、韵母字对每个发音人进行预调查并进行初步的音系归纳。语音调查方面使用的是暨南大学汉语方言研究中心的《广东方言调查通用字表》A级字表，A级字表收录3743个字，包括汉语通用字以及部分粤方言字。

与其他一些化学消毒剂［如戊二醛（GLUT）、季铵化合物（QAC）以及GLUT/QAC混合物］不同，卫可S和卫可LSP在4℃时仍能有效对抗致病微生物（冬季农场的气温一般为4℃），无需增加使用浓度或接触次数。

东莞方言语料库的建设，采取功能软件进行语料收集工作。其中预设语料部分采取多模态采集，使用的功能软件是由上海高校比较语言学E-研究院以及上海师范大学语言研究所潘悟云、李龙、韩夏等研发的“斐风语言田野调查与分析系统”（版本2.1.2，以下简称“斐风系统”）。斐风系统具备语音转写及分析功能，有利于快速对预设语料进行语音转写，并进行语言学分析。同时，在预设语料的采集过程中还需要进行摄像，同步记录语言材料发音过程的画面。后期对语料的转写音标、音频、视频等材料整理存档，形成多模态方言语料库。

二、语言档案的采集及归档

（一）语料采集的功能软件

自然语料采取发音人自由发挥的方式采集，分给定题目及不固定题目两种。给定题目如“节日风俗”“家乡的美食”、“动植物”等，只提供语料范围，要求发音人用母语方言自由表述；不固定题目则不限制语料范围，让发音人随时随地录制方言语料。在采集自然语料的过程中，要求发音人将对应的语料用普通话同时录制，以便后续的转写及归档。

自然语料则通过上海斯旁信息科技有限公司开发的智能手机应用“录音达人”来采集。自然语料的采集具有不确定性，往往有很大的随机性和即兴性，不受时间、空间等因素的制约，因此需要一款方便使用的功能软件来采集，智能手机应用可以满足自然语料的即时录制、逐条归档及网络分享，能实现语料的碎片化采集。

（二）采集过程

东莞方言语料库预设语料的采集采用多模态的采集方式，语音采录使用ZOOM H4N PRO便携式数字录音机进行录音，采样率为44100Hz。同时进行视频采录，视频采录使用索尼HDR-CX450高清数码摄像机在录音的过程中进行同步拍摄，后期根据语料条目进行剪辑归档。语音及视频的采录均在舒适安静的录音房内进行。

语言档案资源共享性与开放性，是语言档案资源利用的基础，是所有语言档案建设项目的终极目标。语言的发展离不开使用者的支持与使用，本项目在建设过程中，努力避免让采集到的语言资源成为信息孤岛，积极开发数据库形式的网站，并予以公开。并联系当地的档案机构，积极推动更多的语言档案资源的收录工作，丰富当地语言存储量。

（三）语言档案的整理归档

东莞方言语料库的语料转写标注，在语料采集后由经过专业语言学田野调查训练的研究人员转写，并使用国际音标进行标注。每一个预设语料条目都对应汉字、国际音标标注、音频片段、视频片段，自然语料条目对应汉字说明、国际音标标注以及音频片段。东莞方言语料库集语音、视频、文字、国际音标标注于一体，使语料检索、分析更加方便，有效提升了语料库的使用效率。

三、碎片化方言语料库的意义及应用

基于碎片化信息采集的东莞方言语料库，能有效地反映东莞不同镇街的语言使用情况。同时为语言发展与变异研究提供更多的佐证语料。

（一）丰富了东莞方言语料采集内容

本项目覆盖了东莞不同镇区、人群、职业的语言采集范围，建立了发音人信息档案库、语音数据库、图像数据库等，采集内容体现出了东莞方言现状，为东莞片区语言档案的研究注入了新的素材和资源。

（二）创新了东莞方言语料采集方式

与传统的采集方式不同，本项目突破了平面的纸质文档与单一的音频汇总，采用音频、视频、文字一体化的采集方式，将采集内容存储于PC端，方便扩大传播范围。以提高检索效率为目标，本项目将每个标注的文件按照词义、词性、场合分类，对标注后的多模态语料进行分别存储，并对其个性化命名。

差异性原则：发音人涵盖不同范围的人群。传统方言调查为了消除个人语言的特殊性，通常会选取3—4名或者更多的人作为发音合作人，但语料采集范围的狭窄不能完全消除语言的个人差异，特别是在人口构成类别复杂的城市中，不同的人口类别在语言掌握、语言选择、语言使用和语言态度等诸多方面均存在着差异性。因此在采集语料时需要注重发音人的差异化，要选取不同职业类别、不同文化程度、不同年龄、不同地域的发音人。

（三）促进东莞语言档案资源的共享性与开放性

自然语料的采录具有较强的随机性，因此自然语料的收集要求发音人在安静的环境下通过智能手机APP自行进行采录，采录完成后根据语料内容对音频文件命名，并逐条保存，再通过网络转发给语料采集人。

总之，坚定文化自信的新时代，我们要正确认识中国画的文化价值，彰显中国画独特的艺术魅力，以高品位、高质量的中国画传递中国精神。中国画教学体系的改革应在绘画观念上，把握中国画深层次的文化特质；在教学上，应有利创造性绘画思维的培养；在教学上，注重中国画民族属性的教学，使学生在特色化的教学体系中，产出高质量绘画作品，真正践行“以大爱之心育莘莘学子，以大美之艺绘传世之作”。

东莞方言语料库是地方文化建设的重要组成部分，在提升公众语言保护意识、提升语言资源保护的针对性和指向性方面发挥了一定的影响力，同时也有助于学界及公众对东莞方言现状有更深刻的理解。

注释：

本文根据能值分析的净能值产出率、能值投资率、环境承载力负荷和可持续发展指数等一系列评价分析河南省农业生态经济系统的可持续，并将这些数据与表达式汇总，编制成2001-2010年河南省农业生态经济系统能值指标体系，如表3所示。

(1)梁源,黄良喜.代表属性:发音人的选择和语料有效性[R].“第三届中国地理语言学”国际学术研讨会,广州:暨南大学,2014年8月.

(2)汤志祥,陈永康.从单语区到多语区的历史演变[C].人类语言学在中国:中国首届人类语言学国际学术研讨会论文集.戴昭铭主编,黑龙江:黑龙江人民出版社,2007:342-351.

参考文献：

[1]李荣.东莞方言词典[M].南京:江苏教育出出版社,1997.

[2]詹伯慧.广东粤方言概要[M].广州:暨南大学出版社,2003.

[3]张晓.基于功能软件的网络多模态语料库建设[J].伊犁师范学院学报(自然科学版),2018,12(04):59-64.

[4]黄立鹤.语料库4.0:多模态语料库建设及其应用[J].解放军外国语学院学报,2015,38(03):1-7+48+161.

[5]姜晓娜.我国濒危方言语料档案建设研究[J].山西档案,2018,(03):69-71.

Research on the Construction Process of Dongguan Dialect Corpus Based on Fragmented Information Collection

LI Yu-song,HU Jian-hui,WU Na
(City College of Dongguan University of Technology,Dongguan,Guangdong 523000,China)

Abstract: Multiple modal based on fragments of information acquisition of dongguan dialect corpus construction,enriched the collection contents and describe language system in three dimensions.It also can improve the efficiency of language acquisition accuracy,easy to share and search for the public.It is an ideal model for corpus construction at present.This paper starts from fragmented information collection,focuses on the construction process of dongguan dialect corpus.

Key words: fragmented formation;information collection;dialect;corpus

中图分类号： G642.0

文献标志码： A

文章编号： 1674-9324（2019）52-0066-03

收稿日期： 2019-09-01

基金项目：本文为2017年度广东省档案局立项科研项目《基于碎片化信息整合的东莞语言档案收集及推广研究》的研究成果；项目编号：YDK-180-2017

作者简介：李玉嵩（1987-），女（汉族），江苏徐州人，职称：档案馆员，就职于东莞理工学院城市学院，主要研究方向：档案宣传、高校档案数字化。

标签：碎片化信息论文; 信息采集论文; 方言论文; 语料库论文; 东莞理工学院城市学院论文;