信息碎片化传播背景下的濒危语言档案采集研究论文

信息碎片化传播背景下的濒危语言档案采集研究论文

科学管理〈〈〈 KEXUEGUANLI

信息碎片化传播背景下的濒危语言档案采集研究

李玉嵩 胡建慧 吴 娜

摘 要 语言多样性是人类最重要的遗产,每一种语言都蕴藏着一个民族独特的文化智慧。随着社会和经济的迅速变革,语言时空接触暴增加速了地方语言的演变,越来越多的语种濒临灭绝。另外,随着碎片化信息传播的兴盛,互联网环境下的语言多样性问题也日益突出。因此,及时地采集并保存濒危语言档案势在必行。本文在碎片化信息传播背景下,通过分析比较国内外典型语言档案采集方式,以期探索更为精准高效的语言档案采集方式。

关键词 信息碎片化 语言档案 档案采集

中国拥有56 个少数民族,除满族和回族已使用通用汉语外,其他民族都有自己的语言,有些民族内部的不同支系还使用着不同的语言。中央民族大学教育学院院长苏德毕力格教授表示,中国少数民族语言中的濒危语言大概是17 种,强势语言正在借助科技手段不断地挤压弱势语言的使用空间,这是一个全球性问题[1]5。因此,传承和发展少数民族语言文字和文化,成为中国保护语言多样性的关键工作。2008 年,国家语委启动了中国语言资源有声数据库的建设工作,全国各地相继启动方言有声数据库的资料采集工作。

一、信息碎片化传播背景下语言档案采集特点

信息碎片化传播是当前信息传播的一种典型样态,主要是指完整的信息通过微博、微信等自媒体的再加工和传播而呈现的零碎的、分散的描述形式[2]1。信息碎片化传播的即时性和交互性,大大加快了信息更新、传播以及阅读的速度,为语言档案的传递、阅读和交互演变成随时随地的行为模式提供了可能性。但信息碎片化传播导致的信息不完整往往会影响接收者的思考和判断,并且带来知识体系的缺陷,这势必会加快一些弱势语言的灭绝,破坏语言的多样性。

信息碎片化传播映射到语言档案的采集上,使之呈现出新的特点,具体体现如下。

采集内容碎片化。语言档案采集内容包括字音、词汇、语法句子以及歌谣、民间故事、口传文化内容等,内容庞杂且标准不统一,因此采集内容片面、零散,缺乏连贯性特点凸显,语言档案也充满跳跃性和随意性。例如,要探寻地方方言的语法、发音、词语等规律,需要通过众多短句来体现。

采集时空的碎片化。语言应用的连续性和相对稳定性决定语言档案采集不是一蹴而就的,定义濒危语言热点地区,采集不同时期的语言档案素材,捕捉语言档案历史演变轨迹,才能完整组成地方语言档案库。同时,语言档案采集耗时长且没有一个机构可以存储所有目前濒危语言的所有重要数据,这也是语言档案采集时空碎片化的又一表现。

信息碎片化传播衍生出新的传播媒介,如网站、APP、各类数据库等,人们通过网络传媒,了解、阅读与以往相比数量更加巨大,人们能够花费更少的时间,获取自己想要的信息,同时也为语言档案采集方式提供了新的选择。

1.数据库归档——欧洲濒危语言记录项目(Endangered Languages Documentation Programme,ELDP)。它是当今世界上参与规模最大、涉及人员范围最广、语种采录数量最多、存储内容最丰富的语言资源保护工程之一。旨在利用高科技手段,典藏全球极度濒危语言,从濒危语言概念界定到技术规范、调查记录、研究方法、典藏手段等,著述了濒危语言资源保护的创新路径,为全球语言资源保护典藏提供了重要的理论和实践参考[4]51。ELDP 项目成果主要包括:濒危语言地图、濒危语言项目目录、濒危语言画廊和濒危语言音频、视频记录[5]1。它面向全球开放,是当今世界上参与规模最大、涉及人员范围最广、语种采录数量最多、存储内容最丰富的语言资源保护工程之一。

(2015·理综·福建卷)图1为某人工鱼塘食物网及其能量传递示意图(图中数字为能量数值,单位是J·m-2·a-1)。下列叙述正确的是 ( )

二、国内外语言档案采集项目描述

本文选取两个国外典型项目、一个国内项目进行描述分析。

采集对象的碎片化。为采集有代表性的濒危地方语言档案,需要通过典型性分析来选择正确的档案采集对象,因此年龄、性别、教育和生活环境等因素都要纳入考虑范畴。因此,一条相对完整的语言档案信息往往凝结着数十位甚至上百位采集对象的有效综合。例如,澳大利亚由档案工作者、研究者以及原住民社区代表借助Web2.0 特性的平台共同打造的原住民口述记忆档案系统项目,用多人参与模式来形成、描述和利用档案[3]1

目前,有声数据库江苏库作为首个试点已率先完成全省的数据采录、整理及验收工作,上海、北京、辽宁的建库工作取得实质性进展,首个少数民族自治区有声数据库建设工作在广西启动。少数民族语言调查规范研制工作进行顺利[9]1

同类型的数据库项目还有E-MELD(濒危语言数据电子元结构)项目(2001)。该项目是由美国国家科学基金会资助的一个为期五年的项目;LD&C(Language Documentation & Conservtion,LD&C)[6]1语言记录和保存项目隶属于夏威夷大学语言学系。

“据说可能还会减少一半。走的人一半是离职,一半是辞职吧。其实差别也不大,因为离职的也很多没有拿到补偿。大家都不抱什么幻想了,但有人想陪ofo走到最后,不过留下的人也是走一步看一步,毕竟是寒冬,不好找到合适的工作。”Raven说。

这类项目的特点是专业性较强。项目参与人通常是语言学家、人类学家、专业档案收集专家,且事先受到专业的理论和技术培训。项目成果包括收集、保护濒危语言数据和文件,并帮助建设有效的电子档案馆;同时记录语言学家利用开发工具、存档标准和工作流程,以及具有关于语言数据收集和分析所需的新技术。

同类型的项目还有加利福尼亚大学伯克利分校的比 较班图 在 线 词 典(CBOLD):http://faust.linguistics.berkeley.edu/CBOLD/info.html;宾夕法尼亚大学的语言数据联盟:http://www.ldc.upenn.edu;拉丁语土著语言存档:http://www.ailla.org 等。

2.在线归档——濒危语言项目(ELP)。濒危语言项目(ELP)项目是语言多样性联盟与谷歌合作开展的项目,用户可以直接通过在线形式查找、共享和存储有关濒危语言的档案。使用网站页面的分类按钮,可以轻松地搜索资源信息、学术出版物和关于世界濒危语言的研究。此项目资源包括人类学、社会学、教育学、认知科学、环境科学、公共政策等方面的信息,并被用户和研究人员上传。访问用户有濒危语言的资源或样本,可在页面顶部使用“提交”按钮上传论文、演示文稿、链接、录音等[7]1

根据单因子污染指数、多因子综合污染指数的计算公式,以农用地土壤环境质量标准为评价标准,分别计算出金石锰矿周边土壤重金属元素的污染指数,结果见表2。矿区周边土壤重金属的综合污染指数最高达10.32,属于重污染,说明该矿区局部区域土壤重金属污染严重。从单因子污染指数(Pi)来看,Mn的污染指数最高,4个采样点达了重污染程度,其污染指数最高达14.35,该区域土壤Mn污染比较严重;Cd仅有一个采样点污染指数达到重污染程度,存在局部污染;Zn、Pb、Cu污染指数均小于2,属于轻度污染。Cr、Ni污染指数均小于1,属于清洁。各元素污染指数的大小排序为Mn> Cd> Pb> Zn> Cu> Ni>Cr。

这一类型濒危语言档案项目的特点是受众范围广、交互性强。它面对的不只是组织还包括个人;不仅能自由获取网站的语言档案信息和样本,还可以上传不同格式的濒危语言档案;所有板块的内容都可以通过上传时间、标签和形式进行搜索。

3.中国语言资源有声数据库。中国语言资源有声数据库于2008 年启动,以市、县(市)为单位,依照统一规范,采集当代中国语言的汉语方言、带有地方特色的普通话(俗称“地方普通话”)以及少数民族语言和方言等有声资料,并进行科学整理和加工,长期保存,以便将来深入研究和有效地开发利用[8]1

不经意间,我所需要的材料来了:杭州市七旬老人老沈(化名),每月退休金4000多元,老伴退休金每月3000多元,儿子上班年收入五六万元。虽然也早已在城边为儿子买了套两居室的房子,“时刻准备着”,可“就是一直为找不到女主人发愁”,眼下儿子40多岁了,仍是光棍一条。因此才有了《37℃高温舍不得开空调在家热昏,为的是给儿子“多攒一分是一分”》的新闻。

该有声数据库将依照统一规范,采集当代中国的汉语方言和带有地方特色的普通话有声资料,包括“字库”“词库”“句库”“话语库”“地方普通话库”等板块;采集中国各少数民族语言及其方言的有声资料,并进行科学整理加工,长期保存,以便将来深入研究和有效地开发利用,保护民族语言文化遗产。

改进的动态交通诱导启发函数中,设置了路网的加权值,为时间的函数。按照实时接收的交通服务信息来计算路面状况并预测,同时参考过去数据,计算路面在不同时间的行程时间t对应的函数f(t),如公式(6)所示。

“降炭提质技术”的推广应用,不但回收了宝贵的煤炭资源,创造了可观的经济效益,而且为电厂粉煤灰再利用提供了技术保障。山东煤机集团利用粉煤灰降炭提质技术和设备,先后在韶关乌石电厂、山东郓城电厂、福建龙岩电厂、广东东莞等地建设了粉煤灰降炭提质工艺系统,均获得了成功应用,取得了良好的经济和社会效益。

三、信息碎片化传播环境下语言档案采集难点与启示

1.语言档案的采集数据量巨大,标准不一。语言档案采集结果通常是不同的格式音频、视频、国际音标或者文字描述,对采集工具的要求也相当严苛。如果各种档案馆开发不同的方法来描述和索引其资源,则不容易开发中心元数据,且容易造成与语言相关的文化信息永远驻留在单个站点上。

2.语言档案存取的技术难度较大。目前,大部分的语言档案以文字、音频的形式存储,没有一个机构可以存储目前所有濒危语言的所有重要数据,大多数现场笔记和音频材料只驻留在单独的计算机上,难以形成语言档案之间的联动。一方面,纸、光盘和计算机磁盘等存储介质都易于退化和破坏,一旦存储介质崩坏,将造成语言档案的损失。另一方面,一些基于地方语言档案的研究一旦完成,语言档案可能因存储不高造成巨大损失。再者,存储在单独计算机或独立存储介质中的语言档案难以共享,造成“信息孤岛”,大大阻碍了语言档案的推广和利用。

信息碎片化环境下,随着大数据技术的不断发展,各类数据集成系统不断成熟,数据采集方式、表达方式以及应用方式都摆脱了以往单一模式。这些多样性的采集渠道与端口的应用,正契合了语言档案采集的迫切需求。大数据与云存储技术结合的方式对采集来的语言档案进行存储,有效提高语言档案的存储量,降低档案共享门槛。

笔者认为,信息碎片化环境下解决语言归档问题需要解决三个关键问题。一是社会参与度高。信息碎片化环境下,地区语言使用者参与度的高低对语言档案采集的质量起着决定性作用。除此之外,还须促进计算语言学家和描述性语言学家之间的交流,因为在没有描述性语言学家的输入的情况下开发的计算解决方案将不会被广泛接受。二是系统设计灵活性高。语言档案解决方案必须具有以各种格式处理碎片化数据的能力和允许个体实践中的一些持续变化的要求。三是元数据的可持续存储问题。信息碎片化数据处理手段的关键在于元数据的存取,从传统的耳听手记、书面记录描写逐渐转向数位典藏,通过计算机进行声像数据和文本同步标注诠释,加上元数据(metadata),即“数据的数据”,如数据背景、内容、属性等简介,实现数位存储、传输和共享[10]26

笔者设想多模态的语言文化资源与受众的网上查询和阅览习惯有机结合起来,很好地体现了展示性、趣味性、易读性和自适应性等特点。例如,澳大利亚墨尔本大学计算机科学副教授Steven Bird 和他的团队在2012 年开发了一个用于语言文档收集的Android 应用程序。这个易于使用的应用APP(Aikuma)去年在巴布亚新几内亚首次进行测试,Bird 和他的同事向Usarufa人提供Android 手机,记录他们自己的语言。Usarufa 人在培训后试用这个应用程序没有任何困难,并且他们喜欢用此APP 记录他们的故事、叙述、歌曲以及对话,该应用在短时间内采集了大量当地的宝贵语言档案。

如今全球越来越多的语种濒临灭绝,中国作为一个多民族、多语言的国家,濒危语言采集与保护工作任重道远。探索如何在信息碎片化传播背景下更高效、更精准地采集语言档案,进而保护文化的多样性与传承性,是档案工作的题中之义。

参考文献

[1]黄金鲁克.“世界语言地图”拯救濒危语种[N].中国教育报,2016-07-15(005).

[2]沈玲.信息碎片化传播对高校思想政治教育的影响及对策研究[D].江苏师范大学,2017.

[3]Monash University. Koorie Archiving: Trust and Technology-Final report[EB/OL].[2016-03-09]. http://infotech.monash.edu/research/about/centres/cosi/projects/trust/final-report/index.html.

[4]袁丹,詹芳琼.国外八大濒危语言保护项目成效、特点与启示[J].语言战略研究,2017,2(4):50-60.

[5]参见欧洲濒危语言记录项目网站,http://www.eldp.net/.

[6]http://ling.hawaii.edu/research-current/langdoc/.

[7]参见濒危语言项目,www.endangeredlanguages.com.

[8]https://baike.baidu.com/item/中国语言资源有声数据库/9088483?fr=aladdin.

[9]参见中国语言资源数据库(江苏库),http://yyzy.jsjyt.edu.cn/art/2011/4/20/art_2824_12203.html.

[10]许鲜明,陈勰,白碧波.欧美濒危语言研究及其对中国语保工作的启示[J].语言学研究,2017(1):25-33.

Research on the Collection of Endangered Language Archives Under the Background of Fragmented Information Spread

Li Yusong, Hu Jianhui, Wu Na

Abstract Linguistic diversity is the most important heritage of mankind, and each language contains unique cultural wisdom of its nation. With the rapid change of society and economy, the increase of time and space contact of languages has accelerated the evolution of local languages, and more and more languages are on the verge of extinction. In addition, with the spread of fragmented information, the problem of language diversity in the Internet environment is becoming more and more prominent, so it is imperative to collect and preserve endangered language archives in time. In the context of fragmented information spread, this paper analyzes and compares the collection methods of typical language archives at home and abroad in order to explore the more accurate and efficient way of collecting language archives.

Keyword information fragmentation; language archives; archives collection

中图分类号 G272.2

文献标识码 A

收稿日期 2018-09-26

DOI: 10.16565/j.cnki.1006-7744.2019.06.16

★基金项目: 广东省档案局科研项目(YDK-180-2017)。

★作者简介: 李玉嵩,东莞理工学院城市学院综合档案室副主任,档案馆员,硕士研究生,研究方向为档案管理、档案宣传;胡建慧,东莞理工学院城市学院,硕士研究生,研究方向为语言采集与利用;吴娜,东莞理工学院城市学院,硕士研究生,研究方向为公共管理。

标签:;  ;  ;  ;  ;  

信息碎片化传播背景下的濒危语言档案采集研究论文
下载Doc文档

猜你喜欢