再谈少数民族濒危语言音像文献的建设--OLAC技术规范及其适应性_元数据论文

再谈少数民族濒危语言音像文献的建设--OLAC技术规范及其适应性_元数据论文

少数民族濒危语言有声语档建设再论——OLAC技术规范及其适应性,本文主要内容关键词为:适应性论文,少数民族论文,技术规范论文,语言论文,OLAC论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

一、引言

自本世纪初,国外的濒危语言研究就已经从语言学描写转向有声资源的记录和保存[1],而国内至今仍然主要是书面记录和描写,濒危语言的语音资源流失问题一直没有得到解决。濒危语言是不可再生的非物质文化资源,抢救和保护濒危语言的核心是保存语音原貌,使语音状态得到切实地记录。近10年来,一些高校和机构有过建立少数民族语言语音数据库的计划和尝试,如“云南少数民族语音数据库”项目,涉及2种濒危语言,研制了软件工具,做了重要的开创性工作[2];“少数民族濒危语言语音数据库”计划,曾进行了几种濒危语言录音语料的转写和标注[3];少数民族语言声学参数数据库,采集了几个大语种的样本进行实验[4]。① 除此之外,一些关注少数民族濒危语言的学者从各自的研究角度摄录了一些有声语料。但总的来看,这些研究计划和实践尝试大多属于纯学术研究。国内学界对于濒危语言有声语料的采集、记录和立档,从理论到实践尚未形成共识,也还没有开展真正意义上的濒危语言有声资源记录和保存工作。造成这种状况的原因,除了客观上人力财力支持不足外,语言学者偏重个人学术旨趣,忽视了惠及语言族群和普通民众的基本研究,也是因素之一。另有一个重要的原因就是,国内至今没有建立濒危语言有声资源记录和立档的理论规范和实践规程。无规范和标准可依,实践操作中标准化意识淡薄,这使得濒危语言语料的采集记录带有很大的个人随意性,导致语料无法进行统一数字化处理,资源不能共享,浪费人力、物力和财力。由此可见,充分了解和借鉴国际上成熟的标准和规范,吸取国外成功的实践经验,进而制定我国少数民族濒危语言有声语档建设的理论规范和实践规程,就显得十分必要。鉴于此,本文对国外“开放语档联盟”及其规范和标准进行介绍和分析,进而探讨它们对我国濒危语言有声语档建设的适应性问题。

二、开放语档联盟及其语言资源立档规范

在信息和传媒技术迅速发展的今天,任何资源或资源的信息,如果不能进入数字网络空间,它的社会共享面和利用价值就会始终有限。全世界有丰富的语言资源,它们分布在各地图书馆、档案馆、资料室和其他机构、社群或个人手中。要充分发挥这些语言资源的价值,关键在于使人们广泛知晓,扩大其社会共享面,而数字化、网络化便是一条重要途径。要使语言资源在数字网络空间有效地汇聚、传播和共享,就需要一个联合体,通过制定全球普遍接受的服务规范和技术标准,实现语言资源创建者、提供者、加工者、存储者、发布者、使用者之间的信息互通和操作互协。“开放语档联盟”就是这样一个国际性的民间合作研究组织。

(一)开放语档联盟(OLAC)成立缘起

2000年12月,由美国国家科学基金会发起,在宾夕法尼亚大学召开了“基于网络的语言记录与描写专题研讨会”。来自北美、南美、欧洲、非洲、中东、亚洲和澳洲的近百位语言技术开发员、语言学家、语料库和图书档案学家参加会议。与会专家围绕语言资源记录与描写、语言资源数字化立档与网络共享、语言资源的有效传播与利用、语言资源技术规范等一系列问题进行了充分辩论和研讨,并一致同意成立一个开放的联席组织,负责将OAI协议应用于创建一个全球性的语言资源虚拟档案库。会议确定了联席组织的名称为“OpenLanguage Archives Community”,简称OLAC。目前大陆没有公认的译名,本文译作“开放语档联盟”。② 这里的“archives”并不限于通常所理解的档案、档案室,在开放语档联盟的目标陈述中,它有更广泛的含义,泛指包含各种语言资源以及资源存储、传播、利用的信息库。“Open”的意思是任何档案馆(室)都可以加入,任何个人都可以访问该组织的语言资源档案元数据记录。它的另一层意思是,任何加入该联盟的机构或个人,都可以使用该组织拟定的技术规范和标准,相互提供、发布、传送、交换不同结构数据库的语言资源。

“开放语档联盟”提出了两大目标:(1)针对语言资源的数字化立档,创立一个全球一致的、最佳的通用实践规程。(2)针对语言资源的存取,建立一个能互相操作的储存器和服务中心全球网络。10年来,全球有42家语言资源机构或语言资源计划项目注册加入了开放语档联盟,包括许多著名的语言资源机构,如:LDC,ELRA,SIL,DFKI,CBOLD,ANLC,HRELP等等。③ 开放语档联盟建立了一系列用于语言资源数字化立档的技术标准和实践规程,得到了众多语言资源机构、语言资源记录者和研发者的认可。它的工作大大推动了语言资源及资源信息的数字化、网络化,为语言资源的全球共享架起了一座广阔的桥梁。

(二)开放语档联盟的标准和规范

开放语档联盟定义的语言资源包括:(1)数据/材料(data)。任何记录和描写语言的资料。数据可能以各种形式或介质存在,如:论文、著作、词典、计算机数据文件、语言磁带、手稿、卡片,等等。内容也各种各样,从自然话语录音,到音标转写、文字注释,或语法描写,等等。(2)工具(tool)。指有助于创建、浏览、查询或使用语言材料的计算机资源,如:软件程序、字库、模板、文件类型定义标准,等等。(3)建议(adviCe)。有助于创建、使用上述语言资料和工具的各种建议,即帮助信息。为了促进语言资源数字化,使之在网络空间得到充分描述和呈现,开放语档联盟制定了一套基于网络的语言资源数字化立档和网络操作的标准或准则文件。主要有以下三类:④

1.标准类文件(standards)

这是所有加盟机构和个人必须遵循的技术标准,有以下3个:

(1)《开放语档联盟元数据标准》(OLAC Metada V1.1)。它规定了描写语言资源和提供相关服务的元数据构成、元数据格式、元数据扩展的使用、第三方扩展的定义、扩展的文档化等等。《开放语档联盟元数据集》(OLACMetadata Set)根据《都柏林核心元数据术语》(Dublin Core Metadata Terms,DCMT)15个元素拟定;元数据描述采用扩展标记语言(XML)格式,遵循《以扩展标记语言实现都柏林核心元素指要》标准(Guidelines for implementing Dublin Core in XML,DCXML)。

(2)《开放语档联盟工作规程》(OLAC Process)。文件阐述了开放语档联盟的管理理念,规定了组织构架和运行机制,以及规范和标准的制定和发布规程。

(3)《开放语档联盟资源存储标准》(OLAC Repositories)。文件确立了加入开放语档联盟的机构和服务中心应遵循的资源存储准则。如:OAI标识码的描写,资源档案的描写,静态存储器和动态存储器的要求,等等。

2.提议或建议类文件(recommendations)

它主要针对语言资源立档某些方面取得最佳实践经验的一致性建议,有以下7个:

(1)《语言资源描述最佳实践建议》(Best practice recommendations for language resource description)。文件陈述了开放语档联盟就使用元数据描写语言资源的最佳实践建议。

(2)《开放语档联盟话语类型词表》(OLAC Discourse Type Vocabulary)。文件指定了话语类型代码词汇。

(3)《开放语档联盟语言代码扩充集》(OLAC Language extension)。文件指定用来识别各种语言的代码扩充集,采用国际标准ISO639来定义语言代码。

(4)《开放语档联盟语言学数据类型词表》(OLAC Linguistic Data Type Vocabulary)。文件指定了从语言学角度对资源数据分类的术语词汇。

(5)《开放语档联盟语言学科词表》(OLAC Linguistic Subject Vocabulary)。文件列出了语言学分支学科的术语词汇。

(6)《开放语档联盟参与人角色词表》(OLAC Role Vocabulary)。文件规定了语言资源创建、加工、存储、发布等工作中参与者不同角色的代码词汇。

(7)《开放语档联盟元数据扩展方案》(OLAC Metadata extension)。文件规定了在扩张标记语言(XML)中使用扩充元数据的代码和描写格式。

(8)《建议的元数据扩展集》(Recommended metadata extension)。文件规定了用于进一步描述基本元素意义的扩展元素代码。

3.解释类文件(notes)

补充性的诠释和说明。解释有两个功能:一是就标准的实施做延伸性的讨论,或就实施细节进行说明,以确保标准和提议不会背离相关准则。二是某些试验性的、非正式或操作层面上的建议,尚不能成为标准或提议的,也以解释文件的形式发布。解释性文件比较灵活,内容也很广泛。如:《开放语档联盟元数据质量评估办法》(OLAC Metadata Metrics),《开放语档联盟元数据使用指南》(OLAC metadatausage guidelines),《关于开放语档联盟元数据显示格式以及与OAI协议互通的说明》,等等。

上述文件构成了一个完整的语言资源数字化立档的理论规范和实践规程。它对于我国少数民族濒危语言语档建设,有重要的理论和实践指导意义。

(三)开放语档联盟元数据用法释要

元数据即关于数据的数据。语言资源多种多样,为了使语言资源得到科学的汇聚、立档、传播和被发现,需要一套标准化的“标签”著录和标记各种语言资源的属性,这种“标签”就是元数据。《开放语档联盟元数据集》就是用来描述语言资源的术语集,其中的每个术语称作元素(element)。这个元数据集包含了《都柏林核心元数据集》(DCMS)的15个元素,以及《DCMI元数据术语》的元素限制(refinements)和编码方案(encoding schemes)。⑤ 此外,还针对语言资源的特殊性,增加了扩展方案。开放语档联盟的元数据描写使用扩展标记语言,可经由DTD或Schema编码验证,⑥ 它通过《OAI协议》与《都柏林核心元素集》的搭配使用来实现。在XML文本中,使用〈olac:olac〉和〈/olac:olac〉作为元数据记录的容器标签。它的元数据方案中提出了使用元数据的五条通则:⑦

(1)元数据中每个元素的值都必须符合DCMT对该元素的定义。

(2)如果元数据记录中某个特定元素的意义符合限定元素的定义,就应使用限定元素。

(3)必要时使用xsi:type属性指定编码方案,以便准确地表达元素的值。

(4)当元素内容的语言不是英语时,使用xml:lang属性,并通过《开放语档联盟语言代码扩充集》获得语言代码值。

(5)当一个资源对某个特定元素或限定元素可能有多个值时,应按值分开标记元素。

《开放语档联盟元数据集》使用元素限制(refinement)、代码(code)、语言(lang)、方案(scheme),对元素做进一步描述,元素的属性值由受控词汇(Controlled Vocabulary)规定。上述提议类文件的术语词表就是元数据的扩展集,其中规定了受控词汇。当然并不是所有元素这四个属性都俱全。

(1)限制,用来识别元素较精细的意义或更多的特定特性。限制元素使用dcterms命名空间定义,⑧ 详细指明限制。例如:元素coverage(资源覆盖范围)进一步细化为“dcterms:spatial”(空间范围)和“dcterms:temporal”(时间范围)两个限制元素。Format(资源格式)也有“dcterms:extent”(大小规格)和“medium”(介质形态)两个限制元素。

(2)代码,用来规定开放语档联盟特有的某些标记系统,通常指扩展集。代码属性用“olac:code”描述,它的值为上述文件定义的受控词规定。如,OLAC Role Vocabulary、OLAC Linguistic Subject Vocabulary、OLAC Discourse Type Vocabulary等文件的受控词汇。

在DCMT标准中,“xsi:type”属性的作用是指明定义受控词汇或控制句法的编码方案。“xsi:type”和“olac:code”常常配合使用。“xsi:type”可以中止都柏林基本元素的定义,而指定别的编码方案定义。开放语档联盟《推荐的元数据扩展》规定了4个扩展方案代码:olac:discourse-type,olac:language,olac:linguistic-field,olac:linguistic-type,olac:role。

例如:在某种语言资源的创建中,张三负责数据的录入,他是参与人,按元数据定义应在“贡献者”(contributor)内容中列出他的名字。查阅OLACRole Vocabulary扩展方案,受控词汇有“data_inputter”(数据录入员),即角色的值。因此,元数据记录就应该这样描述:

〈dc:contrIbutor xsi:type=”olac:role”olac:code=”data_inputter”〉张三〈/dc:contributor〉

(3)语言,这是元数据每个元素都有的属性。在DCXML标准中,xml:lang属性指元数据元素内容所使用的语言。例如下面一条元数据记录:

〈title xml:lang=”llu”〉Na tala‘uria na idulaa diana〈/title〉

两个尖括号之间的部分是元素“title”的内容,lang是属性名称,llu是属性的值。llu是所罗门群岛老语的国际标准代码。也就是说,网页的标题内容是用老语显示。

“olac:language”是针对都柏林核心“dc:lang”元素的扩展。它的值是ISO-639规定的语种代码(例如:藏语的代码是bod),默认值是eng(即英文)。当语言资源的内容,或者描述该语言资源的语言不是英文时,或有多种语言特性时,可以用这个元素进一步的细化。

例如:有一段藏语材料,元数据记录是用藏文,这时就可以做如下标记:

〈dc:language xsi:type=”olc:language”olac:code=”bod”〉

如果上面的材料还有中文,则可以加上以下语句:

〈title dcterms:alternative xsi:type=”olac:language”olac:code=”zho”)中文标题〈/title〉

alternative是DCMI受控词。对元素进一步精细化或作出限定,可以在dcterms命名空间中定义。

(4)方案,指元素内容文字所采用的编码标准。也就是说元素内容所采用的编码已经有标准发布,它包括受控词汇、正规批注(Formal Notation),DCMI已注册的方案,或者是由OLAC成员自行注册相关的方案。编码方案的属性用“xsi:type”来标记,属性的值为“命名空间:标准方案名”。例如,有一段某语言的录音材料,以wav的音频文件格式录制。那么,元素format(资源格式)的描述如下:

〈dc:format xsi:type=”dcterms:IMT”〉audio/wav〈/cd:format〉

上面的IMT就是DCMT采用媒介类型标准。开放语档联盟发布的这类方案,如上面列出的提议类文件(2)、(4)、(5)、(6)。语言编码方案、学科分类词汇,可用来描述subjec元素的编码方案;数据的语言分类、话语分类词汇,则是type元素内容的编码方案。例如:有一本种语言的民间故事手稿,那么其中的type元素内容采用OLAC方案描述,即是:

〈dc:type xsi:type=”olac:linguistic-type”olac:code=”primary_text”〉

其中,“linguistic-type”是方案的标准名称,“primary_text”是受控词汇,即编码属性的值。

应当注意的是,要区分xml:lang和olac:language的用法。前者用来指定元数据的语言属性,而后者是作为元素language和subject的编码方案,分别指明资源内容本身的语言和资源主题的语言。

二、OLAC标准对濒危语言有声语档建设的适应性

少数民族濒危语言有声语档建设主要有三项工作:一是采集有声语料并进行文本转写标注,二是研制数据库,三是建立语档内容资源在数字网络空间的元数据描写构架。这些工作需要在统一的理论规范和实践规程的指导下开展。这里讨论第三个问题。应当指出的是,建立濒危语言有声资源的数字网络档案,并不只是图书馆、档案馆、网络服务机构的事情。能否准确、全面、科学地描述和标记濒危语言资源的信息,关系到这些资源在网络空间能否有效和便捷地发现和获取,关系到资源的传播和利用。濒危语言田野调查者应当了解并参与语料资源信息的数字化立档案工作,一方面这有助于濒危语言资源的属性和潜在的利用特性尽可能得到充分的描述和展现;另一方面,通过了解语言资源信息在数字网络环境下的描述和存取通则,语言学者可以进一步了解社会对语言资源信息的需求,从而使语料采集、描述和标注更具有方向性、针对性和实用性。

(一)关于语档的内容实体

笔者在这里使用“有声语档”这个说法,旨在强调自然语言的声音作为第一语言资源的重要性。尽管不少公开出版的少数民族语言著述中包含了不少语料,但即使记录的是口语,也大多为可看不可听的文本“语料”,不少语料库和数据库实际上并非真正的“语”档,而是“文”档。

开放语档联盟颁布了用于描述语言材料类型的两个扩展代码集,即《语言学材料类型词表》和《话语类型词表》。前者规定了3个受控词:lexicon、primary_tex、language_description。根据文件的定义和解释,lexicon指各种成系统的词汇和短语集,对具体语言来说,就是构成该语言词汇系统的词和短语。Primary_text这个术语,根据文件的定义,不是按字面理解的“原始文本”,而是“言语事件的展现或言语事件相应的书面物”,包括用音像设备摄录的或用文字符号记录的各种自然言语或言语行为情景。Language_description是指语言结构的描写,如语音、词汇和语法结构等等。后者是语料类型的进一步细化。在描述语言资源的“类型”属性时,可以将这两个扩展集搭配使用。

代码的功用是用来标识和归类语料,以方便语言资源的立档和信息描述。从这些术语代码的定义、解释和举例中,我们可以获得解决濒危语言有声语档的内容实体问题的启示,这就是:语档的内容实体应该主要是什么类型的语料资源。从文件的定义可以知道:作为声音的词汇语料、话语语料和对应的文本呈现、结构的描写,是少数民族濒危语言有声语档的内容实体。因此,关于语档建设的语料采集,我们提出以话语为中心的原则,并拟定了分级词汇表、情景话语主题表、生活事件常用语句表、语法例句表,适应了社会对语言资源的基本需求。濒危语言有声语档内容实体,按这种模式进行组构,符合数字化处理的发展方向。不过,在濒危语言语档的内容实体中,与话语对应的文本描述,可能包含同步的转写、结构描写和语义解释,这是原始语料的有机组成部分;但按照OLAC的相关规范,则应该归到language_description名下。如此看来,OLAC的这种划分还需要修订和完善。

(二)关于语言代码方案

少数民族濒危语言有声语档包含了不同功能的语言资源:作为内容对象的濒危语言,作为描写和解释濒危语言的元语言,以及作为数字化立档案元数据呈现的语言。这些不同层面的语言,构成了语档资源的语言体系。就濒危语言的描述语言而言,有声语料的文本形式有标音、转写、翻译、对译等,这些都必须使用普通大众可阅读和理解的语言文字。普通话是必须使用的描述语言,除此之外,还可以使用与濒危语言亲属关系比较紧密的当地通用民族语言。还有一种情况就是,在记录语料的过程中,采访者和被访者之间的沟通和解说,也可能使用当地强势的汉语方言。因此,语料的描述语言,还可以使用这种汉语方言。这些不同的语言或方言材料的数字化立档,需要标准化的语言代码体系。

开放语档联盟的语言编码方案支持ISO639标准。这是国际标准化组织的语种编码标准,包括ISO639-1/63-2/639-3三个部分。⑨ ISO639-1有136个二字母编码,用来标识世界上主要的语言,如汉语ZH、英语EN、藏语BO)。ISO63-2为三字母语言代码,其中22种语言同时有2个三字代码(另一个是英语缩写,如汉语的两个代码是zh和chi)。2007年正式批准的ISO639-3是一个超集,包括所有语言(不含三字英文代码),它的语种资料有三个来源:基本资料来自ISO639-2所收录的单个语言,以及取自《民族语》(ethnologue,SIL)的现代语言调查资料,而过去历史的各类语言及古老的语言和人工语言,则采用了《语言学家名录》(the Linguist List)的资料。国家标准局发布的语种代码标准《GB/T 4881-85//中国语种代码》是1985年颁布的,推荐语种名称国际标准《GB/T 4880.2-2000/EQV ISO639-2:1998》是1998年版本,目前并无新的有关中国所有语言和方言的代码标准,这项工作已经滞后。ISO639标准也应该是我国少数民族濒危语言语档建设应借鉴的基本规范。

国际标准化组织2008年发布的ISO639-5是一个三字母语系和语群代码标准,它以美国国会图书馆注册的标准为基础。我国境内的少数民族语言分属多个语系和语群,有不少跨境语言,而对少数民族语言的系属分类,语言学界尚有分歧。也由于国内语言学界缺乏这方面的标准化意识,至今没有一个体现国内所有语言系属编码的国家标准。在ISO639-3版本中,我国境内的少数民族濒危语言和次方言没有全部得到反映。《新发现语言丛书》的几十种少数民族语言中,还有一些没有标准代码。有的语言的次方言、土话都有编码,而有的语言的主要方言则没有编码,如拉乌戎语、布芒语,还有不少汉语方言也无标准编码。虽然。ISO639-3标准有三字代码“mis”表示未编码语言,预留了“qaa~qtz”编码范围供私人使用。但是,为了使我国语言资源在数字网络空间得到广泛的传播和利用,制定一个完整的中国境内语言(方言)代码标准,是完全必要的。因此,建议语言学界应与相关领域专家合作,在国家语言总体国情框架下,参照国际标准,尽快拟订一个全面的语言代码国标方案。

(三)关于参与者角色

濒危有声语言资源采集和描写,从发音、录音、记音到翻译、注释、数据转换、录入等等,涉及各方面参与者,充分利用参与者专长,明确责任分工,才能确保记录和描写的良好秩序和质量。详细标记参与者角色,确保语档每个内容实体都有确切出处,既便于资源的获取,也便于质量的监控,同时也是对责任人知识产权的充分尊重。这一点在通常的语言田野调查和后期语料整理或处理中常常被忽略。

开放语档联盟针对DCMT的元素“contributor”,根据语言资源的特殊性,发展了一个角色扩展元素集(即前面文件的OLAC Role Vocaulary),规定了下面24个参与者角色受控词术语:标注者(annotator)、作者(author)、汇编者(compiler)、咨询顾问(consultant)、资料录入员(data_inputter)、收藏或存档者(depositor)、技术开发员(developer)、编校员(editor)、插图绘制员(illustrater)、口译解说员(interpreter)、采访员(interviewer)、参加者/在场者(participant)、演出者(performer)、摄影者(photographer)、录音者(recorder)、应答者(responder)、歌唱者(singer)、主角(signer)、主要说话/发音人(speaker)、抄录员(transcriber。)、笔译员(translator)。

话语是濒危语言语档内容实体的核心部分,话语的采集和描写也是最费时费力又最需要综合技能的工作。这些角色元素涵盖了话语内容的角色、话语发生环境角色和话语记录和描写工作角色。事实上,语言调查者有时也会收集话语语料,但从角色作用的角度去规划或实施话语语料的采集和描写,则几乎未曾有过。濒危语言话语语料的采录与描写,虽然不必各个角色都有专人,但充分考虑上述角色的各个方面的工作,则有助于实现全面和充分地记录描写话语语料,真实反映语言事实和语言实践。在拟定话语调查表和处理话语语料的工作规范中,应当注意收集和注明这些受控词的信息。

(四)关于“描写”的内容划分

开放语档联盟的元数据集和扩展集中,有两个“描写”元素:一个是作为《都柏林核心集》的元素“description”,另一个是上面说过的《语料类型词表》中的“language_description”。前者是对语档资源构成情况的描写。比如说,在语档xml文件的元数据记录中,有一批题名为“畲语情景话语”的有声资源,而其中的元素标签“描写”的内容可能就是这样:

这是畲语情景话语的录音和摄像材料。材料中包括了市场买卖、婚礼仪式、公共汽车聊天、田间劳动等4个情景的5段录音,共39分钟,3段摄像,共25分钟。同时包含这些话语的同步记音和中文对译文件。

DCMIMT对这个元素进一步做了元素限制,使用了两个限制元素:dcterms:abstract和dcterms:table Of Contents,上面的描写类似于前者,即提要、概述。另一种描写就是把各个部分做成内容目录,即后一种元素限制。

在濒危语言有声语档的xml文本格式中,将语种名称嵌入题名中书写,并同时使用“提要”和“目录”两个限制元素,前者概述资源的形态状况,后者各个资源实体的内容标题目录,这样更具有层次性。

由于有声语档的内容实体是声像资料和相应的同步的文本化资料,对语言基本情况的描写,应该与它们放在同一条语言资源记录中。因此,在针对濒危语言本身的描写中,即上面说的受控词language_description,应该分为两类,一是濒危语言基本情况(主要是使用情况)的描写,二是对濒危语言结构的描写,如《新发现语言丛书》中对语言的描写和分析,后者应该作为濒危语言有声语档的扩展集来考虑。这个扩展应该由专门的中国少数民族濒危语言研究文献资源库来完成。这样看来,开放语档联盟的语言学资料类型,还应进一步细化。

三、余论

少数民族濒危语言有声资源的抢录和保存,时间紧迫,任务艰巨。目前还没有一个图书馆、档案馆或网络运营机构和科研机构愿意无偿提供这方面的数字化服务。单由某个语言研究机构,要想把全国极度濒危语言在几年内全部采录和立档,是十分困难的。由行政部门主导,则可能程序缓慢,难以持续和高效。唯一可行的办法是,采录语料和建语料库的工作由濒危语言所在地的高校、科研机构或个人开展,但语料采集记录、原始语料库建库标准和规范的制定,以及濒危语言有声语档资源导航库的元数据方案和标准,由某个负有学术声望的研究机构组织团队负责实施。目前,暨南大学汉语方言研究中心的研究小组正在拟订《中国少数民族濒危语言有声资源记录与立档规范》。现已完成《濒危语言基本情况描述主题词表》、《濒危语言有声资源立档元数据》、《濒危语言有声语料通用调查表》(词汇调查表、语法例句调查表、日常用句表、话语主题表)、《话语转写标注规范》、《有声语料数据及采录技术规范》,以及有声语料采录软件《田野之声》的研制。研究中心建立了分布于南岭四省区的方言资源监测站,并将提供数字网络的方言资源存储器服务。我们希望,语言学界相关机构或个人,打破本位主义思想,从保护民族语言资源的高度,进行无私合作,执行相关规范和标准,把各自的资源无私地奉献出来。

注释:

① 云南民族大学的项目因缺乏后续资助而中止,中央民族大学的计划目前尚未见到公开的进展消息和公开的数据库资源可用;声学参数数据库的语料样本有限,仅内部少数人有限使用。

② 台湾学者将其译为“语言开放典藏社群”。

③ 我国台湾地区的中央研究院的语言研究计划加入了该计划。郑锦全教授为OLAC咨询委员,黄居仁教授为执行委员。大陆目前似乎没有语言机构或个人加入OLAC。

④ 文件英文版,请参见:http://www.language-archives.org/documents.html

⑤ DCMS和DCMIMT是描述各种资源的国际通用标准。请参阅该机构的网站:http://dublincore.org/

⑥ 关于XML语言以及DTD、Schema编码的入门知识,请参阅:http://www.w3school.com.cn

⑦ 参见:OLAC Metadata Usage Guidelines,网址:http://www.language-archives.org/documents.html

⑧ 关于dcterms命名空间的术语,参阅DCMI网站:http://dublincore.org/

⑨ 关于ISO639标准,参见ISO网站:http://www.iso.org/iso/isu_catalogue

标签:;  ;  ;  ;  

再谈少数民族濒危语言音像文献的建设--OLAC技术规范及其适应性_元数据论文
下载Doc文档

猜你喜欢