中国少数民族语言网络信息资源的保存体系研究,本文主要内容关键词为:少数民族论文,信息资源论文,中国论文,体系论文,语言论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
中国是统一的多民族国家,多民族、多语言、多文字是国情的基本特征。互联网当中,除了以国家通用的汉语和汉字作为信息记录语言之外,我国民族地区社会实践和民族事务管理过程中建立的各类语种各异、类型丰富、功能多样的少数民族语言网站、网页和其他网络资源也是我国网络信息资源的重要组成部分,其长期保存对少数民族文化保护、国家语言文字政策实践证据保留、少数民族语言语料积累和信息资源大范围利用等方面具有重要意义。
1 少数民族语言网络信息资源长期保存概述
少数民族语言网络信息资源是指主体内容使用中国境内各少数民族历史上曾经通用或目前正在使用的、体现本民族传统文化特征的文字或语音符号作为信息记录方式的网站、网页或其他网络资源,目前主要关注的是由蒙古文、藏文、维吾尔文、哈萨克文、朝鲜文、彝文、壮文等使用人口较多、影响面较大语种的文字所建立的网站或网页。
1.1 少数民族语言网络信息资源的发展概况
2000年1月6日,中国互联网上第一个少数民族文字网站“同元藏文网站”正式开通,标志着中国少数民族语言网络信息服务的开端。此后,民族地区和涉及民族事务的一些机构相继在互联网上建立了少数民族文字网站或者网页。内蒙古自治区建成中国蒙文知识产权服务平台,提供专利专栏、商标专栏、版权专栏、商业秘密、知识产权政策法规、知识产权保护、文献检索等约15万字的蒙文信息[1]。据统计,从20世纪90年代末到本世纪初国内建立的蒙古文网站有数百个[2]。截至2007年,我国藏区已有近百种藏文报纸、刊物及网站,成为宣传党的政策、传递藏区社会发展最新动态、传播国内外信息的重要媒介[3]。截至2009年第一季度,新疆维吾尔自治区建立的较为稳定的少数民族文字网站500余个,其中维吾尔文网站400余个、哈萨克文网站30余个[4]。2009年,权威媒体“人民网”推出维吾尔文、哈萨克文、彝文、壮文四种少数民族文字网页以及藏文、维文两种手机报,实现了蒙文、藏文、维吾尔文、哈萨克文、朝鲜文、彝文、壮文七种少数民族文字网页全部上线,成为全国互联网站中首家实现党代会、人代会七种主要少数民族语言全覆盖的网站[5]。
1.2 少数民族语言网络信息资源长期保存的紧迫性
从20世纪末期开始,美国、澳大利亚、丹麦、瑞典、荷兰等国家的图书馆和档案馆就已经意识到网络信息资源保存的重要性并相继开展了一些网络信息保存的实验项目,我国也已经启动了几个中文网络信息保存的研究项目,但是对于少数民族语言网络信息的保存问题较少涉及。少数民族语言网站和网页的发展使得我国网络信息资源的类型更加丰富,也是我国政府保护少数民族语言文字、促进少数民族文化在信息时代的传承和发扬的政策体现。然而,由于少数民族语言文字信息处理技术的相对非成熟性和少数民族语言网站用户群体的有限性,少数民族语言网络信息资源的生命周期却非常短暂。根据美国数字信息基础架构和保存项目(NDIIPP)研究,网络信息资源的平均生命周期仅有44天[6]。相比之下,少数民族语言网页的生命周期就更加短暂,受到支撑技术的影响,网页出现乱码、断链等故障的概率远远高于一般性网页。如果任由这种状况继续下去,大量的少数民族语言网络信息资源在互联网上“昙花一现”之后就再难以找到,这对少数民族文化保护无疑是巨大的损失,同时可能造成这一领域社会记忆的“断层”现象。网络信息资源具有数字化特征,消失以后就很难再找回来,根据我国少数民族语言网络信息资源的特点,深入分析其长期保存的功能需求,明确少数民族语言网络信息资源保存的责任体系,建立适应我国民族地区实际的少数民族语言网络信息资源采集、保存和利用体系是当前迫切需要解决的问题。
1.3 少数民族语言网络信息资源长期保存的概念与内涵
少数民族语言网络信息资源总量相对较少,用户数量也不多,在短期内其文化价值和档案价值要远远高于商业价值,私人组织一般不愿意投资这类项目,需要政府机构承担其关键责任,通过财政手段推动项目的运营和建设。少数民族语言网络信息资源长期保存是指国家为了保护体现为网络信息资源的少数民族文化,保留国家帮助和支持少数民族文字信息处理工作的证据,积累少数民族语言语料资源,开发和利用深层知识,建立整体性的技术架构和管理体系,收集和保存各类少数民族语言网络信息资源,为全社会提供综合性信息服务的过程。上述概念的内涵主要体现在以下方面:(1)战略性。少数民族语言网络信息资源的保存不仅仅是一种技术行为,而是包含了政治、文化因素在内的复杂性问题,必须从战略层面上进行规划和管理;(2)整体性。少数民族语言语种众多,但是少数民族语言网络信息资源的保存重点是所有语种少数民族语言网络信息资源的共同特征和共性需求,而不拘泥于某一语种网络信息资源的理解问题;(3)基础性。少数民族语言网络信息长期保存旨在为同一类型的网络信息资源提供基础性的技术架构和管理方案,不能因为某一语种网络信息资源数量较少就不考虑其保存问题。
2 少数民族语言网络信息资源长期保存的需求分析
少数民族语言网站或网页是网络信息资源的特殊类型,语言的差异性使其长期保存需求在一般性信息资源保存需求的基础上,呈现出一些与汉语信息资源不同的特征。
2.1 证据属性保障需求
互联网中绝大多数的汉语网站或网页是作为信息载体出现的,网民访问这些网站主要关心的是信息内容。少数民族语言网络信息资源除了具备上述特征以外,还具有一定的证据属性。例如,互联网上各个语种少数民族语言网站的繁荣本身就体现了国家保护少数民族文化、保护少数民族语言文字使用权的政治态度。这些信息资源的收集保存不仅仅是保存信息的内容,还应当尽可能多地保存这些信息资源产生的背景信息、原始的技术环境信息和对其进行更新和管理的相关信息。因此,从证据属性而言,少数民族语言网络信息资源的长期保存必须考虑到这些信息资源真实性的保障问题,尽可能多地收集和保存其产生和管理过程的信息,以证明这些信息资源确实是在互联网上存在过的原始信息,而不是事后为了特定需要对其做了变更,也不是事后人为故意制作的虚假信息。
2.2 长期可读性保障需求
少数民族语言网络信息资源的可读性与相关支撑技术的发展紧密相关。汉字信息处理技术被成功攻克以后,在巨大的应用需求推动下,与汉字信息处理技术相关的各类字处理软件、各类应用系统得到了快速发展,汉字信息处理技术已经完全成熟,很少因为编码或技术原因导致信息无法读取的情况。少数民族语言网络信息资源的保存则更加复杂,国家曾经发布过主要少数民族语言、基于单一语种编码平面的编码方案,多语种环境下少数民族语言文字编码方案究竟采用国家标准GB18030还是ISO10646尚无定论,如果在信息资源保存的同时没有做好编码方案等信息的保存,极有可能出现乱码、无法读取等问题。对于一些需要特定应用软件支持的深网信息资源,如果只保存了页面框架而没有保存读取软件的相关信息,也有可能造成不知道读取软件的类型或者即使知道读取软件的名称而这类软件已经被淘汰无法找到,从而导致信息无法读取。如果信息无法读取,即使其内容非常有价值,其最终的效果也等于零,此前为保存信息所付出的各类成本就毫无意义。因此,少数民族语言网络信息资源的可读性保障是长期保存必须解决的重要问题。
2.3 可理解性支持需求
语言是人类进行沟通和交流的基本工具,我国语言文字的丰富性在造就文化多样性的同时,也给掌握不同语种人群之间的沟通和交流带来诸多不便。由于语言文字的差异性,对于不掌握特定语种的人而言,即使所看到信息的内容对其非常重要也无法理解和利用。为了能够打破语言的障碍,进行跨语种沟通和交流,少数民族语言网络信息资源长期保存必须考虑到大范围用户的可理解性支持问题,尽可能让使用不同语种的人群都可能了解到信息的内容。少数民族语言网络信息资源可理解性支持主要包括双语著录问题、跨语言检索、跨语种机器翻译等内容。所谓双语著录,就是在少数民族语言网络信息资源保存的时候尽可能使用对应语种文字和国家通用语言文字两种文字同时进行元数据著录,这样就可以使掌握国家通用语言的人口较为方便地了解信息的主要内容,同时以国家通用语言文字为中介可以进行跨语种信息检索,保证同一主题的信息资源无论采用哪种少数民族语言都可以被检索到。在服务大范围用户时,跨语种机器翻译系统可以使用户通过低精度机器翻译了解对应信息资源的大致内容,非常重要的信息可以借助人工翻译得到高精度的翻译结果。
2.4 语料(Corpus)积累需求
要实现少数民族语言网络信息资源的跨语种机器翻译,建立各个语种之间的双语对齐语料库是基本前提。同时,语料库建设也是进行少数民族语言学研究的重要工具,对于探索少数民族语言现象的基本规律具有重要的价值。语料库建设必须有数字化的语言文本作为基本的加工处理对象,如果没有现存的数字化版本,还要人工输入或者对纸质文献数字化以后进行文字识别,加工处理的工作量非常大。汉语网络信息资源极其丰富,汉语语料库建设可供选择的资源很多,主要根据需求进行筛选、著录和保存。相对于汉语信息资源,少数民族语言信息资源数量较少,现存的少数民族语言历史文献在没有数字化加工的情况下不能被语料库所使用。因而,互联网上现存的少数民族语言网络信息资源就成为少数民族语料的重要来源。特别是一些政府机构建立的少数民族语言网络往往同时提供相同内容国家通用语言(汉语)的版本,这对于建立少数民族语言与国家通用语言之间的双语对齐语料库而言是非常难得的资源。因此,少数民族语言网络信息资源的保存过程同时也是少数民族语言语料的积累过程,除了满足自身的机器翻译需求以外,对语言学研究也具有重要意义。
2.5 专业化管理需求
专业化管理是提高管理系统整体效率、保障工作质量的基本原则。在少数民族语言网络信息资源采集和保存的时候要对其进行高质量的元数据双语著录,必须由同时掌握少数民族语言和国家通用语言的双语人才来完成。要进行可读性的保障,该语种密集使用的地区往往也是双语人才最为密集、相关语种信息技术产品最为齐全的地区,例如掌握蒙古语的科技人才和蒙古语信息处理软件的数量一定最集中在内蒙古自治区,因此,无论少数民族语言网络信息资源是由全国哪个地区的人群产生,最终由最擅长这一语种的地区进行专业化管理是保障信息资源管理质量的重要策略。
3 少数民族语言网络信息资源长期保存的架构设计
少数民族语言网络信息资源长期保存首先需要解决保存主体的确认问题,在明确由哪一类机构重点推动的基础上,确定长期保存的基本理念,根据基本理念来设计满足少数民族语言网络信息资源长期保存的体系架构。
3.1 责任主体
对于一般性网络信息资源长期保存的责任归属,学术界普遍认为应当主要由图书馆承担。例如,澳大利亚的网络信息资源保存项目(PANDORA)、美国数字信息基础与保存计划(NDIIPP)、日本的WARP项目、瑞典的KULTURARW项目、挪威的PARADIGIMA等主要是由这些国家的国家图书馆、皇家图书馆、国会图书馆等机构发起和推动的;我国的网络信息采集与保存实验项目(WICP)是在国家图书馆的推动下于2003年启动的[7]。也有学者提出档案馆也要参与网络信息资源长期保存,例如,瑞典国家图书馆的Johan Mannerheim就提出:网络信息应该由那些能够维持几百年以上的专业性长期保存机构,例如图书馆、档案馆进行保存。少数民族语言网络信息资源长期保存责任主要由图书馆还是档案馆承担,取决于哪一类机构能够最大限度满足少数民族语言网络信息资源长期保存的功能需求,可以主要从以下方面进行衡量:
第一,少数民族语言网络信息资源具有一定的证据属性,在必要时可以作为证据提交给司法机构作为案件审理的依据或者为了澄清某种事实而向公众公开。例如,国际上一些政治势力散布所谓“中国灭绝少数民族文化”的谣言,我国政府如果将收集的大量网络信息资源及时向外界公开,就可以充分表明我国在这一领域所做的努力,令谣言不攻自破。少数民族语言网络信息资源要作为证据提供,就必须具有证明自身真实性的能力,在网络信息资源采集时就不能仅限于信息内容本身,还要收集更多的背景信息。一般而言,图书馆缺乏对信息资源证据属性的深刻认识,收集信息的时候主要关注信息的内容,即使要对信息进行著录,重点关心的也是利用问题而不是证据性保障问题。
第二,档案管理重在通过收集保存记录信息以最大限度地重现历史的原貌,不仅强调信息内容的保存,也强调信息显示原貌的复原,因而对少数民族语言网站和网页的显示效果也会予以关注,通过各类措施最大限度保障网站按照最初存在的显示效果呈现出来。例如,对于网页当中链接的各类文件是否齐全,所链接的多媒体文件是否可以正常读取等问题都必须进行关注,而图书馆保存网络信息资源更重要的是保存内容信息,对网站显示效果要求相对较低。
第三,图书馆是处在信息流末端的文化事业机构,只能被动地收集和保存网络信息,无法要求产生网络信息的机构按照一定的规范来产生信息,不能从信息的源头进行干预。档案馆则在这个领域具有优势,在同级档案行政机构的参与下可以对前端产生信息的机构进行适度干预,要求产生信息的机构按照统一的要求产生信息,从而可以提高信息保存的质量。
第四,图书馆保存网络信息资源时,一般通过网络访问获得网页文件后进行保存。这种方式实际上只能获得互联网的浅层信息,例如保存在后台的少数民族语言数据库当中的绝大多数信息并没有被采集到。档案馆保存网络信息资源的优势在于可以通过“呈缴”制度要求一些机构按规定提交少数民族语言信息资源的整体信息,从而可以获得更加丰富的网络信息资源。
因此,从少数民族语言网络信息资源的证据属性、显示效果、前端控制和呈缴制度等角度看,由档案馆来承担长期保存责任更为妥当。当然,以档案馆为主体并不是排斥图书馆、各类文化机构甚至个人的参与,只是各类机构所关注的重点有所不同,前者需要在满足证据性的基础上进行信息内容的保存和服务,后者只关心信息内容的保存问题。
3.2 基本理念
少数民族语言网络信息资源的保存主体是档案馆,意味着其保存理念与一般性的网络信息资源有所不同,需要遵循的理念主要有以下方面。
(1)档案化管理。档案化管理是指少数民族语言网络信息资源产生的过程中要尽可能考虑到信息资源最终要被档案馆收集和长期保存的需要,在信息产生的时候就考虑到编码方案、元数据格式、存储格式、背景信息收集、国家通用语言文字版本收集、双语著录等方面的需求,尽可能在前端就做好准备工作。
(2)多元一体。多元一体理念源于我国已故著名社会学家费孝通先生的“中华民族多元一体格局”理论,该理论认为,中华民族作为一个自觉的实体,是近百年来中国与西方列强对抗过程中所形成的,它的主流是由许许多多分散孤立存在的民族单位,经过接触、混杂、联结和融合,同时也有分裂和消亡,形成一个你来我去、我来你去,我中有你、你中有我,而又各具个性的多元统一体[8]。因此,少数民族语言网络信息资源的长期保存,既要考虑到各语种信息资源的多样性保存问题,又要考虑到这些信息资源之间的逻辑联系问题,使各个语种的信息资源能够共享。
(3)信息共享。信息共享是指考虑到少数民族语言网络信息资源要为整个国家的公民所共享的需要,通过技术手段消减由语言差异性带来的沟通障碍,使得全国各个民族的群体都可以通过自己熟悉的文字来访问其他民族语言的网络信息资源。少数民族语言网络信息资源跨语种共享又必然涉及作为中介语言的国家通用语言,因此集成服务实际上就要建立以国家通用语言文字为核心的少数民族语言多语种信息资源共享体系。
3.3 技术架构
根据少数民族语言网络信息资源长期保存的功能需求和基本理念,少数民族语言网络信息资源长期保存的技术架构整体上分为信息来源层、数据集成层和服务集成层三层。信息来源层主要是对于可以进行规划和控制的机构进行前端干预;数据集成层主要是在全国各个少数民族语言富集地区建立管理节点并将其联结成为一个整体;服务集成层主要是建立以国家通用语言文字为核心的少数民族语言网络信息资源跨语种信息共享体系。其中,数据集成层是对互联网当中少数民族语言信息资源的数据集成,使信息资源可以跨地区访问;服务集成层则是在数据集成层的基础上,对少数民族语言网络信息资源的内容进行集成,使其可以跨语言共享,如图1所示。
图1中,少数民族语言网络信息资源保存体系的技术架构涉及的内容主要有:
第一,信息来源层。与档案部门对机关电子公文进行前端控制不同,由于网络信息资源产生主体的多元性,对少数民族语言网络信息资源前端实现完全控制的难度较大,只能是尽可能建议相关机构遵照一定的标准进行少数民族语言网络信息资源建设。例如,国家需要出台《中国少数民族语言网站建设规范》,明确相关建设要求,尽可能提高少数民族语言网络信息资源的规范化程度。对于没有按照规范产生的网络信息资源,由档案馆尽可能收集相关信息进行著录和保存。
第二,数据集成层。按照单一语种专业化管理原则,基于分布式数据库的基本原理,在主要少数民族语言富集地区的档案管理机构建立对应语种的网络信息资源管理节点,这些节点之间物理上是分散在全国各个地区的,逻辑上是集中的,在分布式数据库支持下构成一个分布式信息共享网络,可以支持跨地区的全局信息检索和全局并行应用。各个分节点负责单一语种网络信息资源的保存,并尽可能全面地收集对应语种的各类应用软件,开发编码转换、格式转换工具软件,为对应语种信息资源提供可读性服务。此外,考虑到全局协调和管理问题,需要在网络中建立统一的管理和协调中心节点。
第三,集成服务层。少数民族语言网络信息资源跨语种信息共享是指在民族地区档案管理工作中,通过技术手段和管理手段的综合应用,使各个少数民族语种信息资源所包含的内容信息具备能够被全国各个民族没有熟练掌握该语种的人口以较低的成本、较为便捷的方式进行阅读和理解的能力。按照跨语种信息共享的要求,民族地区或民族事务管理的各类机构在建立少数民族语言网站或者网页的时候就应该考虑到在全国范围内被共享的需要,尽可能同时提供少数民族语言文字版本和国家通用语言文字版本,对少数民族语言网页进行著录的时候也应该同时采用少数民族文字和国家通用文字的对照版本。在实践中,没有掌握对应语种的人要理解这一语种的信息必须借助人工翻译或者机器翻译系统的支持。作为民族地区信息共享的基础设施,国家应该建立以国家通用语言文字为核心的少数民族语言信息资源共享体系,主要是通过建立各个少数民族语种与国家通用语言之间的双语对齐语料库体系,实现任何一种少数民族语言与国家通用语言之间的机器辅助翻译,而任何两种少数民族语言之间的翻译也能够以国家通用语言为中介进行,如图2所示。
4 少数民族语言网络信息资源长期保存的体系规划
结合对少数民族语言网络信息资源长期保存需求和技术架构的分析,根据我国各少数民族语言分布的情况,对少数民族语言网络信息资源长期保存的体系进行了规划。
4.1 分布式节点设置
少数民族语言网络信息资源保存节点设置的原则是:语种尽可能单一,一个节点原则上只负责一种少数民族语言信息资源的保存,同时提供少数民族语言信息资源的可读性保障和机器辅助翻译服务;节点所在地对应语种的信息资源较为丰富,该语种信息资源利用需求的用户也最多;节点所在地经济发展相对发达,可以提供少数民族语言信息资源管理所需要的技术环境,特别是网络通信条件要满足大量数据交换的要求;节点所在地技术和管理人才储备较为丰富,特别是对应语种语言学人才充足,可以满足少数民族语言和国家通用语言文字双语对齐语料库的建设要求;对于使用人口较少,整体数量较少的少数民族语言信息资源暂时由一个节点进行代管。条件成熟的时候,可以考虑针对单一语种成立新的节点;综合考虑民族地区的地理和气候条件,尽可能避免成本过高的方案。按照上述原则,节点的设置一般应该设置在各少数民族聚居区的中心城市较高级别的档案管理机构。目前,中国少数民族语言文字信息处理技术发展相对较为成熟的少数民族语言有蒙古语、藏语、维吾尔语、哈萨克语、柯尔克孜语、壮语、朝鲜语、彝语、傣语等,对应的节点可以设置在这些省区或中心城市的档案馆内,可以分别称为呼和浩特节点、拉萨节点、乌鲁木齐节点、南宁节点、延吉节点和昆明节点等。对于使用人口较少,暂时还没有成熟的信息处理标准的少数民族语种产生的音频和视频信息,可以暂时集中到云南省档案局负责的昆明节点进行保存。
4.2 中心节点选择
一般而言,中心节点所在地应该具备如下的一些特征:所在地经济发展相对发达,可以提供良好的技术环境,特别是网络系统的带宽要满足频繁数据通信的要求;所在地人才储备较为充足,可以满足管理中心发展过程中的管理人才和技术人才需求;所在地接近少数民族事务管理的公共组织、少数民族语言文字出版机构,有较多的少数民族语言信息资源利用需求的用户存在。根据上述标准,中国少数民族语言信息资源分布式共享网络的管理中心首选地点是首都北京市,所在的理想机构是国家民族事务管理委员会下设的“国家民委信息中心”。
4.3 网络体系方案
根据分布式节点和管理节点的设置方案及少数民族语言网络信息资源管理的功能需求,少数民族语言网络信息资源分布式保存的网络体系如图3所示,各个节点的主要功能和所在机构如表1所示。
5 结语
少数民族语言网络信息资源是我国信息资源体系的重要组成部分,其长期保存意义重大。根据少数民族语言网络信息资源长期保存需求的特殊性,由档案馆作为责任主体组织长期保存体系的建设更加妥当。中国少数民族语言网络信息资源长期保存按照档案化管理、多元一体和信息共享理念,整体上分为信息来源层、数据集成层和集成服务层三层。按照单一语种专业化管理的原则,在各个语种对应民族地区中心城市建立保存和管理节点,在保存单一语种的少数民族语言网络信息的同时提供可读性服务和可理解性支持服务。这些节点之间物理上分散,逻辑上集中,共同完成中国少数民族语言网络信息资源的妥善保管、分布式访问和跨语种共享等任务,构建以国家通用语言文字为核心的中国少数民族语言网络信息资源共享体系。
标签:中国少数民族语言论文; 中国语言论文; 网络节点论文;