中国语言资源的理念与实践论文

中国语言资源的理念与实践*

李宇明

(北京语言大学 语言资源高精尖创新中心 北京 100083)

提 要 语言资源概念的提出有40多年的时间。20世纪80年代,澳大利亚曾依照语言资源理念制定了《国家语言政策》。中国在21世纪初开始在语言规划中实践语言资源理念,建立了国家语言资源监测与研究中心,相继开展了中国语言资源有声数据库建设和中国语言资源保护工程,并与联合国教科文组织联合召开了“世界语言资源保护大会”,发布了《岳麓宣言》,成为世界上提倡语言资源理念、开展语言保护最为突出的国家。中国语言资源研究在语言规划的实践推动下展开,且与语言规划实践形成良性互动。语言资源研究从论证语言的资源性质到划分语言资源的类型,再发展到对语言资源功能的认识。本文较为详细地论述了语言资源的认识史、中国有关语言资源的实践和研究,并尝试把语言资源分为口头语言资源、书面语言资源和语言衍生资源(语言知识、语言技术、语言艺术、语言人才等)三类,分析了语言保护、语言信息处理和语言学习等语言资源的三大功能域,还提出了“语言知识观”,即语言不仅是一个符号系统,更是一个贮存人类语言知识体系及文化体系的知识库。依照“语言知识观”建设语言资源,才能满足语言保护和机器语言学习、人类语言学习的资源需要。

关键词 语言规划;语言资源;类型;功能;语言知识观

中国有100多种语言,汉语的方言灿若星空,汉语文献有数千年积累,汗牛充栋,是世界上语言资源十分丰富的国度。① 中国有多少种语言,还是一个需要讨论的学术问题。周庆生(2015:43~50)讨论“少数民族语言文字景观”时,认为我国的语言有七八十种,并在注②中指出:“政府发布数据为70多种,《中国大百科全书》认为有80多种,国内一些专家学者认为有100多种,一些国外学者认为有200多种。”其实,现在国内外学者又有300余种之说。例如黄行(2018:113)认为:“中国是世界上保持语言多样性最丰富的国家之一,分布着300余种分属东方的汉藏语系,西方的印欧语系,北方的阿尔泰语系和南方的南亚语系、南岛语系的语言。中国语言的地域和语系分布之广,大概在世界上也是绝无仅有的。” 同时,语言信息处理的重要基础是语言数据库,中国的语言信息处理事业发展一直在努力追赶世界先进水平,有些技术及应用已经处在世界第一方阵,这也促使中国学人能够从信息化的时代高度来认识语言资源。中国在历史上也比较重视对语言资源的保护和开发利用,如汉灵帝熹平年间的“熹平石经”、三国时魏齐王正始年间的“三体石经”,是通过勒石立碑来保护、展示经书和文字的范本,历代的韵书、字典就更是直接的语言资源保护产品。中国传统重视书面语,对于经典和文字的敬重保护做得十分到位;但对于口语相对轻视,历代口语资源的记录保护工作做得不好,虽然也有汉代扬雄的《方言》,历代的方志中也多有词语俗谚的内容。中国历史上的语言资源意识及其保护利用等,有许多经验值得总结和继承。

但是,真正理性地认识到语言的资源意义,特别是把语言资源作为国家语言规划的重要理念,并在国家层面、在全国范围采取语言资源保护行动,还是近十几年来的事情。语言作为社会资源,也是近些年来才得到社会的认可和重视的。

虽然一部分特色农产品企业已经认识到了英语标准化翻译的重要性,但在实际中却存在很多问题。如拼音的过度使用、片面的中式英语翻译、错误翻译等,使农产品英语标准化翻译成为空谈,极大地影响

一、语言是资源

认识语言的资源性质,十分不易,语言必然不如煤炭、石油、电力、水力那样直接作用于人类的物质生活。这也是符合人类的资源认识规律的。

(一)资源的认知路径:由自然资源到社会资源

资源是人类生产、生活所凭借的资料。某种资料能否成为社会认可的资源,取决于两个条件:

总结一下以上三节的结论:第2节中的定冠词标准意味着弗雷格的专名是单称词,至少倾向于指称殊相。第3节中的无自变量标准则必须要以关于对象的一种前语言理解为前提,即殊相是对象的模板。在第4节中,非谓词标准和等式标准被解读为专名屈折变化的非本真性。相对于概念词而言,专名独立于语言上的变化,其意义在于殊相相对于语言的独立性。所有这一切都表明,弗雷格在何为对象的问题上有一种唯名论的倾向,并且语言上的标准最终必须依赖于前语言的理解才能完全澄清。

第一,资源的“有用性”。

科学技术的发展可以将过去不能使用的资料用于生产和生活,将不能这样或那样使用的资料这样地或那样地用于生产和生活。比如,电和石油,古来存在,但是人类的科学技术发展到可以把电、石油作为能源的时代,电和石油才成为人类的资源。如此说来,资源与科技进步密切相关。我们既要全面认识、充分利用现代科技状态下的“可用资源”,也要对那些随着科技发展将来能用的“潜在资源”保持关注,特别是要对前沿科技所可能产生的资源效益密切关注,从而使资源建设具有预见性。

“哦,那我自己去吧!”大学三年,颜晓晨花了太多时间在打工上,每一块钱都要算计着花,但凡花钱的活动都尽量找借口不参加,可同学间只要出去玩,哪里能不花钱?刚开始,还有人时不时叫她,时间长了,同学们有了各自的朋友圈,即使有什么活动,也不会有人想着找她。颜晓晨变成了班级里的隐身人,大家对她印象模糊,她对大家也不熟悉,唯一熟悉点的就是同宿舍住了三年多的舍友,但也都保持着距离,逛街吃饭这种活动绝不会找她。

第二,资源“有用性”的被认识。

3)加强对于内部执法队伍建设,严格进行教育培训。为改变行加大执法人员执法水平与职业道德的培训力度,不断提高他们的整体素质。增强执法能力、丰富执法经验、学习其他成功执法经验、借鉴经典执法案例,同时增强执法人员的执法观念。

有些资料本来是生产生活所凭借的、不可或缺的,但是由于某种原因,人们没有认识到它的资源性质,或者忽视了它的资源性质。例如当雾霾不严重时,人们认识不到清新空气的资源性质;当污染不严重时,人们认识不到清洁水的资源性质。如此说来,资源有“被认识资源”和“未被认识资源”。我们要特别关注那些“未被认识资源”,包括已在我们的生产生活中使用的“可用资源”,也包括将来可能会进入我们生产生活的“潜在资源”。

魏晖(2015)认为语言资源包括四大类:(1)语言本体(知识)资源,由语音、词汇、语法和语义等构成;(2)语言应用资源,包括各种通用的、专用的、静态的、动态的、多语的、平行的语料库,还包括与语料的加工处理相关的知识库、数据库、规范标准(库)等;(3)语言学习资源;(4)人力资源,即掌握不同语种(包括外语)的人才。魏晖(2016)重申这一观点,并再次强调“人力资源是最核心的语言资源,也是最具能动性的语言资源”。

资源的“有用性”能否被认识,可从四方面来看:第一,社会有无科学的资源观,作为一门学科的资源科学是否发达;第二,对某种资源与人类关系的研究达到何种水平;第三,对科技的敏感性;第四,稀缺性。最易被社会感知到的资源是稀缺资源,有用而稀缺的资源,必然会具有昂贵的价格,因此,“稀缺性”也几乎成为资源的一种附加属性。

西方人对中国的想象由来已久。无论是作为有形器物的中国元素,还是无形思想和理想的中国元素,都反映了西方人对中国的理解,成为西方人东方想象和精神寄托的一部分。中国元素是中国这一地域特有的自然、社会和文化符号,承载着中国人特有的价值体系和地域特征,是中国文化中最为精细和打动人心的部分。成阳认为“‘中国元素’本质是特有地域的国家文化,是中华民族精神与文化的象征。‘中国元素’应定位在中国文化(传统与现代)环境外在有形和内在无形的物质载体上。(2010:64)”

资源有自然资源和社会资源两大类。在人类的资源意识中,首先被认识的是自然资源,然后是社会资源。《现代汉语词典》是反映“公民常识”的词典,从第1版到第6版,对“资源”词条的解释,一直强调是生产资料和生活资料的“天然来源”,所举的例子共涉及“地下资源”“水力资源”“人力资源”“旅游资源”等4种。2016年第7版对“资源”的解释有了较大发展:

(1) 确定动物园的运营是否符合法律规定,行业标准。根据城市动物园管理规定第三章第十五条:动物园管理机构应当加强动物园的科学化管理,建立健全必要的职能部门,配备相应的人员,建立和完善各项规章制度。科技人员应达到规定的比例。

【资源】名生产资料或生活资料的来源,包括自然资源和社会资源:地下~|水力~|旅游~|人力~|信息~。(第1732页)

第7版的释义,不再强调资源的“天然性”,明确把资源分为自然资源和社会资源,举例中增加了“信息资源”,这些都是信息时代新资源意识的反映。

《辞海》是一部带有百科性质的工具书,第1版到第4版都把“资源”解释为“资财的来源。一般指天然的财源”,显然其对“资源”的认识比同时的《现代汉语词典》还狭窄。到1999年第5版,《辞海》为“资源”增加了一个新义项:

很显然,在语言资源的认定和分类方面,学界意见至今并不一致,甚至还没有建立语言资源的认定标准,也没有找到一个较为合适的分类体系。本文认为,语言资源基本属性是其“有用性”,语言及其相关的事物有哪些作用,亦即哪些东西可以成为语言资源,还是一个需要探索的问题,特别是语言智能的发展一日千里,很多我们意识不到的东西都可能进入语言资源的行列。综合时贤的研究,就当前的认识水平看,语言资源可以包括3类② 李宇明(2009)曾经把语言资源分为3类:第一类是自然语言及其文字,包括汉语汉字及汉语方言,各少数民族语言文字及其方言,外国语言文字等;第二类是自然语言的衍生品,如辞书、各种检字法、利用语言文字进行的信息检索法、语言文字教科书、语言文字的各种规范标准、语料库、语言知识库、计算机字库、各种键盘输入法、处理语言文字(包括语言翻译)的各种软件技术等;第三类是语言能力,包括母语能力和外族语能力。语言能力优秀者便是各种语言人才。本文是对2009年划分的“三类”的优化,即把2009年的第一类语言资源分为两类,把其后两类整合为“语言衍生资源”,“语言能力”可在第三类中单列,或可与“语言人才”归为一个次类。 :(1)口头语言资源;(2)书面语言资源;(3)语言衍生资源,包括语言知识、语言技术、语言艺术、语言人才等。

这个认识应该说已比较到位,不仅不再强调资源的“天然性”,不仅把资源分为自然资源和社会资源,而且认为社会资源包括“劳动创造的物质财富”。当然,如果更进一步看,社会资源不仅包括“劳动创造的物质财富”,也许还应包括“劳动创造的精神财富”。

(二)语言资源意识的建立

回看《现代汉语词典》和《辞海》关于资源的定义,会发现它们在举例中都没有提及“语言资源”。这不大可能是因为举例的缘故而没有列出语言资源,而更可能是当时的社会和辞书编纂者还没有认识到语言的资源性质。

2.2 两组治疗前后尿失禁患者比例以及尿失禁患者24 h平均尿失禁次数的对比 两组治疗前尿失禁患者比例以及尿失禁患者24 h平均尿失禁次数均无差异(P>0.05),治疗后研究组尿失禁患者比例下降了55.81%,差值显著高于对照组,尿失禁患者比例明显低于对照组。研究组治疗后尿失禁患者24 h平均尿失禁次数明显下降(t=5.235,P<0.05),对照组治疗后尿失禁患者24 h平均尿失禁次数无统计学差异(t=0.947,P>0.05),研究组尿失禁患者治疗后24 h平均尿失禁次数低于对照组(t=6.927,P<0.05)。见表3。

人类对语言资源的认识也的确是比较晚近的事情。国外语言规划学界也有提及语言资源问题的,但其研究并不系统。费什曼(1973)开始提及“语言资源”:“语言跟农业、工业、劳力、水电等资源不同……显然只是从其具有价值的意义上讲,语言才是一种资源。……无论怎么说,语言都是一种特殊资源,很难用现有的成本-效益理论来管理。原因是我们很难对语言进行度量,也很难把它同其他资源分割开来。然而,我们仍有足够的理由探讨语言与其他资源以及资源规划之间的异同。”(见周庆生,2001:422~423)

王辉(2007)指出,Ruiz于1984年曾提出影响语言规划的3种取向:语言作为问题、语言作为权利、语言作为资源。语言资源取向可以缓解前两种取向带来的语言冲突,有助于重新树立人们对语言和语言群体的态度。语言是一种需要管理、发展和保护的资源,双语和多语能力是语言资源,少数族群的语言是一种专门的重要资源。Kaplan(1997)、Grin(2003)把语言看作重要的“人力资源”,看作重要的“人力资本”,语言规划应是国家规划的一个方面。

关于语言资源的学术研究,前面已有多处涉及。下面就几个问题做些专门讨论。

中国最早使用“语言资源”概念是在20世纪80年代。邱质朴(1981)从信息化、语言教学、语言规划等角度讨论语言资源的开发问题,尤为关注“语言工程”和汉语国际传播这两个领域的语言资源开发问题。《语文建设》1988年发表了楼必安可(Lo Bianco)的《澳大利亚的国家语言政策》。楼必安可是澳大利亚著名的语言规划学家,是澳大利亚《国家语言政策》(1987)的撰稿人。《语文建设》发表的楼必安可(1988:55~57)的这篇文章,是《国家语言政策》(1987)的摘要,虽然是摘要,但对于澳大利亚语言资源理念及相关措施的介绍已经较为详细,如:“但仍有许多人的母语却是英语以外的其他语言。这是很宝贵的语言资源,充分利用这些语言资源有很重要的意义。”“国家语言政策的主要目标就是使澳大利亚因能善加利用丰富的语言资源而获最大利益。”“总而言之,只有细致周密的计划才能收到利用澳大利亚语言资源的最大效果。”“语言资源的计划需要各级政府……的合作和协调。”

20世纪90年代,邱质朴、楼必安可的语言资源概念似乎并没有在语言学界产生反响,只有陶原珂(1996)提出要注意开发利用澳门社会的语言资源,邱质朴(2000)再次申明他1981年的观点,张政飚(2000)例举西部方言在语言研究中的价值。不过据王世凯(2009:25~28)研究,中国文学界倒是在讨论如何发掘、利用语言资源(旧白话、方言、民间语言等)搞好创作的问题,讨论西方语言资源与中国文学创作的关系。在中国,语言与文学虽然同在一个“语言文学”学科里,有“中国语言文学”和“外国语言文学”两个一级学科,但是语言与文学之间却很少发生学术互动,仿佛是“鸡犬之声相闻,老死不相往来”。在语言资源等问题上,直到今天,语言、文学两家也没有对话。

进入21世纪,语言资源的讨论逐渐增多,语言资源意识开始在中国建立。2004年前后,张普教授常与李宇明、王铁琨等教育部语言文字信息管理司的同人讨论语言资源问题。大家认识到:语言是资源;语言资源是信息社会最重要的资源,是与矿产资源、土地资源、海洋资源、水资源、森林资源一样的国家资源,国家应当对语言资源立法管理,进行监测、保护和开发利用。这些讨论的学术成果反映在张普的重要论文《论国家语言资源》(2007),其实践成果就是国家语委组建“国家语言资源监测与研究中心”。国家语言资源监测与研究中心2004年6月正式挂牌,并逐渐建立了平面媒体(北京语言大学)、有声媒体(中国传媒大学)、网络媒体(华中师范大学)、民族语言(中央民族大学)、教育教材(厦门大学)、海外华语(暨南大学)等6个分中心和中国语言资源开发应用中心(商务印书馆)。

2005年7月,教育部、国家语委在乌鲁木齐市召开“民族语言文字规范标准建设及信息化工作会议”,时任国家语委主任袁贵仁做了《树立科学发展观,开创民族语言文字规范标准建设及信息化工作的新局面》的书面讲话,提出要“保护文化多样性,开发民族语言资源”,认为“语言资源是重要的信息资源和文化资源”。国家语言资源监测与研究中心的建立,国家语委主任袁贵仁的这一讲话,标志着中国的语言资源意识逐渐明晰,语言资源理念在国家语言规划中得到确立。① 袁贵仁主任在讲话中提出“语言资源”的理念之后,国家语委有关部门也在不断申明、积极探索“语言资源观”。例如:2006年5月,语信司司长李宇明在教育部2006年第11次新闻发布会上介绍2005年中国语言生活状况时,强调了“语言资源”理念;副司长王铁琨在发言中对“语言资源”做了进一步阐发。2007年7月在荷兰莱顿大学召开的“欧洲和中国工业化:语言的接触和认同”大会上,李宇明做了题为《中国的语言规划》的学术报告,明确提出要“树立语言资源观念,珍爱语言资源”。2007年8月的“中国语言生活状况”新闻发布会,李宇明又阐述了语言资源观。具体情况可参见王世凯(2009:19~22)。

二、中国有关语言资源的实践活动

中国的语言资源理念及其学术发展,是由语言规划的实践带动的。了解21世纪中国有关语言资源的实践活动,可以从一个侧面更好地了解中国的语言规划,也可以更好地了解中国的语言资源研究。

(一)国家语言资源监测与研究中心

国家语言资源监测与研究中心的工作,是通过它的分中心完成的。各分中心依照共同的理念和技术规范,采录、经营着“平面媒体、有声媒体、网络媒体、民族语言、教育教材、海外华语”的语料库。采录、维护这些语料库就是对语言资源的保存。中心还通过语料库发现语言使用特点、新的语言现象和一些重要的“实态”统计数据,比如每年的汉字使用频率、词汇使用频率、新词语、流行语、网络语言状况等,许多数据常通过教育部新闻发布会和“汉语盘点”活动向社会发布,并成为每年的《中国语言生活状况报告》(绿皮书)的重要篇章。这些数据对于《通用规范汉字表》的研制、中小学语文课标和汉语国际教育有关标准的制定、语文教材的编写等,都发挥了一定作用。② 详情可见2005年以来的《中国语言生活状况报告》和王铁琨(2009)。

第二个层次是“语言活态保护”。即通过各种措施来延长语言的生命,维护语言的活力。由于语言活态保护必然会对语言使用者的生存、生活方式及生存、生活环境进行不同程度的干预,伦理学上的要求很高,工作的难度很大。国内外在语言活态保护方面都做了一些探索,积累了一些经验,比如北美地区对印第安语的活态保护,大洋洲对毛利语的活态保护,中国对裕固语、贵州苗语的活态保护等。但总体上看成效并不明显,前景并不清晰。

(二)中国语言资源有声数据库

2006年前后,不少学者认为,要保护国家语言资源,就需要了解语言资源的国情,语言普查是了解语言资源国情的最好举措。1956年,根据国务院指示进行了汉语和少数民族语言调查。1999年,教育部等11部委联合开展了中国语言文字使用情况调查。这两次调查对于了解语言国情起了较大作用,但都没有达到“语言普查”的水平,特别是没有采录语料,不能了解语言及方言的话语情况。这一时期,还有学者专门了解国际上某些国家语言普查的情况,着手设计我国语言普查的方案。① 参见李宇明(2008a)。

后与有关部门协商,被告知在全国进行语言普查的时机尚不成熟,于是国家语委另辟蹊径,组织课题组研究“中国语言资源有声数据库”的建设问题。名为“有声数据库”,就是要强调口语与音频,强调数据库技术;嵌入“语言资源”四字,是要彰显、传播语言资源理念;将语言普查的一些内容体现在调查项目中。

参加研究的专家主要有曹志耘、戴庆厦、郭龙生、何瑞、黄行、李如龙、刘丹青、潘悟云、乔全生、魏晖、谢俊英、徐大明、张振兴等先生。中国语言资源有声数据库建设领导小组办公室,根据这些研究成果编写了《中国语言资源有声数据库调查手册》的汉语方言部分,曹志耘执笔,顾黔、侯精一、刘俐李、孙茂松、汪平、杨尔弘、赵晓群先生等也参与了讨论。这些研究成果反映在手册中,也反映在李宇明的《论中国语言资源有声数据库的建设》(2010)论文中。

根据《中国语言资源有声数据库调查手册》规定的管理规范和技术要求,2008年国家语委正式启动中国语言资源有声数据库建设。先试点,后铺开,江苏承担了有声数据库建设的试点工作,历时年余。2009年江苏正式启动有声数据库建设,之后上海、北京、辽宁、广西、山东、河北、福建、湖北等地,也陆续开展调研、建库工作。中国语言资源有声数据库建设,在学界和社会上普及了语言资源理念,培养了一支骨干队伍,形成了一套管理规程和技术标准,积累了一批语言资源数据。

(三)中国语言资源保护工程② 感谢王莉宁教授提供了一些关于语保工程的数据。

在中国语言资源有声数据库建设的基础上,2015年,教育部、国家语委印发了《关于启动中国语言资源保护工程的通知》,开启了中国乃至世界最宏大的语言保护工程(以下简称语保工程)。到2018年底,语保工程在全国34个省域全面展开,参与高校和科研院所超过350所,参与专业人员达4500余名,进行了1495个调查点的调查,所获数据包括所有汉语方言和120多个语种。

语保工程在《中国语言资源有声数据库调查手册》汉语方言部分的基础上,制定了《中国语言资源调查手册·汉语方言》,同时又制定了《中国语言资源调查手册·民族语言》(按语族分册,共计8册)、《中国方言文化典藏调查手册》等,设计了“语保摄录机”“语保标注软件”等语言调查加工软件,陆续推出“中国语言文化典藏”(20册)、“中国濒危语言志”(30册,将于2019年底全部出版)等标志性成果。

2018年9月,中国政府与联合国教科文组织在长沙联合召开首届“世界语言资源保护大会”。会上,联合国教科文组织及各国政府、相关学术机构代表和与会专家学者讨论并通过了《保护和促进世界语言多样性 岳麓宣言(草案)》。会后,联合国教科文组织按照程序广泛征求意见并形成宣言最终文本,于2019年1月18日通过其官网正式公布。2019年2月21日,中国教育部、联合国教科文组织驻华代表处、中国联合国教科文组织全国委员会、中国国家语委在中国共同举行发布会,正式发布《岳麓宣言》。首届“世界语言资源保护大会”能够在长沙召开,是因为中国语保工作得到了国际社会的认可;《岳麓宣言》能够制定,是得到了中国语言资源有声数据库和中国语保工程的理念及经验的支撑。① 2014年6月,中国政府与联合国教科文组织在苏州共同举办“世界语言大会”,来自100多个国家和地区的官员、学者,就语言能力与社会可持续发展、语言能力与教育创新、语言能力与国际交流合作等议题进行讨论,达成了《苏州共识》。《苏州共识》融入了中国语言规划界数年来关于语言能力的研究成果和实践经验。如果说《苏州共识》是中国语言规划成果首次促成的国际共识的话,那么《岳麓宣言》就是中国语言规划成果第二次促成的国际共识。

(四)中文语言资源联盟② 感谢孙乐、杨尔弘、饶高琦三位提供相关信息。

在论证语言具有资源的性质之后,研究者的精力便集中在列举语言资源、为语言资源分类上。陈章太(2008)从广狭两个方面来看待语言资源:狭义的语言资源是指“语言信息处理用的各种语料库和语言数据库,以及各种语言词典等”;广义的语言资源是指“语言本体及其社会、文化等价值”。而他要讨论的是广义的语言资源,这可能说明两个问题:第一,“语言资源”这一概念在当时语言信息处理学界较多使用;第二,把语言资源推及语言本体,还具有较大新意。

中文语言资源联盟的建立,是借鉴美国“语言资源联盟”(Linguistic Data Consortium,缩写为LDC)③ LDC由Advanced Research Projects Agency和美国国家自然科学基金资助,由宾夕法尼亚大学主持,目的是建造、收集和分发语言资源,用于语言信息处理领域的研究、教学和开发。据徐波、孙茂松、靳光瑾(2003:218)介绍,在2003年之时,LDC就有100多个大学、公司政府部门加盟,拥有英文、德文、法文、西班牙文、中文、日文、阿拉伯文等多种语言的220种资源,并向700多个单位提供了资源。LDC在语言资源大规模建设和广泛分享等方面提供了全新的机制,促进了相关领域的研究和开发水平的提高。 的经验,目的是共建共享中文资源、促进语言信息处理的技术进步。提供资源者计有36家。中文语言资源联盟的成立与发展,是面向语言信息处理的语言资源汇聚实践,是语言资源共建共享模式在中国的实践,反映着语言信息化的科学需求。

(五)语言资源高精尖创新中心

2015年10月,“北京高等学校高精尖创新中心建设计划”正式启动。2016年5月,北京语言大学语言资源高精尖创新中心成立。这是中国第一家以世界语言资源的收集整理、开发利用为目的的研究机构,其主要学术目标是:让全世界的语言(7000余种)都在中国有一份保有本,帮助机器理解人类语言。

根据微网的控制方式,当微网和主网并联运转时,超导磁场储能技术通过PQ控制方法,将有功与无功功率设定为零;若微网处在孤岛运转状态时,超导磁场储能技术可转变现有控制策略,转换为恒压恒频控制方法,进而保障微网孤岛运转过程中的电位与频率的稳定性,从而保障超导磁场储能技术下的实时调控和微网孤岛运转下的供电质量。超导磁场储能技术下的电磁储能架构如图3所示。

语言资源高精尖创新中心重点收集A、B两类语言资源:A类是面向语言库藏和展示的语言资源,主要是自然语言资源;B类是面向语言智能的语言资源,包括各种生语料、经过加工标注的熟语料、语言知识、社会常识等。就A类语言资源来说,目前语言资源高精尖创新中心正在实施“第三圈”战略,即在中国语言资源有声数据库和语保工程的基础上,在中国基本完成了方言圈(第一圈)、民族语言圈(第二圈)语料采集的情况下,集中精力采集中国跨境语言和边境语言(第三圈)语料。并期望在不久的将来,完成“一带一路”60余国的200余种主要语言的采集。

除了以上介绍的5项重大语言资源实践活动之外,中国还有许多语言资源库的建设项目。例如20世纪末侯精一先生主持的《现代汉语方言音库》,收录了40种现代汉语方言音档,④ 这40种方言都是具有代表性的:北京、天津、济南、青岛、南京、合肥、郑州、武汉、成都、贵阳、昆明、哈尔滨、西安、银川、兰州、西宁、乌鲁木齐、太原、平遥、呼和浩特、上海、苏州、杭州、温州、歙县、屯溪、长沙、湘潭、南昌、厦门、福州、建瓯、汕头、海口、台北、广州、南宁、香港、梅县、桃园。每种音档含100多页小32开的文字本及约60分钟的配套胶带录音。 由上海教育出版社于1995~1999年出版。钱乃荣(1995)评价说:“现代汉语方言音库的建立结束了我国汉语方言的出版物仅停留于书面描写各地方言现象的历史。”再如内蒙古也建有蒙古语和鄂温克语、鄂伦春语、达斡尔语的语言资源库。例子难以一一枚举,可以说时至今日,中国已经成为世界上推进语言资源建设的最重要的国度。

候选方案有特强钢芯铝合金绞线等6种,其中钢芯高强度耐热铝合金绞线采用2分裂,其余采用4分裂,具体方案和导线参数如表1、表2所示。

三、中国有关语言资源的学术研究

在国家语言规划实践上,澳大利亚在20世纪70年代至80年代末,提倡文化多元政策,在《Grassby 报告》(Grassby Report,1973)、《Galbally 报告》(Galbally Report,1978)、《迈向国家语言政策报告》(Towards a National Language Policy,1982)、《一项国家语言政策》(A National Language Policy,1984)等“四报告”基础上,1987年出台了《国家语言政策》(National Policy on Languages )。《国家语言政策》提出了指导澳大利亚语言政策的4条战略:第一,保护澳大利亚的语言资源;第二,开发、扩展这些语言资源;第三,将澳大利亚语言教学与语言使用的举措同国家经济、社会与文化政策结合起来;第四,用客户能理解的语言提供信息和服务。这是将语言资源理念变为国家语言政策的不多案例。不过令人遗憾的是,进入20世纪90年代,随着《绿皮书》(1990)① 《澳大利亚的语言:20世纪90年代澳大利亚读写能力与语言政策讨论》(The Language of Australia: Discussion Paper on an Australian Literacy and Language Policy for the 1990s )。、《白皮书》(1991)② 《澳大利亚的语言:澳大利亚语言与读写能力政策》(Australia’s Language: The Australian Language and Literacy Policy )。的出台,澳大利亚的语言政策衍变为英语读写能力优先,这相对削弱了语言资源在语言政策中的比重。③ 关于澳大利亚的语言政策,详见王辉(2010)。

(一)语言规划实践与语言资源研究

知网是一个很好的科技文献数据库,利用知网做文献分析是当前可选的一条路径,尽管知网的文献检索也可能有缺陷,比如有些文献未必被收录,有些文献因关键词标注也未必适合检索。在知网中用“语言资源”作为主题和关键词精确匹配检索,截至2019年3月31日,检索到文献403篇① 本检索是梁京涛在知网上操作的,梁京涛还帮助做了数据分析,并为本文提供了一些文献支持。主题与关键词双匹配检索,比只用关键词检索要严格一些,所得文章数量与同类报告的数据比,可能偏精偏少。本查询一开始检索到文献405篇,但在点击生成检索报告时,总文献数减为403篇,原因不详。也许是排除了某两篇文章重复计数的情况。 ,涉及作者370余人。从图1看,1981年最早有文献出现,到2003年论文年发表量还在5篇以下,22年来总共发表论文只有17篇,这是学人较少涉足之地。2004年出现一个研究的小高峰,年发表论文达到7篇。2007年研究热度明显升高,年发表论文达到16篇;这一趋势持续到2011年,年发表论文达到26篇;2007~2011年形成第二个高峰区;2015~2017年出现第三个高峰区,峰巅在2016年,年发表论文达到55篇。

图1 语言资源研究文献走势图

这种情况表明:第一,20世纪,“语言资源”领域几乎还是一片处女地,它是21世纪才开始开发的学术领域。第二,语言资源研究与语言规划实践密切相关。2004年的小高峰,对应于国家语言资源监测与研究中心成立;2007年到2011年,正是“中国语言资源有声数据库”从酝酿到正式建设的时期;2015年到2017年,是语保工程开始建设的时期,也是语言资源高精尖创新中心的创立时期。研究高峰与实践活动的关节点大致对应,是因为实践活动开始前总要做些研究,开始后又能带动研究。在中国,的确是语言规划的实践在推动语言资源的研究,为研究提供需求、材料和用场;语言资源研究也为实践提供了学术支撑;学术与实践相互推动,是因为在政界、社会、学界之间建造有一个现代化的“智力旋转门”。可以预测,2019年也会是语言资源研究的大年,因为2018年在长沙召开了首届“世界语言资源保护大会”,2019年春季正式发布了《岳麓宣言》。

(二)语言的资源性质与语言资源类型

我国早期的语言资源研究,主要是论证语言具有资源的性质,确立语言资源的合理性。张普(2007)《论国家语言资源》用较大的篇幅论证语言是资源。先从资源说到资源科学,再谈自然资源和社会资源,绕这么大的弯子就是为了说明语言也是资源,是社会资源。可见当时要说“语言是资源”这么个道理还是多么困难。陈章太(2008)《论语言资源》也用了不少笔墨,来说明“语言是一种特殊的社会资源”。

大规模的语言资源是计算机进行语言信息处理的基础。根据徐波、孙茂松、靳光瑾(2003:218~224)的介绍,2003年,在“973计划”的特别专项“中文语料库建设”支持下,中国科学院自动化所、清华大学、北京大学、中国科学院计算所、山西大学、上海交通大学、教育部语言文字应用研究所等单位,共同承担了“中文语言资源联盟”(Chinese Linguistic Data Consortium,缩写为CLDC)的首批资源建设。之后,中国中文信息学会专门成立“语言资源建设和管理工作委员会”,负责CLDC的资源建设及数据库的运行。

张普(2007)把语言资源分为三类① 张普(2007)说是“语言资源可以分成如下四类”,而下文只有三类。“四类”可能是笔误。 :语言资源类、言语资源类、语言学习资源类。把语言学习资源划出一类,是考虑到了语言资源的用途。从学界开始关注语言资源,如邱质朴(1981),就比较关注语言资源在教学中的应用。张普先生又是数字化教学的研究者、提倡者,语言学习资源更易进入他的研究视野。但是他把语言资源分为“语言资源类、言语资源类”表面上符合“语言、言语”的“抽象-具体”这一学界思维习惯,特别是慧眼独到地强调了语言运用所产生的语言资源,但实际上就语言数据库建设来说,不可能拿“语言”来建库,文字的或音频的材料都只能是具体的“言语”。

王世凯(2009)是中国第一部论述语言资源的专著,在提出建立“语言资源学”的同时,在着力探讨语言资源的多种性质的同时,还把语言资源看作由底层资源(语音资源、词汇资源、语法资源、语义资源、文字资源)和高层资源(修辞、语体、风格)构成的体系。这基本上是根据语言的结构要素来划分语言资源,同时考虑到文字和修辞、语体、风格等。

表层1~2m为混凝土;深度15~16m以上为角砾熔岩,深度16~30m(高程约306m)为含斑玄武岩,岩体弱风化~微新。

一国或一定地区内拥有的物力、财力、人力等物质要素的总称。分为自然资源和社会资源两大类。前者如阳光、空气、水、土地、森林、草原、动物、矿藏等;后者包括人力资源、信息资源以及劳动创造的物质财富。(第3881页)

自然语言的存在形态主要是口语和书面语,它们是最为基本的语言资源。就资源的收集、整理、建库、保护而言,不存在语言和言语的对立,接触到的都是言语类的语言资源。“言语”是现实存在,“语言”存在于语言学中,存在于语言学家的大脑里和学术抽绎的操作中。就此而言,没有必要区分“语言资源”和“言语资源”,或者说,只有“言语资源”没有“语言资源”。

“口头语言资源”和“书面语言资源”是对自然语言资源的再分类。在许多文献中语言资源也就只指这两类资源。其实“语言衍生资源”也非常重要:其一,语言知识、语言技术、语言人才等,在语言资源的收集整理、标注入库、分析研究、开发应用等各个关节都在发挥作用;其二,语言艺术(包括书法、文学,还有主要凭借语言的艺术,如话剧、相声、小品、笑话等)本身就是很有价值的语言资源。故而,语言资源应当包括语言衍生资源。

(三)语言资源的功能视角

语言资源的社会意义在于功能。看待语言资源必须建立“功能视角”,应从功能的角度去认识语言资源,去评价语言资源的建设工作,去开发利用语言资源。语言资源的功能是随着社会的进步而逐渐被开发、被认识的。在我们的文化传统中,文字和书面语比口语更受重视。但在近来以语言保护为首要任务的语言资源研究与实践中,口语的语言资源意义得到了较多关注,而书面语的语言资源意义则反而关注较少,研究较少,至于语言知识、语言技术、语言艺术、语言人才等衍生性的语言资源,虽不同程度地被涉及,但尚缺乏认真梳理。

就当前语言资源利用的实践来看,语言资源的功能域主要有3个方面:语言保护、语言信息处理、语言学习。

还有的是“微满足”。有人说,他们单位的微信群,已经变成了“拍马群”“献媚群”“讨好群”。只要单位领导一露面,群里立即就会响起一片叫好声。这个说“领导高明”,那个说“领导辛苦”。争相“献花”“敬茶”“竖大拇指”,唯恐领导看不到自己。

1.语言保护

语言保护是当今全球的热点话题,据专家预测,本世纪末90%的语言将濒危甚至消亡。若从交际的角度看,这些语言的濒危或消亡也许并不是严重问题;但是若从文化的角度看,语言的濒危或消亡却是文化的灾难,因为每种语言都记载着某民族(部族)的历史、经验及世界观,而这些精神财富绝大多数还没有被现代人类社会所了解,没有成为现代人类知识的一部分。语言保护就是与时间赛跑,抢救失而不可复得的人类精神资财。中国的百余种语言以及大量的汉语方言,也有许多处在濒危状态或是出现濒危态势,语言保护的任务也是急迫而沉重的。

语言保护有3个层次:第一个层次是“语言保存”。即通过书面记录方式和录音录像方式,将语言(包括方言)记录下来,并建立起数据库、博物馆,把这些“语言标本”保存下来。当前学者进行的多是语言保存层面的工作。语言保存所涉及的语言资源,主要是口语资源,特别是濒危语言的口语资源。其实古代书面文献、民间语言艺术等,也具有重要的语言保存价值。进一步研究会发现,作为“语言样本”的语言资源可以再分为两种,一种是“展示本”,一种是“全息本”。展示本主要用于语言展示、语言教学、基本研究等,要求语言资源能够反映出某语言的基本特征,比如基本的结构特征、交际运用特征和文化特征。全息本要求尽可能多地保存某语言的语言信息和文化信息,一旦有需要,可以在虚拟技术的帮助下利用这些信息“复活”该语言。这是语言保护最为浪漫的理想。

2007年9月,语信司与北京语言大学共同主办了“国家语言资源与应用语言学”的高峰论坛,这也是国家语言资源监测与研究中心的几个分中心共同邀请国内外学者参加的学术会议。这是国内首次召开的语言资源的大型学术会议,讨论议题除“国家语言资源建设、监测与研究”之外,还有国家语言资源与语言服务、语言规划、语言文字规范、语言文字社会应用、母语教学、国际汉语传播、民族地区汉语教学、语言信息处理的关系,研究范围比较广泛。会议收到论文50篇,择28篇结集为《中国语言资源论丛》,由商务印书馆出版。这也是中国第一部讨论语言资源问题的论文集,至今仍发挥着学术影响。

第三个层次是“语言资源的开发利用”。即对语言保存、语言活态保护的成果进一步开发,获取语言保护的社会“红利”。“红利”意识十分重要,它可激发语言保护的动力,及时发挥语言保护的效力,不断增加语言保护的实力,保证语言保护事业可持续发展。需要注意的是,语言保护“红利”的获取者,首先应考虑语言资源的提供者,包括发音合作人及其所属社团。

2.语言信息处理

语言信息处理是当前语言资源的最大用户,也是当下语言资源理念的积极提倡者和语言资源的积极建设者。在中国,中文语言资源联盟的建立便是上述认识的最佳“背书”。语言信息处理绝不只是科学技术之事,而是推进社会进步的重要力量;正是它的发展进步,使当今社会正在向“智能时代”迈进。人工智能是智能时代最主要的技术力量,其核心是语言智能。机器获取语言智能主要靠语言大数据的训练。语言大数据也就是语言资源,从语言智能的视角看,语言资源是生产资料的范畴,对人类的意义就更加不一般了。

语言保护所涉及的语言资源,主要保存的是以往的人类世界,是人类的历史,是人类已有的经验及世界观;而语言信息处理所涉及的语言资源,是用于创造新的知识、发现新的世界的。语言保护是面向过去的,语言信息处理是面向未来的,虽然认识既有世界对发现新世界会有帮助。

用于语言信息处理的语言资源,还可以进一步划分为两种:一种是帮助解决“语言通”的,一种是帮助解决“信息通”的。语言通是让机器能够理解和使用语言,包括机器翻译、机器写作等。信息通是让机器对各领域信息能够加工处理,包括“社会计算”、科技文献的二次加工等。当然,语言通也需要机器有一定的专业知识和社会常识,亦即需要信息通的支持,信息通更需要在语言通的基础上来进行。用于语言通的语言资源和用于信息通的语言资源是有不同要求的,因此可以把用于语言信息处理的语言资源再行划分。

由图1所示,黄油和猪油的酸价随着温度和循环加热次数的增加均呈现上升的趋势,在240℃时酸价均达到最大,分别为1.62 mg/g、1.05 mg/g,当温度达到210℃以上时,随着加热次数的增多,猪油的酸价增加显著(P<0.05),而黄油的酸价逐渐趋于稳定(1.62 mg/g),这表明黄油相比于猪油,随着温度和加热次数的增加,游离脂肪酸含量不会大幅增加,表现出良好稳定特性。

3.语言学习

语言学习是人类最为重要的语言生活之一。随着社会的发展,语言学习的任务越来越重,不仅要学习母语(特别是书面语),还要学习外语,甚至是多门外语。即使语言智能发展到相当的高度,机器翻译可以满足基本的翻译需求,外语学习仍然是需要的,因为它是人类全面发展的素养。

语言学习必须依靠语言资源才能进行,语言学习资源是语言资源研究者较早进入的学术领域。传统的语言学习资源有教科书、工具书、课外读物、语言教师、必要的语言环境等。而今进入到信息化的时代,智能学习、智慧学习、慕课、微课等新概念炫人耳目,构建适合于“互联网+”的语言学习资源,成为教育改革的时代命题。语言知识、语言技术、语言人才、语言课程、语言学习环境等,是新时代语言学习资源中的重要组块。这方面的实践已经很多,但是真正的研究和应用还是比较有限的。

(四)语言知识观

语言资源的功能还有很多,但是有此三者,已经足以说明语言资源的重大价值,足以说明语言资源建设的意义及其急迫性,足以说明语言资源研究及建立语言资源学的意义。

自从索绪尔建立了现代语言学之后,“语言是一个符号系统”便成为公理性的学术常识。但是,从语言资源的视角、特别是语言资源功能的视角看“语言”,语言就不只是一个“符号系统”,而更是一个“知识系统”。比如语言保护,不应只是记录、保护语言符号,而是记录、保护人类的语言知识体系及文化体系。语言学家传统的语言调查,目的主要是揭示语言的符号系统,而在揭示语言的知识系统、文化体系方面明显不足。从“语言知识观”的立场出发,词汇、语法、语用、篇章最为重要,人类的知识和思维运作主要贮存在、表现在词汇、语法、语用和篇章之中。由此来看,语言保护工作必须在语言调查方法、语言调查内容等方面进行大幅度改进。

如果从语言信息处理的角度看语言,计算机理解人类语言,只理解语言的符号系统是完全不够的;计算机从语言大数据中学到的也不仅仅是语言的符号体系,而是语言的知识体系甚至也包括文化体系。这也许就是计算机只学习语言学家给它的“规则”并不能够实现语言通的原因。语言信息处理也可以通俗地表述为“机器语言学习”,人类语言学习也是如此,现在人们强调外语学习要从“学外语”变成“用外语学”,也包含着这个道理。

四、结 语

语言的社会资源性质,是人类从20世纪70年代才开始逐渐认识到的,澳大利亚在80年代率先把语言资源意识落实到国家语言规划中。中国的语言信息处理学界2003年开始筹建“中文语言资源联盟”,是语言资源建设最早的行动者。2004年国家语委成立“国家语言资源监测与研究中心”,语言资源理念开始进入国家的语言规划。之后,随着“中国语言资源有声数据库”和“中国语言资源保护工程”的相继开展,中国成为世界上在国家层面大力提倡语言资源理念、开展语言保护的最为突出的国家。2018年,中国与联合国教科文组织在长沙共同召开首届“世界语言资源保护大会”,并形成《岳麓宣言(草案)》,中国的语言规划又一次为国际社会提供了公共产品。

中国语言资源研究是在语言规划的实践推动下展开的,并与语言规划的实践形成了良性互动。1981年到2003年可以看作语言资源的学术酝酿期,2004年、2007~2011年、2015~2017年出现3次学术高峰或高峰区,语言资源已经发展为重要的具有魅力的学术领域,语言资源学的学科建设提上日程。

早期的研究主要确定语言的资源属性,之后较多地研究语言资源的类型。语言资源有哪些类型,学界认识还很不一致,本文尝试把语言资源分为口头语言资源、书面语言资源和语言衍生资源(语言知识、语言技术、语言艺术、语言人才等)三类,并认为要较好地解决语言资源分类问题,必须建立语言资源的功能观。当前语言资源最为重要的功能域是语言保护、语言信息处理和语言学习,应当根据这些功能来考虑语言资源的分类、建设规格和评价标准。

为加大产业扶贫力度,《指导意见》提出,多渠道拓宽农产品营销渠道,推动批发市场、电商企业、大型超市等市场主体与贫困村建立长期稳定的产销关系,支持供销、邮政及各类企业把服务网点延伸到贫困村,推广以购代捐的扶贫模式。加快推进“快递下乡”工程,完善贫困地区农村物流配送体系。

从语言资源的角度,特别是语言资源功能的角度来看语言,语言就不仅仅是一个符号系统,它更是一个“知识库”,里面贮存着人类的语言知识体系及文化体系。只有树立了“语言知识观”,语言资源建设才能满足语言保护和机器语言学习、人类语言学习的需要。

最后需要指出的是,语言资源的保护与集聚需要人类社会的合作,包括不同地区、不同国家、不同国际组织的合作,不同社会部门和不同学科的合作。为了保证这种合作的顺利开展,需要制定一系列国际标准,包括技术标准、工作标准和社会伦理标准。语言资源关涉到人类的知识库存、精神家园和生产资料的集聚管理,必须加强学术研究,加大加快社会行动。

参考文献

陈章太 2008 《论语言资源》,《语言文字应用》第1期。

范俊军 2006 《联合国教科文组织关于保护语言与文化多样性文件汇编》,北京:民族出版社。

范俊军,肖自辉 2008 《语言资源论纲》,《南京社会科学》第4期。

费什曼 1973 《语言现代化和规划与国家现代化和规划的比较》(高建平译),载周庆生主编(2001)。

国家民委民族问题研究中心 2007 《欧安组织民族问题资料汇编》(内部资料),北京:民族出版社。

黄 行 2018 《中国语言资源多样性及其创新与保护规划》,载闫国华主编《语言科技与人类福祉——首届中国北京国际语言文化博览会论文集》,北京:外语教学与研究出版社。

李如龙 2008 《汉语方言资源及其开发利用》,《郑州大学学报》(哲学社会科学版)第1期。

李宇明 2006 《关注语言生活》(语言生活热点问题开栏寄语),《长江学术》第1期。

李宇明 2008a 《语言资源观及中国语言普查》,《郑州大学学报》(哲学社会科学版)第1期。

李宇明 2008b 《当今人类三大语言话题》,《云南师范大学学报》(哲学社会科学版)第4期。

李宇明 2009 《公民语言能力是国家语言资源——序〈母语·文章·教育〉》,《中国大学教学》第2期。

李宇明 2010 《论中国语言资源有声数据库的建设》,《中国语文》第4期。

楼必安可(Lo Bianco) 1988 《澳大利亚的国家语言政策》,《语文建设》第5期。

钱乃荣 1995 《汉语方言研究中的新收获——祝贺现代汉语方言音库发行兼评〈上海话音档〉》,《语文研究》第4期。

邱质朴 1981 《试论语言资源的开发——兼论汉语面向世界问题》,《语言教学与研究》第3期。

邱质朴 2000 《应用语言学的新概念》,《镇江师专学报》(社会科学版)第3期。

陶原珂 1996 《应注意开发利用澳门社会的语言资源》,《学术研究》第4期。

王 辉 2007 《语言规划的资源观》,《北华大学学报》(社会科学版)第4期。

王 辉 2010 《澳大利亚语言政策研究》,北京:中国社会科学出版社。

王世凯 2009 《语言资源与语言研究》,上海:学林出版社。

魏 晖 2015 《国家语言能力有关问题探讨》,《语言文字应用》第4期。

魏 晖 2016 《文化强国视角的国家语言战略探讨》,《文化软实力研究》第3期。

徐 波,孙茂松,靳光瑾 2003 《中文信息处理若干重要问题》,北京:科学出版社。

徐大明 2008 《语言资源管理规划及语言资源议题》,《郑州大学学报》(哲学社会科学版)第1期。

袁贵仁 2005 《树立科学发展观,开创民族语言文字规范标准建设及信息化工作的新局面》,《教育部通报》第17期,教育部办公厅2005年9月2日印发。

张 普 2007 《论国家语言资源》,《民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集》。另载张普(2012)。

张 普 2012 《张普应用语言学论文集》,北京:北京语言大学出版社。

张 普,王铁琨 2009 《中国语言资源论丛》,北京:商务印书馆。

张政飚 2000 《西部语言资源重要性例议》,《中国语文》第1期。

赵 军,徐 波,孙茂松,等 2003 《中文语言资源联盟的建设和发展》,载徐波,孙茂松,靳光瑾主编《中文信息处理若干重要问题》,北京:科学出版社。

中国语言资源有声数据库建设领导小组办公室 2010 《中国语言资源有声数据库调查手册·汉语方言》,北京:商务印书馆。

周庆生 2001 《国外语言政策与语言规划进程》,北京:语文出版社。

周庆生 2015 《语言生活与语言政策》,北京:社会科学文献出版社。

Grin, F. 2003. Language planning and economics. Current Issues in Language Planning 4(1), 1–66.

Kaplan, R. B. & R. B. Baldauf. 1997. Language Planning from Practice to Theory. Clevedon: Multilingual Matters Ltd.

Theories and Practices of China’s Language Resources

Li Yuming

Abstract Forty years have passed since the concept of language resources was advanced. In the 1980s, Australia formulated the National Language Policy based on this concept. Since the beginning of the 21st century, China has started to put this concept into practice. National Language Resources Monitoring and Research Center was established, and projects such as the Chinese Language Audio Database Resources and the National Project of Chinese Language Resource Preservation carried out.In cooperation with the UNESCO, China successfully held International Conference on Role of Linguistic Diversity in Build-ing a Global Community with Shared Future and Yuelu Proclamation was adopted. China is outstanding for advocating the concept of language resources and implementing language protection. Research on China’s language resources is carried out on the bases of the practices of language planning. The focus of research has moved from the nature of language as resources and their classi fication to the understanding of the functions of language resources. This article offers a detailed historical survey of the theories and practices of China’s language resources. It classi fies language resources into three kinds: oral, written, and derivative resources, and analyzes three functional domains of language resources: language reservation, language information processing and language learning. In addition, this paper proposes the view of language knowledge and regards language as not only a semiotic system, but also a bank for storing human language knowledge system and cultural system.

Key words language planning; language resources; types; functions; the view of language knowledge

中图分类号 H002

文献标识码 A

文章编号 2096-1014(2019)03-0016-13

DOI 10.19689/j.cnki.cn10-1361/h.20190301

作者简介: 李宇明,男,北京语言大学教授、博士生导师,主要研究方向为语法学、儿童语言学、语言学理论、语言规划等。电子邮箱:liyum@263.net。

* 本文曾以《中国语言资源保护的理论与实践》为题在首届“世界语言资源保护大会”(2018年9月19~20日,长沙)上宣读。有关内容曾以《中国的语言资源理念》为题在《中国政协报》(2019年1月14日第10版)上发表。此前,曾以《语言资源的时代需求》《智能时代的语言资源问题》《语言资源数据化及世界知识中文化》为题,分别在香港大学教育学院(2017年12月27日)、第11届语言资源与评测国际大会(LREC 2018)的“一带一路”语言资源与评测研讨会(B&R LRE)工作坊(2018年5月7日,日本宫崎)、外语教学与研究出版社“汉外多语言词典数据库”项目启动仪式及专家审订会(2018年1月13日)、“第二届语言信息化与智能化国际学术研讨会暨上海第十一届青年语言学者论坛”(2018年7月8日,复旦大学)、“‘一带一路’民族文化大数据中心专家委员会成立大会”(2018年3月30日,中央民族大学)、北京语言大学“研究生语言学前沿讲座”(2018年6月14日)做过演讲。感谢郭熙、李志江、王莉宁、杨尔弘、孙乐、饶高琦、梁京涛为本文提供相关数据。

责任编辑:魏晓明

标签:;  ;  ;  ;  ;  ;  

中国语言资源的理念与实践论文
下载Doc文档

猜你喜欢