网络时代语言策划的思考_文本分类论文

关于网络时代语言规划的思考,本文主要内容关键词为:网络时代论文,语言论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

随着网络和信息时代一声紧似一声的脚步,作为时代骄子行业的信息产业把一个又一个的公司迅速推向商业和技术的峰颠。许多面向网络的涉及语言文字的应用软件——诸如网络出版、网络查询、网络交际、网络学习、网络文本分类、网络文本翻译等等——已经研发并正谋求推广。如果我们把上述涉及自然语言信息处理的应用软件视为网络时代的战役问题或战术行为的话,那么面向信息产业的语言规划研究就是这个时代的战略问题或战略行为。

目前,我们还没有来得及进行网络时代的语言规划研究,甚至还没有真正意识到什么是网络时代的语言规划,令人应接不暇的网络版语言信息处理软件就已经纷纷“新鲜出炉”、“崭新亮相”、“闪亮登场”(注:这3个词组在近来的商品广告中出现越来越频繁, 它们的搭配规范不规范,就是本文要思考的现象之一。)了。与此同时,一批在语言信息处理技术方面高人一筹的企业集团也已经崛起。作为“集团军”,在解决战术战役问题的同时,当然会密切关注战略问题,何况网络本来就是让你运筹帷幄之中、决胜千里之外的一个精灵。

笔者不是商家,也不是技术专家,只是一个网络的用户,并且积年从事汉语信息处理研究,语言既是我的交际工具,也是我的专业,现在又成了计算机进行信息处理的重要对象。语言正随着网络的扩展在一个新的时空中延伸,人类的出版行为、发行行为、阅读行为、交际行为、语言能力等都在潜移默化,无论我们是否觉察、是否愿意,我们都正在走向一个新的生存环境。网络对于语言、语言对于网络可能意味着什么?无论语言是否是“有机体”(注:19世纪欧美语言学家受欧洲有机体学说的影响,对于语言是否是“有机体”曾经有过一番争论。参见惠特尼《语言的生命和生长》William cd.Whitney,The Life and Growthof Language,New York,1979重印本(转引自陈原《语言学论著》卷一,辽宁教育出版社,1998年2月)。), 一旦与网络“精灵”结合将会发生什么变化?语言作为网络交际工具会不会失控或者局部失控、暂时失控?语言在没有与网络结合前是否受控?怎样受控?语言与网络结合后能否受控?如何受控?要不要为语言文字立法或为信息立法?如果立法,包不包括网络语言信息处理中的语言文字规范或标准?什么是面向网络的语言文字规范或标准?怎样制订并如何推行这样的规范或标准?这一系列的问题都应该是网络语言规划要研究、要回答的。

网络语言规划的研究将涉及理论语言学、社会语言学、心理语言学、认知语言学等,当然还要涉及计算机技术、网络技术、通讯技术、多媒体技术等,甚至还应该涉及系统论、控制论。限于笔者功力,本文着重从人文科学的角度并且主要是从理论语言学和社会语言学的角度进行思考,提出拙见,以供技术专家和商家扬弃。

关于语言规划

语言规划(Language Planning)属于社会语言学的一个分支。 在西方,它主要是指“通过研究几对语言(方言)之间的关系,或创立新语言系统,来改进方言间或国际间交际的综合努力的统称。虽然试图设计人工辅助语言的努力还没有取得任何明显的成果,但是数种语言的比较在翻译等许多方面都证明是卓有成效的。这方面的工作还包括专门术语的研究与规范化,

设计混合语言和文字系统等。

”(注:参见《语言与语言学词典》,R·R·K·哈特曼、F·C·斯托克著, 黄长著等译,上海辞书出版社,1981年。)Prescriptive Linguistics有两种解释,一种是“规定语言学”,或者译作“规范语言学”,指的是“一种对待语言研究的态度,它试图建立正确用法的规则,古希腊和古印度的语法学家曾试图以最著名的文学著作作为范本来确定这种规范。这是一个直到今天许多经典语法著作一再重复的传统。”另外一种解释是“语言规划学”,因为在语言规划学(Institutionnal linguistics)中,“规定”这一术语的所指就是语言规划,并且说明“这种语言规划的宗旨是:在语言和文化都很多样化的国家里创建民族标准语( Standard Language)”。

在我国,语言规范化问题的研究是语言规划的重要组成部分。进入新时期以来,多种社会语言学的专著和译著陆续问世,连续召开了三届社会语言学的学术研讨会,国家语委创办了专门的学术刊物《语文建设》,语言文字应用研究所创办了《语言文字应用》,刊物的宗旨之一就是语言规划。戴昭铭先生的《规范化——对语言变化的评价和抉择》(1986)一文和《规范语言学探索》(1998)一书为我国规范语言学的确立和定位奠定了理论基础; 陈原先生的《社会语言学方法论四讲》(1987)对于语言的变异、规范、社会、交际、量化及其之间的关系做了全面的论述,不仅涉及到规范化的理论,更涉及到方法论。吕冀平先生在《给〈语言文字应用〉编辑部的信》中说:“语言规范从宏观的角度看是语言规划(Language Planning)的重要组成部分, 而语言规划是一种既针对现在也针对未来的具有前瞻性质的工作。”(注:参见戴昭铭《规范语言学探索》P149页。)这就对语言规划进行了明确的界定,本文赞同吕先生的见解。正是出于这种认识,我们认为语言规划研究是一种战略研究。“网络语言规划”则更是一个既有现实意义又极具前瞻性质的战略命题。

关于语言规范化的的讨论

80~90年代,在中国,对于“语言规划的重要组成部分”(吕冀平先生语)——语言规范化,语言学界进行了一场深入的讨论甚至争论。无论学术界目前是否在讨论和争论的一切方面都有了共识,我都认为这场讨论已经在理论上和方法论上取得了众多极其重要的成果,涉及了一系列面向新时期的有关语言文字规范的重大问题,对于我们的现实生活和未来世界的影响都将是深远的,其历史意义将随着时间的推移愈加凸现,这或许就是作为战略研究的语言规划的能量和力度所在。

不仅是研究语言规范化的学者,也不仅是社会语言学和应用语言学的专家要继续关注这场还没有完结的讨论,我觉得其中许多带有根本性的问题应引起整个语言学界和语言信息处理界的高度重视。国家语委、国家新闻出版署、国家技术监督局、国家版权局、教育部、信息产业部等若干国家行政部门与语言文字的社会应用密切相关,从立法、执法和行政的角度看,作为具有战略意义的语言规划研究,也应该得到这些部门更强有力的支持。

那场讨论中的一些观点与本文的命题十分密切,并使笔者的主张得到支持,兹征引如下,以简化本文的叙述——

·语言不是静止的,语言在社会运用中不断地产生变化

“变异是普遍存在的一种社会语言现象。”“在某种意义上说,社会语言学的中心问题就是变异。(注:参见陈原《社会语言学方法论四讲·第一讲 变异》。)”(陈原)

“世界上绝没有恒定不变的事物和绝对相同的现象,语言文字也不例外。(注:参见戴昭铭《规范语言学探索》P155。)”(戴昭铭)

我们认为:“语言不是静止的,语言在运用中不断产生变化。(注:参见张普《关于大规模真实文本语料库的几点理论思考》,载《语言文字应用》1999年第1期。)”(张普)

·变化与规范的关系是辩证的

“变异同规范是矛盾的统一。没有变异就没有规范,没有规范也就看不出变异。(注:参见陈原《社会语言学方法论四讲·第一讲 变异》。)”(陈原)

“规范是在发展中的规范,发展是在规范下的发展。(注:参见吕冀平、戴昭铭《当前汉语规范工作中的几个问题》载《中国语文》1985年第2期。)”(吕冀平、戴昭铭)

我们认为:“一方面语言需要社会规范,一方面个人使用语言时既要符合规范又含有不规范现象,这并不矛盾。规范与发展应该是统一的。(注:参见张普《关于大规模真实文本语料库的几点理论思考》,载《语言文字应用》1999年第1期。 )”“语言文字是在社会中流通的信息载体,是人类进行社会交际的重要工具。它的使用具有个人行为和社会行为的两重性,也具有相对稳定和永远变化的两重性。(注:参见张普《规范化——98汉字编码键盘输入新动向》,载1998年5月4日《中国计算机报》。)”(张普)

·语言的规范化与非规范化的对立统一

“社会语言学中有一个重要的问题,规范化与非规范化的对立统一。”“语言变异固然有它的消极作用(人们从来是看重这个消极作用的),但还有它的积极作用。因此在语言政策上,一方面要强调规范化,一方面要注意确认变异的合理部分,使它丰富我们的语言。(注:参见陈原《社会语言学方法论四讲·第四讲 定量》。)”(陈原)

“语言创新是极为重要的因素,是语言生命力的表现。没有创新就没有语言的发展,否认创新,抵制创新,就等于扼杀语言的生命。(注:参见戴昭铭《规范语言学探索》P10。)”(戴昭铭)

我们认为:“语言的生命力就在于这种稳定中的变化。这些变化的端倪就隐藏在大规模的真实文本(无论他们是经典的还是非经典的文本)之中,甚至就隐藏在那些非规范现象里。(注:参见张普《关于大规模真实文本语料库的几点理论思考》,载《语言文字应用》 1999年第1期。)”(张普)

·语言规范化工作的性质应当是对语言变化的评价和抉择

“语言规范化的对象与其称为‘不规范的语言现象’,不如称为‘语言的变化’,语言规范化工作的性质应当是对语言变化的评价和抉择。(注:参见戴昭铭《规范语言学探索》P19。)”(戴昭铭)

“昭铭综合古今中外语言演变的历史和语言规范研究的得失,写出《规范化——对语言变化的评价和抉择》,从而否定了单纯匡谬正俗的规范工作模式,提出新型的动态规范观念和动态规范模式。(注:参见吕冀平《规范语言学探索·序》。)”(吕冀平)

“目前比较好的是选择观。认为语言规范化的性质是对语言的变体进行评价,从而选择出规范的一种或者几种。(注:参见于根元《二十世纪的中国语言应用研究》,书海出版社,1996年。)”(于根元)

·约定俗成对于语言规范化的作用

“新词一经约定俗成,就是合法的,就丰富了语言。(注:参见陈原《社会语言学方法论四讲·第四讲 定量》P605。)”(陈原)

“约定俗成虽然有时并不讲‘理’,可是一旦形成力量可就大得很,甚至不可逆转。(注:参见吕冀平《给〈语言文字应用〉编辑部的信》,参见戴昭铭《规范语言学探索》P149页。)”(吕冀平)

“语言规范究其实质也是一种社会习惯,它只能通过约定俗成的途径建立,而不能由语言机构或语言学家向壁虚构。”“我们固然不能说全部语言规范都是对约定俗成说法的追认,却可以说绝大部分是如此。(注:参见戴昭铭《规范语言学探索》P46。)”(戴昭铭)

“习性原则应该成为确立语法规范的根本原则。(注:参见邹韶华《语法规范琐议》,载《语文建设》1991年第11期。《试论语法规范依据问题》,载《语言文字应用》1996年第4期。)。”(邹韶华)

·约定俗成和语言控制的统一

“‘语言控制’是指在语言规范化过程中,对语言的使用和发展变化施行积极主动的人为干预。”“语言的约定俗成的性质同语言在使用和发展上的可控性并不矛盾。”“如果说规范化着眼的是语言运用标准的动态性平衡的话,那么‘语言控制’则更侧重于维持语言运用标准的相对稳定。(注:参见戴昭铭《规范语言学探索》P37—38。 )”(戴昭铭)

“约定俗成是语言文字最惯用的‘规律’,语言文字在使用过程中发生变异,自动调节和人工调节,达到一种有序的稳态。(注:参见陈原《语言学论著》卷三P344。)”“非规范化同规范化是矛盾的统一体。矛盾斗争的结果,达到一个‘内稳态’(homeostasis), 就是自我平衡。‘内稳态’最初是从生理学上提出来的,有人译作‘稳态’……‘内稳态’的学说后来在控制论、信息论上得到了广泛的应用。维纳在他的控制论里提出了两个重要概念,一个是‘反馈’,一个就是‘内稳态’。(注:参见陈原《语言学论著》卷一P536。)”(陈原)

“因此处理好自上而下的规范和自下而上的约定俗成之间的辩证关系,使之相得益彰,应该是政府和学者们不断关注和研究的大问题。(注:参见许嘉璐《关于语言文字规范问题的若干思考》,载《语言文字应用》1998年第4期。)”(许嘉璐)

上述论点涉及理论语言学、社会语言学中的若干重大原则,此外,下文还会谈到其他一些论点,我们要论述的“网络时代的语言规划”正是建立在这样的基础理论和方法论上的。

信息处理用语言文字规范的两个“死穴”

正如许嘉璐先生所言,政府和学者们都对语言文字的规范化和标准化给予了越来越大的关注。1985年国务院发出通知:为了加强新时期的语言文字工作,将原中国文字改革委员会更名为国家语言文字工作委员会,并设立了新的中文信息司。进入新时期以来,语言文字规范方面的工作,有了较大的发展,特别是信息处理用语言文字规范和标准的制定、颁布和实施,更受到国家技术监督局和信息产业部门的重视,一批相关的规范和标准在中文信息处理的研究和应用中已经发挥了十分积极的作用,具有深远的意义。例如:

·主要面向汉字信息处理的

《信息交换用汉字编码字符集·基本集》(GB2312—80)

《信息技术通用多八位编码字符集(UCS )第一部分体系结构与基本多文种平面》(GB13000·1)

《信息处理用GB13000·1字符集汉字部件规范》(GF3001—1997)

《现代汉语通用字笔顺规范》以及相关的信息处理用字形规范和标准等等。

·主要面向汉语信息处理的

《信息处理用现代汉语分词规范》(GB/T13715—92)

《现代汉语通用词表》(研制中)

《汉语词类及标记集规范》(研制中)

《汉语信息处理词汇01部分:基本术语》(GB/T12200·1)

《汉语信息处理词汇02部分:汉语和汉字》(GB/T12200·2 )等等。

无疑上述这些标准和规范以及今后还要继续颁布的这一类规范和标准,是极其必要的。但是,无论是过去的面向人的语言文字规范,还是目前面向计算机的语言文字规范,拿来作为依据进行自然语言理解时,都有两方面的遗留问题尚待解决——

1 从“无菌环境”来到“真实世界”

我们以前所研究的语言材料一般来自“典范的现代白话文著作”,这当然没有错。就像我们前面提到的“规范语言学”,它本来指的就是“一种对待语言研究的态度”,“它试图建立正确用法的规则,古希腊和古印度的语法学家曾试图以最著名的文学著作作为范本来确定这种规范。”并说明“这是一个直到今天许多经典语法著作一再重复的传统”。

问题是语言信息处理要处理的是大规模的“真实文本”,所谓“真实文本”就是“未经编辑的非受限的文本”,“这些文本一般来说是含有一定错误的文本,或者说是含有非规范用法的文本,这样的文本才是真实文本(注:参见张普《关于大规模真实文本语料库的几点理论思考》,载《语言文字应用》1999年第1期。)”。当然, 这些“非规范的用法”就是语言运用中的变异或创新。变异或创新一旦传播开,被公众接受,成为公众语感,就会成为新的规范;公众不接受,没有传播开,就会逐渐被淘汰,个别人或少数人坚持使用,要么引起反感,遭到指责,要么成为集团语或黑话。规范——不规范——新的规范、稳定——变异——新的稳定、个人语感——公众语感——新的个人语感,这些本来就是“有生命”的语言的自然生存法则,或者叫生存公式。所以一切自然语言的真实文本总是非规范的文本,或者准确地说是含有非规范语言成分(或叫变异)的文本,否则反而是不真实的,是人工语言而并非自然语言的文本。以传统的规范来理解这种文本,就好比从纯净的“无菌环境”来到有污染的“真实世界”,语言处理系统的“伤风感冒”是免不了的。黄昌宁先生曾经一针见血地指出:“能否处理未经编辑或非受限的真实文本以及处理文本的数量之多少,本来就是衡量一个自然语言系统究竟是实用化系统还是实验性系统的准则。(注:参见黄昌宁《关于大规模真实文本的谈话》,载《语言文字应用》1993年第2期。)”

我们需要思考:面对机器理解自然语言这个新问题,传统的规范语言学的做法当然是必要的,但仅仅依靠这样的规范又是不够的。单纯的理性主义和单纯的经验主义可能都有局限,我们需要理性主义和经验主义的结合,或者说为人机语言增加一个新的法则:理性主义——经验主义——新的理性主义。

2 以滞后知识面对更新知识

语言是在社会使用中不断变化着的。词汇,特别是一般词汇是语言的各个层面中最活跃的一个部分,随着社会发展与进步,新事物、新技术、新成果、新概念的涌现越来越多、越来越快,新词语的产生与传播周期越来越短,甚至某些领域的词语衰败和淘汰率也越来越高。但是我们的词典,特别是那些以收词齐全、解释详尽而著称的大型词典,往往跟不上越来越迅疾的社会发展速度,不能及时更新再版。这样的工具书通常至少要10年以上的时间才会再版,我们碰到的查词典时查不到新词新义的情况越来越常见,这说明词典的知识已经滞后了。

当然,词典作为一种工具书,作为一种典范,本来就需要稳健和一定的滞后期。事实上学者们早已经注意到了这种情况。既然大部头的工具书来不及修订,也必须有一个滞后的“时间差”,于是就编纂《汉语新词词典》(1987)、《汉语新词新义词典》(1991)、《现代汉语词典补编》(1990)等“短平快”的词典来填补空当。语言文字应用研究所从1984年就开始清理新词语,1986年进行新词语研究,并在《语言文字应用》连载“新词新语新用法”。1991年3 月他们决定编纂《现代汉语新词词典》,收1978~1992年的新词语,并决定从1993年开始每两年出一本补编,次年旋即改为从1991年开始每年出版一部《汉语新词语》的编年本,而《现代汉语新词词典》则收录1978~1990年的新词语。该词典1994 年由北京语言学院出版社出版, 于根元主编, 收录新词语3710条,编年本以1991年为例,从约800条新词语中选编了335条。这些“短平快”的词典,作为一种面向人的工具书,能够给人提供及时的规范化依据,毫无疑问是既有现实意义也有历史贡献的。

但是面对电子版(包括网络版)的大规模真实文本,作为语言信息处理用的词典或语言文字规范,它们又远远不够了。当然,不含这些新词语的未修订的老版本词典就更加不敷使用了。以滞后的语言知识,对待内容新鲜的大规模真实文本,障碍当然是不言而喻的。人可以不那么认真地追究什么是词什么不是词,也可以不必去管词典中是否收录并解释了这些新词,因为人在阅读时能够通过语感、通过汉字和上下文达到模糊理解,但是电脑却不能,至少目前还做不到。电脑要求及时补充新知识,即使有时间差,最好别以年计,更不能以10年计。以北京工业大学计算机学院人工智能研究室的工作为例,他们收集了1991~1997年的《人民日报》、《经济日报》、《新华社电讯稿》约2 亿字的电子版语料,以约6万条词语(含2字词约5万)作为“启动知识”,进行处理。 在处理第1个1亿字的语料时,得到2字接续对61万对, 人工甄别后得到有接续关系的接续对30余万对,没有接续关系的20余万对,2字词组8万条。注意他们称为2字词组,而没有叫2字词,是因为不想陷入界定词的学术争论。他们从真实文本中将“喷塑”、“蒜农”、“危改”、“市话”、“高检”等等实用的2字结构收录下来,而不问其是否是词。 在第2个2亿字语料中,又增加了3万条2字词组,所以目前他们的词典中拥有的2字词语的总数是16万条。 (注:以上数据由宋柔教授提供,参见宋柔、戴伟长等《现代汉语二字结构工程》,参见ICCIP98 国际会议论文集。)《现代汉语新词词典》收录12年间的新词3710条,北工大宋柔等的“词典”却从7年的语料中收录了2字词语(包括以前词典不收的和新出现的)11万条。尽管双方收录的原则不尽相同,两个时间段的新词出现率也未必绝对可比,但是我们还是需要思考:如果处理大规模真实文本的机器需求与人的需求有那么大的差距,或者即使差距不那么大但确实有不同的需求,我们还能够以滞后的语言知识面对语言知识不断更新的大规模鲜活文本吗?因为任何真实文本都是鲜活的。

这两个至关重要的问题现在还没有触及,或者触及了也还顾不上去深入研讨。因为比起目前亟待解决的其他的问题(例如自动分词、句法分析、语义关系等),这两个问题毕竟还太遥远了。语言信息处理的应用系统,当然需要一步一个脚印,一步一个台阶,不同的台阶有不同层次的应用软件。但是作为面向语言信息处理特别是面向网络语言信息处理的语言规划,不能回避这种新的需求、特点、内容、方法论等等的研究,必须重新审视面向人的语言规划的局限和面向机器的语言规划的思路。

我们应该及早触及信息处理用语言文字规范的这两个“死穴”,并探求它们的解法。

面向语言信息处理的语言规范模型

一 一个遗留下来的难题

如前所述,专家们讨论面向人的语言规范时,已经深刻地认识到,虽然长期以来流行的“匡谬正俗”的规范模式是功不可没的,但是规范化的主要工作是对语言的变化作出评价和抉择,应该提倡动态规范的观念。并且专家们还分析了实际上存在着的两种规范:一种是“客观规范”,是在约定俗成的基础上,遵从趋同、趋雅、趋易等原则自然形成的,是人们完全不能漠视的。一种是语言学家对“客观规范”的描写,称为“主观评价规范”。更重要的是他们还指出:语言规范工作科学性的尺度,也就是主观评价规范同客观规范相符合的程度。完全相符只能是理想化的目标,但应该使主观评价规范尽可能接近客观规范。(注:参见戴昭铭《规范语言学探索》P51。)

不过,如何掌握这个“科学性的尺度”,怎样去“接近客观规范”,是一个尚未回答,也很难回答的难题。戴昭铭先生曾经十分正确地指出:“随着研究的深入特别是随着语言文字信息处理技术的发展,以往在规范问题研究上的不足也日益暴露出来。比如在理论上,对于语言规范的实质尚未得到深入的研究和一致的理解;对于在变动不居的语言现象中如何判定规范、如何建立规范仍未摸索出一套操作性强的具体办法。”

二 一个可能导致失控(?)的变化

陈原认为:“有序是一种稳定的状态,它保证社会交际的正常进行。(注:参见陈原《语言学论著》卷一,P605。)”因此,尽管约定俗成地存在着“客观规范”,国家仍然把制定并颁布推行相应的语言文字规范作为重要的工作,并且通过规范字词典、学校教育以及传播媒体和出版机构来推行这些规范,以使语言能够纯洁健康地发展。对于不符合规范的语言现象,学校的教师、媒体和出版机构的编辑和校对都有权改正。在信息时代,特别是进入网络时代,这种规范就更加重要,维护网络上语言文字的有序也就是维护网络的稳定。

然而事情发生了另外一些实质性的变化,我们不能不注意。例如:出版行为从单纯的社团行为变成了社团行为和个人行为。至今网络电子出版还没有明确的政府部门进行管理(我们这里指的是对于语言文字的管理而不是政治内容和黄色内容的管理),个人可以自由地注册主页,将自己的“文本”送到网上全世界发行。要知道那些众多的个人主页都是没有“责任编辑”和“责任校对”的,即使那些社团的主页,绝大多数也没有经过职业的编辑和校对之手,一些主页在语言文字方面可以说是错误百出、错误千出。这可真是“未编辑的”、“不受限的”的真实文本了。这些文本中的“垃圾”甚至“垃圾文本”已经给语言文字的信息处理带来了问题(注:参见张普《关于大规模真实文本语料库的几点理论思考》一文的“关于大规模真实文本及统计垃圾”一节。),它们的更深刻的消极作用今天也许还没有表现出来。在这个至关重要的问题上,我们必须未雨绸缪,我们必须从语言规范的角度提出:这种现象会不会导致网络上的语言规范失控?如何既维护这种新技术给人们带来的“出版自由”,又能维护网上语言的有序和稳态发展?失去网络语言的有序和稳态发展,最终将导致我们失去自己的“网络家园”。

我们必须思考一个两全的网络语言规划模型,这就是面向网络的语言规划的重要研究任务。

三 一个面向网络的语言规划模型

面向网络时代的语言规划模型必须满足以下条件:

·可以即时获取语言知识·可以及时反馈语言知识

·可以动态更新语言知识·可以进行语言规范控制

要做到上面几点,必须建立语言知识的自动获取、更新、反馈和控制系统,而传统的单纯依靠人来进行的语言规划和规范工作基本上不可能满足上述自动化需求。智能化固然是诱人的,但智能化不能一蹴而就。因此,当前要准备一定的“启动知识”并加强语感的量化研究(注:参见张普《关于语感与流通度的思考》,载《语言教学与研究》1999年第2期。),在此基础上方可不断获取滚动知识。 我们基于以上设想和前人的研究成果,试提出以下一个面向信息处理的特别是面向网络时代的语言规划模型:

网络语言规划的LC模型

这是一个基于社会传媒的网络语言规划模型,模型的上下两大部分,分别是:

·语言自动控制体系·语言自动学习体系

在这两大体系之间的是:

·语言知识自动反馈体系

在社会传媒之中的是:

·主页和文本的自动检测体系

这四大体系构成了一个学习—反馈—控制—检测模型, 可称为LFCC模型,简称语言的学习—控制模型,即LC模型。

在控制和检测这两个体系方面,实际上要伴随一定的政府行为,这是与以往的语言规范化相同的做法,但是政府行为还要依赖于一些时常更新的应用软件(比如“语言巡警”或“语言巡逻兵”、“语言清道夫”、“语言教师”等),以维护网络语言的“内稳态”和健康发展,这是与以往的语言规范化不同的做法。

对于“语言自动学习”体系中的动态流通度语料库、流通度的获取、语感的量化、公众语感与流通度的相似等方面,我们已经有过一些初步的论述,(注:参见张普《关于语感与流通度的思考》,载《语言教学与研究》1999年第2期。)这些论述都还是很粗略的, 并且还没有涉及关键的评价抉择体系,我们还将进一步发表详细的论述和计划,并争取对评价抉择体系提出模型和验证。我们希望能够赋予电脑类似公众语感的知识,至少是接近公众语感的知识,以使电脑能走向自动学习(获取)新的语言知识。

理论上我们并不追求这种语言知识百分之百的规范,也不可能百分之百的规范。但是它应该做到大部分规范或绝大部分规范。LC模型应该追求的下一个目标是语言的整合和扬弃体系。

标签:;  ;  ;  ;  ;  ;  ;  ;  

网络时代语言策划的思考_文本分类论文
下载Doc文档

猜你喜欢