试论现代语言学的发展与图书情报研究的新领域,本文主要内容关键词为:语言学论文,试论论文,情报论文,新领域论文,图书论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
语言,作为一个音义结合的符号系统,是信息的载体。由于信息社会大规模信息处理的需要,现代语言学正在成为现代社会的关键学科。自本世纪50年代以来,在语言研究的方法论上逐渐形成了形式主义和功能主义两大流派。形式主义以乔姆斯基的生成语法理论为主体,实际解决的是语言生成和理解的动态过程,它使语言学的研究从此走上了形式化描写的道路。功能主义以博林格(D.Bolinger)、韩礼德(Halliday)等人的理论为代表,它认为对语言形式的信息传递功能的解释,不仅是对其进行结构分析的充分条件,而且也是必要条件。功能主义的目的是发现语言里的一些据认为控制着语言结构的接受性和恰当性的意念关系、语义原则和语用环境。语言学研究方法的总趋势是:①由语言结构的描写转向对语言本质及语言结构规律的解释;②由语言的静态研究转向语言生成和理解的动态研究;③由语言的理论研究逐渐转向语言的理论与应用并重。总之,语言学理论的研究正在面向社会应用的需要,正在使语言分析成为量化分析,使语言数学抽象化。
在上述过程中,计算机软、硬件技术的发展及信息时代的到来不但作为“第一推动力”推动着语言学的发展,而且从各个角度对其提出了更多、 更高、 更紧迫的要求。 首当其冲的是自然语言的处理问题(natural language processing,简称NLP)。由于信息载体的主要形式是语言和文字,因此自然语言处理(NLP)技术,包括语言输入/出、 OCR输入和笔输入技术、两种语言或多文种的互译、情报检索、 文本自动分类、文摘及自动勘校等重要领域已成为人们关注的课题。NLP 技术关系到下个世纪国家的国防、科技、教育、文化等各方面,具有重大应用前景和战略意义,在一定意义上,它代表了一个国家的国力。
近些年来,计算机界与语言学界的合作已经在NLP 上取得了许多应用成果。比如作为国际标准的ISO/IEC10646 字符集就是国际计算机界、语言文字界的专家十多年共同攻关的成果,它为包括图书馆在内的广大计算机用户提供了适于多文种处理的文字符号系统。此外,在共同合作的基础上,一些机器翻译系统、自动文摘系统在专业领域达到了较高的准确率;在文献自动标引、语料库建设等方面进展也不小。然而,从总体上看,计算机科技的发展已远远走在语言研究之前了,这种发展的不平衡在我国也许更加明显。我国的现代语言学研究是落后于西方的,可以说目前还是跟在人家后面走。人类语言虽有共性,但各种语言又有其特性。在文字上,汉字属于表意体系,而不同于表音体系的其它文字;汉语作为一种分析语,不同于作为屈折语的英语和作为黏着语的日语,也就是说,汉语需要有自己的一套理论。实践证明,汉语在句法、词法分析、语义分析上的难度要较英语等更大。在中文信息处理由文字、词处理向句子、篇章乃至大规模真实文本处理迈进时,汉语语言学理论研究还跟不上这种转变,不能提出大量具有应用价值的理论成果。
如今,国内语言学界和计算机界正携手迎接这场决定我国在信息时代地位的革命。那么,作为图书情报界——未来信息处理领域的方面军,它们是等待前两者的成果实用化后再去研究如何利用推广之呢?还是从适应信息服务发展需要的战略高度去认识它,将它作为自己应该从事的研究领域呢?无疑,我们的参与会增强上述队伍的力量,而我们带着服务实践的经验与问题而来,更使我们具有独特的优势。因此,如果说情报学与计算机科技的联姻是相得益彰、比翼齐飞的话,那么现代语言学与情报学的联袂登台则将为信息时代的蓝图抹上一笔重彩。
1 研究的必要性
信息处理用语言理论泛指应用于信息处理领域的现代语言学理论。在图书情报学界,提倡开展信息处理用语言理论研究有它特殊的意义,其必要性包括两个方面:
1.1 从信息管理与开发的需要出发 毋庸讳言,图书馆、 情报所的地位正在发生革命性的变化,它们的工作模式正在从单纯的藏、借书和一般的情报咨询向大量信息的管理与开发转变。信息处理与参考咨询将成为未来图书馆、情报所的主体功能,工作人员也将成为信息资源的管理与开发者。当前,单从简单的文本信息来说,馆(所)藏的大量纸介质信息资源就亟待开发:①如果需要我们提供索引、文摘、分类等,我们可以求助于计算机的自动文摘系统,但还远远不能尽善尽美,而是需要人工干预。面对应用现代语言学理论建构的计算机系统认知模型,人的作用在于处理语言的歧义问题,这种排歧工作不但需要逻辑推理知识,必要的语言学理论基础也是不可或缺的;②如果处理的是多文种信息,可以借助于机器翻译系统,它具备了大型电子词典或者海量的知识库,能进行句法、语义、语境分析,然而这一领域最有权威的专家也不敢断言在可预见的未来“机器翻译”会改变其“辅助翻译”的角色。因此,这同样需要你的语言知识;③如果需要加工成文本文件为计算机所理解,就涉及到“受限汉语”这一当前中文信息处理的前沿课题,它针对汉语的复杂性,提出了用歧义较少、结构整齐规范、句法语义对应和受一定语法规则限制的“受限汉语”来处理信息。这时,需要一个辅助的受限汉语写作系统,从而使加工后的东西在网络上成为“自由使者”。在这一过程中,汉语语法素养也是不可少的。④因特网的日益普及,对基于Internet的中文信息处理的要求越来越高。中文信息的缺乏成为制约国内用户上规模的瓶颈。解决问题的关键是如何快速有效地组织中文信息并开发出基于中文的浏览检索系统。一个基于Web 服务器的数据库应用需要把这些资料建成数据库,进而上网服务以实现WWW浏览。 通过扫描仪、识别系统建立一个全文数据库系统是目前流行的设想与方法。汉字全文数据库管理系统普遍采用自由词标引的方法对文献进行标引。自由词标引又可分为切分标记法、单汉字标引法。切分标记法根据语言学中的组织特点,对汉字在词汇中的位置特征进行分析归类,构造一个规模较小、适应较强的词典,并配以一定的算法切分语词。它是直接在标引文件中实现汉字抽词及切分的方法,词典的构造需要相当的汉语语言知识和专业知识,难度不小。单汉字标引虽然绕过了词切分这一难度,但单汉字标引表仅仅是单汉字的一个倒排文档,存储相当方便但以牺牲检索的策略为代价,检索时间过长,组配失误多,与前者一样需要后控措施。后控检索机制的目的是实现对自然语言检索中存在的同义词、相关词、专有名词等的一定控制,以保证查全、查准。随着自由词的不断增长,后控系统自学习实现全文本标引用抽词词典的自动积累和完善是迫切需要解决的问题。这有赖于语义网研究有所突破,以使其具有自学习能力。除了后控措施外,汉语的分词也是弥补自由词标引缺点的方法,文章分词后检索才可有效避免诸如检“华人”而出现“中华人民共和国”的现象。但汉语分词存在相当难度,国内计算机界、语言学界都认为分词是中文信息处理的基础工程,需要相关学科的努力。总之,无论是中文信息平台的建立、中文文本的自动生成、语义理解、双向翻译,还是Internet上大量中文信息的处理,这些关键技术的研究是既有实用价值又有可观社会效益的工作。在信息处理手段日趋先进的今天,作为一个图书情报工作者,语言学的理论知识不是多了而是少了,需要在实践中不断提高之、创新之。
1.2 从研究的层次及学科自身的建设来看
图书情报学研究要上新台阶,必须从信息管理的宏观角度着眼,这就是要同计算机技术结合起来,同现代语言学携起手来。目前,我国的情报学专业教育已开设了包括汉字信息处理、智能情报系统等一系列与NLP有关的课程。 在美国,有的图书情报学院已经开设了知识表示(需要更深的语言学理论)、概率推理等课程。另外,国内许多大学的图书情报学系改名为信息管理系也绝非权宜之计,从其研究生论文来看,已涉及语料库建设、电子词典、自动分词、文献标引等诸多领域,反映了学科研究范围正在扩大的趋势。在每两年举行一次的第三届环太平洋自然语言处理研讨会上,有关情报检索的论文(9篇)排在所有宣读的68篇论文中的第二位, 仅次于居第一位的“句法分析”(17篇)。在5个邀请报告中, 就有MakotoNargao教授(日本京都大学)所作的“21世纪的数字图书馆”的报告。会议之后,还专门召开了一个关于“语言工程”的研讨会,把信息高速公路中的语言工程作为一重要议题来讨论。此外,在新加坡中文电脑国际会议上(International Conference on Chinese Computing), 许多学者已将图书情报界有关文本摘要自动生成、自动标引等作为报告的主题……。以上事例无不说明,各学科的交叉融合以及自觉或不自觉地将触角伸及对方领域,已是信息时代的必然趋势,而且,每一门学科都会在这一过程中焕发出新的生机。
2 开展研究的可能性分析
目前,信息处理用语言理论研究还集中在语言学界、计算机界(清华、北大及一些科研院所处于国内领先地位)。不过,图书情报界(尤其是大量的图书馆、情报所是不可忽视的力量),亦有其开展研究的潜在可能性。
2.1 从某个具体层面突破
我国的现代语言学研究虽然起步较晚,但起点不低。近十多年来,因大量借鉴西方先进的语言学理论,在一些领域已取得了丰硕的成果。我们在此背景下开展研究,为时不晚,来日可追。值得一提的是,我们处理的虽然是自然语言的文本,但通常并不需要完全的自然语言分析。这是因为,信息可以从语言的各个层级来分别看待,即有词、句法、语义、互指、话语和知识表示等多个层级,不同的应用将利用不同层级的信息。例如,在词层级上的分析和应用包括:词切分和词法分析、拼写检查、全文检索、词频统计、名词短语的辨识、义类词典、逐词机器翻译等。在句子(句法、语义)层级上的分析和应用包括:文法检查、词义排歧、自然语言的接口、机器翻译等等。这些都表明我们可以根据工作实际,从不同的应用角度出发,寻找自己研究的层面,而不必搞“大而全”分散精力(当然理论基础是必须的),以争取能在相对较短的时间内取得成果。
2.2 合作共同研究 现代语言学研究除了语言学知识外, 还需具备数据逻辑知识、抽象思维能力及计算机知识。随着图书馆情报所人员知识结构的渐趋合理,围绕某些课题走共同研究的道路是完全可能的。
3 结束语
作为结束语,应该强调两点:①信息处理用语言理论的研究与情报语言学不同。在研究内容上,后者是在情报存储与检索过程中用于描述情报特征和情报提问的一种人工语言,是情报检索系统的一个重要组成部分,也即是研究怎样有效组织及有效检索的语言组织问题。而前者则是对现代自然语言的字、词、句、篇进行的语义、语法、结构等分析,目的在于实现对大规模全文本、自然语言的有效处理,从而开发信息资源。显然,前者的研究若有质的突破,后者的作用就显得无足轻重,因为一个全自然语言界面的检索系统无疑优于一个基于人工语言的检索系统。②图书情报界开展语言学的研究不是以“图书馆学情报学”为体、“语言学”为用的问题,而是图书情报学自身如何适应信息社会语言处理需要的方向性问题,这一点从事物发展的观点是不难看清的。