语言技术和知识技术——知识服务的重要技术基础,本文主要内容关键词为:技术论文,知识论文,语言论文,基础论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
修回日期:2006-07-19本文起止页码:6-9
〔分类号〕G250
网络环境下信息服务的发展方向是知识服务,这一点已得到文献情报界的认同。但对于什么是知识服务,知识服务同信息服务的区别是什么,应如何界定知识服务的内涵和外延,目前学术界还没有较为一致的看法[1-2]。不过有一点可以肯定,知识服务的实现必须建立在智能化信息处理技术的基础之上,而智能信息处理的核心问题是信息的自动理解。因为总的来讲,只有使计算机理解了信息或信息内容,才能期盼以计算机和网络为基础的信息系统具备各种知识服务的功能。当前国外正在蓬勃发展的语言技术和知识技术(其核心是本体技术),是两项至关重要的、具有基础性地位的智能信息处理技术。为了使我国数字图书馆建设更加快速发展,尽快进入“后数字图书馆”技术的研究,文献情报界应对语言技术和知识技术予以充分的重视。
下面,我们对语言技术和知识技术当前的发展特点、两者之间的密切联系及其对所谓“后数字图书馆”时代的作用和意义,作一初步的阐述。
1 语言技术当前的发展特点及其在智能信息处理技术中的地位
语言技术这一名称是新近才出现的,其范围涵盖了过去被称为语音处理(主要包括语音识别和语音生成)和自然语言处理的两大技术领域。因此语言技术既包括自然语言书面语的处理,也包括口语的处理。其实,书面语和口语仅在表达媒体的形式上不一样,即一个是文字,一个是语音,而在词汇、语法、语义的处理上是一致的。因此这两种形式的语言处理技术正在相互融合,合称为语言技术。当前,由于网络信息内容的大规模发展以及由此产生的对语言和文本自动处理的迫切需求,语言技术正日益朝着面向信息服务,包括网络信息服务的应用方向上快速发展[3-5]。
计算机处理自然语言,无论是书面语还是口语,原则上首先都要对语言进行理解。只有理解了语言,才能让机器做各种有关语言的工作(如机器翻译、自动文摘),也才能使机器更好地进行语言文本的分类和信息检索,实现人与计算机的自然语言交互等。语言技术几十年的发展,可以说基本上都是围绕着如何使计算机能够对自然语言进行理解。所谓语言理解,就是对语言所表达的内容或信息进行理解,因此,它是一种特定媒体形式的信息理解。
然而,让计算机理解自然语言并不是一件容易的事情。从上世纪50年代中期,即人工智能研究开始兴起的时候起,直至上世纪80年代中期,在自然语言理解领域,首先深入探索的是自动句法分析。因为机器如能自动分析出自然语言句子的正确句法结构,就可以进而理解句子的意义。自动句法分析所使用的句法模型,主要是生成语言学中的上下文无关语法模型,即CFG模型。不过人们很快就发现,CFG模型在自然语言分析中,不能很好地应付自然语言句法结构的歧义问题,即所输出的往往是多个分析结果,机器无法判断哪一个结果是输入句的正确句法结构。而且,这一时期对自然语言语义的计算处理,也没能找到有效的理论和方法。因此,上世纪80年代中期以后,为了能够使自然语言技术尽快实用化,人们开始转向以语料库和统计方法为基础,通过文本中词语出现频率的统计、词性自动标注、句子的部分句法分析或语块分析以及输入句的结构片断与语料库中预先存贮的语言结构片断之间的相似计算等多种方法,来实现对自然语言的部分解释,进而实现语言处理的各项应用,这就是所谓统计式自然语言处理。与此相对的则是50年代中期到80年代中期盛行的基于语法模型的规则式自然语言处理。
统计式语言技术在某些种类的应用中,表现出很好的效果,但在另外一些类型的应用,特别是那些需要对语言进行深层解释或理解的应用(如自动问答)中,则可以说是无能为力的。所以,在统计式语言技术在上世纪八、九十年代占据主流地位的同时,规则式语言技术并没有停止发展,尤其是在国外的基础研究领域。上世纪80年代初,在CFG这一类生成语法模型基础上发展出了一批新的计算语法模型。这些语法模型以词汇功能语法(LFG)、中心词驱动的短语结构语法(HPSG)为代表,经过二十多年的深入发展,目前已开始进入成熟阶段。这些模型一般统称为基于约束的形式语法模型,简称深层语法模型。此外,从上世纪70年代初开始,出现了以蒙太古语义学为代表的自然语言语义计算处理的理论方法。这些语义计算模型以形式语义学中的真值条件语义理论为基础,经过多年的发展,也逐步进入了较为成熟的阶段,而且逐步与上述深层语法模型相互结合,共同组成了语言技术中的深层处理技术。与此相对,各种统计式语言处理技术,则被称为浅层处理技术[4-6]。
当前语言技术发展的一个极其重要的特点是:浅层处理和深层处理相互结合,形成混合式处理系统。深层处理技术虽然可以获得语言深层次结构的表示,即对语言理解的表示,但这种处理需要有关于一门语言的精准的语法和语义(即规则和词典),而这些计算资源的构建具有很大的工程性。LFG、HPSG这一类深层语法模型虽然都能够用语法开发平台作为工具,以语法工程的方式发展为多种语言的计算语法[7],但深层处理技术的全面应用,特别是在语义的计算处理以及针对毫无领域限制的大规模的语言文本的处理方面还有一定的局限性,有待进一步发展。而浅层处理技术虽然不能够提供语言深层结构的解释,但这类技术所具有的自动学习机制,使其能够在语言结构的浅层次上有效处理无领域限制的大规模语言文本,即这一类技术具有鲁棒性。自然语言的浅层技术和深层技术各自的优越之处如能够相互弥补,将会对自然语言理解以至整个信息理解(语义或意义处理技术)具有极其重要的意义。因此,对语言技术的这一发展特点应该予以格外的关注。
语言深层处理技术所包含的语义技术,即自然语言语义的形式化表示与处理技术不仅对自然语言理解和多种应用性语言信息系统都具有极重要的作用和意义,而且对一般的信息理解及各种应用性智能信息处理也都具有十分重要的基础性作用。这是因为信息理解就是对各种媒体(语言和文本都是媒体)所表达的意义内容的理解,其本质是意义处理(meaning processing)或意义计算(meaning computing)。因此,语言中的意义(语义)处理和一般的信息意义处理是相通的。近来语言技术通过意义处理与知识技术(主要是本体技术)相互沟通和结合,通过对自然语言文本的深层语法和形式语义处理得到语义表示(一种逻辑形式的表示),再被转换为知识工程中的知识表示,即各种断言(assertions)的表示形式。这些断言的表达正是各种本体的组成部分。其实,本体技术就是意义技术。因此,从自然语言的文本,到自然语言语法表示和语义表示,再到文本的知识表示,为计算机从自然语言文本中自动获取知识,并进而由大量断言中获取大规模的知识库和本体,开辟了一条崭新的技术道路[8]。自然语言文本与本体之间的这种沟通,不仅为大规模知识获取、本体的自动构建以及本体的大规模应用打下了基础,也为基于本体的自然语言理解打下了基础。语言技术和本体技术相互结合的发展,对信息自动理解来说是一个十分值得关注的趋势。
2 本体技术的发展及其对信息理解的意义
当前在数字图书馆和知识管理等领域,对知识技术及其应用开始了广泛深入的研究。但是人们对知识技术的界定,如同对知识服务概念的界定一样,尚未找准其真正的含义,特别是如何区别知识技术与普通信息处理技术。我们认为知识技术从本质上说应是智能技术,是对信息进行理解的技术[9]。而目前在国外蓬勃发展,在国内也得到极大重视的本体技术,则是知识技术的核心。这是因为本体所表达或描述的概念结构(conceptualization)是作为人类知识基础的意义结构(meaning structure),本体是一切信息理解技术的基础。
实际上,本体技术和本体工程是上世纪70年代兴起的知识工程的延续和深化。上世纪50年代中期,人们开始了对人工智能的研究。经过十多年的发展,到上世纪70年代,人们认识到,为了使计算机能够从事一些智能性的工作,就必须让计算机具备知识,具备像人类专家那样的专业知识。专家由于具有领域的专门知识,所以能够在某一个领域内从事具有智能性的工作。于是人们开始了构建知识库以及基于知识的系统(即专家系统)的研究,即知识工程的研究。到了上世纪90年代初,人们看到知识库和基于知识的系统都有一个生命周期的问题,每次建立新的知识库和基于知识的系统时,都要从头做起,旧的知识资源无法被重新利用。于是人们认为,应构建一些可重用的知识组件,即本体和问题求解方法(PSMs)。本体是各个知识库共有的概念和关系,是一些通用的静态知识,问题求解方法则包含了各个领域通用的动态推理知识。有了本体和问题求解方法这些可重用的组件,构建基于知识的系统时,只需要将这些组件装配起来,适当添加所构建系统针对的问题领域所特有的知识和推理规则即可。上述这些思想,就是本体技术和本体工程的思想[10-12]。
但本体如果以手工方式构建,特别是大规模的通用本体,则会耗费巨大,这已成为本体应用的巨大障碍。因此,以本体自动获取为目的的本体学习技术已成为本体工程领域当前的研究热点。通过本体学习的方法,可以从多种资源中自动或半自动地获取本体,这些资源包括现有的本体、词表、词典等,也包括自然语言的文本。各种本体学习技术中,最为重要的方法是基于文本的本体学习,即以自然语言分析和机器学习为基础,从自然语言文本中获取本体的技术。这里的自然语言分析技术,基本上是前一节所说的浅层语言技术。实验表明,基于文本的本体学习技术可自动构建出概念的分类关系,即概念的上下位层次关系,这些概念分类是本体的基础。但是通过基于文本的本体学习所获得的本体,基本上是一些领域本体,即所得到的分类概念,基本上是概念层次结构中下位层次上的概念。为了获得更为通用的本体,必须将这些学习所得到的领域本体与一些上位本体进行链接。
自然语言文本承载着人类绝的大多数知识。因此,基于文本的本体学习,包括前面所提到的基于对文本的语法表示、语义表示和知识表示的本体获取方法,这些都具有十分重要的地位。从文本中获取本体所遇到的一个重要问题是,文本中的很多语句并没有明确表达本体的内容。人在写作文本时,毫无疑问是以自己头脑中的本体为基础而形成各种断言(assertions),并用自然语言语句表达断言,但这些断言多数情况下并不直接表达本体中的概念及其关系,特别是那些上位概念及其关系。因此,如何从文本中大量的断言来获得隐藏在其后的本体,还是一个值得深入研究的问题。无论如何,由于自然语言文本几乎包含着人类的全部知识,所以自然语言文本与本体之间的关系以及基于文本的本体学习技术,对信息理解技术发展的意义是显而易见的。
在本体学习技术中,还有一类方法也是值得注意的,即以WordNet、SENSUS等语言本体为基础,通过本体剪裁的方式来获取领域本体的方法。WordNet等语言本体都是以自然语言的大规模词汇为基础构建起来的本体,因此也是一种上位本体或通用本体。用这些本体作基础,可使用本体学习技术来构建领域本体。具体方法是:首先要选择一个语言本体,如SENSUS,作为核心本体;同时选择语料库作为文本资源,语料库中既要包括通用文本,也要包括特定领域的文本;然后使用自然语言分析工具从文本中获取概念及关系,来丰富所使用的核心本体;同时按照所确定的应用领域来剪裁已被丰富的本体,即把与该应用领域无关的概念去掉。这样所获得的领域本体可以得到很好的使用效果[13]。
总之,本体学习技术,尤其是基于文本的本体学习,已成为本体自动构建的主要方法。本体学习将语言技术同本体技术进一步结合在一起,共同促进着信息理解技术的发展。
3 意义处理技术与后数字图书馆
本世纪初,美国提出了后数字图书馆的研究目标[14]。这是继上世纪90年代初开始的美国数字图书馆研究的继续发展,也是美国极力要在数字图书馆这一高科技领域继续保持领先地位的具体体现。
从美国后数字图书馆研究的总目标和各项内容来看,同时联系整个网络信息技术的发展趋势,联系当前人工智能研究,尤其是语言技术和本体技术这些重要的智能信息技术的发展趋势,我们认为,美国后数字图书馆计划的根本目的是要彻底实现网络环境下基于大规模数字信息资源的全面的知识服务,实现国家范围或跨国范围乃至全球范围的信息资源和知识资源的集成、共享,从技术手段、方式上促进现代科研、经济和社会的全面迅速发展。这就是所谓“泛在知识环境”这一提法的含义[15]。美国后数字图书馆计划实际上是一个实现知识服务的具体方案。那么实现这一宏大目标的关键是什么呢?我们认为,关键是要在意义处理技术上取得全面的突破。
网络时代的信息资源,是多种媒体形式的信息资源[16]。无论哪一种媒体形式的信息,都是用来表达和传递内容、知识或意义的。图形、图像和视频表达传递的是视觉信息,音频表达传递的是听觉信息,两者总的来讲都是直观、形象的信息,都是从直接观察的角度将客观世界的情况提供给人们。而语言这种媒体表达传递的信息是一种抽象的、概念和逻辑性质的信息。人类语言虽然也能形象地描写视觉和听觉世界,即人们所说的绘声绘色的语言,但那也是通过符号和概念的方式,而不像视觉、听觉信息那样以物理要素来直观地进行表达。视、听信息虽然是形象直观的信息,但这些形式的信息也往往蕴含着丰富的概念和思想(即逻辑性质的信息),特别是那些艺术性质的视听信息。不过,这些不同媒体形式的信息共同表达和传递的都是人类的知识,都是人类在认识世界基础上所形成的认知和所表达的意义。
面对如此广泛、如此丰富的信息和知识资源,人们没有理由不去充分开发利用。但这些资源具有不同的媒体格式,使用了不同的表达语言,而且表达了不同的概念、思想、文化和知识体系。要将这些资源整合为一体,实现大规模的共享,必须依靠信息理解或意义处理这样的智能信息技术。国外有专家认为,媒体技术(图像技术和声音技术)、语言技术和知识技术是数字网络时代具有重大意义的技术。专家们称这些技术为silky技术(柔性技术),因为S、I、L、K四个字母分别代表了声音、图像、语言和知识。应该说在这四类技术中,知识技术占有最重要的地位,而知识技术的核心则是本体技术或意义技术。对信息的处理,包括对媒体的分析处理,也包括对语言这种由抽象符号构成的媒体的句法结构形式进行的分析处理,最终都需要对媒体所表达的意义内容进行分析和处理。只有到了意义层面,才算是对信息进行了理解,才能够使计算机信息系统具有各种知识服务的功能,实现后数字图书馆的目标,即泛在知识环境。从美国后数字图书馆计划的各项功能目标不难看出,意义技术在其中具有中心地位。
意义技术是当前语言技术和知识技术的汇聚点。为了迎合网络信息处理的需求,目前这一技术正在迅速的发展中,从不同的侧面被丰富和完善。首先,真值条件语义学是一种外延语义学,蒙太古在将这一方法引入到自然语言分析中时,已从内涵语义学的角度加以完善。其次,话语表示理论(DRT)以及篇章意义表示技术已将自然语言语义的处理从句子拓展到比句子更大的语言单位。再次,当前语言学中的认知语言学理论对语义问题的研究十分值得语义处理技术参考,尤其是认知语言学对概念和人类概念体系形成机制的理论认识,虽然尚未形成形式化的理论,但必然会极大地丰富意义计算的方法。最后,更为重要的是,本体技术作为一种意义处理和计算的方法,同自然语言技术中的语义处理技术相互结合,将会更有力地推动信息意义处理和信息理解技术的发展。
总之,笔者认为知识服务的实现,必须以信息自动理解技术为基础。语言技术和知识技术,尤其是作为知识技术核心的本体技术,在信息的自动理解中起着重要的基础技术的作用。目前这两类技术正在意义处理的层面相互汇聚,这必然会促进智能信息处理和知识服务的早日实现。从美国的后数字图书馆发展计划来看,我们有必要对语言技术和知识技术的研究予以极大的关注,使我国的数字图书馆技术有一个更大的飞跃式发展。
标签:自然语言处理论文; 数字图书馆论文; 自然语言论文; 语义分析论文; 文本分类论文; 语法分析论文; 文本分析论文;