面向用户的大型图书馆汉语检索系统模型,本文主要内容关键词为:汉语论文,模型论文,图书馆论文,检索系统论文,用户论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
早期的卡片式中文检索方式主要采用笔划(首字偏旁部首)、拼音(字音)、学科等少量几种分类索引方法。应用计算机检索以后,为提供更多的检索方法创造了条件。这些检索形式按文献分析的强度分为表层、浅层、深层和语核四个层次;表层包括对作者、期刊、语种、学科等限定字段的索引;浅层包括对关键词、主题词、自由词、词组等的分类检索;深层包括修辞结构、文体结构、引证方式、主题思想、风格等的分析〔7〕〔10〕〔8〕;语核则可达到自然语言理解。
文献检索是面向用户的,文献分析的质量直接影响到检索的质量。文献分析的深层分类和语核是最接近用户需要的,这是因为它们通过全文检索(Fulltext Retrieval)〔6〕, 即建立文本中每个字词的索引及其关系,实现基于内容的查询。文献自动标引的研究、高容量存储设备和光学字符识别系统,都为全文检索及全文数据库的建立提供了技术环境和物质基础。国际上推出的TRIP、美国国会图书馆的美国飞行员资料库、ZyLAB、Ariadne、Envision等检索系统〔9〕〔10〕〔15〕〔16〕都具有一定的面向内容检索的文献分析能力。 我国已建立了一些全文数据库,如上海交通大学的“法律条目全文数据库”,武汉大学的“湖北省地方志全文数据库”,陕西省中医研究院的《素问》等多部中医经典古籍的全文数据库,深圳大学的《红楼梦》全文数据库等。
检索的目的是为了能从文献库中检出切题的文献资料。建立文献库的一项基本原则就是要保证存入与检出的可逆关系〔12〕:能以存入时的概念(至少是文本语义上的概念)把文献检出来。目前,国内外中文全文库大都采用抽取词典提供的索引词汇词的方案,由标引词构成检索式。无奈汉语属于孤立语,与作为屈折语的英语和粘着语的日语相比,缺少词形变化,词序要求严格,属分析型语言,不能套用英语和日语的文献分析模式。一旦人们按词表或统计方式得到的标引词抽取词,就只剩下词的物理属性,而失去了词的逻辑关系。最多还能保有极少数孤立的信息,例如出现频率、权重等。
大型综合性图书馆(如北京图书馆、上海图书馆)拥有各个领域的信息资料,而不同领域用户研究的方法和使用的信息却不尽相同,如何组织这样一个丰富的信息源来有效地为有各类需求的用户服务,就显得特别重要。目前,国际上尚无适宜的大型图书馆汉语检索体系结构。现有中文全文系统都是某一领域的专用研究系统,使用的语言分析技术也大相径庭,不适于大型图书馆的需要;此外,缺乏统一的语言分析结构,移植性差,重复开发的弊端,不利于软件的再用。
(组件)标准化和(模式)多样性是当今技术的两个重要特征。本文根据大型图书馆检索系统使用周期长、修改少、增加频繁的特点,设计了一个开放演进的模型:充分利用已经解决了的语言技术、信息技术和计算机技术,构造标准的信息基础;对于上层结构,提出了一些原则,使检索系统的设计者可以各尽所能,采用不同的模式;随着网络技术的发展,用户能够根据自己的需求,选择不同的检索层次,构筑各自的专用子系统。这样一种内部改进灵活、对外部开放的模型,能够满足多数应用的需要。
1 面向用户的开放模型
1.1 图书馆用户的需求
大型图书馆的检索系统是为用户提供服务的,用户的需要就是它的目标。那末,什么是用户的需要呢?
假定用户A (个人或者群体)出于某种目的(研究的或者其它什么的),选择图书馆的信息资源作为辅助手段。A 希望从图书馆的信息库中获取他所需要的信息,并通过使用UEK(User Expressed Keywords)提出查询请求。 然而,
UEK 与系统可识别的索引项SRII (SystemRecognizable Index Items)大相径庭〔3〕〔2〕。数据库里的信息,可以是由字符、像点等组成的位流,也可以是具有修辞结构的句文,还可以是带文体结构的体裁文。UEK 只是用户构想中的一些不甚确切的支离片段,与SRII是不同的。A作为信息的被动获取者, 完全依赖于检索系统所提供的SRII,即系统提供的指示性数据(如索引字段等),而这些仅仅是对全文整体的断章取义,无法反映文章全貌以及引证关系。不恰当的题目、粗糙的摘要、曲解的主题标引,都可能误导A。 如果将作者意图、修辞结构、行文风格等诸方面全面展开,对用户在引用、借鉴、联想、启发等方面有极大意义。这就必须提高检索系统的文献分析能力,缩短与用户的差距。 因此要求在文本( document )和检索请求(request)的表达形式上更接近自然语言, 即全文检索必须奠基在语言的最基本构件上〔3〕。对汉语来说就是字〔5〕、单纯词〔14〕,而不是合成词或短语。
用户群使用图书馆的交流方式是不同的:不同领域的用户使用不同的信息;同一用户使用不同级别的信息;不同用户的知识层次不同。这就决定了图书馆检索体系应具有层次性,以适应广大用户群的个体差异。此外,系统应具备良好的模块性,以便充分利用现有的技术(如语音技术),并考虑到未来新技术的发展。
综上所述,面向用户的中文检索系统应当具备以下几个特性:
(1)稳定性:系统体系结构要保持一定时期的相对稳定;
(2 )基本性:系统低层结构必须真实反映汉语中已被确认的一些基本特性;
(3)标准化:对确证成熟的一些汉语规范设计标准化组件, 保持在一定时期内不作原则性变动;
(4)独立性:不同检索层应保持相对独立, 以利于发挥设计者各自的设计方案和风格,便于系统的移植和演化;
(5 )开放性:能够支持大部分涉及汉语信息的专门领域研究的应用研究系统。
1.2 基础结构
我们的检索体系结构分成基础部分和扩展部分。基础结构(图1 )包括四个部分:元件组、文献库、索引和查询。下面分别对各部分进行讨论。
元件组是一个层次结构(图2), 每一层由代表该层的元件库和元件管理器组成。这里把字、单纯词、合成词、短语等称作元件。分层是为了符合汉语的结构特点。把汉字作为汉语的最小组件〔5〕, 或者更确切地说,作为词、短语和句子的最小组件。汉字由于其结构和字集的稳定性,可以分离出来作为独立的一层;这一层不具有任何语义上的意义,只是形式符号。单纯词是由一个语素(语言学中把音义结合的最小符号称作语素)构成的,是最小的语义单位,不存在拆分和组配问题,因此可以单独作为一层;这一层是最基本的语义层次。合成词、短语、句以及段、节等都奠基在它们的基础上。我们自底向上来命名这些元件层。
最底层是第0层,包括汉字的语音构件和偏旁部首部件, 用于构成汉字的音和形。考虑到汉字的形象化表意特性和造新字的需要,以及汉语便于语音输入的特点,存放语音构件和部首部件是必要的。多媒体技术的发展,使人们能够方便地通过语音和图形方式进行交互。
第0层构成第1层(字层)的基础,包括字库及其管理器。字库存放汉字的形码(汉字机内码)和音码(一个字可能有多个音码)。字库管理器由部首—字生成器、字库结构描述(包括字源链、字体链、异体字链、库组织方式等)、字索引等组成。
图1 基础结构概图
图2 元件组结构
第1层构成第2层(单纯词层)的基础,从这一层开始元件具有了语义性质。单纯词是由一个词根语素(或加上词尾)构成的词〔14〕,与其任一真子序列无交叉语义。例如,“胡同”、“华盛顿”、“熵”等。单纯词层包括单纯词库及其管理器。单纯词库存放单纯词的形码和音码。单纯词管理器主要包括单纯词生成器、单纯词库结构描述(包括词源链、词义、词间关系、词类、库组织方式等)、单纯词索引等。93%的常用汉字可独立成词,而且其表达能力ε[0]=1。
由第1层和第2层构成第3层(合成词层)的基础。 合成词是由两个或两个以上的语素组成的词〔14〕,与其某一真子序列有交叉语义。例如,“稀土元素”、“第三”、“科技”等。第3层的组织方式, 按词的语素的合成度划分成不同级别的合成词。例如,部类>大类>次类>小类。实词和虚词是两大部类:实词部类分成体词、用词、点别词、副词四类;虚词包括方位词、介词、连词、助词、量词、语气词。大类还可分出次类、小类〔4〕。根据汉语词类层级的特点, 合成词层有合成词分级词库及其管理器。合成词库存放合成词的形码和音码。合成词管理器包括合成词生成器、合成词库结构描述(包括词源链组、词义、词间关系、词类、库组织方式等)、合成词索引等。
文献库里的文献,是指原始文献经过人工或专家系统加工处理(如划分字段等)后形成的具有结构型式的文献,这种形式化表示方法使系统具有一个坚实的知识基础,而且具有灵活方便的特点。
索引部分主要包括索引生成器和索引等。每一类元件都有相应的索引生成器和索引。索引生成器包括模式匹配、索引结构描述、索引生成策略、压缩等。其中索引生成策略是由策略库、策略生成元规则库、语言知识规则库经索引生成策略产生器创建的,还可具有算法生成和算法优化的机制。由于全文检索的量十分庞大,压缩是必要的,它不仅可以节省存储空间,也是逆检索的有效表示方式。
查询部分包括查询管理器(每种元件有一个)、查询分配器、查询处理等。查询处理主要完成查询解释、类别选择、查询优化、结果提交等功能块,图3是这样一个结构。
图3 查询部分
图4给出了基础部分的一个概图。
图4 基础结构
2 扩展部分
心理学研究认为,分类的目的是为了把无从选择的大数量的东西,归并为小量可引起注意的选择类。字可以按生存期、频度等划分;词可以按生存期、领域、频度、词性、内涵等进行分类。从这一意义上讲,我们可以在基础结构之上扩展,扩展部分与基础结构的各部分相对应,更接近语言的深层理解。试分析其中的几种。
(1)字频度。汉字的频度分布符合一定的规律(见表1),如果把汉字按字频的排序位置记作w,字频记作f,则满足f=f[,0]×e[-aw]/
__
√w,其中f[,0]与文献中出现的汉字集有关,a=0.00181,据上式分析
,w较小时,f∝w[-1/2],即少数常见字的字频远高于其它出现的频率;w较大时,f∝e[-aw],即罕用字的确异常罕见,其字频呈指数下降。这些与英语中的字频规律(f=f[,0]×w[-1])是不同的。例如,“ 的”字就占3%,前10个字占12%。 因此在扩展层中相对于基础结构中字管理器一级,可增加字频管理来处理高频字、常用字、次常用字和罕用字。
表1 汉字使用频度统计
汉字数(万字)240
500
1000
1500
2000
3650
5888
1982年发表
安子介(140)57.5
74.7 88.8
94.5
97.4
99.83 100.0
1988年发表(242) (2008)(5991)
"贝_张"(210)
58.8
77.4 90.8
95.9
98.1
99.85 100.0
(2)词生存期。语言从来都是动态的, 其存在和使用是人类的惯用系统而非自然法则。如果某个词不再被使用,它就失去了使用价值。现代人之所以喜爱春秋战国时期的一些作品,就是因为其中的许多词语沿用至今,仍具有生命力。可以在扩展层中相应于基础结构的单纯词、合成词管理器上增加关于词生存期的知识。
(3)词频度。按照词的使用频率,分为高频词、常用词、 罕用词。据《现代汉语频率词典》统计,在1314404个语料中, 使用频率最高的前100个词覆盖了语料总量的40%左右,前2562 个词覆盖了语料总量的85%左右,满足Zipf分布。一般地说,代词、断词、衡词、介词、连词、助词等活动频率高,属封闭类(词成员有限、可穷尽);名词、动词、形容词等活动频率低,属开放类(词成员无限、不可穷尽) 〔4〕。从汉语的音节长度看,通用词类以二字词为主,而在科技工业词汇中四字词、三字词和五字词居多。〔11〕这符合汉语通过增加音节构造新词的特点。
(4)应用领域。按照词在不同应用领域出现的几率, 组合成领域词群,如物理、化学、生物、数学、音乐等。领域的相关知识加在相应的词的管理上。
语义是在词的水平上,最多是在句子的水平上讨论;内涵分析至少在句子水平上,最多在上下文中讨论;外延分析要回答是否还有其它;逻辑推理要问为什么;对策博弈要找出解法〔12〕。因此,要求系统应具备多维度空间查询策略(multidimensional space of informationseeking strategies)〔1〕〔15〕。 系统的层次性可以保障这一点。在扩展模型中,系统开发者能够各尽所能,发挥不同语言观点(如词组本位、三品说等)的优势。语义网模型和流控模型提供了较好的分析推理模型。
3 评价与展望
本文提出的模型与不同的应用领域相结合,可以形成不同特色和品质的应用系统。这主要体现在此模型的开放性体系结构:由于每一层均对应确定的汉语组成结构,因而不必对所有应用领域都采用单一的数据模式,便于实现综合性需求;不同领域的应用可以根据自身的特点,使用与之相适应层次的索引作为其应用开发的基础,在这样的检索系统上嫁接新的应用子系统,就具备了很强的灵活性,因为它对用户的应用子系统来说是开放的。例如,关于字用法、异体字的研究可以建立在字索引级上;联绵词(如葡萄)、词源学的研究可以建立在单纯词索引级上。这种开放性不仅体现在用户在使用系统时可有多层次的选择,而且体现在用户直接加入到应用领域的开发中。图书馆与用户之间变成一种协作关系,网络技术的日益发展和知识推理的应用〔9〕 将使这种协作成为可能。
本模型作为上海图书馆检索系统的方案提出,部分内容已在针对报刊文摘、论文、专利类的“二次文献及其全文检索子系统”中初步实现(用于12月20日新馆开业用),证明在单汉字—规范词—应用域词的层级索引上,检索效率很高。目前正与中文系合作其它部分(如切词、音码、用例等),将逐步完成。
面向用户的汉语检索模型,支持大多数应用研究领域,尤其是那些过去缺乏得力研究工具的领域,如语言学、医学、文学、历史、哲学、宗教、伦理学等。实现这样一个系统,需要信息学家、计算机学家、语言学家和系统学家的通力合作。