2004~2014年我国多语言信息组织与检索研究进展与启示,本文主要内容关键词为:研究进展论文,多语言论文,启示论文,组织论文,我国论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
doi:10.3772/j.issn.1000-0135.2015.006.011 1 引言 随着全球信息化环境与数字科研e-Science环境的形成,多语言网络信息日益成为教学与研究、电子商务与国际贸易、政府部门与企业管理层决策等方面的主要信息来源之一。为我们了解各学科/领域的最新研究进展与成果、进行专利查新、获取世界范围内的商贸及产品讯息、掌握国外有关机构的发展动向及其策略以及搜集企业竞争情报等方面起到越来越重要的作用。然而,语言障碍问题已严重妨碍了用户对多语种信息的获取和利用,如何跨越语言鸿沟,让用户使用熟悉的语言就能检索出其他语种的相关信息,是信息组织与检索领域中的重要研究课题。为了解近十年来国内“多语言信息组织与检索”领域的研究进展,本文采用文献调研方法,在中国知网数据库中,选取“跨语言信息检索”、“多语言信息检索”、“多语言信息获取”、“多语言信息组织”、“多语言信息表示”、“多语言本体”、“多语言主题词表”、“多语言互操作”为检索词,限定检索字段为“主题”,匹配方式为“精确匹配”,检索时间为2004~2014年,并将文献来源限制为核心期刊和CSSCI来源期刊;在万方数据、维普数据库中也以类似的方法检索,合并检索结果并去重,共查找到期刊论文95篇(不含增刊)。另外搜集到会议论文36篇,博士论文14篇,硕士论文88篇。在超星发现系统中,使用“多语言”或“跨语言”作为检索词,检索字段选择“题名”,搜索到相关图书6部,其中近期出版的为2014年吴丹的《多语言网络学术信息挖掘与检索》[1]。另外笔者还选择Web of Science数据库,以“cross language information retrieval”、“crosslingual information retrieval”、“translingual information retrieval”、“CLIR”、“multilingual information retrieval”、“MLIR”、“multilingual information access”、“multilingual information organization”、“multilingual information representation”、“multilingual ontology”、“multilingual thesaurus”、“multilingual interoperability”为主题词进行检索,在检索结果中进一步限定“国家/地区”为“PEOPLES R CHINA”和“TAIWAN”,精炼检索结果,获得90篇文献。经过深入研读与主题分析,并结合引文追溯法不断补充相关参考文献,发现近十年来该领域的研究主要涉及多语言信息需求、语言转换策略、语言转换方法、辅助技术方法、信息组织与检索模型、系统评测会议、多语言信息组织及工具、跨语言搜索引擎及信息检索系统以及多语言信息组织与检索的应用9个方面。 2 多语言信息组织与检索研究现状 2.1 关于用户对多语言信息需求的研究 用户的多语言信息需求是创建多语言信息系统与提供多语言信息服务的基础。吴丹等对包括中国与美国在内的19个国家的数字图书馆用户,从使用网络工具的背景、多语言信息需求的动机、多语言信息行为、常用的多语言信息资源、对多语言信息服务的期望、用户对多语言信息检索的期望、用户对数字图书馆界面设计的期望进行了问卷调查,发现学术用户围绕学术活动具有多种多语言需求,用户的母语极大影响其对多语言的需求和期望[1]。吴丹等还通过对武汉大学的数字图书馆用户从用户背景、用户行为、用户需求动机、多语言信息来源、多语言信息服务、多语言信息检索、多语言信息系统界面等方面进行调查,发现用户十分需要获取数字图书馆中的多语言信息[2]。 2.2 关于语言转换策略的研究 多语言信息检索(Multilingual Information Retrieval,MLIR)指使用任何一种语言,都能够查找到特定语言的信息,目标文档中的语种可以是一种,也可以是多种。大多数研究都将多语言信息组织与检索的过程看做是传统的计算机信息检索与语言转化的结合。多语言与传统的单语言信息组织与检索相比较,最大的不同在于其需要完成源语言与目标语言之间的转换。 2.2.1 语言转换策略的类型 目前研究者提出了提问式翻译、文献翻译、提问式—文献翻译、中间语种翻译和非翻译五种语言转换策略[3]: (1)提问式翻译是将提问式(源语种)翻译为目标语种,在目标语言中进行检索,返回的检索结果为目标语言。 (2)文献翻译方法指将目标语种转变为源语种,用提问式(源语种)进行检索,返回的检索结果为源语言。 (3)提问式—文献翻译方法是将提问式翻译方法和文献翻译法相结合的一种方法,先将提问式翻译为目标语种,在目标语言中进行检索,返回的检索结果为目标语言,并在此基础上,进一步将目标语言全部或部分翻译成源语种。 (4)中间语种翻译方法是将提问式和文献信息均翻译成由中间语种表示的方法。当两种语言之间无法直接进行翻译时,可以采用将源语种翻译为中间语种,再将中间语种翻译为目标语种,或将源语种与目标语种均翻译为中间语种。 (5)非翻译方法不对源语种和目标语种进行翻译,而是采用潜在语义标引、同源匹配、广义向量空间模型等具体方法。 2.2.2 转换策略的比较分析 研究者先后对人们提出的多语言转化策略的优势与不足进行了探讨,详见表1所示。 2.3 关于多语言转换方法的研究 按照多语言信息组织与检索语言转换过程中所需的资源进行分类,研究者们将语言转换方法分为基于机器翻译系统的方法、基于字典/词典方法、基于语料库的方法、基于本体的方法等。 2.3.1 多语言转换方法的类型 (1)基于机器翻译系统的方法 机器翻译技术是将一种语言文本自动翻译为另一种语言文本的计算机程序,目的是实现源语言与目标语言语义上的对等[7]。大型的机器翻译系统有美国的SYSTRAN和Google Translate等。赵铁军等重点介绍了统计机器翻译、机器翻译应用、机器翻译评价、跨语言信息检索等方面的研究工作[9]。张杰等基于机器翻译建立了一个面向英汉的跨语言信息检索系统,并通过实验提交四组运行结果(三组CLIR运行及一组单语运行),实现了完整的英—汉CLIR过程[10]。吴丹与何大庆探索了机器翻译在跨语言信息获取中的查询翻译、用户交互、去停用词、数据融合方面的贡献[11]。Chen等使用Google、Bing和SYSRANT机器翻译系统,将英文元数据记录翻译为中文,并使用5级里克特量表评估其流畅性和充分性[12]。庞观松等采用Google翻译,实现基于机器翻译的中、英、俄、法、西班牙5种语言跨语言学术检索[13]。Lin等研究了将机器翻译应用到汉英CLIR地震工程领域中的有效性[14]。 (2)基于字典/词典方法 基于词典的方法广泛用于查询翻译策略中,是通过词典将源语言翻译为合适的目标语言[15]。双语词典是目前常用的跨语言翻译知识源。吴丹建立了图书情报领域的专业词典和中英文标注词典,利用从中英文学术资源网站获得的两个领域语义词典,为多语言网络学术信息检索提供高效的翻译工具[1]。杨辉等采用英汉电子词典作为获取翻译知识的知识源,结合构建的英汉单语信息检索系统,实现完整的英汉双向CLIR过程[16]。陈琴提出一种基于最大熵模型建立(其文中称特殊词典)的双语词典,并对用户提交的查询进行双向翻译。选取15个用户,输入20个查询关键词,对比一般词典和特殊词典的双向翻译准确率[17]。 (3)基于语料库的方法 语料库是指由大量经过整理的文本形成的具有既定格式与标记的文本集[18]。语料库分为平行语料库与比较语料库两种。平行语料库的语料中包含文档及其相应的翻译文档,按照文档翻译的方式又分为文档对齐、语句对齐和语词对齐三种方式;可比语料库的语料中包含不同语种的涉及相似主题的文档,不同语种的文档之间不存在一一对应的关系[4]。基于平行语料库实现跨语言信息检索的方法有跨语言潜在索引、伪相关反馈方法和广义向量空间模型[19]。Yang和Li运用基于长度的方法和基于文本的方法,通过自动标题对齐,建立平行语料库[20]。他们还提出关联约束网络方法,使用平行语料库生成跨语言概念空间,帮助判断多语言罪犯、犯罪、位置及活动的相关性[21]。刘奇等提出URL模式与HTML结构相结合的平行网页获取方法[22];徐红姣等利用统计方法从英汉语句对齐平行语料中自动获取翻译词典[23];罗阳等采用以频繁序列模式为特征的SVM分类方法实现对译的双语资源挖掘[24]。罗远胜等通过双语平行语料库提取语言之间的语义对信息,提出双语最小二乘主题相关模型,其文档配对搜索和伪查询跨语言搜索性能明显优于跨语言潜在语义索引模型[25]。Wang等对开发网页作为多语语料库的可行性,用以翻译数字图书馆中跨语言检索的未知查询术语进行研究[26]。 (4)基于本体的方法 本体具有丰富的概念关系和推理能力,可从语义层面进行查询扩展,基于本体的多语言信息检索首先要解决的是多语本体的构建。多语言本体是本体在不同语种中的表现形式,类似于不同语言的语义词典。 基于本体构建的系统有MINS公司的Cindor以及瑞士和法国联合开发的欧洲8国跨语言信息检索系统[27]。王进等构建了基于本体的跨语言信息检索模型,以解决源语言与目标语言之间的转换中出现的语义损失与曲解问题。此模型主要有3个部分:基于字典的翻译模块、基于本体的语义模块、单一语种的信息检索模块。选取新浪网的体育类新闻背景,构建英汉双语本体库[28]。吴丹设计了本体驱动的跨语言信息检索模型,该模型主要由双语本体库、索引库、检索主体三部分组成[29];郝嘉树在跨语言信息流程中,设计了基于本体的系统构架,该系统包括提问式处理模块、提问式翻译模块、文档处理模块、本体与词典构建模块以及检索模块,其中多语本体和多语词典组成的模块分别作用于文档处理模块和翻译模块[30];Liu与Ma设计基于本体的多语言研发项目管理系统架构,该系统支持3种语言,有助于不同文化背景和使用偏好用户分享信息[31]。赵小兵等构建了基于本体的多民族语言知识库模型[32];吴丹和王惠临分析了多语本体在查询扩展、语义标注、基于概念索引3方面对改善跨语言信息检索的作用[33];黄新艳对汉英本体进行建立和管理,利用4种常见的数学模型来计算任意两个词的共现频率,以共现频率的高低来获取翻译等价对,用Jena解析用RDF描述的英文Ontology,设计一个类图的遍历思想的Java程序Transform.java,将英文的Ontology转换为英汉Ontology[34]。 2.3.2 对于多语言转换方法的比较分析 研究者先后提出多语言转化策略的优势与不足,详见表2所示。 除了上述方法之外,还有将字典/词典—语料库结合起来的混合方法,该方法综合了字典翻译的方便和语料库翻译的准确性、专业性的优势。词典可提供一定的词汇覆盖率,实现通用检索,语料库提供特定领域用语的匹配,可实现专业检索[40]。此外,基于主题词表的方法也是多语言检索的方法之一,其优点是能使用户构建出更好的查询条件。 2.4 关于辅助技术方法的研究 除了上文介绍的语言转换策略与方法之外,多语言信息检索的实现还需要一些辅助技术方法的支持,研究者们主要提出了以下辅助技术方法。 (1)查询扩展技术 用户提交原始提问式后,系统根据原提问式的同义词典及相关词典加入新的查询提问式,查询扩展可在翻译前或翻译后进行,也可在翻译前后同时进行。微软亚洲研究院提出了一种两步伪相关性反馈的中英文信息检索查询扩展方法:先使用翻译后的提问式检索出一系列文献信息并对其进行相关性排序(共现技术);再从结果文献排序前n篇文档中选取m个最高频率的词作为扩展提问式来扩展最初的查询[3]。Gao等提出跨语言查询建议的新方法,对原始查询和建议查询进行相似性度量,从不同语言的查询日志中挖掘相关查询[14]。 (2)共现技术 共现技术用来消除词的歧义性,根据是若两个有关联的词共同出现在文献的某一部分,就更容易确定其词义[3]。 (3)检索反馈技术 通过一次检索往往得不到想要的结果,这时就需要通过检索结果中反馈的信息对提问式检索方法或翻译方法进行改进[3]。吴丹等进行了基于伪相关反馈的英汉跨语言查询扩展对比试验,涉及对翻译前查询扩展、翻译后查询扩展以及翻译前与翻译后相结合的查询扩展3种方法,并探讨查询式的长度对每种方法的影响[41]。 (4)同源匹配 同源匹配技术不对源语言和目标语言进行翻译,是根据两种语言的语词拼写形式或读音相似性来判断其中一种语言语词的意义[6]。主要基于印欧语系中的英语、法语等有共同的起源,很多词有相似的拼写形式或者读音,将英语、法语、英法双语文件映射到一个向量空间中,可进行语义上的比较匹配[4]。 (5)潜在语义技术 潜在语义技术不用通过翻译就能实现跨语言信息检索,而是使用一种向量空间模型,首先需要以双语文档作为训练文档建立语词矩阵,其中翻译和查询都由K维的语词向量表达,理想情况是同一语义的词在一对双语文献中出现次数一样,以此矩阵为基础利用奇异值分解SVD(Singular Value Decomposition)导出K维语义向量空间[8]。Chen和Chiu提出基于概念桥接方法的国际专利分类的跨语言专利文献匹配解决方案,该方法应用潜在语义索引,从每个专利文献中抽取概念,再使用国际专利分类编码构建以不同语言表达的专利文献的跨语言中介[42]。Wei等设计了基于潜在语义索引的多语言文献聚类技术,能够从多语言文献中生成知识地图[43]。 (6)广义向量空间模型 该模型基本思想是根据双语训练文档集建立两个源语言与目标语的检索词——文档关联矩阵,在计算查询条件和文档的相似度时,考虑将经典的向量空间模型与关联矩阵相结合在源语言与目标语言之间实现映射关系[44]。唐国瑜等通过采用跨语言词相似度计算将单语广义向量空间模型拓展到跨语言广义空间向量模型,并且比较了不同相似度在文档聚类下的性能,同时提出适用于广义向量空间模型的特征选择算法[45]。 (7)基于中间语义方法 基于中间语义的方法是一种非翻译方法,通过建立中英文平行语料库,将两种语言投影到一个更小的语义空间中,并通过建立对应的语义对的方式实现源语言与目标语言之间的转换[18],并进一步对此方法进行TREC跨语言语料库的实验。邹小芳等建立了基于中间语义的包括中、英、法三种语言的多语言信息检索模型,并通过实验证明其具有较好的性能[46]。 (8)用户交互式参与方法 用户跨语言信息检索将用户集成到整个跨语言信息检索的过程中,由用户提出并修改查询,并且用户决定检索到的信息是否相关[47]。吴丹构建了英汉交互式跨语言信息检索系统,实现了系统的相关反馈功能,通过实验证明,此方法提高了检索效率[48]。吴丹在设计用户全程参与跨语言信息检索实验中,分别使用基准跨语言信息检索、翻译优化、翻译优化与查询扩展结合三种检索主题方法进行跨语言信息检索,研究结果表明用户更倾向于翻译优化与查询扩展结合的检索方法[47]。 (9)可视化方法与技术 可视化信息检索是指将信息资源、用户提问、信息检索模型、检索过程以及检索结果中各种不可见的内部语义关系转换成图形,并显示在一个二维、三维或多维的可视化空间中,帮助用户理解检索结果、把握检索方向,以提高信息检索的效率与性能。它是可视化技术在信息检索领域的应用[49]。张会平等提出了跨语言信息检索可视化模型,介绍了澳门法例资料查询系统,证明在跨语言信息检索中应用可视化技术能够提高检索效率及准确性[15],洪菀吟设计了多语言检索可视化界面,提出多语言信息检索的可视化模型及设计方案,证明信息可视化能够帮助用户更好地实行信息检索[50]。 除了上述方法之外,多语言信息检索还包括提问式构造法、提问词再赋权方法、基于关键词的翻译技术、伪相关反馈[19]等多种辅助技术与方法。 2.5 关于信息检索模型的研究 信息检索模型是信息检索的主要内容之一,运用数学或其他的语言和工具,对信息检索的主要要素——查询和文档,及其之间的匹配程度——相似度进行抽象描述,用于信息检索过程[51]。刘伟成根据对相关文档判定方法的不同,将信息检索模型分为布尔模型、向量空间模型、概率模型、语言模型4大类型[52]。刘伟成和孙吉红探讨了布尔模型、向量空间模型、概率模型、语言模型以及本体五种经典模型在CLIR中的应用,并从提出时间、理论基础、系统实现难度、部分匹配支持、学术研究状态、学术代表系统、商业运用情况、在跨语言检索中的应用情况、在查询翻译消歧中的应用、语义扩展10个方面对五种模型进行对比研究[44]。苏绥等将语言模型扩展应用到跨语言信息检索中,并介绍统计翻译模型和跨语言相关模型两种跨语言信息检索模型[53]。郑德权等提出结合本体论和统计方法的混合语言模型,用于CLIR,使用NTCIR(NII-NACSIS Test Collection for Information Retrieval,信息检索测试集评测会议)专题研讨会3中的中英CLIR数据集对该语言模型进行评价[54]。黄国斌等提出一种新的基于中间语义的CLIR模型[18]。Tsai等使用基于学习的排名算法构建多语言合并模型,并使用NICIR第3、第4、第5次专题研讨会的测试集评估此方法的性能[55]。 2.6 关于系统评测的研究 检索系统评测会议对于多语言信息组织与检索领域的发展起到很大的推动作用,研究者们提出的有影响力的系统评测会议主要包括文本检索会议(Text Retrieval Conference Series,TREC)、跨语言评价论坛(Cross Language Evaluation Forum,CLEF)和信息检索测试集评测会议(NII-NACSIS Test Collection for Information Retrieval,NTCIR)三大会议: 文本检索会议(Text Retrieval Conference Series,TREC),是国际信息检索领域最具权威的年度测评活动,旨在促进大规模文本检索领域的研究,加速研究成果向商业应用的转化,促进学术研究机构、商业团体和政府部门之间的交流与合作[56]。 跨语言评价论坛(Cross Language Evaluation Forum,CLEF),2000年9月开始举办,该论坛侧重于欧洲范围内跨语言检索问题的评价,其目标是加强用户友好、多语言、多模式检索系统的设计研究[57]。 信息检索测试集评测会议(NII-NACSIS Test Collection for Information Retrieval,NTCIR)是由日本国立信息研究所(NII)主办的信息检索测试集测评会议[58]。 以上的测评会议提供的测试文档集大多是基于新闻语料,吴丹构建了一套图书情报领域的多语言学术信息检索测评体系,填补了专门针对某个领域建立标准测试集这一空白[1]。 2.7 关于多语言信息组织及工具的研究 2.7.1 多语言领域本体研究 多语言领域本体是一种解决互联网信息资源语义化和多语言化需求问题的重要资源,在跨语言信息检索、机器翻译等多语言科技信息服务中具有重要作用。章成志介绍当前国内外关于多语言本体学习方法、工具以及应用项目等的相关动态。围绕多语言领域本体学习中的两个关键问题(双语术语抽取与概念层次体系构建)进行了深入研究。研究内容主要包括基于领域平行语料抽取的双语核心术语抽取研究、基于多层特征的一体化策略术语抽取研究、基于术语度约束的双语术语对齐研究、基于术语聚类的概念层次体系生成研究以及基于多语文本聚类的主题层次体系生成研究[59]。多语言本体也可用于数字图书馆,为用户提供具有丰富语义的、准确的跨语言信息资源提供有效帮助。章成志还通过医学和电子商务两个领域中的四个应用项目(BioCater、MUCHMORE、MULECO、M.O.R.E.),说明跨语言信息检索与多语言文本挖掘中多语言领域本体的应用情况,归纳数字图书馆环境下多语言领域本体学习的特点,提出面向数字图书馆应用的多语言领域本体学习基本框架以及多语言领域本体学习关键技术[60]。 2.7.2 多语种叙词表研究 多语种叙词表是网络数据库信息组织与检索的主要工具。多语种叙词表主要用于不同语言的用户对文献的标引和检索。拥有语种较多的叙词表有《多语言地质叙词表》、《职业培训多语言叙词表》、《欧洲财政浏览器叙词表》、《亚洲蔬菜叙词表》、《综合多语言环境叙词表》、《医学主题词表》、AGROVOC等[61]。AGROVOC是一种覆盖联合国粮农组织(FAO)所有领域的受控词表,涉及农业、林业、渔业、食物等相关领域,包括21种语言和3200个概念,目前关于农业领域的多语言知识组织系统有16个[62]。Yang等认为不同语言知识管理的主要挑战是跨语言语义互操作,提出使用约束关联网络方法构建跨语言叙词表[20]。Li和Yang用基于文本的方法,匹配网页上的英汉香港警方新闻发布文件,进而自动生成有效的跨语言叙词表[20]。Ma等基于简单知识组织系统,收集7种语言的地质年代表术语并编码到叙词表中,开发地质年代多语言主题词表,用于在线地质图互操作[63]。常春探讨了多语种叙词表汉语的翻译和维护工作,总结了多语种叙词表汉语翻译中应遵循的原则,并从目标语言翻译人员的角度,给出了两个维护工作的具体实例[64]。徐红姣等从汉化方法、汉语词汇的选取原则、叙词表辅助汉化平台的构建及汉化结果评价4个方面对英语EI叙词表和日语JST叙词表的汉化工作进行介绍[65]。Deng和Liu探讨了使用多语言叙词表本体自动组织网络教育资源[66]。 2.7.3 多语言知识组织系统互操作研究 知识组织系统是对人类知识结构进行表达和有组织地阐述的各种语义工具的统称,互操作性是指两个或多个系统相互使用已被交换的信息的能力。司莉探讨知识组织系统互操作研究计划,发现在18个不同结构间的互操作研究计划中,涉及两种知识组织系统的有13项,在37项研究计划中,涉及两种语言以上的互操作研究有17项。提出在我国知识组织系统与国外其他语言的知识组织系统的兼容方面,可将某一领域的较有影响的知识组织系统汉化,出版中文版,如尽早翻译出版DDC 21版。还可借鉴CAT/AGROVOC的映射方式,实现某一具体领域中外叙词表的互操作[67]。胡滨和吴雯娜对国内外知识组织系统互操作模式及方法进行研究,发现43项互操作研究计划中,涉及两种语言以上的互操作研究项目有19项[68]。 2.8 关于跨语言搜索引擎及信息检索系统的研究 2.8.1 跨语言搜索引擎 跨语言搜索引擎主要有Google、Yahoo、TITAN、APORT、ERIC等。何晓聪对Google的跨语言搜索引擎进行实验,发现Google的跨语言搜索引擎并未在真正意义上实现多语言信息检索[69]。吴丹和李瑞芬对包括Google、Yahoo、TITAN、APORT、ERIC在内的跨语言搜索引擎进行了介绍[4]。 此外,学术搜索是一种行业化的搜索引擎,庞观松等设计与实现跨语言智能学术搜索系统,并进行实验测试,发现该系统能为用户提供良好的学术搜索服务[70]。庞观松等还在跨语言学术搜索的基础上研究个性化检索技术,为用户提供个性化信息服务[13]。 2.8.2 跨语言信息检索系统 多语言信息检索领域的进展促进了多语言信息检索系统的研发与利用。跨语言信息检索系统包括示范系统以及商业系统,示范系统有Mulinex、Aport、Arctos、Eric、Mudial系统等,商业系统有Cindor、Rotondo、TextFinder系统等[4]。 Mulinex系统由德国人工智能研究中心与内容提供商Bertelsmann、意大利软件与系统集成公司DATAMAT、欧洲多媒体与网络信息交互研发公司Grolier Interactive Europe、翻译工具开发商TRADOS合作研发。何晓聪对Mulinex系统进行介绍,此系统有6个含有10万~20万词条的双语词典数据库,可实现英、法、德三语间的两两互译,此系统还提供“查询帮助”模块,将经过翻译的查询检索词再翻译成源语言。检索结果包含语种、题名、记录、长度、分类和提要。其中提要以文件信息语言显示,为便于用户理解,Mulinex系统提供了机器翻译服务[69]。 吴丹和李瑞芬对Keizai和Twentyone系统进行过介绍[4]。吴丹还分析了Cindor与欧洲八国的跨语言信息检索系统两个国外的基于本体的跨语言信息检索系统[27]。此外,吴丹构建了图书情报领域的跨语言信息检索系统,命名为Multilingual Information in LIS:Knowledge,Translation,Evaluation and Access,简称Milk-Tea,对系统进行自动检索实验和用户检索实验并对实验结果进行分析评论,验证了Milk-Tea在检索性能方面的有效性,同时也比较了系统所用三种翻译资源的效果[1]。 2.9 关于多语言信息组织与检索应用的研究 2.9.1 应用于数字图书馆的跨语言信息查询 数字图书馆中存在网络用户的广泛性、信息语种的信息资料全面及资料的多语种化以及数字图书馆服务的便捷性[71]。王昊建立了基于CLIR技术的数字图书馆系统模型,采用的语言转换策略为提问式翻译,该系统模型包括6个模块:分别为用户查询服务模块、资源调度模块、CLIR模块、信息资料数据库模块、信息数据加工模块以及元数据库模块[71]。杜慧平从系统总体规划、多语言信息存取功能、资源保障以及关键技术方面对欧洲数字图书馆项目Europeana的多语言存取进行研究,从而进一步了解其存在的问题及可能的解决办法[72]。 2.9.2 应用于专业数据库的跨语言资源检索 机器人信息系统数据库是中国高等教育文献保障系统(CLAIS)二期重点资助的特色数据库建设项目之一。该系统中储存有关机器人的中文和英文信息,郭宇锋和黄敏将跨语言信息检索技术应用在数据库系统中,方便用户通过一个提问获取较全的信息。他们还采用词典和语料库混合的方法实现跨语言信息检索并建立系统结构图[40]。 2.9.3 应用于电子商务的跨语言商品搜索 张李义等构建了跨语言图书商品信息检索系统,系统分为翻译、搜索和结果三个处理模块,从当当网、卓越亚马逊和新华书店三家图书销售网站搜集文档,采用机器可读词典和词语对贡献率统计相结合的方法对查询式翻译进行消歧优化,将此系统应用于图书商品搜索,通过进行实验测评,结果表明翻译质量和检索效果得到提高[29]。Huang和Tsai在其设计和开发的比价代理商中使用多语本体克服全球电子商务语言障碍,能够发现和比较网上零售商用不同的语言销售的商品,帮助用户购买网上廉价及不在本地销售的商品[73]。 此外,多语言信息组织与检索也应用在专利查新领域[74]、犯罪分析[21]、移动信息服务[75]等方面。 3 总结与启示 我们根据研究成果的主题分布,将近10年来多语言信息组织与检索研究分为多语言信息需求、语言转换策略(包括提问式翻译、文献翻译、提问式—文献翻译、中间语种翻译、非翻译)、语言转换方法(基于机器翻译系统、字典/词典、语料库、本体等方法)、多语言信息检索辅助技术方法(包括查询扩展技术、共现技术、检索反馈技术、同源匹配、潜在语义技术、广义向量空间模型、基于中间语义方法、用户交互式参与方法、可视化方法与技术等)、信息组织与检索模型、系统评测会议、多语言信息组织及工具、跨语言搜索引擎及信息检索系统以及多语言信息组织与检索的应用9个方面。研究还发现:①从2004年此领域开始注重多语言信息检索技术与方法方面的概述到近几年转向技术方法的具体应用;②从对检索词与文档的简单匹配转变为更加注重语义层面的检索,如在翻译资源的选择方面,开始注重将本体引用到多语言信息检索中;③在多语言信息检索过程中,让用户与系统进行交互式信息检索,便于检索结果的消歧;④在返回检索结果时,以可视化的形式将检索结果呈现出来,便于用户理解。 我们认为多语言信息组织与检索研究应当重视加强以下几个方向: (1)加强用户需求及用户行为研究。目前关于用户多语言信息组织与检索的需求和用户行为方面的研究成果较少,仅发现吴丹发表的2篇文章,就用户对数字图书馆的多语言需求以及用户与新兴网络学术资源的交互行为所作的研究。用户需求是多语言信息组织与检索系统设计、开发以及后期不断完善的基础。以用户为中心是近几年软件设计中兴起的一个重要原则,强调从用户的理解、用户的兴趣、用户的习惯、用户的期望、用户的评价方面开始设计和运作[76]。可结合问卷调查、用户信息行为测试、有声思维法、深入访谈、人机交互以及用户日志分析法等,将调查的领域扩展到数字图书馆、搜索引擎、信息检索系统、专业数据库、电子商务、专利查新、移动信息服务等方面,深入了解用户对于多语言信息资源、信息系统与平台的具体需求,为研发多语言信息检索系统与平台提供坚实的前期数据支持。 (2)加快研发以应用为导向的多语言信息检索平台。经笔者调查,很少有可公开访问的多语言检索平台,而且不少在文献中介绍过的多语言检索系统实际无法使用,如Eric、Mudial、Cindor、Rotondo、TextFinder、Keizai、Twentyone等,这些系统大多为实验系统,尚未公开,无法对其做深入研究。用户的跨语言信息需求日益突出,急需我们推出检索性能高、实用性强、容纳丰富资源的多语言信息检索系统。同时,还应对已在网上运行的多语言信息检索系统性能不断优化。如2010年6月11日发布的“世界科学跨语言检索平台”(World Wide Science),可以检索超过70多个国家的大约100个数据库与门户网站的信息。虽然目前能够实现多语言信息检索,但其部分系统功能(检索途径、检索结果排序及查准率、结果翻译、界面友好)亟待改进,可通过用户行为测试了解用户需求,并结合系统可用性测试,不断完善系统功能。 (3)注重基于语义的信息组织与检索研究。基于语义的多语言信息组织与检索是实现内容检索的关键,要以基于内容的信息组织与检索理论为前提,通过开发、完善平台的语义扩展检索和概念联想检索功能,揭示知识元之间的联系和脉络,实现多语种、多类型信息检索过程的交互化以及检索结果的高度整合,从而进一步优化跨语言信息检索系统的性能,推动多语言信息检索迈入基于语义的知识检索的阶段。目前大数据环境下,实现基于语义的信息组织与检索已成为信息管理领域亟须解决的重大课题。 (4)合并相关性检索结果,提高检索性能。目前搜索引擎(如Google)的多语言信息检索结果通常将与查询语种相同的语种文献信息排列在前,这样,很难在前一些页面找到其他语种信息的相关信息。可以借鉴目前搜索引擎的相关做法并加以改造,笔者建议,第一,开发能够适应多种语言检索结果输出的相关性排序算法;第二,为用户推荐相关关键词,包括不同语种的同义词、近义词和相关词等,以供用户参考与选择;第三,是在不侵犯隐私的前提下合理搜集和记录用户偏好,研究用户行为特征,以使检索结果更加符合用户需求。 (5)重视将可视化技术用于多语言信息组织与检索系统。可视化将信息转化为一种视觉形式,充分利用人们对可视模式快速识别的自然能力去进行观测、浏览、判别和理解信息[77]。可视化加强了概念之间的语义关系,具有形象直观的作用,能够提高检索效率。由于大部分使用多语言信息检索系统的用户并没有具备较好的多语言基础,可视化系统则可以有效地帮助用户的理解和使用。将可视化的相关技术应用到跨语言信息检索中能够提供检索的效率及准确性[15]。实现跨语言检索系统的可视化,涉及查询可视化(对查询扩展与翻译的可视化展示)、查询结果可视化与查询反馈可视化等。也需要调研用户对可视化界面的需求及期望,并进行实验,在用户的满意度评价基础上不断完善系统功能。 收稿日期:2014年12月26日。标签:自然语言处理论文; 信息检索论文; 语料库论文; 多语言论文; 翻译专业论文; 语义分析论文; 用户研究论文; 语言翻译论文; 机器翻译论文; 双语论文;