用同义表达形式来扩充信息检索的查询语句例证研究——对于一种基于语义的搜索方式的若干设想,本文主要内容关键词为:语义论文,例证论文,语句论文,信息检索论文,形式论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
一、工作的定位:超越检索串的词汇形式
搜索指在网络环境下,用户在计算机终端上输入一个检索串,来向网络查询自己关心的某项内容,以获取相关的信息。而搜索引擎系统则通过一定的信息搜集方式(比如,关键词匹配等),采集一批相关的网页或文档返回给用户。其中,检索串主要是自然语言的短语形式,用以表达用户的查询意图和要求;也可以称之为查询串,或查询短语。对于基于关键词检索的搜索方式来说,搜索(引擎)系统不必“理解”用户给出的查询串所表示的意义;径直通过一定的算法,把包含查询串的有关网页或文档返回给用户。比如,用户输入查询串“景德镇御器厂”,搜索引擎Baidu(百度)返回:
a.题为《明代后期景德镇御器厂匠役制度的变化》《浅谈明代后期景德镇御器厂的龙缸制作》等文章,因为这些文章的标题中就有跟查询串完全一样的短语;
b.《景德镇陶瓷》《瓷都风情》《杂碎新闻联播》《lanyanqi的博客》等文章或网页,因为这些文章(或网页中的文章)中有跟查询串完全一样的短语;
c.《文化共享——御器厂》《千年景德镇》等文章,因为这些文章中有跟查询串比较接近的“明洪武年间,朝廷在景德镇专设御器厂”和“明朝建国的第二年,景德镇就设立了御器厂”等字符串。因为查询串“景德镇御器厂”中的“景德镇”和“御器厂”都是比较专门的名词,所以检索结果比较令人满意。如果换成比较一般的常用名词,情况可能就大不一样了。比如,用户输入查询串“诚信的故事”,搜索引擎Google返回:
a.题为《诚信的故事》《一个关于诚信的故事》等文章或帖子,因为这些文章(或帖子)的标题跟查询串完全一样,或包含着跟查询串一样的短语;
b.题为《诚信故事》《诚信小故事》《共铸诚信小故事》《中国古代诚信小故事汇编》等帖子或网页,因为这些帖子(或网页)的标题跟查询串比较接近,或包含着跟查询串比较近似的短语;
c.题为《天大举办“诚信故事”晚会》《诚信通故事:悄悄地“成交”!》等跟查询目标无关的帖子,因为这些帖子的标题中包含着跟查询串比较近似的短语。
在某种程度上说,这种搜索方式是基于检索串的词汇形式的。于是,如果用户输入的检索串中的词汇跟目标文本中的相关词汇不一致,即同义不同形;那么,返回的检索结果就不可能是用户所希望的。最终,影响了信息的查准率和查全率。比如,用户输入查询串“奥运标志”,基于关键词的搜索引擎就可能遗漏包含“奥林匹克运动会(的)徽标、五环图”等关键词的相关文档。其中,括号表示词语的出现与否,不影响检索结果。
在这种情况下,人们自然会希望搜索引擎系统能够超越词汇的形式,“理解”检索串的意义,进行基于语义的搜索。对于基于语义的搜索过程来说,首要的一步是:搜索(引擎)系统必须“理解”用户给出的检索串所表示的意义;因为,至少在用户的心目中,这意义里面理所当然地包含了用户的查询意图和要求。但是,要让一个计算机系统去理解用户用自然语言的短语形式表达的查询请求的意义,这几乎是不可能的。原因至少有三个:第一,什么是意义?什么是一个短语(或词和句子)的意义?这在哲学、逻辑学和语言学上都没有统一的认识;于是,怎样才算“理解”了有关查询短语的意义,这本身又是不明确的。第二,用户输入的检索串往往是一种极为简略的短语形式,并不一定能准确(无误)、清晰(无歧义)地表达出他的查询意图,即词不达意或表达不忠实(于意义)。第三,对于相同的查询意图,不同的用户输入的检索串在语言形式上可能差别极大,往往采用了不同的表达方式,即表达差异或同义歧形。(注:关于第二、三两点,参考陈沛(2005)第25页。)比如,用户输入查询串“三千常用英语单词”,搜索引擎Google返回:
a.《最有效的英语单词记忆方法》《背英语单词的五大捷径》《背单词的最科学方法》《潜移默化学英语》等文章;
b.《中国考试在线》《中图读者俱乐部》《解放军报网络版》《中企动力科技集团股份有限公司南京分公司》等网页。
因为这些文章(或网页中的文章)的句子中断断续续地有查询串中出现过的词语。例如:
在记忆英语单词时,……三千到四千这个等级,是非常常用的单词,……
其实,用户想要的是一个“三千常用英语单词词表”。当我们用这个绝对准确无误的查询串检索时,Google返回的结果基本跟上面一样。究其原因,搜索引擎无法从这两个查询串上理解用户真正的查询意图和要求。换句话说,搜索引擎不能理解这两个短语的意义。因为,人们在语言交际时,说话人就是这样习惯于用相对贫乏的语言形式来传递相对丰富的意义;而听话人则通过隐喻(metaphor)、图式(scheme)等认知方面的概念结构(conceptual structure),合作原则(co-operation principle)及会话准则(the maxims of conversation)等语用原则,再加上世界知识(knowledge of real world)等常识,来补充和推导,从而识解(construe)出话语的意义内容(content of communication)和交际意图(intent of communication)。(注:参考Tai,James H-Y(戴浩一)(2005)。)显然,我们目前还不可能要求一个搜索引擎系统能达到这么高的智能水平。
对于基于语义的搜索过程来说,非常重要的第二步是:搜索(引擎)系统必须“理解”相关网页上有关文档的主题和意义,并能够断定有关文档能够满足用户通过其检索串所表达的查询意图和要求。基于上述同样的理由,要让一个计算机系统去理解一个网页上有关文档的主题和意义,这就更加不可能了。并且,上面所说的查询串的表达不忠和表达差异,显然又增加了有关正文跟检索串相匹配的难度。
总之,基于语义的搜索处于一种无奈的二律背反的境地:一方面查询串的表达不忠和表达差异等问题使得基于词汇形式的关键词检索这种搜索方式困难重重,从而呼唤基于语义理解的搜索方式来解围;另一方面意义本身的难以定义和语义理解的困难使得基于语义理解这种搜索方式恰似海上仙山,缥缈遥远而不可及。在这种两难的困境中,我们尝试从语言学的角度,通过对“意义”和“意义相同”的某种可操作的限制,来发展一种基于语义的扩充式关键词搜索方式和技术路线。
二、创新的核心:发展一种建立同义异形的查询串集合的检索方式
最基本的思路是:通过同义表达形式来抓住查询串的“意义”,并生成更多的检索串。
要发展基于语义的搜索(引擎)系统,首先必须在技术上对“意义”和“语义理解”等概念作出明确的限定。而正是在如何形式化地、可操作地定义“意义”方面,WordNet的实践给我们提供了有益的启示。鉴于定义意义和概念的困难,WordNet使用同义词集合(Synset)来代表概念,词汇关系在词语之间体现,语义关系在概念之间体现;整个英语词汇被组织为一个又一个的同义词集合,每个集合都代表一个词汇概念;不同的概念之间通过指针来表示其间的同义、反义和上下位等语义关系。这样,原来抽象的概念被形式化了,变得具体而且可以通过词汇意义来操作,概念之间还可以建立多种语义关系的联系和推理。(注:详见Fellbaum(1998),参考毕玉德、崔杞鲜、刘扬(2005)第256页。)
现在,对于基于语义的搜索工作来说,我们可以通过建立一个跟查询串同义但异形的短语集合(Synset+)来代表查询串的意义。这样,如果一个搜索引擎系统能够通过某种计算方式,给出一个跟查询串同义但异形的短语集合;那么,这就在操作上说明它已经在形式上“理解”了查询串的意义。更为重要的是,我们可以用这个包括了原本的查询串在内的同义表达集合(Synset++),作为多个查询串来进行多线索并发的基于关键词的检索;从而保证那些包含跟原本的查询串同义但异形的短语的文本,也有可能进入检索结果的候选者的队列;这样,可以使得搜索引擎系统更加智能化和更加“善解人意”。比如:
(1)用户输入查询串“奥运标志”,搜索引擎给出下列同义表达:
a.奥运会(的)标志,b.奥林匹克运动会(的)标志,c.五环图,d.奥运徽标,e.奥运会(的)徽标,f.奥林匹克运动会(的)徽标,……
(2)用户输入查询串“不能一起吃的食物”,搜索引擎给出下列同义表达:
a.不可(以)一起吃的食物,b.不(应)该一起吃的食物,c.不宜(于)一起吃的食物,d.不能同(时)吃的食物,e.不能混(合)吃的食物,f.不能一起吃的东西,g.不能一起食用的东西,h.不可(以)一起吃的东西,i.不(应)该一起吃的东西,j.不宜(于)一起吃的东西,k.不能同(时)吃的东西,1.不能混(合)吃的东西,m.哪些食物不能一起吃,n.什么食物不能一起吃,o.哪些食物不宜(于)同(时)吃,p.哪些东西不可(以)混(合)吃,q.哪些东西不(应)该一同吃,……
对于(1)这种情况来说,只要把查询串“奥运标志”中的“奥运”和“标志”分别用常见的同义表达来替换,再分别组合,就得到了一个同义异形的查询串集合。对于(2)这种情况来说,只要把查询串“不能一起吃的食物”中的“能”“一起”“吃”和“食物”,分别用常见的同义表达来替换,再分别组合;然后又把指称形式的“不能一起吃的食物”变换成相应的陈述形式的疑问式表达“哪些/什么食物不能一起吃?”,再进行相关的同义表达替换,就形成了一个很大的查询串集合。有了这么多的查询线索,通过一定的算法,也许能够比较全面、准确地找回用户心目中所希望的目标文本。
那么,怎么来评价搜索(引擎)系统给出的跟查询串同义的表达集合Synset+是不是真正跟查询串同义,或者是不是该用户目前的查询所需要的同义关系呢?这就少不了用户的参与。也就是说,必须在桌面上进行友好的人机交互,由用户通过按钮来剔出错误或不必要的同义表达形式(合称“伪同义表达形式”),选择他认为恰当的同义表达形式(称为“真同义表达形式”)。然后,搜索(引擎)系统对原查询串在内的、经过用户验证的同义表达集合Synset++进行优先级排序;当然用户可以修改这种给出的排序,也可以自定义某种他认为最合适的排序方式。为了尽可能减少查询串中可能存在的组合歧义字段(CAS)的干扰,搜索(引擎)系统可以先对用户的查询串进行分词,给出按词连写的形式;即把查询字串改变为查询词串,然后由用户进行验证和修改。比如:
(1)求租大学生宿舍的床位→求租 大学生 宿舍 的 床位
这样,可以避免把“大学生|宿舍”理解为“大|学生宿舍”。
有了这种用户验证机制,就可以剔除有歧义的查询串的同义表达集合Synset+中跟用户的查询意图无关的形式。比如,用户喜欢用“NP1(的)NP2”这种隐含谓词的短语作为检索串;事实上,这种句法类型的许多实例因为可以补入不同的谓词而带有歧义。例如:
(2)鲁迅的书→a.鲁迅[写]的书,b.鲁迅[拥有/收藏]的书,c.[写/赞扬/批判/骂]鲁迅的书,……
(3)奥运故事→a,[讲述/关于]奥运的故事,b.奥运会上[发生]的故事
如果搜索(引擎)系统给出(2)的同义表达集合a-c,用户可以通过按钮只选择其中的一个。这样,在用户的积极参与下,同义表达集合Synset+具有潜在的消除歧义的功能。值得一提的是,像(2)(3)这种结构,在形式语用学(formal pragmatics)上称为“准索引结构”(quasi indexical constructions);因为其中含有变量性成分(主要是隐含的谓词),必须对这种自由变量进行赋值才能得到完整和明确的意义。这种结构就像包含指示词(deictic)等索引词语的句子一样,必须经过一种充盈过程(saturation process),才能表达完整的意义。例如:(注:详见蒋严(2005)第146~147页,例子也引自该文。)
(4)a.She put it there.b.Mary put the book on the table.
(4a)中的回指词(anaphora)和索引词(indexicals)通过充盈过程而得到赋值,得到语义完整的形式(4b)。其中,表示“扩展为如下显义(explicature)”。
一般上网搜索的用户都是识文断字的有文化的人士,他们不仅具有分词和消歧的能力。而且,为了快速准确地检索到他们真正需要的文本,他们具有这种有限、适度参与的积极性;因为他们也懂得“磨刀不误砍柴工”这个道理。这种做法,实际上已经把问答(Question Ansering)系统的有关技术融合进来了。
三、基于语义的搜索的资源需求和同义表达的类型
根据上文的思路,开发这种路子的基于语义的搜索(引擎)系统,必须有下列系统或资源来支持:
(1)快速自动分词系统,精度在95%左右;
(2)快速自动词类标注系统,精度在95%左右;
(3)同义表达的分析和生成系统,精度在60%左右;
(4)搜罗较广的同义词词典或类义词词典;
(5)搜罗较广的通用词汇的简称—全称对应词典;
(6)搜罗较广的专名(人名、地名、机构名等)词典;
其实,除了(3)这一项,其余都是一般的搜索(引擎)系统需要的。也就是说,这种基于语义的搜索系统的代价还是比较小的,也是目前的语言研究和计算技术所能承受的。
同义表达的分析和生成系统的成功开发,有赖于我们对汉语有关同义表达的深入和全面的调查研究。根据我们对自己用过的一些查询短语的分析,发现同义表达(或关键词)除了一般的同义词之外,特别要注意下列广义的同义形式:
(2)简称与全称,如:(霍元甲)武校——(霍元甲)武术学校;
(2)分析性表达与综合性表达,如:未婚的男子(的人数)——单身汉(的人数),《雷雨》的作者(的语言风格)——曹禺(的语言风格),父亲——当父亲的;
(3)抽象性表达与具体性表达,如:奥运标志——五环图,2008年北京奥运吉祥物——福娃,中华人民共和国国歌——义勇军进行曲;
(4)内涵性表达与外延性表达,如:Phosphor:晨星、晓星、启明星、金星——Hesperus:暮星、昏星、长庚星、金星,啤酒——液体面包;
(5)正名与别名等同物异名表达,如:西红柿(的营养价值)——番茄(的营养价值),计算机(的价格)——电脑(的价格),版主——斑竹。
当然,上面的分类只是举例性的;具体的情况,还有待于进一步的调查和分析。
值得注意的是,查询串作为对搜索任务和要求的语言描述,其同义表达形式及它们之间的同义关系,常常要突破一般语言学上所承认的类型。比如,我们通过搜索引擎Google检索“鲁迅的书”时,从返回文本中发现了“鲁迅的作品、鲁迅的著作、鲁迅的书籍”等常规的同义表达形式;但是,检索“肥胖公式”时,从返回文本中发现了“体重公式、体重指数、标准体重公式”等非常规的同义表达形式。显然,在一般的情况下,“公式”不等于“指数”,“肥胖”不等于“体重”,而“肥胖”与“标准体重”几乎是反义关系;但是,在这个特定的搜索任务之下,“肥胖公式”=“体重公式”,“体重公式”=“体重指数(公式)”,“肥胖公式”=“标准体重公式”。并且,由于“公式”的意思是“用数学符号或文字表示有关数量之间的计算关系的式子”,因而“公式”又有“数学公式”和“计算公式”等同义形式。“计算”又有“测算”“推算”和“判定”等同义形式,“标准”又有“理想”等同义形式。由于“体重”的专业表达是“身体质量”,“肥胖公式”计算的是“肥胖的程度”。再加上各种句法变换形式,于是在真实的文本中,“肥胖公式”就可能有下列同义表达形式:
a.肥胖(程度)计算公式
g.计算肥胖指数的公式
b.计算肥胖(程度)的公式 h.标准体重(的)(计算)公式
c.体重指数(计算)(公式)i.理想体重(的)(计算)公式
d.计算体重指数(的)公式 i.计算标准体重(的)公式e.身体质量(计算)公式
k.体重标准(的)(计算)公式
f.测算身体质量的公式
在“希望得到一个‘可以计算肥胖程度的数学公式’”这种查询目标和要求之下,(a-k)具有同义互释关系(paraphrase),是特定话语中的同义表达形式。可见,在语义搜索这种应用目标的驱动之下,话语中同义表达的各种可能的类型和具体的表现形式,是一个全新的、大有可为的研究课题。
另外,查询串中的模糊词语(fuzzy expression)也可以通过建立数据库的方法来进行定量化的分化。比如,用户输入查询串“便宜的旅馆”;但是,其目标文本(旅馆的介绍文章)中一般不会自己说“本旅馆是一家便宜的旅馆”之类的话,倒可能有“本旅馆的晚餐品种丰富,价格便宜”之类的话。于是,基于关键词匹配的搜索引擎系统不仅找不到有关的文档,而且会返回一大批无关的文档。现在,基于语义的搜索引擎系统可以通过价位列表来供用户选择,从而明确什么叫“便宜的旅馆”。比如:
a.10元/床/天,b.15元/床/天,c.20元/床/天,d.25元/床/天,e.30元/床/天,f.35元/床/天,g.40元/床/天,h.50元/床/天,i.60元/床/天,……
用户可以通过按钮来选择某个(或某个区间的)价位,而这被选中的价位表达,又被搜索引擎作为新的查询串。这些新的查询串可能正好跟旅馆介绍文档中的价位说明相匹配,从而能找到用户心目中所希望的目标文档。这说明基于自然语言的语义理解的搜索系统,是有可能、也有必要融入数据库方法的有关技术的。
四、总结识别同义表达形式的启发式规则
上文所说的查询串的同义表达形式,基本上都是连续形式;但是,在相关的目标文本中,可能出现的经常是不连续的形式(即中间插入了其他成分)。比如,我们输入查询串“肥胖公式”,搜索引擎Google返回99200项自称是符合“肥胖公式”的查询结果。我们对比考察了第1~10项和第91~100项两组,发现:前者(第1~10项)的标题或正文中有字符串“肥胖公式”,或者“肥胖”和“公式”在近邻的上下文中出现。例如:
a.题为《中国版成人肥胖公式》《肥胖公式——大眼睛》和《自动计算肥胖公式》等文章或帖子的标题,因为标题中正好有字符串“肥胖公式”。
b.题为《肥胖》《各种标准体重计算公式》和《网易教育频道》等文章或网页的标题,因为文章或帖子的正文中正好有字符串“肥胖公式”。
c.题为《CENT博客网》《各种标准体重和理想体重的计算公式》《中国健身:计算公式》和《博客搜索beta_文章_bmi》等文章、网页或博客的标题,因为文章或帖子的正文中“肥胖”和“公式”多次近邻地出现。比如,《CENT博客网》中的“公式二:身体质量指数(BMl)BMI:体重/身高[2](公尺)BMI:18.5~24.9为正常;BMI>26.4为肥胖;BMI>35为病态肥胖公式三:……”。
从中正好可以看出基于关键词匹配的检索路线的局限。比如,如果看到《各种标准体重和理想体重的计算公式》这个标题,人们就能一下子断定它一定符合查询要求;因为可以根据“标准体重和理想体重的计算公式”的意义,知道这种公式实际上就等于是“肥胖公式”。但是,搜索引擎Google却把它排在第6位。再比如,《博客搜索beta_文章_bmi》下有这样一段文字:
体重指数,即BMI很久以来被认为是评价18岁以上成人群体营养状况的常用指标。体重指数(BMl)=体重(公斤)÷身高(米)的平方。BMI这个计算肥胖的公式已经在西方使用了大概100年左右,科学家之前认为:BMI指数18.5以下的为体重不足;8.5至24.9属于正常…
如果浏览一下,马上就能断定它一定符合查询要求;因为“体重指数”差不多是“肥胖公式”的同义形式,而“计算肥胖的公式”则是“肥胖公式”的更为完整的形式。但是,搜索引擎Google却把它排在第9位;因为“计算肥胖的公式”是“肥胖公式”的不连续的同义形式。后者(第91~100项)的标题和正文中有字符串“肥胖公式”的只有以下一项:
计算自己是否属于肥胖公式[食客论坛]
计算自己是否属于肥胖公式……如何计算自己是否属于肥胖(成人标准):标准体重(公斤)=(身高(厘米)-100)×0.9…
其他都是“肥胖”和“公式”在近邻的上下文中出现。比如:
(1)a.肥胖程度计算公式BMI法。
b.体重(kg)÷身高(m)=bmi值是一个计算肥胖指数(bmi值)的公式。
c.……或以下列公式计算:标准体重(kg)=[身高(cm)-100]×0.9,如果患者实际体重超过标准体重20%即可诊断为肥胖症,……
d.体重标准计算公式…收藏帖子…轻度肥胖:体重指数>30……
(2)a.肥胖致阳痿计算有公式…肥胖阳痿公式。
b.这里有一个公式,大家可以根据这个公式计算对于自己来说中低强度运动心率是多少。公式:中低强度运动心率=(220-…肥胖的发生归根结底与缺少运动有着直接关系,
c.寿命计算公式如果您是一位男性,请以86岁作为基数,依次回答以下问题并计算;
如果您是一位女性,请以89岁为基数。现在开始计算:…肥胖:寿命减少5年;
显然,(1)中的“肥胖程度计算公式”和“体重标准计算公式”都是“肥胖公式”的同义扩展形式,即把“公式”和其修饰语“肥胖(程度)/体重标准”所隐含的谓词“计算”表达出来了。但是,基于关键词的搜索引擎会把这种直接相关的文档排在比较靠后的位置;把它们跟(2)中这类无关或相关度不高的文档相提并论。
因此可见,我们必须研究这种跟查询串同义的不连续的表达形式。与此同时,还要研究如何排除虽然包含查询串、但是跟查询要求无关的文本。比如,我们输入查询串“鲁迅的书”,搜索引擎Google返回3470000项自称是符合“鲁迅的书”的查询结果。我们抽查了第1~10项和第91~100项两组,发现第1~10项中直接相关的只有3项,其他要么关系不大,要么根本无关。例如:
a.题为《鲁迅电子书专题》《鲁迅—图书搜索测试版》和《鲁迅TXT,鲁迅免费下载,鲁迅电子书……》的有关网页;因为其中有“鲁迅”和“书”这两个关键词;
b.题为《鲁迅的书账》《鲁迅一生花了多少钱买书》和《新版〈鲁迅全集〉价高不可攀》的无关网页或帖子;也因为其中有“鲁迅”和“书”这两个关键词。
最有启发性的是第91~100项,虽然文本基本上都是无关的;但是,因为其中有包含查询串的语句,所以被检索出来并作为相关文档而返回。例如:
a.读鲁迅的书,走胡适的路。
b.在那个年代里,鲁迅的书是可以完整地读到的。
c.知道邵洵美这个人的人,大部分还是得益于看鲁迅的书。
d.一个二十五岁的学者,写出第一本评价鲁迅的书。
那么,能不能总结出一定的启发式规则(heuristic rules),来快速地识别它们到底是不是查询串的同义形式呢?应该是有可能的。比如,如果“鲁迅的书”前面有“读、看、骂、评价”一类经常跟“书”搭配的动词,那么往往跟用户所要的“[关于]鲁迅[所写]的书[的清单]”一类查询目标关系不大。查询串中的有关词语的意义及词语之间深层次的语义关系,有时可以提供一些线索。试比较下列形式:
a.鲁迅的书:鲁迅写作的书>鲁迅拥有的书
b.路明的书:路明拥有的书>路明写作的书
c.鲁迅的故事:讲述鲁迅的故事>鲁迅写作的故事
尽管“鲁迅的书”和“路明的书”都至少隐含了写作和拥有两种语义关系,但是,因为鲁迅是作家,所以写作这种关系是优先的。尽管“鲁迅的故事”至少可以表达“讲述鲁迅的故事”(“鲁迅”充当受事)和“鲁迅写作的故事”(“鲁迅”充当施事)两种意义,但是,“故事”前面的名词理解为受事(名词“故事”所隐含的谓词“讲述”所支配的对象或内容)是优先性的。相反,“书”前面的名词理解为施事(名词“书”所隐含的谓词“写作”的主体)是优先性的。因此,“鲁迅的书”前面出现动词时,“鲁迅”有可能沦为受事;比如,“骂鲁迅的书、评价鲁迅的书”等。
总之,为了给基于语义的搜索引擎系统提供有用的语言学知识,必须仔细地研究话语中有关同义表达的各种可能的类型和具体的表现形式,研究如何识别同义表达形式的各种启发式规则;特别是要探索如何识别跟查询串形近同义的、包含了查询串中的关键词的不连续的形式,并有效地排除虽然包含了查询串中的关键词但是跟查询目标无关的形式。
五、总结和启示
上面讨论的诸多方面,其主要意思可以总结为以下几个方面:(注:这一部分中的总结文字主要是博士生夏军读了本文的初稿后写的体会,我们略作修改和补充后附在文末,以帮助读者的阅读和理解。在此,向夏军同学致以诚挚的谢意。)
(1)因为不能对检索对象本身作出处理,那么就在检索串上做文章,使基于语义的搜索在语言学上具有可行性。
(2)用同义检索串集合的方式,一是可以明确检索者的意图,二是可以扩大(也是更合理化)检索被选项的范围,从而获得更精确全面的检索结果。
(3)同义表达的各种可能的类型和具体表现形式及其处理,至少有以下几方面内容:
a.要寻找意义相同或相近、形式相似(连续和不连续)的表达式,并优先排序;
b.要排除形式相同或相近、但意义无关或相关度不高的表达式,至少推后其排序;
c.要寻找意义相同或相近、但形式相去甚远的表达式,根据意义相似的程度排序。
在这种应用背景上,我们可以做的具体的事情有:
a.统计检索用户常用的检索项的类型;
b.对主要的检索串类型及其可能的歧义类型作出分析,建立类型上的同义结构库;
c.利用并完善已有的同义词汇库,建立常用的同义查询串库;
d.得出相应的同义检索项集合(矩阵);
e.对查询串进行组成成分的结构和功能分析,离析出一个一个的信息块(chunks)或特征项(characteristic items)。这样,用户对于矩阵中的同义检索串可以不必一条一条地肯定或否定,而是对矩阵中的某一特征做肯定或否定,从而避免了用户操作的冗余性。
f.可以具体从某一种类型(原则上先统计调查)入手,如“领属短语”或“名词+的+名词”,作深入研究,一项一项地做下去。
这种研究对于拓宽语法分析的理论和方法,应该是有直接的推动作用的。