网络信息检索策略与技巧,本文主要内容关键词为:信息检索论文,策略论文,技巧论文,网络论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1网络信息资源及其分布特点
1.1分布形式多样,内容千变万化
因特网上网站信息资源不受限制,自由发展,从一个网站资源可链接到更多相关或相似的网站资源,同样,这个资源也可能是另外一个资源链接而来。这种前所未有的自由度使得信息的交换和分享的潜力无穷。
1.2网上信息资源瞬息万变
指因特网上的环境是变化的。任何网站资源都有在短时间内建立、更新、更换地址或消失的可能,使得网上的信息资源瞬息万变。
1.3网络信息资源质量不均匀
质量不均匀是网络信息资源与传统信息资源(图书、期刊等印刷品资源)的本质区别。在我们周围大部分现实的文献信息资源都是经过不同职业的人所过滤过:书籍、期刊、杂志里面的信息经编辑把关;书目、索引等信息库由专家和学者筛选整理过;报纸、电视或广播里不论新闻、娱乐性节目,甚至广告都经过制作人员和编辑人员的过滤整理。因特网是无人管理的“网中之网”,网上的资源并不像图书和期刊那样经过编辑和出版部门的权威审核,而且网站资源的提供不受任何组织或制度的控制,导致了网上资源质量的良莠不齐。
1.4网络信息资源分布不均匀
因特网协会最近展开的一次调查显示,美国大约有340万台电脑与网络连接,西欧有50万台,而全非洲仅有2.71万台,中美洲和南美洲有1.6万台,中东有1.3万台。科学技术的差距扩大了贫富差距,也使信息源分布的不均衡更加明显。互联网络是信息的载体,网络环境下信息源分布的不均衡带来了新的信息霸权。目前,互联网上的英语内容占90%,法语只有5%,西班牙语约占2%。网络上中文信息的贫乏,已成为一个现实问题。
1.5潜在性
因特网是完全开放的网络(并不属于任何组织或机构的管理范围),人人都有上网的自由。一方面,政府、公司、组织、团体甚至个人都可以成为因特网上信息资源的接受者;另一方面,政府、公司、组织、团体甚至个人在网上建立网站,这些使用者都有可能从单向的信息接受者转变成网站信息资源的提供者。
1.6模糊性
因特网的逐渐商业化将自己与商业广告紧密联系在一起。以前,不论是书、期刊或视听资料,都容易辨别到底是广告或非商业资料。但现在,许多企业在网上提供相关资料的同时,还在网页上向因特网用户提示该公司服务、产品介绍等。这种信息本身与商业广告相结合,就使得商业与非商业信息的界限逐渐模糊。
2网络信息获取的方法和途径
2.1利用搜索引擎
搜索引擎的最大特点是在互联网上的综合覆盖面大,信息新颖。搜索引擎最擅长检索那些处于“灰色地带”、不易归类的主题以及一些专指性很强的词汇,搜索引擎的优点还体现在相关排列上,能够将其认为相关性高的检索结果排列在前。其主要缺点是信息质量不高,检索结果中经常重复出现同一情报资源的不同部分,这些都与搜索引擎的内部技术有关。此外搜索引擎常局限于检索互联网上的信息,检索其他信息则需考虑其他检索工具。
2.2借助于专业信息资源指南系统
这是一个通过对网上某一领域信息资源的挖掘、采集、加工、整理和有序化,重建形成一个专业为用户提供服务的信息资源指南。
2.3利用专业网站
平时注意积累,将有意无意发现的专业网站地址积累下来,需要时直接进入专业网站进行查询。
2.4采用新的技术
Push技术作为互联网上一项新兴技术,提出了一种新的服务模型,在这种模型下的服务具有主动性,可直接把用户感兴趣的信息推送给用户而无须他们自己来取,从而提高信息获取效率,提高网络吞吐率;此外,Push技术还允许用户与提供信息的服务器之间透明地进行通讯,极大地方便了用户的使用。
3网络信息的检索策略与技巧
通常,衡量网络信息检索的满意程度主要基于以下指标:查全率、查准率、花费时间、所花费用等。由于网络信息资源具有分散、无序,更迭消亡无法预测的特点,检索者根本无法判断网上究竟有多少信息与自己的需求相关,因此,对网络信息检索查全率这一指标并不十分苛求,只是希望尽量查全。鉴于我国目前网络现状,检索者对网络信息检索花费时间、所花费用等无法预期控制,因此,在进行网络信息检索时,检索者主要关注的还是查准率,即在信息源中查找到所需的信息内容才是信息检索的目的。尽管因特网上提供信息的网站在不断增多,但由于因特网上的信息资源很大程度上处于混乱的无序状态,信息分散而不全面,缺乏有效的信息质量控制和检索词汇控制,加之网络检索工具功能不尽完善等问题,在海量信息中进行检索和查询,其结果往往是漫长的查询等待过程和大量的毫不相关的信息垃圾的堆列,这就大大影响了网络信息检索利用的效率。如此,因特网上信息的查询检索就存在着查准率和检索效果不理想,误检和漏查严重等问题。
在利用Internet进行信息检索时,要获得全面、快速、准确、优化的检索结果,提高检索的效率,必须采取一定的检索策略和技巧。由于目前的搜索引擎从功能上和检索效果上已逐渐成为网络信息检索的主要工具,因此,本文所讨论的提高网络信息检索的查全率和查准率的策略和技巧主要是针对搜索引擎的。由于搜索引擎所用数据库是由软件自动标引产生,因此,其数据库更新快、规模较大,对检索者而言,利用搜索引擎进行检索其结果可能相对具有高的查全率,但由于检索结果往往非常庞大,其查准率却不高。因此,提高检索查准率就成为一项非常迫切的任务。在进行网络信息检索时,提高因特网上信息检索查全率,尤其是查准率,提高检索效率,可以遵循以下策略和技巧:
3.1搜索引擎的选用原则
(1)有针对性地选择搜索引擎 用不同的搜索引擎进行查询得到的结果常常有很大的差异。要提高信息查准率,检索时尽量选择使用专题搜索引擎。
(2)使用多元搜索引擎 多元搜索引擎只需输入一次关键词就可以对多个搜索引擎进行查询,具有单一搜索引擎无法比拟的检索效率和效果。
(3)根据要求选择查询方法 如果需要快速找到一些相关性比较大的信息,可以使用目录式搜索引擎的查找功能,如使用Yahoo!。如果想得到比较系统的信息,可以使用目录一级一级地进行查找。如果要找的信息比较冷门,应该用比较大的搜索引擎查找,如Altavista或Hotbot。
3.2使用搜索引擎的策略和技巧
(1)利用选项界定查询。目前越来越多的搜索引擎开始提供更多的查询选项,利用这些选项人们可以轻松地构造比较复杂的搜索模式,进行更为精确的查询,并且能更好地控制查询结果的显示。
(2)利用短语检索。为了提高查准率,许多检索引擎都提供短语检索的功能。如果使用引号标记短语,用双引号将短语括起,例如查找:“网络信息”,在搜索结果中,就只会查找到包含特定的字符串“网络信息”的页面。短语检索比单词检索得出的检索结果相关性要大得多。因此使用搜索引擎检索时能用短语就尽量使用短语进行检索。
(3)使用特定的词汇和专业术语。用于检索的关键词越具体、专指,找到所需要的信息的可能性就越大,查准率越高。
(4)使用布尔逻辑和括号。利用逻辑词,常用的有:AND(和)、OR(或)、NOT(否)、NEAR(两个单词的靠近程度)进行搜索界定,或使用括号将检索词分别组合等,有助于使检索结果非常精确。尽量使用多个而不是一个或少许单词。用多个检索词,加上适当的逻辑字符来缩小搜索范围,可显著提高搜索结果的准确度。(注:输入代表逻辑关系的字符时,一定要用半角。)
(5)使用双引号进行精确检索。如果检索词是一个词组或多个汉字,最好的办法就是将它们用双引号括起来,这样,可以得到少而精确的结果。
(6)使用加减号限定检索。很多搜索引擎都支持在搜索词前冠以加号(+)限定搜索结果中必须包含的词汇,用减号(-)限定搜索结果不能包含的词汇。当发现查询结果量太大时,使用“+”号会特别管用。
(7)尽量使用“高级搜索”选项。搜索引擎的高级搜索功能选项在默认值、灵活性、定位精确性等方面都优于普通搜索功能。利用“高级搜索”中的选项限制可以有效地控制检索结果的范围。使用搜索引擎的高级搜索进行查询,提交的检索结果都会很切题!(8)细化查询。许多搜索引擎都提供对搜索结果进行细化与“在检索结果中查询”的功能,如有的搜索引擎在结果中有“查询类似网页”的按钮,一些搜索引擎如“天网”等则可以对得到的结果进行新一轮的查询。
(9)注意细节。在Internet上进行检索时如果能注意一些细节问题,常常能增加搜索结果的准确性,如许多搜索引擎都区分字母的大小写,因此,在以公司名或地名等关键词进行搜索时,应该正确使用它们的大小写字母形式。
(10)充分利用搜索引擎的新功能。许多搜索引擎都采用了“相关目录”和“相关网站”功能,以确保检索者“搜准”,同时依靠“相关网页”,或“相关新闻”来保证检索者“搜全”。