网络信息资源检索存在的问题及解决对策,本文主要内容关键词为:信息资源论文,对策论文,网络论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
伴随着信息技术的迅猛发展,信息资源的重要性愈显突出,而网络信息资源也逐步成为这个时代的核心资源。然而,在浩如烟海的信息世界,欲在短时间内找寻出用户所需要的信息资源却成为一个极大的难题,也正是在这样的难题重压之下,网络信息资源检索的产生并迅速繁荣发展,毫无疑问地成为这一信息海洋的航标与灯塔。
1 网络信息资源的特点及与网络信息检索的相互促进
与传统信息资源相比,网络信息资源在数量、结构、分布、传播范围、类型、载体形态等方面都有着显著的差异,并且在网络信息检索的过程中,也呈现出一些新的特点,使之与网络信息检索之间存在着相互促进的作用。
1.1 网络信息资源的快捷性
网络信息资源的快捷性在用户的主动选择和信息检索的作用下,表现得淋漓尽致。由于信息用户的主动性,可以直接挑选自己感兴趣的信息阅读,不分时间、不分空间,随时查阅各类网络信息资源,寻找自己感兴趣的娱乐或消遣,而成为最为有效的传播途径。但传统文献信息用户受时间限制,无法随时、即时地选择自己感兴趣的内容。
1.2 网络信息资源的丰富性
网络信息资源的丰富性是由信息检索表达出来的。那就是无论你想查什么信息,都会想到在网上看看,而且总能查到一些有用的东西,甚至你会得到你预想不到的效果。所以,当今互联网络已经成为一个人类最大的信息资源库,内容无所不包,而且正以指数形式上升,信息越多,互联网对信息检索工具的依赖性就越强。
1.3 网络信息资源的交互作用
网络信息资源的交互作用也是通过信息检索实现的。现在网上有各类娱乐活动,如网上聊天、网上下棋、互动游戏等,项目很多,网站也不同,通过各类搜索引擎,用户可以查找到自己感兴趣的互动区域,使人与人的交流达到以前无法想象的效果。所有这些功能的实现都是由网络搜索引擎的任意跳跃查找才得以实现。[1]
1.4 网络信息资源的智能性
网络信息资源的另一特点,即可以自动记忆信息用户的点击次数,通过对查询内容或点击次数的对比,可以判断信息需求者感兴趣的方向,有针对性地增加相关内容。[2]而对于传统文献信息,要统计信息传播影响范围,相对比较困难。这可能是网络信息检索在信息技术的基础上,为网络信息快速、大范围传播起到的另一附加促进作用。
1.5 网络信息资源的任意链接性
网络信息资源的超级链接也在网络信息资源检索的作用下表现出前所未有的信息链接特性。由搜索引擎查到某一方面的信息,其后又有相关信息相链接,信息查询者只要感兴趣,可以在各个相关信息中跳跃穿梭,无头无尾,不断满足用户的某一信息资源需求,同时又会发现新的、有价值的信息,进入新的领域。[3]
2 网络信息资源检索中存在的问题
由于网络信息资源以上的这些特点,给网络信息资源检索带来了极大的方便,但随之而来的问题也愈显突出。
2.1 在快捷性方面存在的问题
从快捷性方面看,网络信息发布或更新非常快,甚至由于修改与发布的容易,使得在某一时刻查询是一种结果,而在另一时刻查询却又是不同的结果,因而,快捷性造成了查询结果的多变性。网络信息无所不包,虽增加了查全的效果,但由于学科不同,自然语言在不同学科中的一词多义现象的存在,造成查询结果中真正有用的信息不多。
2.2 在信息资源组织分类方面存在的问题
大多数网站在信息资源的分类组织上比较混乱。主要表现在类目划分标准不合理,对信息资源在同一层次的划分标准不统一,出现同时用两个或两个以上标准划分的现象。[4]这样,在资源划分时就会产生重复和遗漏的现象。而且,在各类目的展开中,有不符合基本逻辑的现象发生,存在整体不能包含局部的现象,也就是说,存在一个类目不能包含它的下一层次子类的现象。笔者认为:应该明确事物的外延和内涵,在信息分类时做到概念清晰,检索结果力求达到检准率和检全率的恰当的结合。从一定意义上讲,这样确实方便了用户及时地了解最新的信息,但过多的动态信息使信息组织显得没有规律、没有逻辑性、没有层次,也会给用户的检索带来不便。
2.3 搜索引擎中存在的问题
用户在使用搜索引擎检索信息时,经常会搜索出一些毫不相干的内容,大大降低了信息资源的可利用度。分类目录搜索引擎采用人工干预技术,信息分类不规范,没有一个统一的控制词表和参照标准,分类目录差别较大;搜索范围较小,数据库更新慢,查询交叉类目时容易遗漏;如果用户检索请求没有对应的分类目录,则无法进行查找;信息遗漏不可避免,查全率低。关键词式全文搜索引擎采用机器人搜索技术,自动标引不完善,数据库更新快,检索功能强,但是信息关联难以控制且重复链接信息较多,查准率低。[5]搜索引擎索引库中全部或部分下载的网页中有许多无用或暂时信息,影响了索引速度,也浪费了网络通信资源;站点、网页的内容经常变化,实时性难以保证。另外,搜索引擎的截词技术、词位限定检索、字段限定检索或范围检索技术应用十分有限,信息检索结果不太令人满意。
2.4 多媒体技术方面存在的问题
信息检索技术正在从传统的线性文本检索向超文本支持的非线性多媒体检索发展,然而图像、声频、视频的多媒体检索技术却还是襁褓中的婴儿,需要特别的关心与爱护。[6]目前,多媒体检索技术主要借助于文本的信息检索,一般不涉及多媒体自身特征的分析处理,即用户从反映多媒体信息内容的文字性描述(如题名、类别、主题等)角度来入手检索,而以多媒体本身的颜色、纹理、形状、轮廓、时空关系等基本特征为入口进行检索的技术还处于研究之中。基于内容的多媒体信息检索存在的缺陷有:对其进行基于内容的识别和解释,多媒体特征的提取在检索中占有重要地位;多媒体的许多特征并不能用简单的数值和字符来精确表达,需要能表达多媒体内容特征的查询方式及用户接口;具有时空关系的多媒体数据必须确保各对象间的时空同步,它直接影响到数据库的数据模型和索引方式。
2.5 信息工作者方面存在的问题
网络信息资源检索不尽如人意主要是因为从事网络信息工作的人员大多不是专业的分类人员,缺少专业知识,具体网站的信息组织人员也受到工作量的制约,不可能经过仔细的考虑去对信息资源进行组织与检索。这必然导致了信息资源检索过程中,类目名称设置得不够合理,此类问题屡见不鲜,给用户查询网络信息在一定程度上造成误导。这些问题集中表现在检索人员在检索前,常常忽视对检索课题主题内容的确切分析,而导致在检索过程中走了很多的弯路,浪费了宝贵的时间和精力。
2.6 信息用户方面存在的问题
用户使用网络也存在着不适应性和局限性。网络信息资源在数量、结构、分布、类型和控制机制、传递手段等方面,都与传统的文献信息资源有着显著差异,传统的文献信息检索行为习惯,对用户仍有着广泛而深刻地影响。用户对网络信息资源的了解及其利用还存在着一个认识、接受和熟悉的过程,加之用户的受教育程度、知识结构等原因,也造成用户利用网络信息资源的局限性。主要表现在:用户对信息检索需求的理解和检索策略的制定关系到信息检索的质量;用户的计算机操作能力及网络相关知识的掌握程度影响着信息检索的效率;用户对网络信息检索工具的应用熟练程度影响着信息检索的效果;用户的外语水平影响着信息检索的广度与深度。
3 网络信息资源检索应采取的对策
网络信息资源检索提供了信息检索的基本理论和方法,使信息用户能有效地获取和利用网络信息资源。在这一过程中,涉及许多环节,针对以上网络信息资源存在的问题,应当从多方面入手,多途径解决问题。
3.1 统一网络信息资源在分类组织上的标准
网络信息资源纷繁杂乱,需要对数据进行挖掘以实现精确分类。因此,必须制定一个统一严格的分类方法来管理,新的网络信息分类标准应是传统文献分类标准与当前网络信息分类方法相互融合的产物,传统文献分类标准应兼备传统文献分类的科学性和目前网络信息分类方法的灵活性。同时,国家应制定相关法律加强网站管理监督,严格把关,对质量较差的网站加以限制,甚至予以取缔;制定相关政策,提高网络规范程度,以保证用户的检索效率;[7]规范网络术语,使其与常规术语接轨,提高资源共享程度。
3.2 发展搜索引擎技术,弥补不足
现有搜索引擎漏检、误检率较高,检索效率不甚理想。新开发的搜索引擎技术必须具有:信息发掘功能,数据零点更新,即及时链接新增的信息,剔除被删除的站点;多途径检索功能,用户进行交互式检索,控制信息输出,获得满意的结果;信息推荐功能,按信息关联程度排序,重要而准确的信息排在前列;高检索效率功能,虚假信息和垃圾信息被过滤,真实信息不遗漏,检准率和检全率最佳化;智能检索功能,自动分析、理解与处理检索词,为用户提供所需信息;协作检索功能,信息检索系统协同作业,不同地区、专业、语种、类型的搜索引擎应当实现数据库有条件共享或互相满足对方的信息检索请求。[8]搜索引擎技术需要运用查询分派、数据库选择、文本选择和结果综合等技术,将多个搜索引擎有机整合,使网络信息搜索能力和覆盖面增大。
3.3 开发基于多媒体的信息检索工具
鉴于网络信息资源中多媒体成分越来越多,应积极开发基于多媒体的信息检索工具,突破传统的基于文本检索技术的局限。这种检索工具可直接对图像、视频、音频内容进行分析,抽取特征和语义,对其内容进行全面准确的标引,建立“内容—对象”关系型索引多媒体数据库。检索时计算机程序自动获取用户查询内容,然后与多媒体索引库匹配并提供内容完全一致的检索结果。对于多媒体信息对象的语义、特征,还应该包括根据人的自身体验进行明确的或者模糊的信息检索;将各类数据库合并,可提供综合的各种特征信息;甚至在图像、视频、音频的多媒体基础上,增加诸如气味、口感等多媒体检索。
3.4 注重检索主题的正确分析与选择
信息工作者要在检索前对要检索文献的范围和内容进行界定,对检索课题的主题进行正确、全面的分析。这样,既能保证检索质量也能提高检索效率,同时也是实现检索策略质量和效果最优化的基础。信息工作者需要对主题进行以下正确的分析和选择:(1)一般概念的分析。分析出检索课题主题内容所涉及的主要概念,并找出能代表这些概念的若干个词或词组,分析概念之间的关系。概念分析的结果应以单元词或词组的形式列出,以便制定下一步检索策略。(2)隐含概念的分析。隐含概念是指课题中没有明确指出的,但又与课题密切相关的概念,通常包括相关概念和上下位概念。有些课题的实质性内容往往很难从课题的名称上反映出来,课题所隐含的概念和相关的内容需要从课题所属的专业角度作深入分析,才能提炼出能够反映课题内容的检索概念。例如“废物利用”中的“利用”一词隐含着“处理”、“回收”等具体的处理方法,因此“处理”、“回收”是“废物利用”这个课题的隐含概念。(3)核心概念的选取。在分析课题中,挑选出能反映课题要求的最重要的概念,在概念分析中对有些检索词中已经含有的某些概念应予以排除。例如,课题“搜索引擎搜索信息”,从字面上看,这个课题可划分为三个概念,即“搜索引擎”、“搜索”、“信息”。但搜索引擎即是搜索信息之用,因此可将“搜索”这一概念排除在外,因此对这一课题可提出两个核心概念即“搜索引擎”和“信息”。
3.5 用户友好化的进一步提高
未来科技的发展都要以人为本,网络信息检索也不例外,用户友好化是一个重要的发展趋势。它主要包括两个方面的内容,一是用户界面友好化,使用户更方便、快捷地使用各种检索工具,满足用户各种检索要求。由于因特网是一个开放的网络,网络上的信息检索工具也越过了传统的检索中介而面向所有终端用户。在这种情况下,用户界面的易用性成为评价检索工具性能的极其重要的指标,一个友好的用户界面应该能够支持用户多种语言、多种逻辑方式、多种角度进行提问检索,尽可能使用户付出最小的努力就能掌握检索工具的使用。另一方面是为更好的检索结果提供方式,使用户方便地进行浏览、选择和利用。
4 结论
开发利用网络信息资源的重点应当是认清网络信息资源检索存在的问题并采取相应的解决对策,各种新型网络信息检索工具的研制、网络信息检索理论的深入探索也必将推动信息资源管理学科的发展。
收稿日期:2005-06-22