面向内容的信息服务研究,本文主要内容关键词为:信息服务论文,内容论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
[分类号]G351
在网络时代,如何帮助用户进行信息内容的准确定位,有效揭示众多信息之间的语义关系,以挖掘隐藏在信息中的知识内容,已成为网络时代信息服务需要解决的重要课题。本文拟从以下方面探讨这一问题。
1 信息的专题门户服务
这是一种旨在对网上的专题信息资源进行挖掘,以扩展其有效利用面,由此满足专业用户信息需求的服务。其特点是:①对网上某个专题的资源进行识别、筛选、过滤、描述、评价;②组织目录式信息,提供源站点地址。尽管当前的搜索引擎已为人们进行网上综合搜寻给予了导航,但实际上人们更需要专业导航,尤其是专业研究人员。
例如,在英国,通过其数字图书馆(ELIB)项目的开发,已经建立了包括医学、管理、法律、工程、数学、计算机、物理等专题门户站点。在一些大学里,有很多教授专家亲自参加网上资源的筛选工作,从而使这些门户站点的资源更加专业化。
在美国,从事信息服务的人员都在学习对网络信息资源进行“重新包装”的知识与技能,如密西根大学图书馆制作的“面向内容的因特网资源指南”,每月有15万次的访问量,很受欢迎。
澳大利亚农业门户网站(http://www.AGRIGATE.edu.au)是由澳大利亚研究理事会和Melbourne提供资助,各大学图书馆共同合作开发的农业资源网站。目的是鉴别和传播高质量的农业研究信息资源。几乎所有有价值的农业信息都能在该网站上找到。网站的信息资源由专业情报人员和农业专家共同进行筛选,因而信息的价值很高。
中国的这种专题需求趋势也是明显的,尤其是在大学与研究机构中。因此,这将成为大学图书馆、研究所信息部门网络信息服务的一部重头戏。近年来,国内一些情报机构建立的专业信息导航库在为本行业用户服务时取得了一定的成效。如交通部情报所的交通信息导航库;军事医学科学院建立的因特网生物医学信息指南系统,将网络信息资源按主题分为生物医学、临床医学、军事医学等栏目;上海医科大学以医学检索引擎、医学指南、生物医学数据库为检索出发点,将因特网上一大批高质量的医学网址按分类体系建成医学导航库。
2 信息的知识挖掘服务
这里所说的知识挖掘服务主要是指通过对文献的定性定量处理来挖掘隐含在文献内的知识的一种信息服务。在网络环境下,人们着力于对具有上述功能的智能检索分析系统的开发,由此来代替效率低下的人工的定量定性的综合分析加工。借助于网络信息技术的发展,人们有可能使传统的文献计量分析方法获得全新的发展,有可能将这一传统的分析方法推向实际应用。
最近,美国开发出了基于文献计量分析的知识查询系统,并借助于可视化技术首次将复杂的统计结果,用通俗易懂的图像形式显示给用户,从而实现了知识信息提供服务的一次革命。根据“文献引文统计信息检索系统”检索界面,若你对“老子”感兴趣,就可向系统输入一个“老”字,系统就会向你提供与老子文献相关的作者信息,如孟子、韩非子等。
另外,人们研究的专利统计分析,事实上也体现了一种知识挖掘的思想。目前,包括英国的WPI和美国、日本等国的知识产权网络站点, 都在提供专利文献检索服务的同时,提供专利统计分析服务。笔者所在学校也在前国防科工委的资助下开发了基于网络环境运行的“中国专利文献统计分析”系统。
3 信息内容的智能化跟踪
面对庞大的因特网信息资源,人们需要对感兴趣的内容进行跟踪搜索。在1999年,美国亚利桑那大学开发了一种搜索蜘蛛,它可以通过用户提供的起始URL地址,来了解用户喜欢什么样的主页,然后通过链接在网上搜寻,将适合其需求的主页报告给用户。近期,该大学又开发出一种被称为“元”蜘蛛(MetaSpider)的新项目,它可以根据用户提供的关键词来同时搜寻几个搜索引擎,并收集与关键词相关的页面。这些页面的主题还可以进一步用分类区域图来显示。利用该技术,他们又成功地开发出用于查询医学数据库的“Cancer Spider”和用于对竞争性因特网环境(Competitive Internet Environment)进行智能监控的“IC Spider”,其中后者更有着广泛的应用前景。 如IBM 公司可利用“IC Spider”搜寻查看所有与其竞争对手SEAGATE公司主页相链接的含有“磁盘驱动器”一词的页面;又如专家可通过“IC Spider”查看含有“知识管理”关键词的页面以及相关链接,由此来了解有关研究者最近的研究动向[1-2]。
4 词表导航
在信息集成环境下,人们需要实现跨主题资源的互操作,实现用户与系统的一种交互式导航,实现专指度很高的概念检索,这就用到了词表技术。当前,词表技术研究的一个重要发展趋势就是与网络检索这类应用系统的结合[3]。 美国伊利诺大学与亚利桑那大学正在研究被称为“信息交互空间”(Interspace)的项目,目的就是建立一种多媒体信息的语义索引。 这种语义索引是建立在一种概念空间(conceptspace)的基础上的,它是基于概念与分类的聚类统计这样一种思路, 首先需要从某一网络上的各资源单元中逐步抽取出某一主题领域的相关概念,形成某一主题领域的概念空间词表,然后利用“自组织图像”方法(Self-Organizing Map-SOM)形成概念图,由此形成概念空间。
通过概念空间词表界面,用户可以随意输入任何一个单词、词组或多个检索词,这时搜索界面会在一个显示框中显示按与用户检索词相关程度排序的概念空间词汇,用户可以从中选择合意的词添加到搜索框中,以提高检索的精确度。美国伊利诺大学与亚利桑那大学已开发出了基于美国国防高级研究署信息技术办公室(ITO )的国防科技项目研究报告摘要信息的主题概念空间(ITO Space)及其概念图(ITO Map),以及基于美国癌症医学数据库的癌症概念空间(Cancer Space)和癌症概念图(Cancer Map)[4-6]。
最近,亚利桑那大学正在开发研究用于浏览检索大规模地理图像信息的可视化词表——植物与温度信息的主题词表。他们提出了一种利用机器学习技术来实现自动生成大量地理信息的可视化图表方法。该主题词表的数据主要来自NASA的Pathfinder AVHRR数据和美国地理测量字典。该系统使用SOM技术对AVHRR数据进行分类和演示。AVHRR 词表创建的步骤是:①特征向量抽取;②自组织概念图生成,即形成AVHRR 数据的可视化词表界面。使用者可以通过此词表浏览了解地表植物和地表温度信息;③基于可视化图表进行图像信息检索,具体是基于这样一种思路:在一种由一系列表示图像资料的纹理特征概念的“图像区域块”构成的可视化词表界面中,用户可以选择其中与查询概念相匹配的区域进行显示,然后再将这些图像实例信息输入到基于图像纹理实例查询的搜索引擎中,以查询其他类似的图像概念[7]。
5 知识的可视化显示
知识的可视化显示能更好地帮助人们对信息内容及其隐含知识的感知与理解。当前这类研究一个是集中在词表的可视化显示中,另一个则是分析处理后的信息的可视化显示。
● 词表的可视化显示。美国亚利桑那大学的数字图书馆创始工程二期项目中有很多这类研究,如用于概念空间图像显示的图像词表技术和SOM技术,并利用这些技术研究开发了一种被称为“三维Borg 立方体”(3-DBorg Cube)用于显示概念空间三维图形的SOM系统。用户进入该系统界面,通过相应的选择,屏幕会以线性列表形式显示主题概念,选择其中一个,点击右键,系统会显示该概念的注释;点击左键,系统会以三维立体结构形式显示与该词汇相关的不少于26个的近邻词[8 ]。
● 分析处理信息的可视化显示。传统引文统计信息的表述往往让人感到枯燥难懂。借助于可视化技术,这项传统研究又被注入了新的生命力。如一个外国人想了解:中国古代哲学家有哪些?他们之间的关系又如何?假设他只知道一个“Lao”,通过作者链(AuthorLink )界面,他便可得到一张“中国古代哲学家图”,其中包括老子、庄子、孙子等等。
6 专家系统
专家系统一个重要的特征是能够提供用于获得某个结论的推理解释。专家系统的构建,需要捕捉某个应用领域中多个专家的专门知识。
美国亚利桑那大学MIS 系最近开发了一个用于法律人员进行犯罪案件分析的专家系统——COPLINK系统, 这是一个在网络平台下对数字资源进行知识管理的典型例子。该系统有两个特点:①具有很强的智能分析能力。比如研究人员可以在数据库中储存某犯罪行为特征的数据,这样系统就可以通过“罪犯犯罪惯技”信息来识别采用类似手法的犯罪行为。这种惯技分析法的一个特殊应用是用于鉴别其它类似犯罪现场,由此获得的物理证据可以帮助执法人员判断当前嫌疑犯犯罪的可能性。②具有多系统的集成性。COPLINK系统集成了不同数据源, 提供了统一直观的Web页面。法律执行人员在不需要学习很多专业知识的情况下, 就可以轻松使用专家系统界面。
7 网络计量学
自从1997年Almind和Ingwersen 首次提出“网络计量学”(Webometrics)[9]以来,人们已将其应用于信息资源内容开发和服务的研究领域中。网络期刊Cybermetrics的创刊,不仅为研究者们提供了世界范围发表和传递相关研究成果的窗口,而且通过对研究主题范围的系统征文,使网络信息的定量研究走向系统化和科学化[10]。调查研究表明:网络计量学不仅拓展了计量学研究的新内容和新领域,而且成为信息资源内容开发和指导网络信息服务的新工具和新途径。
在网络信息的内容挖掘和信息服务方面,网络计量学的应用主要是通过对站点的数量、超文本节点链接的深度、科学文献的标识和特征、正文的相关性、文件的延伸、引文的数量和结构、关键词的命中率、用户点击网页的频率、各种类型信息的地理分布、各种语言出现的频率等因素进行统计分析,建立数学模型、网络图表和矩阵图, 达到找出Web信息变化的规律,探明某学科的核心Web信息源, 分析用户的检索行为和引文形式或行为,评估网络信息的即时响应和网上科技期刊的影响因素,分辨科学的知识结构,考察搜索引擎的检索功能和稳定性,开发功能更强的搜索引擎和服务软件等目的。