我国网络信息挖掘的研究现状_搜索引擎论文

我国网络信息挖掘的研究现状_搜索引擎论文

我国互联网信息挖掘研究现状,本文主要内容关键词为:互联网论文,现状论文,我国论文,信息论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

[分类号]G354

互联网上的信息挖掘是互联网信息检索的最高层次。尽管搜索引擎为人们搜集网上信息提供了便利,但是,其覆盖率有限,查全率低,不能针对特定的用户特殊服务,即不具有个性化。而信息挖掘就是从互联网上相关的资源和行为中抽取感兴趣的、有用的模式和隐含的信息,实现搜索引擎所不具备的功能。互联网作为一个大的、分布广泛的、全球性的信息服务中心,为信息挖掘提供了丰富的资源。基于此,近几年我国计算机、图书情报界研究人员开始对信息挖掘理论和技术进行研究与探讨,通过研究人员的不懈努力,取得了一些进展,现笔者对我国信息挖掘研究的现状作一概述。

1 信息挖掘与数据挖掘

数据挖掘概念源于知识发现。对于知识发现,人们有两种看法:一种看法认为,知识发现包括6方面的内容[1-2]:

● 首先熟悉应用领域的数据和背景知识,了解所要完成的知识发现的任务性质。

● 数据选择。根据用户要求,从数据库中提取与知识发现相关的数据,知识发现将主要从这些数据中进行提取。

● 数据预处理与交换。从与知识发现相关的数据集合中除去明显错误的数据和冗余的数据,进一步精减所选数据中的有用部分,并将数据转换成有效形式,以便更多、更有效地开采数据;

● 数据挖掘。根据知识发现任务的要求,选择合适的数据开采算法(包括选取合适的模型和参数),在数据库中寻求感兴趣的模型,并用一定的方法转换成某种易于理解的形式。

● 模式解释。对发现的模式进行解释和评估,必要时需要重复前面处理中的某些步骤以反复提取。

● 知识评价。将发现的知识以用户能理解的方式提供给用户,并试用之。

第二种看法认为有9方面的内容[3]:

● 熟悉应用领域的背景知识及了解用户知识发现任务的性质。

● 确定和搜寻与任务有关的数据集合。

● 数据清理和预处理,包括除去错误和冗余数据,处理丢失数据,更新数据和时序信息并将其转换成数据采掘工具所需的表达式。

● 数据缩减转换,通过降低维数和进行数据转换减少数据量,降低数据的复杂程度。

● 确定数据采掘任务,如聚集、分类、线性回归等。

● 选择数据采掘算法和适当的模型与参数。

● 执行数据采掘过程,发现模式并转换成易理解的形式(如分类规则和树等)。

● 评价和解释发现的模式,必要时反复执行前7个步骤。

● 将模式提交给用户或应用到系统中,整个过程是一个以知识使用者为中心,人机交换的探索过程。

虽然划分的粗细程度不一样,但有一点是共同的,即数据挖掘是知识发现的一个重要而关键的步骤,数据挖掘是知识发现的核心。目前对知识发现研究的难点也都集中在数据挖掘上。

信息挖掘的概念源于数据挖掘。尽管两者之间有诸多不同,如挖掘的内容和发现数据间的相互关系不同[4],但两者之间也有很大的相似点:数据挖掘是发现结构化形式,而信息挖掘发现的对象主要是大量无结构化的信息。从宏观上讲,任何有价值的知识单元都应该叫信息。信息包含了任何数据,只不过数据是结构化了的信息而已。

2 信息挖掘技术

信息挖掘技术是实现网络信息挖掘的必要工具。邹涛等研究人员认为,目前信息挖掘技术研究主要集中在以下几个方面:

● 目标表示与特征匹配。目标表示是指用一定的特征项(如词条或描述)来代表目标信息,在信息挖掘时用这些特征项评价未知文档与用户目标的相关程度,目标表示的构造过程就是挖掘模型的构造过程。目标表示模型有多种,常用的有布尔逻辑、向量空间型、概率型等。目标表示法中应用较多和效果较好的是向量空间模型。

● 特征提取。目标表示中的词条及其权值的选取称为特征提取。特征提取是挖掘目标共性与规则的提取过程,其采用策略的优劣将直接影响到挖掘工具的效果。

● 文本信息的预处理。在对文档进行特征提取前,需要先进行文本信息的预处理,主要包括英文文档的stemming处理和中文文档的词条切分。

● 信息采集。WWW是以超文本的形式储存信息并提供信息服务的,在WWW上进行源信息采集,需要通过Robot程序来实现。Robot是一个能沿着Web页面中的超链接进行自动漫游的程序,并且能够通过HTTP等标准协议下截所漫游到的页面。WWW是一个网状结构的信息空间,我们可以将其作为一个有向图处理:将页面作为图中的节点,页面中的超链接作为图中的有向边,然后使用有向图遍历算法对其进行遍历。

● 非文本信息处理。WWW中的非文本信息一般都是采用“链接—文件”对的形式呈现给用户的,每个文件都有一段链接文本与其对应,而这些链接文本往往都是对所链接的非文本对象的高度概括描述,因此,可以采用非文本文件的链接文本对其进行特征提取,从而将非文本信息转化为文本信息进行处理。

● 评价指标。挖掘系统的验证一般采用测试集和交叉验证的方法,并用查全率和查准率来衡量信息挖掘系统的效果。查全率是挖掘到的文档数与实际相关文档数之比,查准率则为结果集中的相关文档数与结果集文档数之比。一个优秀的信息挖掘系统应同时具有较高的查全率和查准率。

3 信息挖掘与搜索引擎

信息挖掘有人称之为挖掘引擎,目的是区别于搜索引擎。搜索引擎与信息搜索相对应,挖掘引擎与信息挖掘相对应。现从这方面的研究中,选两个有代表性的进行讨论。

邹涛、王继成认为:信息挖掘与信息搜索既有相同之处,又有本质的不同[5]。网络检索工具由Robot、索引数据库、查询服务组成,Robot在WWW上的漫游是无目的的,其功能就是尽可能多地发现新内容,不加区分地全部建立索引并存入检索数据厍,其查询服务只是负责接收、解释用户的查询,然后根据简单的匹配策略(使用较多的是布尔模型和模糊布尔模型)在索引库中进行查找,将结果地址集反馈给用户。网络信息检索系统只能处理以关键词形式表示的简单目标,无法处理用户给出的样本形式的复杂模糊目标,而信息挖掘系统则能够从样本中提取目标信息特征,然后根据目标特征在网络中进行有目的的搜索,将搜索的文档提交给用户[6]。

韩客松与王永成通过对搜索引擎和挖掘引擎进行比较后,认为搜索引擎和挖掘引擎是互补的、有一定的相同之处,但是挖掘引擎超越了搜索引擎,并将搜索引擎技术推向一个新的层次。尽管搜索引擎和挖掘引擎处理的都是字串和文本(在这一点上它们是相同的),但是,搜索引擎提供的功能是单一的,主要是查找符合用户查询需要的文献的位置,尤其是在网络上的位置,因此,它需要用户提供由一个或者若干个关键字串组成的查询表达式。它开始于用户的查询表达式,结束于一个按照某种方式排序的文献以及文献位置的列表,基本上是一个简单的顺序过程。挖掘引擎确实也具有提供文献位置的功能,但这不是其主要功能。挖掘引擎能自动地提取相关文献之间的有价值的关系知识,并且将这些知识以可视的、动态改变的方式反馈给用户。可视方式为用户提供了以直观的易于快速理解的知识掌握途径,而动态改变的方式则满足了用户的及时性要求。因此,挖掘引擎开始于一些文本,结束于文本之间的潜在关系知识,而这个过程一般是一个需要不断反馈和调整的复杂过程。

通过以上的研究,我们可以认为:搜索引擎的结果可以作为挖掘引擎的输入,也就是说,搜索引擎在一定程度上被认为是挖掘引擎的前处理。

挖掘引擎对Web的挖掘[7]步骤:

● 对Web内容的挖掘:直接挖掘文档的内容,或在其它工具搜索的基础上进行改进。如针对Web的查询语言WebLog,WebSQL等,利用启发式规则寻找个人主页的Ahoy等;对搜索引擎的查询结果进一步进行处理,得到更为精确和有用的信息。如WebSQL就是一种能及对对搜索引擎的返回结果进行聚类的技术。

● 对Web的结构挖掘:Web结构挖掘就是从WWW的组织结构和链接关系中推导知识。由于文档之间的互连,WWW能够提供除文档之外的其它有用信息,利用这些信息,可以对页面进行排序和发现重要的页面。此外,在多层次Web数据仓库中也利用了页面的链接结构。

● 对Web使用记录的挖掘:Web使用记录挖掘的主要目标是从Web的访问记录中抽取感兴趣的模式。分析这些信息可以帮助理解用户的行为,从而改进站点的结构,或为用户提供个性化的服务。

4 信息挖掘研究的作者及其文献发表情况

为了了解信息挖掘的研究现状,笔者翻阅和查询了大量的资料,检索了重庆维普兰讯公司发行的《中文科技期刊数据库》(1998-2001第一季度)、清华大学发行的《中国学术期刊(光盘)》。基本上将有关“信息挖掘”主题所能覆盖的文献都检索到了。为了提高查全率,在使用搜索词时,还用“智能搜索”、“智能检索”、“文本挖掘”和概念组配形式:“数据库挖掘AND互联网”、“知识挖掘AND互联网”、“机器人搜索AND互联网”、“检索(搜索、挖掘)AND网页(Web)”等进行了检索,最后经过筛选,选出命中主题的文献。笔者发现,对“互联网上信息挖掘”这样一个前沿研究领域,我国进行研究的人员甚少,发表的论文更是寥寥无几,表1、表2列出了代表性的作者情况和重要论文。

表1 发表论文有代表性的作者情况

姓名学历或职称主要研究方向

蔡庆生 教授、博士生导师 人工智能、机器学习、数据挖掘

王俊普 教授 人工知能、智能系统与控制

王永成 教授、博士生导师 网络信息智能处理

方 平 教授 情报检索与情报检索语言

张福炎 教授、博士生导师 数据挖掘、中文信息处理

朱 明 副教授

智能系统、机器学习与数据挖掘

王继成 博士研究生计算机网络、信息处理

邹 涛 博士研究生计算机网络、信息处理

杨小江 博士研究生超媒体、信息处理

韩客松 博士研究生中文信息处理

黄 源 博士研究生数据挖掘、中文信息处理

谢晓东 博士研究生计算机与通信

王 勇 讲师 生物信息学

甘 霖 馆员 医学信息资源开发与利用

朱华宇 硕士研究生网络信息发现

谢丹夏 硕士研究生计算机结构、网络通信

从表1中可以看出:

● 我国目前还没有形成一个研究信息挖掘的科研群体,说明信息挖掘还没有被广大研究工作者所重视。

● 在目前的研究者中,以研究计算机科学的专家居多,占人数的81%,而图书情报学的专家只占19%。说明对于互联网这个巨大的、崭新的信息源的研究,图书情报工作者正处在消化、吸收阶段。

● 列出的研究人数虽少,但研究者的学术地位却比较高。教授、副教授、博士生导师有6名,占总人数的37%;博士研究生5名,占总人数的31%,硕士研究生2名,占总人数的13%。说明在信息挖掘的研究方面已拥有一批高素质的人材。

表2 研究信息挖掘主题的主要论文

作者姓名

论文名称 科研项目

期刊名称

发表时间

朱 明 王俊普 一种互联网住处智能搜索安徽省自然科 计算机研

2001.1

蔡庆生 新方法学基金资助

究与进展

王继成 邹 涛 基于INTERNET的信息资 江苏省“九五”

计算机研 1999.11

杨小江 源发现技术与实现 科技攻关项目 究与进展

邹 涛 王继成 WWW上的信息挖掘技术

江苏省“九五”计算机研 1999.8

朱明华 及实现科技攻关项目 究与进展

韩客松 王永成 文本挖掘、数据挖掘和知国家863计划资 情报学报 2001.1

识管理助项目

邹 涛 黄 源 基于WWW的文本住处挖掘 江苏省“九五”情报学报 1999.4

张福炎

科技攻关项目

甘 霖 王 勇 关于Web网上智能检索情报学报 1999.2

方 平 系统的开发利用

陈 敏 数据采集与住处资源的

现代图书 2001.2

开发利用

馆技术

谢丹夏 李晓东 数据挖掘技术在Web上的应用及

国家863计划

计算机应

2001.2

其工具设计资助项目 用

沈在阳 孙茂松 万维网知识挖掘方法的研究 计算机科学 2001.2

邹 涛 戚广智 网络信息挖掘系统IDGS 江苏省“九五”

南京大学

2000.2

蔡丽娟 的实现

科技攻关项目 学报

叶红云 曹佳冬 电子商务环境下网络信息挖

中国金融

2000.11

掘技术 电脑

殷 燕 白庆华 基于MULTLAGENT技术的信息挖掘

计算机应 1999.12

系统研究

用研究

表2列出了专门研究信息挖掘主题的论文,而那些只是在论文中涉及到信息挖掘的则未列出。从表2中可以发现:

● 信息挖掘是一门综合性的学科,难度较大,所以作者以合作者居多。

● 发表的刊物以计算机学科类刊物为主,其次是图书情报学类,最后是大学学报类。一部分研究计算机科学的专家,除了在计算机刊物上发表论文外,也在图书情报学刊物上发表论文。这也符合表1中作者的情况,说明信息挖掘是计算机科学和信息学紧密相连的科学。

● 论文质量比较高,有5篇是省级科研资助项目,2篇是国家级资助项目。

● 发表论文的时间是从1999年起。说明人们开始对信息挖掘进行研究是从1998年起,成果则出现在1999年。

标签:;  ;  ;  ;  ;  ;  ;  ;  

我国网络信息挖掘的研究现状_搜索引擎论文
下载Doc文档

猜你喜欢