网络信息挖掘与评价研究_特征提取论文

网络信息挖掘与评价研究_特征提取论文

基于因特网信息的挖掘与评价研究,本文主要内容关键词为:因特网论文,评价论文,信息论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

【分类号】 G250.73

随着Internet应用与普及,Internet已经发展为当今世界上最大的信息库和全球范围内传播知识的主要渠道,站点遍布全球的巨大信息服务网,为用户提供了一个极具价值的信息源。面对浩如烟海的网上信息,如何排除不良信息的干扰,如何从信息的汪洋中过滤出适合用户需要的信息,如何占据并发挥信息的优势,以促进科学研究事业的发展,一直都是伴随着因特网的发展而不断为世人所瞩目的课题。网上信息的挖掘与评价,是实现这一目标的一个重要过程。网上信息的挖掘和评价,是信息人员利用计算机技术,网络技术和其它信息相关技术对网上信息进行的一种系列化的深加工研究,是信息机构向用户提供信息以帮助其进行科研决策,研究与发展,市场开拓等活动的有效途径。它通过网上分析挖掘、整理评价等程序,提取用户感兴趣的知识与信息。这些知识是隐含的、事先未知的、潜在的有用的信息,网上信息的挖掘与评价是实现信息价值转换一种典型的社会化智能活动。

1 基于Push技术网上信息的挖掘

传统的信息获取方式是基于Client/Server模式,主要采用拉取(Pull)的技术挖掘采集信息,但随着网上信息资源的日益丰富和多样化,这种方式已不能满足人们快速准确地获取信息的要求。以往传统的信息获取方式,是用户先向服务器发出请求指令,然后服务器执行用户指令,返回用户所需的信息,为了与网络服务器建立连接,用户首先做的是要掌握查询服务器的确切地址。由于信息不时地更新,用户则要不时地访问该站点以便获取最新的知识信息。拉取技术是基于面向连接的网络协议,提供可靠的数据化传递服务,这样简化了信息发布/获取应用程序的设计,但却存在某些缺点,其一是网络负载较重时信息传输的速度较慢,再就是无法避免数据的重复传输,因此传统的信息获取方式严重影响信息的获取效果。

Push技术作为Internet上一种新技术,提出了新的服务模式,即核心点放在服务方,不需要用户的请求,主动地将信息送到客户方,在信息发布获取应用中它表现为Push服务器自动搜集用户感兴趣的信息,并将其定期地传送给用户。其实现方式有三:

(1)Web服务器扩展——公共网关接口方式(CGI) 这种方式使用服务器扩展——公共网关接口来扩充原有Web服务器的功能,实现信息推送。公共网关接口命令可设计出能够对用户输入的信息做出响应的交互式Web站点,通常把表单(HTML Form)嵌入Web页面提供给用户,用户在浏览页面时填写并提交表单进行“订阅”;由服务器上的CGI命令文件处理后动态地生成所需的HTML页面;最后Web服务器将特定信息送于用户。这种方式无需特殊的客户端部件,较易构造应用。

(2)客户代理方式 这种方式使用客户代理(Client Agent)定期自动地对预定的Web站点进行搜索,收集更新信息送回用户。客户代理对Web站点的搜索从目录开始直至用户指定的页面,当搜索到该页面后便将所有搜集到的内容都返回用户。这就存在一些问题:返回给用户的内容重点不突出,站点内容的更新与客户代理的自动查询不易同步,缺少对站点信息的类型划分,用户需要控制搜索深度,使用不方便等。为克服这些不足,Web站点需要提供其资源列表和资源的更新状态等信息以配合客户代理的搜索工作。信息提供商发布信息时,不必改动Web站点原有的组织机构,只需建立相应的频道定义格式(CDF)文件并放于Web服务器上即可。这种实现方式中,“主动服务”由客户代理提供,因此可将其称之为“智能的拉”;但是从用户角度来看,服务的透明性使得它也可以属于“推送”的范畴,而且很好地继承了原有系统,实现比较简单。

(3)Push服务器方式 这种实现方式提供包括Push服务器、客户部件及开发工具等一整套集成应用环境。经过改动后,这些能够从Internet上向用户计算机传递信息的Web站点被形象化地称为“频道”,用户接收信息就像收看“专题节目”,而且还可以指定其播放时间。在这里,Push服务器提供主动服务,负责收集信息形成“频道内容”然后推送给用户;专用的客户部件则主要负责接收到来的数据及提交指令,并对数据进行处理。通常Push服务器对信息进行分类组织,先将信息较大的数据推送给用户,若用户需要详细了解某方面的信息则再次获取该专项内容。这种方式减少了传输的数据量,有效地提高了信息获取的效率。

2 基于WWW信息的挖掘

基于WWW的数据挖掘(Data Mining)是指从大型数据库的数据中提取出人们感兴趣的文本型知识,这些知识是隐含的、事先未知的、潜在的有用信息。网络文本信息挖掘是在大量已知数据样本的基础上,得到数据对象间的内在特性,并以此为依据在网络中进行有目的信息提取。其系统组成与实现方法分别为:

(1)挖掘系统组成 WWW上的文本信息挖掘系统一般,由特征提取、源信息采集、特征匹配三个部分组成。特征提取负责根据一定的算法和策略从现有的样本文档中提取出其内在的特征,即进行挖掘目标的特征提取;源信息采集负责从WWW上选择下载原始文档,这部分工作一般由多个具有一定启发策略的Robot(Robot是一个能沿着Web页面中的超链进行自动漫游,并通过HTTP等标准协议读取漫游到页面的程序)完成;特征匹配是利用挖掘目标特征判断源信息的相似度,即进行相关信息的提取。

(2)实现步骤 下面以采用向量空间模型(VSM)进行WWW上的文本信息挖掘为例,说明实现信息挖掘的一般步骤:

①确立目标样本:由用户选择确定挖掘目标的文本样本,用于特征提取模块进行挖掘目标的提取。

②建立统计词典:建立于特征提取和词频统计的词典和同义词词典、蕴含词词典。

③特征提取:根据目标样本的词频分布,从统计词典中提取出挖掘目标的特征项集并计算出相应的权值。特征提取步骤如下:1)词频统计;2)词频过滤,去除高频词和低频词;3)滤噪处理,去除在所有类别中频率分布相同的词;4)计算特征项权值;5)生成特征矢量表。

④调整特征矢量:生成匹配阈值,并根据测试样本的反馈调整特征项权值和匹配阈值。

⑤源文档采集:先利用网络资源站点(如Yahoo、Altavista等)进行采集站点的选择,再运行Robot程序根据一定的启发策略进行文档采集。

⑥特征匹配:提取源文档的特征矢量,并与目标特征矢量进行匹配将符合阈值条件的文档提交给用户。

3 基于联机分析处理的信息挖掘

3.1 联机分析处理与数据挖掘

联机分析处理(OLAP)与数据挖掘(DM)是基于数据仓库(数据库)技术而发展起来的信息分析与挖掘工具,在实际应用中各有侧重。前者是验证型的,后者是挖掘型的。

(1)OLAP建立在多维视图的基础上,重在根据已有的模式将直接源自数据仓库中的不同信息源的大量相关信息联系起来,以给分析人员一个清晰、一致的视图。OLAP主要有两个特点:一是在线性(On-Line),即对用户的请求作出快速响应;二是可以应用多种统计分析工具、算法对数据进行多维分析(Multi-Analysis)。

(2)DM建立在各种信息源的基础上,重在发现隐藏在大量原始数据深层中的对人们有用的模式(Patterns)。被抽取的即知识,具备可信、新颖、有效、易于理解的特点。DM具有以下几种算法:

①联合,根据信息的内在机理,揭示信息之间的关联。联合的规则一般从关系数据库中提取;

②分类,目的是把新的记录分配到预先定义好的类中;

③聚类,按照类内相似性最大、类间相似性最小的原则,对数据集合进行分组。

DM有两个主要过程,即建立模型和预测未来结果。在这些过程中,可应用以下多种技术:

①统计分析,是最早使用的且最容易被理解的技术;

②神经网络,随着近几年人工智能工具的流行,人们试图通过数学的方法来模仿人脑认知工作过程;

③决策树,是一种概念简单(If-then)的数学方法;

④遗传算法,该技术来自于对微生物通过自然的选择和遗传的结合如何进化的研究;

⑤模糊逻辑,简单地说,是一种数学公式新的理解方法;

⑥基于记忆的推理(Memory-based reasoning),是一种通过与已经分类的同类记录的比较给数据库中的记录分类的技术;

⑦混合方法,将以上各种不同的方法按分析需要混合使用。

3.2 OLAM(On-Line Analytical Mining)

OLAM是OLAP和DM相结合的产物。OLAM兼有OLAP多维分析的在线性、灵活性和DM对数据处理的深入性,因而可在更高层次上满足网上信息分析与挖掘的需求。目前OLAM正处于研究之中,相关产品尚未问世,但是,针对OLAM的发展驱动力和基本结构,展示出了基本核心点:

①OLAM建立在多维数据库和OLAP的基础之上,能对任何它想要的数据进行挖掘;

②用户对挖掘算法具有动态选择的权力;

③具有超强的挖掘算法;

④能够协调好执行效率与挖掘的准确性之间的关系;

⑤具有灵活的可视化工具和良好的扩展性。

4 挖掘信息的评价

基于Internet的信息挖掘,需要先提取目标信息的特征,然后根据目标信息特征进行有目的的搜寻,将搜寻到的文档提交给用户。但不是所有文档中的信息都是用户所需的,因此决定了对网上挖掘出的资源进行再选择与评价的必要性。网上资源的优选与评价研究,主要应用文献学研究的基本方法,采取定量分析与定性分析相结合的方法,同时参照国外权威机构的选择与评价研究,对网上信息进行比较全面、完整的评价。

4.1 定量分析

通过各种查询引擎和主题指南及各站点提供的相关站点连接统计有关某一类型和某一特定主题站点出现的频次来选择出常用站点;通过各站点被访问次数统计排序来确定常用站点;统计电子期刊订购人数、文章被访问和下载次数、超文本链接次数,并借鉴文献计量学中的引文分析法,利用科学引文索引(SCI)数据库光盘及期刊引文报告(ICR)对网上出版的电子期刊进行被引频次、影响因子分析,从而做出客观、公正的评价。

4.2 定性分析

通过范围、内容、图形和多媒体设计、目的及对象、评价和可使用性等指标进行评价。

(1)范围:包括广度、深度、时效及格式等。

广度:指是否包括特定主题的所有概念;

深度:指关于某一主题信息的详细程度;

时间:指信息是否限定在特定的时间段内;

格式:其它一些类型的Internet资源(Telnet,Gopher,FTP)是否排除在外。

(2)内容:信息是事实型还是观点型?该站点是否包括独创性信息?上点是否不仅提供自己单位的信息资源而且还与其它相关站点相链接。提供的信息资源是完整的资源,还是其它资源的摘录。此外,还应包括准确性、权威性、通用性、独特性与其它资源连接的有效性及精炼性等。

(3)图形和多媒体设计

资源看起来是否有趣?视觉效果是否对资源的显示有增强。使内容变得分散还是替代内容。如果应用了声音、图像、虚拟现实等技术,它是否适合于资源的目的。

(4)目的及对象

目的:资源的目的是什么?是否被清楚地表述?资源是否满足了所陈述的目的。对象:资源的用户对象是哪些人?这一资源适合于哪一类水平的用户:学科专家、非专业人员或学校学生?资源是否能满足特定读者的需求?

(5)评论:其它评价服务关于这一站点如何评论。

(6)可使用性:包括用户友好性、所需计算机环境、可检索性、可浏览性和组织方式及连接稳定性等。

综上所述,随着Internet及其信息服务的爆炸性增长,网络信息资源的获取问题已经成为阻碍网络信息服务进一步发展的巨大障碍。网络信息挖掘是数据挖掘技术中的一个新的分支,它涉及到网络技术、数据挖掘技术、文本处理技术、人工智能技术等多个领域,网络信息的评价,为用户提供高效准确信息提供了保证,在很大程度上解决Internet环境中的资源发现与获取问题。

标签:;  ;  

网络信息挖掘与评价研究_特征提取论文
下载Doc文档

猜你喜欢