论网络文献信息的挖掘_数据挖掘论文

论网络文献信息的挖掘_数据挖掘论文

论网络文献信息的挖掘,本文主要内容关键词为:文献论文,网络论文,信息论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

[中图分类号]G202 [文献标识码]A [文章编号]1003-2797(2002)06-0006-05

随着计算机和网络技术的进一步发展及网络信息的急剧增加,人们需要更新的、更有效的手段对各种大量数据进行挖掘。数据挖掘和知识发现方法的出现,为自动和智能地把海量数据转化为有用信息和知识提供了条件,也为文献信息的进一步开发提供了新的途径。

1 网络文献信息挖掘的意义

(1)有助于网络信息资源的深层次开发。 网络文献数据库中隐藏着许多有价值的信息,是不可多得的知识源。目前的查询手段一般只限于一些基本的数据操作,只能对数据“粗加工”,不能从这些数据中归纳出隐含的有用的知识,使得这些知识不为人知和无法利用,这实际上是对信息资源的一种浪费。信息挖掘是对网络文献数据的深层次开发,它能从大量数据中抽取出具有一定规律的知识,使之具有指导意义和创新价值。

(2)它是知识管理的需要。网络文献信息是巨大的社会财富, 通过信息挖掘和知识发现的方法可以认识有关的规律,为决策服务。例如,通过对专利文献的挖掘分析,可以确定谁是竞争者,并可分析竞争对手的特点,评价竞争对手的实力。同时,还可以评价某一技术的发展前景,发现新的技术生长点和评价技术的成熟程度,并可评估今后技术发展的趋向等。因此,知识发现可以更全面地获取信息并深入地对信息进行分析,不断形成新的知识,以满足决策用户的特定需要。知识管理是在知识经济时代进行正确决策的基础,网络信息挖掘是从原始数据中提炼出有意义的、简洁的知识。如何将信息资源的利用提高到知识创新的高级阶段,达到信息利用过程的有机结合,是目前知识管理面临的一个新问题。

(3)有利于提高网络服务的水平。 通过对网络文献的信息挖掘和知识发现研究,可以发现网络文献信息资源的形成和发展规律以及用户的行为规律,从而合理地配置资源,提高网络信息资源的建设和利用水平,满足用户的需求。同时通过对网络用户的信息需求和上网习惯的定量研究,可以为优化网络站点的结构提供参考,并提供个性化服务,从而使用户更快地找到所需的信息。网络文献的用户数量比较大、类型复杂,个性化服务只能通过自动的数据挖掘技术来实现。通过数据挖掘技术可以分析用户的将来行为,并可预测哪些用户会使用某种网络信息服务,如何使用和使用时间长短等,从而为改进网络服务提供依据。

(4)它是构建科学的决策支持系统的需要。 现代决策面临的问题越来越复杂,动态性越来越强,建立相应的决策信息支持系统显得十分必要。然而目前决策支持系统的现状并不理想,真正投入使用并取得良好效果的不多。决策支持系统需要大量、综合且动态集成的数据,而网络数据比较分散,难以用过去的数据库技术对海量的数据进行访问和分析;同时,决策支持系统需要对其各个组成部分数据进行集成,并需要对数据进行高效多维的分析。网络信息挖掘技术给决策分析带来了新的途径,能更好地解决日益复杂多变的决策环境问题,极大地扩展了决策支持系统的应用领域和应用范围。知识发现可以使决策支持系统根据数据的关联性等特点和所解决问题的特征形成新的知识,提高决策所需知识的完备性,为科学地进行决策提供了基础。

(5)它是进行科学研究的有力工具。网上的各种信息非常丰富, 然而要获得有价值的信息却不容易。人们希望在对已有的大量数据分析的基础上进行科学研究,但是目前的信息处理工具很难对数据进行深层次的分析处理。信息挖掘与知识发现正好弥补了传统分析方法的不足。目前,在需要处理数据量大的科研领域中,信息挖掘与知识发现受到越来越多的关注,许多成功的实例说明了数据挖掘对科学研究具有很大的促进作用。网络文献的信息挖掘可以帮助人们对大规模数据进行高效的分析处理,发现事物之间的联系,验证各种假设,以节约时间,将更多的精力投入到更高层次的研究中,从而提高科研工作的效率。

(6)可以提高情报分析研究的科学性。 信息挖掘和知识发现在情报研究分析中的应用具有很大的潜力,尤其是在情报分析和加工、信息的开发利用方面具有重要意义。加强这方面的研究,将会有助于情报研究中新理论、新方法的发现。在网络环境下,数字化的网络信息资源对情报研究的作用越来越大,利用网络数字化资源便于实现情报研究的自动化,提高情报研究的效率和质量。同时,针对各种情报的需求,运用知识发现方法,采用相应的方法与模型进行分析,可以挖掘出更多的隐含信息,发现各种信息之间的内在联系以及其间的变化规律,提高情报的利用价值。可以说信息挖掘的研究与应用,为情报学的发展注入了新的活力,大大提高了情报分析的科学性和精确度。

(7)可以促进文献信息计量学研究的进一步深入。目前, 文献信息计量学研究主要以统计分析方法为主,大多数计量分析主要是依靠手工统计进行,工作量非常大,效率比较低;加上作为计量分析对象的数据不完备,文献类型比较单一,选题范围较狭窄,时间跨度短,因而效果较差。因此,充分利用当前的文献数据库和网络信息资源,对于实现文献计量分析的自动化,提高研究效率和分析结果的可靠性具有重要意义。网络文献是文献的一种新的类型,也是文献信息计量学的一个新的研究对象和领域。网络文献的信息挖掘可以促进文献信息计量研究方法的进一步完善,除了传统文献信息统计分析法外,可以进行许多更为深入的分析研究,如关键词的关联统计分析、聚类分析、共词分析、共域分析、时间序列分析、链接分析等。网络文献的信息挖掘是利用计算机辅助网络文献信息计量分析的具体应用,它扩展了文献计量分析的内涵,能促进文献信息计量学研究的不断深入。

(8)可以丰富网络信息计量学的研究内容。 网络信息计量学在网络管理、信息资源管理、图书情报工作、科学研究、科学评价、科技管理与预测等多学科、多行业领域发挥重要作用,具有广阔的应用前景。随着网上信息的日益增多,有必要对网络信息进行计量分析,以发现有关的规律,为社会经济发展服务。目前网络信息计量学的研究仍然处于起步阶段,有许多的空白点正等待研究和开发。由于网络文献信息是网络信息的构成主体,因此可以说网络文献的信息挖掘是网络信息计量学的具体体现和应用。网络文献的信息挖掘要用到许多的信息计量方法,如一些统计分析法,涉及到许多定量指标研究。同时,网络文献的信息挖掘的研究又丰富了网络信息计量学的研究内容,对有关网络文献信息资源进行计量分析研究,能提高网络信息计量学的科学性和完整性。

2 网络文献信息挖掘的主要内容

(1)网络文献信息的集成。网络文献信息的集成, 是进行信息挖掘和知识发现的基础。目前,一般通过虚拟法和实体法两种方式进行数据集成。在虚拟情况下,集成系统充当用户和信息源之间的接口,数据仍然保存在网络的信息源,集成系统通过一个虚拟的集成视图及其查询处理机制,能够自动将集成模式的查询请求转换成对网络信息源的查询。由于虚拟法不需要重复储存大量的数据,并且能够查到新的数据,比较适合于高度自治的、集成数量多与更新变化快的Web信息源集成, 但由于需要访问数据源,所以响应查询一般比较费时。实体法是建立一个存储仓库,先将参加集成的网络信息源的数据装入存储仓库,然后对这个存储仓库提供查询机制,所以查询响应一般比较快捷。这种间接访问方式的缺点是当信息源发生变化时,存储仓库中的数据要作相应的修改,数据重复储存、更新不及时,各种维护工作的代价也高。具体来说,网络文献信息集成可以采用基于虚拟数据库技术、基于XML技术、 基于Web数据仓库技术及基于智能代理技术。 虚拟数据库技术通过从数据源中收集数据并变换结构,以统一的形式提供应用,便于数据挖掘。 XML作为中间层的数据描述工具和转换工具,把不同信息源的各种数据转换,实现数据的信息交换。Web数据仓库可把Web的数据用数据仓库的方式,提供统一协调和集成的环境,在此基础上进行数据挖掘和知识发现。智能代理具有代理性、主动性、智能性、交互性、适应性等特点,适合于构造具有开放性、分布性和伸缩性的信息集成系统。多智能代理在不同的网络资源之间建立了一个中间层,可透明地访问到网络的数据。移动智能代理可以自主地在异构的网络上按照一定的规程进行移动,以寻找、处理和利用合适的资源。对上述网络文献信息集成的几种方法,可以综合起来应用。

(2)网络文献的结构挖掘。 网络文献的结构挖掘主要是从网页等的组织结构和链接关系中发现知识。由于网页文档之间的互联,Web 能够提供除文档内容之外的链接信息,文档之间的超链反映了文档间的某种联系,例如包含、从属、相关、引用等。 结构挖掘的目的是发现Web页面的结构和Web的结构模式,在此基础上对页面进行分类和聚类, 或对相关网页进行分析,从而确定核心网页或发现有关网络文献的相关规律。网络文献的组织形式主要是超文本,按照非线性方式存储、管理、浏览各种信息。XML链接具有不同于HTML的特点, 可以在多个资源之间建立链接。结构挖掘是对超文本链接关系、文档内部结构、文档的目录路径结构等进行挖掘。网页排序法可用于核心页面的确定、发现网页之间的联系和有关资源的自动发现。基于链接挖掘可以解决网络迷路问题,通过超文本链接的优化和动态重组,可以提高页面的使用效率。

(3)网络文献的内容挖掘。半结构化数据的特点是模式隐含化、 结构不规则和缺乏严格的类型约束。半结构化数据模型主要有对象交换模型、ADM模型、SDOM模型和对象集成模型,可以利用标志特性、 辅助文件、词频统计等方法对HTML的信息内容进行抽取。XML 能够使不同来源的结构化的数据很容易地集成在一起,可以搜索多个异构的数据库,从而为网络数据挖掘提供了条件。非结构化数据类型丰富、索引灵活、支持海量数据、网络功能较强。文本挖掘可对网上大量文本的内容进行表示、特征提取、总结、分类、聚类和关联分析。多媒体数据包括元数据、文字注释、内容三个层次的特征,多媒体数据知识发现过程实际上是对获取的相关数据进行挖掘,从而发现有用的隐含的知识。多媒体数据挖掘可利用基于内容检索和相关数据的收集,建立多媒体数据特征立方体,挖掘出隐含规则,实现多层次的挖掘。

(4)网络文献的使用记录挖掘。 网络文献的使用记录挖掘是从用户的访问记录中抽取具有意义的模式,可以发现潜在的用户、改进站点建设、增加个性化服务、发现网络文献信息传播交流的规律。使用记录挖掘包括统计分析、路径分析、聚类分析、关联规则的发现、序列模式的发现等。挖掘的数据源有服务器的日志、用户注册信息、跟踪文件(COOKIE)的数据记录等。使用记录挖掘的过程包括数据预处理、模式识别、模式的分析。目前常见的挖掘方法有序列模式分析、文本挖掘、概率分布分析、关联规则分析及聚类分析等。

(5)网络文献信息的挖掘策略。 元数据能够反映信息内容的有关特征,可以用来挖掘有关的内容信息;同时元数据比较规范,能够较容易地实现知识发现。引文数据的知识发现方法有统计分析、聚类分析、同被引聚类分析、共词聚类分析、主题词链聚类分析、链接挖掘分析、相关分析等。现有的引文数据库主要是为检索服务设计的,在某些方面不完全符合知识发现研究的要求。网络电子出版物具有媒体的多样性、连续性、周期性等特点,其挖掘方法具有综合性。数字图书馆的知识发现包括建立数字图书馆的智能检索系统、进行元数据的自动提取、数字图书馆的内容挖掘、用户挖掘分析等。数字图书馆具有综合性,目前以文本为主,对数字图书馆的内容挖掘是网络文献信息挖掘的重点和方向。

3 网络文献信息挖掘的特点

(1)网络文献信息挖掘处理的数据量庞大。 网络文献的数据量一般都非常庞大,如何在海量、高维的数据中提取信息、发现知识,是网络文献知识发现面临的一个比较突出的问题。网络文献知识发现的任务之一就是要采用各种方法和措施,克服由海量数据造成的分析困难。因此,提高挖掘算法的效率,使挖掘方法具有一定规模的伸缩性,是网络文献信息挖掘中需要考虑的一个问题。

(2)网络文献数据源具有非结构的特点。首先, 网络文献数据内容范围很广、类型多种多样,每个数据源都是异构的,各站点间的信息和组织都不一样,如果想利用这些数据进行数据挖掘,就必须要研究站点之间异构数据的集成问题,这是对数据进行分析处理的基础。其次,传统的数据库中的数据为完全结构化的数据,而网络上文献数据的特点是数据没有严格的结构模式,含有不同格式的数据如文本、声音、图像、面向显示的HTML文本及无法区分的数据类型等。显然,面向网络的文献信息挖掘比面向单个数据库的数据挖掘要复杂得多。

(3)网络文献数据源具有很强的动态性。 因特网信息是一个动态变化的系统。要进行有效的知识发现,需要采用数据仓库的某些技术方法,保存网络上动态更新的数据。在某些应用中,要求知识发现对数据的迅速变化做出快速响应,以提供决策所需的信息。知识发现既要发现潜在规则,又要管理和维护规则,而规则是动态的,当前的规则只能反映当前状态的数据库特征,随着新数据的不断加入,规则需要随之更新。新的数据类型必然带来新的特点,这需要对原有挖掘方法进行改进和扩充。一般来说,分析长时间段的数据中隐含的各种潜在的知识,利用传统的方法和数据库模型是十分困难的,因此必须利用知识发现方法来完成。

(4)网络文献数据的内容具有较大的综合性。 由于网络文献涉及到各个学科门类,因而内容具有较强的综合性,要在丰富的内容中挖掘有规律性的知识,其难度相当大。因此,要注意各个专门领域知识的应用,同时综合利用各种挖掘方法技术,从而不断提高信息挖掘的有效性。

(5)网络文献数据的质量参差不齐。在数据挖掘中, 由于是数据驱动,因而数据质量是十分重要的一个问题。在知识挖掘过程中,需要更多的抽样数据和更多的领域知识。由于文献数据库是动态的,因而有的网络文献的数据是不完整的、冗余的、稀疏的甚至是错误的。数据的不完整性将给发现、评估和解释一些重要的模式带来困难。同时在数据中存在一些并不客观反映事实的记录,而带噪声的数据往往会影响抽取的模式的准确性。此外,文献数据中的大量冗余信息,也增加了知识发现的难度。

(6)网络文献信息挖掘的用户具有多样性。 基于网络的文献信息挖掘的用户类型较多,用户的目的各不相同。许多用户往往对所要挖掘的主题只有模糊的、粗浅的认识,不能够提出明确的目标。这就需要知识发现系统具有一定的智能性和学习机制,不断地发现和跟踪用户的兴趣,并且清晰地表示知识发现的结果,从而提高知识发现的可用性。

(7)网络文献数据存在着部门化和安全保密的问题。 网络文献的数据挖掘需要从不同的角度、不同的层次上分析数据,因此,需要对多种数据源的数据进行集成,因而潜在地影响到数据的私有性和安全保密问题。目前网络上的文献数据,尤其是学术性比较强、价值比较高的全文数据或多媒体数据,通常都有加密限制,需要经过注册付费才能获得使用权,并限定在一定的范围内使用。这些问题给网络文献信息挖掘的数据收集带来不少的困难。如何采用合适的方式进行文献数据资源共享,是网络文献信息挖掘和知识发现需要解决的问题。

4 网络文献信息挖掘的研究重点

网络文献信息挖掘是一个较新的研究领域,它具有广阔的应用前景。根据当前的状况,笔者认为,应从以下几个方面进行深入研究。

(1)网络文献信息挖掘的内在机理研究。 目前对于数据挖掘过程总体结构与运行机制研究较少,尤其是对网络文献信息挖掘系统的内在机理还没有涉及。因此,应加强网络文献信息挖掘的基础理论研究,为网络文献信息挖掘技术的开发、评价和应用提供指导。

(2)挖掘对象问题的研究。网络信息的多样性, 决定了网络文献信息挖掘对象的多样性。其中,文本挖掘是对页面信息进行聚类、分类和关联分析,以及利用网络文档进行趋势预测、分析等;多媒体数据的挖掘是对多媒体文档包括图像、声音、图片等媒体类型的挖掘;访问记录挖掘是对用户访问服务器方留下的记录进行挖掘,从中可以发现用户的访问模式和兴趣特点。由于挖掘的对象已不单是关系数据库模型,更多的是分布、异构的多类型数据库,因此要进一步研究提高网络数据结构化程度的途径,研究适应多种数据类型及容噪的数据挖掘方法。

(3)网络文献信息的集成研究。在网络文献信息挖掘中, 数据收集机制和技术是非常重要的,因为网络文献数据的集成可以为分析提供更丰富的信息。此外,多种信息如网络用户的使用记录、用户注册信息等数据的智能集成,也值得进一步研究。在挖掘处理方面,已有的挖掘方法的性能有待于进一步改进。

(4)网络文献信息的挖掘方法研究。 网络文献信息的挖掘方法和知识发现方法既有一般知识发现方法的共性,又有其自身的特点,如何根据网络文献的特点和规律,研究探讨新的方法是目前亟待解决的问题。在现有的数据挖掘方法中,每种分析方法都有其特点和适用范围,因此,除探索新的挖掘算法外,多种方法的综合将是网络文献知识发现的一个发展方向。网络文献中的数据量大量增加,必然会导致数据挖掘过程中搜索维数和搜索空间的激增。因此,提高算法的效率以及具有规模伸缩性,是网络信息挖掘在实际应用中需要进一步研究的问题。

(5)构建适合网络文献信息挖掘系统的研究。 作为特定领域的系统工具,网络文献的信息挖掘系统应该尽量考虑网络文献数据的特点,利用标准化挖掘语言,提高挖掘结果的有效性。

(6)基于XML的网络文献信息挖掘的技术研究。随着XML的兴起, Web页面将会蕴涵更多的结构化和语义信息,使得Web的信息挖掘变得更为容易和有效。因此,基于XML的网络文献信息知识发现的技术, 将会是今后的发展方向。

(7)非结构化数据挖掘的研究。 非结构化数据挖掘处理的数据将会涉及到更多的数据类型,这些数据类型或者比较复杂,或者是结构比较独特。为了处理这些复杂的数据,就需要一些新的和更好的分析和建模方法,同时还要开发相应的工具和系统。随着网络电子出版物和数字图书馆的增多,对网络文本数据和多媒体数据的挖掘及知识发现的研究应是今后的重点。

(8)交互式挖掘研究。 交互式挖掘能使用户交互地定义挖掘要求,深化数据挖掘过程。由于当前的数据挖掘工具的人机交互能力还十分有限,相关的背景知识也未得到充分利用,因此,应寻求数据挖掘过程中的可视化方法,使数据挖掘和知识发现的过程能够被用户理解,以便更好地进行人机交互。

(9)分布式协作挖掘策略的研究。 分布式协作策略是指先按照某种标准(如学科领域或地理区域)对网络资源空间进行划分,得到若干子空间后再对每一个子空间分别建立一个系统,并构成网络上的分布式协作数据挖掘群体,然后在此基础上进行综合。研究在网络环境下的数据挖掘技术,特别是在网络上建立有关数据挖掘的服务器,并与数据库服务器配合,实现对网络文献信息的挖掘和知识发现,具有重要的意义。

(10)满足个性化需求的网络服务研究。网络信息服务正向深度和广度不断发展。一方面,人们希望看到个性化网页,希望能够得到更能满足个性化需求的服务;另一方面,各个站点也希望能够根据用户的兴趣调整页面结构,改进服务。随着用户利用网络信息水平的不断提高,如何在较短的时间内为用户提供最有用的知识信息,是网络文献信息挖掘的主要目标之一。

(11)挖掘效果的评价研究。只有反复地进行评价,不断地改进有关的工具和方法,才能提高知识发现的水平。因此,要研究有关的评价指标、方法和工具。

目前,数据挖掘和知识发现的研究正方兴未艾,随着有关技术的进一步发展,可以肯定,网络文献的数据挖掘研究的内容将会进一步丰富,并具有非常广阔的应用前景。

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

论网络文献信息的挖掘_数据挖掘论文
下载Doc文档

猜你喜欢