谢辉[1]2000年在《Web访问信息挖掘及其应用》文中认为数据挖掘是指从大量的数据中自动地提取出有价值的知识和信息。数据挖掘已成为数据库技术和机器学习方面的重要的研究课题。当前,World Wide Web正向应用的深度和广度方面迅速发展。将数据挖掘的思想和方法应用到Web上,解决WWW中遇到的一些问题,从而形成了Web数据挖掘(Web mining)这样一个新的研究方向。 Web数据挖掘是指针对包括Web页面内容、页面之间的结构、用户访问信息、电子商务信息在内的各种Web数据,应用传统数据挖掘方法以发现有用的知识,帮助人们从WWW中提取知识,改进站点设计,更好地开展电子商务。 本文的工作是在“Web访问信息挖掘软件包”的开发过程中,对WWW上用户访问信息的挖掘技术进行了较为深入的研究,包括数据清洗,事务识别,Web播出中的聚类算法,关联规则发现等工作,并将Web数据挖掘 技术应用于基于Cable的WEB页面广播中。本文的主要工作如下: 1.通过数据预处理技术,将Internet上非结构化或半结构化的信息组织成逻辑单元,以表示事务或用户会话,并将所有事务组成一个自定义的事务数据库,这样就可以利用对传统数据挖掘的方法(如关联规则和序列模式的发现等)对Web数据进行挖掘;另外,采用数据清洗技术从用户访问信息中去除大量无用或与当前挖掘无关的数据,有效地提高了挖掘效率。 2.将传统数据挖掘技术中的关联规则发现技术引入Web数据挖掘,求高频物品集是关联规则发现的核心,也是计算量最大的部分,我们采用了一种快速算法Apriori,并针对在Web应用的特点进行了改进,有效地提高了求高频站点集的效率。通过分析Web访问信息,可以发现用户访问站点之间的一些关联规则,以及站点中页面之间的一些访问规则。关联规则发现可以在网站构造、Web广播等活动中得到广泛应用。 3.宽带网进行Web广播时,其播出的内容是一个大的Web页面集合。针对如何得到这个Web页面集合,以及如何组织这个Web页面集合以利于用户浏览这两个问题,本文提出一种新的聚类方法WebClustering,通过聚类得出聚类中心和聚类集,通过关联规则算法得出可信度,据此构造
王实[2]2001年在《基于Web访问信息挖掘的推荐方法研究》文中研究说明随着Internet和WWW的迅速发展,用户访问信息广泛、海量地遍及于其上,其从用户维、时间维、空间维、访问对象维等各方面详尽反映出用户的访问细节。通过对用户访问信息进行有效的数据挖掘,可以得到有关用户访问行为的知识,这些知识可以服务于Web站点的服务提供方和访问者。对服务提供方而言,他们需要好的自动辅助设计工具,根据用户的访问兴趣知识动态地调整页面拓扑结构,改进现有的信息服务,开展有针对性的电子商务以更好地满足访问者的需求。对访问者而言,他们希望看到的是个性化的页面,希望得到更好的满足各自需求的服务,希望从具有类似访问兴趣的其他一些用户的访问行为知识中得到有价值的启发。因此从大量的用户访问信息中,如何自动地、高效地提取这些知识,即Web访问信息知识发现,具有十分重要的现实意义,这也成为当前国际上受到广泛关注的,新兴的研究领域。本文在Web访问信息挖掘中的群体自适应领域和个性化这两个领域进行了研究,取得的主要研究成果为:1.Web站点的群体自适应领域:1)面向Web广播的聚类:为解决如何组织Web播出集,以利用宽带广播网进行Web广播这样一个问题,本文提出一种新的聚类方法WebClustering。通过使用这种聚类方法,可以得出一个有价值的Web页面播出集合,并且通过形成分层索引页面来帮助用户更好地访问这个Web页面集合。2)大项序列发现和互信息规则发现:为了挖掘用户访问的序列特性,本文提出一种新的大项序列发现方法。该方法定义了一种新的用户访问事务文法,用于挖掘用户访问的序列特性;为了发现用户访问相关主题域,本文提出一种新的利用互信息规则发现方法发现相关主题域的方法,在发现到的规则基础上,相应的聚类算法被提出以发现相关主题域。发现的大项序列和相关主题域可以帮助Web站点的设计者更好地理解用户的访问行为,用于调整Web站点的结构或者用于站点内知识的再分布。3)群体用户访问兴趣和兴趣导航行为模式发现:为了挖掘出用户的访问兴趣,本文提出一种新的挖掘群体用户在一个页面上兴趣分布程度的方法。该方法利用了用户访问所具有的目的性,即用户对某种概念的兴趣,以得到单个用户的访问兴趣,然后通过叠加单个用户的访问兴趣来最终得到群体用户在一个页面上的兴趣分布。由于这种兴趣分布可以和用
任新[3]2008年在《Web数据挖掘及其在电子商务中的应用研究》文中研究表明随着Internet的日益普及,电子商务蓬勃发展,基于互联网的商业Web站点面临越来越激烈的竞争。商务网站从“以站点为中心”向“以用户为中心”发展成为必然。如何对大量的电子商务信息进行有效的组织利用,从中抽取感兴趣的模式,以便理解客户的行为,从而改进站点的结构或为客户提供个性化的服务成为电子商务发展必须要解决的问题。Web数据挖掘是数据挖掘技术在Web环境下的应用,是从大量的Web文档集合和用户浏览网站的数据中发现蕴涵的、未知的、有潜在应用价值的、非平凡的模式的过程。Web数据挖掘可以在许多领域发挥作用,而电子商务为数据挖掘提供了丰富的数据源和新的研究课题。本文对Web数据挖掘在电子商务中的应用进行了研究,主要做了以下工作:1.综述了数据挖掘国内外研究现状。分析了数据挖掘逻辑模型及存在的一些问题。2.阐述了Web数据挖掘技术,Web数据挖掘的用途,以及XML在数据挖掘中的应用。3.讨论了在电子商务中如何有效地利用几种可行的数据挖掘技术,如路径分析、关联规则分析、序列模式分析、分类分析和聚类分析等挖掘出用户的购买模式及浏览模式,并就其中的路径分析和序列模式分析提出了实现的方法。4.构建了一个电子商务网站系统模型,并且将上述数据挖掘技术有机地集成到其中,以实现电子商务的个性化服务;并就电子商务网站的Web挖掘具体实施过程进行了分析。
石凯[4]2007年在《改进关联规则算法在Web挖掘中的应用研究》文中研究表明在竟争日益激烈的网络经济中,只有赢得用户,才能最终赢得竞争的优势。网站是企业进行信息发布的平台,是企业对外的形象和窗口。随着Web站点规模和复杂度的增加,站点的设计和维护工作变得越来越困难。对于企业运营方而言,为了吸引和留住更多的用户,就需要更好的方法或者是工具来掌握用户的访问兴趣、访问频度等等,从而动态的调整页面结构,改进服务,以满足访问者的需求。为了解决这方面的需求,Web数据挖掘被越来越多的人所关注。Web数据挖掘就是利用数据挖掘的思想和方法,在Web上挖掘有用的信息。本文基于国内外研究成果,首先介绍传统电子商务的基本概念,引入数据挖掘技术,并对数据挖掘的分类和过程进行了阐述。具体应用到Web的时候,着重介绍了Web访问信息挖掘,从它的构成要素、特点、挖掘过程以及应用全方面进行了叙述。在全面分析Web访问信息挖掘的数据准备过程中,提到了Web日志挖掘,针对数据预处理过程中遇到的难题,提出了一个减少数据预处理工作量的方法——采用网站过滤器。同时本文通过分析传统的关联规则算法Apriori存在的不足,给出了一个改进的算法DedApriori。并将其嵌入开源数据挖掘工具Weka,然后对不同规模数据挖掘的结果进行了比较。最后本文利用Web挖掘的思想,结合多种挖掘工具的优点对一个商业网站的部分日志和部分数据库交易记录进行了挖掘。并针对挖掘的结果进行了细致的分析,最终提出了一种改进网站结构的方案。
郭岩[5]2004年在《网络日志中用户兴趣的挖掘及利用》文中进行了进一步梳理网络日志挖掘旨在通过对网络日志进行有效的数据挖掘,发掘隐藏在日志数据背后的Web用户访问模式。这个目标基于这样的假设:网络日志中确实蕴含了用户访问Web的某些规律性特性,这些特性反映在某些模式中,这些模式可以被挖掘出来并加以利用。绝大多数的网络日志挖掘研究都基于这一假设发掘出了各种有用的Web用户访问模式。但是网络日志中是否确实蕴含了用户访问Web的规律性特性?如果有,这些特性能否用语言描述出来?如何利用这些特性?论文的核心工作就是围绕这些问题,使用统计分析、聚类和依赖关系的建模等挖掘技术,针对Web访问特性、Web信息检索、Web站点辅助设计和系统优化等领域作了较深入的研究。论文的工作与贡献主要有四个方面:(1)网络日志中是否确实蕴含了用户访问Web的规律性特性?如果有,这些特性能否用语言描述出来?论文针对这些问题对实际网络日志进行了实证性的规模统计分析。研究了网络日志规模与用户数、Web页面数以及单位用户访问的Web页面数的关系,并研究了用户访问Web的动机。得出了一些有用的结论。这些结论为网络日志挖掘提供了一定的研究根据和基础。(2)基于(1)所得结论,论文提出了基于Web用户行为的相关页面检索模型WUBIRM(Web Usage Based IR Model)和搜索引擎系统SIS(ISimilar Interests, Similar access on Internet)原型。目前的信息检索技术主要是基于文本分析和链接分析。文中认为页面是否相关的最终判定者应该是用户。为了尽可能地模拟人对页面相关性的判断,论文从真正的网页使用者——网络用户的角度探讨了信息检索技术。文中试图利用网络日志中蕴含的用户在页面相关判定上的潜在意识来挖掘相关页面。这对于改进传统的信息检索技术,从海量信息中快速而准确的检索相关页面具有不可替代的重要意义。(3)基于(1)所得结论,以及用户空间(用户访问频率矩阵)的变换,论文提出了用户兴趣空间的概念,并提出两种用户兴趣空间的构造方法:一是利用因子分析理论;二是利用用户空间中用户聚类和Web文档聚类在权重之间的对偶关系。与用户空间相比较,用户兴趣空间突出了用户的共同兴趣,是一个正交空间。分别在用户空间和两种用户兴趣空间中作Web页面聚类,实验结果表明,用户兴趣空间的Web页面聚类效果优于用户空间的聚类,且从用户空间向用户兴趣空间的转换达到了数据压缩的效果,其中在利用因子分析理论构造的用户兴趣空间中的Web页面聚类效果最好。(4)论文分析了隐藏在Web缓存行为背后的Web用户行为,认为缓存的替换策略应该充分考虑用户访问Web的特性。论文提出了Web缓存替换策略SULRU(Size&User LRU)。SULRU充分利用了用户访问Web的特性,并具有一定的自适应能力,提高了缓存的智能特性。模拟实验结果表明SULRU取得了较好的页面命中率和页面字节命中率。SULRU实现起来也比较容易,是一个较好的缓存替换策略。
刘建东[6]2010年在《基于Web访问信息挖掘的数字图书馆个性化服务研究》文中提出随着数字图书馆在各国的迅猛发展,其相关研究工作也掀起了一股热潮,其中数字图书馆的个性化服务已经成为一个重要的研究课题,它利用Web挖掘技术,通过对用户的访问日志数据以及订阅信息进行分析和挖掘,发现用户的兴趣所在,进而为不同层次,不同偏好的用户提供具有针对性的个性化信息资源服务。个性化服务对数字图书馆整体的服务决策具有十分重要的意义。本文首先介绍了数字图书馆个性化信息服务技术,接着阐述了Web访问信息挖掘技术的基本原理,并对基于关联规则的FP-growth算法进行了深入研究,针对其应用在推荐系统会产生重复推荐的问题,对算法进行了改进,提出了一种FP-growth_s算法,该算法生成了最大频繁项目集,避免了冗余频繁项目集的产生,减少了产生关联规则的数量,有效解决了产生重复推荐的可能,应用在推荐系统中可以提高系统运行效率。经过进一步的研究发现,利用最小支持度和最小可信度生成的关联规则,在某些情况下并不能对用户提供准确的推荐,针对此问题,提出了一种基于页面兴趣度的IN_FP推荐算法,该算法首先建立页面兴趣度模型,然后对可信度进行兴趣加权,在利用FP-growth_s算法生成最大频繁项目集后,采用加权后的可信度产生关联规则,将该推荐算法应用在推荐系统中可以挖掘出更加精确的结果,为用户提供更有价值和意义的推荐服务。最后,本文搭建了整个数字图书馆个性化服务系统,并把IN_FP推荐算法应用在此系统中,实现了数字图书馆的个性化推荐服务。
赵元媛[7]2008年在《基于Web的用户访问信息挖掘研究》文中研究表明网络的普及,海量的Web信息为数据挖掘提供了丰富的资源,Web用户访问信息的挖掘便是基于Web研究中最广泛的一种应用。其目的是更好地理解基于Web的各种应用,以便提供优质的服务。由于其潜在的应用价值,Web访问信息挖掘在研究领域和商业领域都取得了迅速的发展。本文在介绍数据挖掘和Web挖掘的基础上,重点对Web日志挖掘进行了研究,首先介绍了Web日志的数据预处理五个基本过程,即数据清理、用户识别、会话识别、路径补充以及事务识别,并对基于cookie的用户识别技术及基于最大前向引用的事务识别方法进行了分析。其次,介绍了关联规则挖掘的相关理论和Apriori算法,分析了关联规则挖掘存在的一些不足,研究了基于兴趣度的页面关联规则挖掘,其主要是将用户兴趣度和页面关联规则相结合,并应用于个性化服务中。然后,研究了利用聚类分析实现实时个性化推荐的方法,通过聚类具有顺序访问特性的用户,并得到每一个用户类的相应的页面推荐集,利用推荐引擎对用户的当前访问进行分类,将当前用户归结到某一个聚类集中,然后在用户当前访问的页面,推荐用户所属用户类的推荐页面集。本文最后构建了一个Web日志挖掘技术在远程教育网站中的应用模式。在远程教育过程中,通过引入Web日志挖掘,不仅可以为学习者提供个性化学习,而且有利于远程教学的各种管理工作。
宁海霞[8]2006年在《一种基于XML的Web访问模式发现模型研究》文中研究表明WWW技术蓬勃发展,由于Web站点的规模和复杂度的增加,网站的一些主要工作,如Web站点设计、Web服务设计、电子商务等工作变得越加复杂和繁重。Web数据挖掘可以帮助分析人员从用户与网站的会话过程产生的大量多种多样的信息中挖掘出对企业和网站设计人员有用的知识。将传统的数据挖掘技术应用于商务站点数据处理工作,并提供一种高效的Web挖掘解决方案,是当今国际数据挖掘领域关注的热门课题。当今得到广泛应用的是传统的Web访问挖掘技术,如基于Web访问日志的挖掘技术。Web访问日志主要记录了用户登录网站期间的浏览路径,作为挖掘用户访问模式的数据源,数据信息量不够,且准确度不高。因此,为了将数据挖掘技术更好地服务于以电子商务为代表的Web应用领域,在研究基于Web日志的挖掘技术的基础上,一种基于XML的Web访问模式发现模型被提出,试图为提高Web挖掘效率和质量提供一种新思路。新的模式发现处理模型结合了XML技术的可扩展性和层次性,以及Web站点信息的构成特性,以此达到高效、主动、智能地采集各方面数据,使来自客户端、服务器端日志以及数据库的三方数据达到动态融合,并为挖掘工作提供丰富而又真实可信的数据源;在下一步的挖掘工作中,模型采用XML相关技术:采用定义了会话格式的XML文档记录数据,会话和用户识别工作简单而又准确;异构数据采用XML格式存储,易于在不同数据库之间传输;在应用程序中既可以生成单维,也可以生成多维数据集;模式挖掘环节中对传统的模式挖掘算法,例如FP-tree算法进行优化,整个Web挖掘的准确度和效率都将得到提高。基于XML的Web访问模式发现需要实现数据采集、数据预处理和模式挖掘等功能。数据采集模块在.NET平台下设计实现,生成的XML文档利用XML相关技术进行数据抽取,模式挖掘利用单维数据集,采用改进后的FP算法实现。
王海超[9]2009年在《基于Web挖掘的电子商务个性化推荐技术研究》文中研究表明随着Internet的日益普及和电子商务的蓬勃发展,基于互联网的商业Web站点面临越来越激烈的竞争,商务网站从“以站点为中心”向“以用户为中心”发展成为必然。如何对大量复杂的电子商务信息进行有效的组织利用,从中抽取感兴趣的模式,更好地理解客户的行为,从而改进站点的结构或为客户提供个性化的服务成为电子商务发展必须要解决的问题。Web作为一个巨大的广泛分布的全球信息服务中心,包含了大量动态的超链接信息和访问及使用信息,为电子商务的个性化推荐服务提供了丰富的资源。对Web上包含的有用信息的提取则需要以数据挖掘为基础,因此,将Web挖掘融入个性化推荐之中,是解决上述问题的有效途径。本文对基于Web挖掘的个性化推荐进行了较为全面的研究,开展的工作及创新主要体现在以下三个方面:(1)提出了交叉式Web挖掘的个性化推荐新方法。即在基于Web使用挖掘的个性化推荐中引入Web内容挖掘和Web结构挖掘,并依据改进的稀疏矩阵定义,针对Web站点的不同情况选取不同的推荐方法:正常状态下延用基于Web使用挖掘的个性化推荐;而当用户-项目评价矩阵出现冷开始和稀疏性等问题时,就可以根据页面内容之间的相似性和页面链接之间的相似性来为用户提供个性化推荐。另外,采用一致化的表示形式将Web内容和Web结构挖掘的挖掘结果提供给推荐引擎。(2)提出了基于二分法的改进PAM(IPAM)方法,并将其运用于Web结构和Web内容数据的个性化推荐,IPAM算法有效地解决了传统PAM算法迭代次数多、时间复杂度高的问题;另外,本文在IPAM算法中引入Web结构和Web内容在页面上的权重,从实际出发,使得聚类更具实用性。(3)设计并实现了一个简单的离线状态下的基于Web挖掘的个性化推荐系统。实验证明,IPAM算法较之PAM算法更加有效,解决了其时间复杂度高的问题;基于交叉式Web挖掘的个性化推荐方法可以有效的弥补传统个性化推荐的不足,显著地提高了推荐的精确性。
宋洪芳[10]2005年在《Web数据挖掘在电子商务中的应用研究》文中指出数据挖掘是近年来随着数据库技术和人工智能技术的发展而出现的一种全新的信息技术,它融合了数据库、人工智能以及统计学等多种学科的知识,试图从数据中提取出先前未知、有效和有用的知识。 随着Internet的迅速发展和普及,电子商务的发展越来越多地引起研究者们的关注,期望能够在这种新型的商务模式下,充分利用它的优点,获得更多的经济效益。Web已经成为企业开展电子商务的基础。数据挖掘的思想和方法应用到电子商务中,帮助电子商务的经营者从海量的信息中得到真正有价值的知识,以指导他们的决策。Web数据挖掘就是在这样的背景下与电子商务结合在一起的。 Web挖掘是传统数据挖掘技术在Web环境下的应用,是从Web上的数据(如Web日志、页面内容、页面之间的结构等)中发现用户的浏览模式或寻找相关的Web页面等。Web挖掘分为Web内容挖掘、Web结构挖掘和Web访问信息挖掘。其中,与电子商务最为紧密的是Web访问信息挖掘。 本论文针对Web访问信息挖掘进行了较深入的研究。通过对用户访问信息进行有效的数据挖掘,可以从用户浏览网站的数据中抽取感兴趣的模式,理解用户的浏览兴趣行为,以便进一步改善网站结构,为用户提供个性化服务。本论文的主要工作表现在以下几个方面: 1.综述了数据挖掘的主要方法、常用技术以及挖掘过程;讨论了Web挖掘的定义、分类、流程、应用领域、研究方向以及当前面临的问题。 2.探讨了电子商务、电子商务推荐系统与个性化服务、电子商务中进行Web挖掘的数据源、获取的知识模式以及Web访问信息挖掘在电子商务活动中的应用。 3.探讨了对Web访问日志进行预处理的方法。通过预处理Web访问日志,删除对于Web挖掘没有价值的数据,识别出用户会话,形成用户会话的数据库:运用最大向前引用方法对用户会话进行分割,得到用户的事务数据库。 4.将关联规则挖掘技术运用到电子商务中用户访问模式的发现。传统的关联规则挖掘算法并不适合Web中的用户访问模式的挖掘,所以必须改进关联规则挖掘算法。本文针对Web访问信息挖掘的特点,通过改进Apriori算法,得到一种频繁路径挖掘算法。为了提高挖掘算法的有效性,提出了一种不需要生成候选集的快速频繁路径挖掘算法。频
参考文献:
[1]. Web访问信息挖掘及其应用[D]. 谢辉. 中国科学院研究生院(计算技术研究所). 2000
[2]. 基于Web访问信息挖掘的推荐方法研究[D]. 王实. 中国科学院研究生院(计算技术研究所). 2001
[3]. Web数据挖掘及其在电子商务中的应用研究[D]. 任新. 贵州大学. 2008
[4]. 改进关联规则算法在Web挖掘中的应用研究[D]. 石凯. 中南民族大学. 2007
[5]. 网络日志中用户兴趣的挖掘及利用[D]. 郭岩. 中国科学院研究生院(计算技术研究所). 2004
[6]. 基于Web访问信息挖掘的数字图书馆个性化服务研究[D]. 刘建东. 浙江理工大学. 2010
[7]. 基于Web的用户访问信息挖掘研究[D]. 赵元媛. 贵州大学. 2008
[8]. 一种基于XML的Web访问模式发现模型研究[D]. 宁海霞. 华中科技大学. 2006
[9]. 基于Web挖掘的电子商务个性化推荐技术研究[D]. 王海超. 江西理工大学. 2009
[10]. Web数据挖掘在电子商务中的应用研究[D]. 宋洪芳. 山东科技大学. 2005
标签:计算机软件及计算机应用论文; 电子商务论文; 数据挖掘论文; 聚类论文; 关联规则论文; 推荐算法论文; 推荐系统论文; 数据挖掘算法论文; 文本挖掘论文; 网站结构论文; 空间数据论文; web技术论文; 空间分析论文; 电子商务模式论文; 电子商务环境论文; 用户研究论文; 用户分析论文; web开发论文; 网站分析论文;