基于WEB日志挖掘的网站结构优化系统WSOS的设计与实现

基于WEB日志挖掘的网站结构优化系统WSOS的设计与实现

鲍钰[1]2003年在《基于WEB日志挖掘的网站结构优化系统WSOS的设计与实现》文中提出WEB是一个巨大的信息来源地,但提供这些信息的网站结构是否合理,唯一的评估者是浏览它的用户。每次用户的访问都会在WEB服务器上登录一条访问日志,通过这条日志可以知道用户访问的URL,用户的IP地址以及访问时间等信息,本文意在通过对这些WEB日志的分析和挖掘开发出一个基于WEB日志挖掘的网站结构优化系统WSOS(an Web Structure Optimize System,以下简称WSOS)。使用本系统,管理者可随时获得用户对网站的潜在评估,掌握整个站点的资源访问情况以及找出不合理的网站结构并做适当的调整。 WSOS分为数据预处理,基于OLAP的数据仓库信息决策子系统和基于WEB日志挖掘算法的知识提取子系统叁大部分。 数据预处理包括WEB日志的净化过滤,用户和会话的识别,以及路径填充(采用日志路径到真实路径的产生算法GTPFWLP[12]),这一部分主要为后面两个子系统服务。 基于OLAP的数据仓库信息决策子系统以巨量的原始日志为基础,通过引入事实表和维表,建立相应的数据仓库,并在其上使用OLAP技术进行各种决策统计,可以获得整个站点的资源访问情况,包括页面访问次数,文件大小求和,下载时间求和,最大文件大小,最大下载时间,平均文件大小和平均下载时间等。 基于WEB日志挖掘算法的知识提取子系统包括站点结构调整器(核心算法回溯点确定算法CBP[12]),访问模式挖掘器(核心算法前向访问路径截取算法TFAP[11]、WEB通用访问路径发现算法DGWAP[11]),页面关联规则挖掘器(核心算法页面关联规则发现算法PARD,其以apriori算法为基础添加了时序关系)和信息统计报表生成器等部分。这一子系统是WSOS的核心部分,通过站点结构调整器可以找到访问者期望的目标页面位置,并调整目标页面的引用超链到此期望点下,使站点结构更加合理。使用访问模式挖掘器可以知道用户的通用访问模式,从而可以标志出网站中的主干路径,适当调整广告的位置和删除极少访问的网站路径分枝,提高整个站点结构质量。页面关联规则挖掘器可以找出访问过A页面后,用户还可能访问哪些页面,并添加这些页面的引用超链到A页面下,从而简化用户的访问过程并减少网络带宽的占用。信息统计报表生成器是对最常见统计决策信息的图表显示,为人工修改站点结构提供了依据。

奚冬芹[2]2009年在《基于WEB使用挖掘的电子商务网站结构优化》文中认为随着WEB技术的发展,电子商务网站发展迅速,目前几乎所有的企业都有了自己的网站。拥有一个结构合理的网站是企业成功发展电子商务的基础,也是促进企业进一步发展的主要因素之一。因而如何提高网站结构的合理性也就成了网站经营者必须解决的重要问题。网站结构优化技术可以解决上述问题,它通过使用数据挖掘技术找到现有网站结构存在的不足之处并进行改善来优化网站结构。目前存在的多种网站结构优化技术中,基于WEB使用挖掘技术的网站结构优化是一个重要的研究方向。用户是网站结构合理性的唯一评估者,他们对电子商务网站的访问在WEB服务器上被记录成一条条访问日志,这些日志记录了用户访问的URL,用户的IP地址以及访问时间等信息。WEB使用挖掘技术可以充分利用这些信息发现用户的访问模式,并通过分析和研究WEB日志记录中的规律来指导电子商务网站结构优化工作的进行。本文通过对网站结构优化技术和WEB使用挖掘技术的研究,在此基础上设计和实现了一个基于WEB使用挖掘的电子商务网站结构优化系统:WSOS-WUMbased。使用本系统,电子商务网站的管理员可以根据用户的访问日志,找到现有网站结构的待改进之处并进行适当地调整,优化网站结构。WSOS-WUMbased由两个功能模块组成:信息处理模块和结构调整模块。信息处理模块的主要任务是:首先尽可能多地收集系统进行电子商务网站结构优化所需要的数据,并经过数据预处理、用户识别、会话识别/路径补充、事务识别将这些WEB访问数据转换成为合适的形式;然后选择恰当的挖掘算法来处理这些数据。本系统采用隐马尔可夫模型来模拟用户的访问行为,挖掘出隐藏于WEB访问数据中的用户访问模式。结构调整模块的主要任务则是:先根据已挖掘出的用户访问模式找到电子商务网站结构中存在的待改进之处,再选择合适的方法优化电子商务网站的结构。本系统采用调整网站的超连接体系方法,在确保原有网站性能稳定的前提下,实现电子商务网站结构优化。

刘明鸣[3]2016年在《基于Web使用挖掘的网站结构优化技术研究》文中认为网站在构建时,主要依靠网站设计开发人员的手工设计和一些先验经验进行网站结构的组织,但是由于网站的设计开发人员与用户对网站结构组织存在着不同的理解,这种主观性的差异将会导致用户在搜索其感兴趣有益的网页时往往会以更多的访问代价达到目标网页。同时,用户在搜寻目标网页时,会产生一些无关的页面点击行为,这将大大增加服务器负荷和网络的数据流量,更易造成网络阻塞,导致网络访问速度的下降,从而影响用户对站点的满意度。也就说,目标网页的最优期望定位直接决定了站点的服务质量。基于Web使用挖掘的网站结构优化技术就是通过挖掘Web日志,获得用户频繁访问路径,从而得到目标网页的最优定位,进而及时调整网站结构,使所有的用户都可以以很小的访问代价浏览站点,更有效地获取所需的信息。基于此,本文主要做了以下几个方面研究:1)为了使Web挖掘算法能够在Web日志中进行挖掘,对Web日志数据预处理过程进行了详细讨论,探讨了如何将Web日志记录转换成用户会话,得到用户访问序列。2)针对在海量数据情况下,单机进行数据预处理的效率将会愈来愈低的缺陷,提出一种基于Map Reduce的并行分布式处理办法,并将其在Hadoop平台上进行了实现。3)研究并分析了Web使用挖掘方面较为经典的关联规则算法及其特点,针对PLWAP算法在位置编码存在的缺陷,提出一种基于PLWAP算法改进的挖掘算法POCWAP算法,并结合IBM Quest Project数据进行实验,验证了其有效性与正确性,另外在与PLWAP算法的对比实验中,也直观反映出POCWAP在算法性能上较PLWAP算法有所提升。4)采用改进的挖掘算法POCWAP算法,结合成都康赛信息技术有限公司企业网站的Web日志数据,设计并开发出一套网站结构优化原型系统WSOS。重点介绍了该系统的系统框架,以及在Hadoop平台上实现Web日志预处理过程,展示预处理结果和模式发现结果,给出改进意见,最后对原型系统进行功能测试与分析。本文的最后给出了对全文工作的归纳和总结,探讨了下一步研究方向。

窦剑[4]2019年在《浅析数据挖掘应用与图书馆智慧门户建设》文中进行了进一步梳理基于web的数据挖掘技术能很好地满足读者个性化需求,通过对web日志文件的挖掘,利用路径分析技术、关联规则技术、序列模式技术、聚类分析技术、协同过滤技术等,了解读者行为习惯、个性化需求以及潜在的信息需求,从而满足图书馆网站人性化、个性化的设计需要,打造图书馆智慧门户,彰显图书馆以人为本的服务宗旨。

参考文献:

[1]. 基于WEB日志挖掘的网站结构优化系统WSOS的设计与实现[D]. 鲍钰. 华东师范大学. 2003

[2]. 基于WEB使用挖掘的电子商务网站结构优化[D]. 奚冬芹. 合肥工业大学. 2009

[3]. 基于Web使用挖掘的网站结构优化技术研究[D]. 刘明鸣. 电子科技大学. 2016

[4]. 浅析数据挖掘应用与图书馆智慧门户建设[J]. 窦剑. 四川图书馆学报. 2019

标签:;  ;  ;  ;  ;  ;  ;  

基于WEB日志挖掘的网站结构优化系统WSOS的设计与实现
下载Doc文档

猜你喜欢