摘要:随着大数据时代的到来,大数据分析技术已经在各行各业得到了应用和发展。用户上网问题日益成为社会与学校关注的焦点,探索用户上网行为特征,对于从事用户管理工作而言就显得极为重要。本文以某计费系统和上网审计系统提供的日志为数据基础,运用数据挖掘技术,发现关键的数据节点,分析出用户上网行为规律,制定合理、有效的网络管理措施。
关键词:上网行为特征;数据挖掘;上网行为规律
1网络用户的行为特点
1.1用户基数大
随着现代计算机网络技术的高速发展,现代社会生活与生产活动已离不开网络,并对网络的要求也越来越高。在日常教学、管理、科研方面,计算机网络更是起着举足轻重的作用。截止2017年,我国网民数量已经高达7.72亿人!
1.2上网行为复杂多变
由于用户的基数比较大,也会伴随着上网随意性大的特点,部分用户自制力很弱,自我教育与管理能力欠缺,在这种情况下用户的上网行为随意性就非常大了。用户上网行为与本身的心理、周围环境的变换有着密不可分的联系,并且学校对用户上网行为没有一个合理而科学的指导,往往都是“一刀切”等比较粗放的模式,从而导致用户不能合理的使用互联网。很多用户上网除了聊天,就是玩网络游戏,甚至有些用户出于好奇,长期浏览不健康的网站,真正用于学习的用户却很少。
1.3安全性差
由于网络安全意识的欠缺,用户在使用网络时诸如不及时修补系统补丁、不妥善设置及保护密码信息的行为,造成网络聊天内容及个人核心信息的泄露,极大地危害个人信息安全。网络由于其半开放性的特点,会伴有些潜在的危险因素,如果使用不当,也会容易引起非法的黑客侵入事件,影响用户或教职工的网络使用,甚至可能会对网络安全造成伤害。
2数据挖掘技术
2.1数据挖掘简介及流程
数据挖掘的基础思路包括的范围很多,有统计学、模式识别和人工智能等基础思想,以及数据库、分布式技术等的相关技术,是一门交换性非常强的学科,本文将从大量日志数据中找出有用的、有潜在价值的数据,将其变为一个科学的数学模型,为管理者提供一个科学而合理的数据依据。
(1)数据集成:由于本次挖掘所需要的数据源有两个,为了提高数据挖掘工作的效率,首要工作就是将这两大数据库的数据按照科学的方法进行合理的整合。
(2)数据预处理:此项工作可以很大程度的提高数据的准确性和完整性,对数据挖掘工作具有非常大的意义,一个成熟且完美的数据挖掘分析都是建立在高品质数据上的。然后现实中这些原始数据不可避免的存在异常数据、噪声数据或者脏数据等,需要进行处理后才能进行挖掘分析。
(3)模型建立与分析:此工作为数据挖掘中最重要的一部分,经过处理过的数据,通过合适的挖掘算法,建立一个科学的数学模型,最终给管理者提供一个可视化的网络用户行为分析结果。
2.2K-means聚类算法
在基于划分的聚类算法中,基于距离K-means是被人们熟知的一种基础算法。K-means算法根据两个元素之间的距离为两者的相似度,然后重复的进行迭代运算,每次聚类完成时也是下次聚类的开始,不断的计算新的簇中心和改变整个簇类。如果本次的结果同上次运算不同,则继续进行运算。如果这次的运算结果和上次是相同的,既运算完成收敛,聚类完成,不再在进行簇中心和簇的调整。
3利用WEKA平台进行网络用户行为挖掘分析
Weka是由新西兰的UniversityofWaikato研发,是一款基于java的DateMing的软件。Weka提供了探索者界面、实验室、知识流、简单命令行等功能模块,weka下几乎能找到了所有现在比较流行的datamining模型和算法,同时用户也可以使用weka提供的api开发满足于项目需求的模型和算法。
期刊文章分类查询,尽在期刊图书馆为了全面地掌握校园用户对网络的使用情况,制定有效的网络管理策略,对网络用户行为进行分析,按照数据挖技术流程,对数据源进行数据集成、数据预处理、模型建立从而得出规律的用户行为模式。
4.1对“两大数据源”进行数据集成
本文将导出3天的上网行为系统(NetAuditor)与计费系统(billing)的日志,将两大数据库导出的数据进行数据集成,规范数据字段。计费系统提供的字段有用户账号(account)、登录时间、注销时间、使用时长(time_01)、使用流量、IP地址(address_01)、MAC地址。上网行为系统提供的字段为源IP(address_02)、终端类型、应用类型(applicate)、时间、使用详情。这里以IP字段为基准,将两大数据表导入SQLserver中,利用SQL全连接(FULLJOIN),把两张表数据信息归并在同一张表中。
4.2数据预处理
(1)加载数据将集成好的数据转化成Weka能够支持的格式既CSV格式。然后打开平台Weka,将CSV数据导入,进入探索者界面-Perproces–Save将数据保存成arff格式,得到数据挖掘数据文件data.arff。
(2)属性处理通过过滤器选项组将多余的字段及其属性Remove,打开weka-filter下非监督过滤,选择Remove,属性选择根据要删除字段的序号。诸如:MAC地址、使用详情等字段。
(3)缺失值处理运用过滤器中的ReplaceMissingValues组件。对于数值属性,用平均值代替缺失值。
(4)数据规约由于许多数据库的规模比较大,所以在对这些数据库进行数据挖掘研究时,花费的时间是非常大的,为了解决这个问题,通常使用数据规约的方法来实现,降低时间成本。本文利用SQLserver将数据中相同IP产生的相同行为筛选出来,只存储一种代表行为,而不重复记录。
4.3数据挖掘
将预处理好的数据导入模型,文件数据部分内容如下:
@relationdata//关系声明
@attributetime_01numeric//定义字段
@attributeaddress_01
@attributeapplicate
4.2.1对用户上网喜好进行分析
K均值(K-means)是最基本、最简单的聚类算法。其中K表示用户指定所期望的簇个数,相似度计算可以采用曼哈顿或者欧式距离计算,本文采用的是欧式距离,使用误差的平方和作为度量聚类质量的目标函数。
可以看出,大部分用户上网行为都符合正常人的行为习惯,但是部分用户在下课时间浏览过赌博性质的网站,也可能是浏览器恶意插件导致其浏览痕迹,通过对比IP及其关联账号,可以定位这部分用户个人信息,及时反馈给学工管理处,时刻观察他们的用户、生活情况,并且督促该部分用户改善上网习惯。还少部分人涉猎面较广,例如科技、旅游、军事、体育、宗教、求职、汽车、生活相关等方面。
参考文献
[1] 胡祖辉, 施佺. 高校学生上网行为分析与数据挖掘研究[J]. 中国远程教育, 2017(2):26-32.
[2] 陈小芳, 葛晓滨, 马冠骏. 基于数据挖掘的网络购物用户行为分析[J]. 牡丹江师范学院学报(自然科学版), 2016(1):32-35.
[3] 程斐斐. 基于用户上网日志的数据挖掘技术研究[D]. 贵州大学, 2016.
[4] 王景兰, 葛亚军. 基于数据挖掘的大学生上网行为数据分析与研究[J]. 电脑迷, 2017(8).
[5] 丰玄霜. 基于数据挖掘的用户上网行为分析[D]. 中央民族大学, 2016.
论文作者:湛树广,黄克寒,任河,赵严,李剑锋,殷金铎
论文发表刊物:《基层建设》2018年第27期
论文发表时间:2018/10/17
标签:数据论文; 用户论文; 数据挖掘论文; 字段论文; 算法论文; 网络论文; 两大论文; 《基层建设》2018年第27期论文;