移动通信网络数据采集方法分析论文_姚棚烽

移动通信网络数据采集方法分析论文_姚棚烽

中国移动通信集团广东有限公司佛山分公司

摘要:移动互联网是移动通信与互联网两个概念结合的产物。目前移动通信运营商3G、4G技术的发展以及Wifi覆盖范围的扩大也使得网速越来越快,用户体服务需求体验越来越迫切;想用户之所想,急用户之所急的商业竞争地位思维是需要大量用户数据支撑并分析的前提。因此对用户数据合理采集并不断发掘分析,才能满足移动互联网用户日益增长的智能化需求。

关键词:移动通信;WAP网关;用户数据

一、概述

目前移动通信网络飞速发展,GSM、TD-SCDMA、CDMA2000以及WCDMA各制式无线网络基础设施升级换代频繁、核心网3G无线网络与核心网络与2G网络互相兼容兼容性,各地运营商根据实际需求考虑使用4G、3G与2G三大独立的无线、接入、核心网络并存的局面。在全网同步引入HSDPA和HSUPA技术的同时,对2G核心网中对原有GPRS/EDGE网络升级改造。

利用2G网络频率范围在890-960MHz的穿透性强的优势,不仅减轻3G、4G基站的运维负担,还可以弥补4G网络的覆盖盲区。所以在移动通信用户数据采集时不能不考虑现存2G网络的丰富数据参考价值。

随着ISO和安卓系统的智能手机的大众化,曾经的GPRS技术里数据经过WAP网关的处理逐渐弱化,用户终端可接入移动网络经过GGSN网关连接互联网并访问其内容,2G网络GPRS数据业务和EDGE技术与WAP网关相连。2G时代,WAP无线协议互联网无直接访问功能,所以添加WAP网关是用户上网。智能手机之前的Symbian系统处理能力不及PC主机,无论是网速还是现实视频、音频、互动性媒体、发布主题等等都与宽带互联网甚至光纤入户的PC家用主机电脑无法匹敌,在2.5G时代,GSM通信系统中的配套设备模块中的WAP网关只能根据MS手机终端的应别能力进行通信网与互联网的交。

二、移动通信网络数据

移动互联网在2G/3G时代,核心网是两个独立的域,控制语音相关的叫电路域(CS域:Circuit Switch),控制数据业务相关的叫分组域(PS域:Packet Switch)。相应的,与语音相关的控制都放在了电路域,比如上面的语音呼叫建立、返回振铃、判断并执行呼叫转移,业务短信等等。与数据相关的控制则放在了分组域,比如上面的与因特网服务器(通信网与因特网是两张网)建立数据连接、区分当前流量是微信还是微博等等。自2G时代以来WAP网关是承载移动数据业务的网元。

2.1 用户数据

移动通信的空间自由度与互联网的内容形式丰富结合处移动互联网的新品种。目前移动通信运营商3G、4G技术的发展以及Wifi覆盖范围的扩大也使得网速越来越快,用户体服务需求验越来越迫切;用户数据分为两种:一种是用户注册信息将自己的身份识别与手机号码相关联,在信息层面上存入数据库,咋数据层面上存入HLR中为通信系统的呼叫、寻址、和计费分配信道等工作提供服务;另一种是指通过无线基站近乎于log日志的形式,使用户主观意愿被动或不知情的前提下在系统存储设备上记录用户位置更新,小区切换,小区重选等为用户提供的移动通信服务功能。

期刊文章分类查询,尽在期刊图书馆这类数据的产生不由用户的主观意愿为选择,是为了完成一次通信系统用户漫游的一个必要手段和环节,但是在数据分析挖掘研究者看来,是有着非常意义的数据内容,通过数据的数据清洗:去重、去噪声、去错误、插值等异常处理;数据集成:统一单位、去掉冗余、选择感兴趣属性列;数据变换:数值归一化、离散化处理;数据脱敏:去隐私化,截断与加密;数据演绎:特征构造,根据原有的一个或多个特征创建出新的特征并填充。获得群体用户的地理位置特征,在不同时段的移动基站下的人流密度,绘制出人口出行交通时段的密度可视化图等等,通过对用户数据不断发掘分析,才能满足移动互联网用户日益增长的智能化需求。

2.2 数据分析

在3.5G的LTE网络体系架构中,WAP/Web网关处在PGW后与外网互通,功能等同于PDSN,其余接口并没有什么功能变化。经过BTS(基站)、传输设备、BSC\RNC等至PDSN(分组数据支持节点),在2G网络中发至WAP网关的数据分流发至智能设备;由设备开启用户TCP连接,解析主机的URL用户请求、判断、处理,经过鉴权处理合法用户,允许通过防火墙转达请求接至互联网提供链路连接分配IP地址提供服务,如果是欠费或非法用户拒绝原服务请求。从移动互联网的智能手机应用端的使用业务流量角度来分析,用户通过终端经过移动互联网接入Internet网络不同的APP有不同的流量特征,例如连接应用程序:电子邮件、即时通讯、GPS导航、远程访问;商业应用程序:移动银行服务、股市跟踪与交易、文件处理及日程规划;日常生活类应用程序:电子商务、账单支付、健康监测、数字阅读与社交;娱乐应用程序:新闻、游戏、多媒体播放器、照片及视频编辑器。

三、研究方法

3.1 数据流收集器

部署于SGSN和GGSN之间,并且不仅仅移动电话产生的流量会被记录,上网卡所产生的流量也会被记录。流量记录中包含了时间、手机号、服务器IP、数据传输大小、数据类型等信息。本课题根据这些信息建立了流量权值图(简称流量图)。其中,手机号和服务器IP分别对应流量图中的不同节点,手机号向服务器IP的数据传输代表了流量图的边,从服务器-IP到手机号是流量图中对应边的方向,数据传输大小代表了流量图中边的权值。通过上述对应方法,为不同类型的流量数据建立了各自的流量图。并在流量图的基础上,对网络流量传输数据进行了分析。

3.2 技术路线

SGSN与无线分组控制器之间同过Gb口连接,实现移动数据的管理;与归属位置寄存器通过Gr口连接,实现对用户数据库的访问控制;与GGSN通过Gn口连接,进行IP数据包的传输以及协议变换。本文通过部署Gb接口(SGSN与BSS之间)的PC端截取数据流之后,用网络爬虫软件对数据进行初步的收集。Gb接口是传递转达SGSN和BSC之问的信令和用户数据的功能。用户通过移动终端将请求发给BTS,再通过基站子系统连接传输网络,Gb接口是终端入网的必经接口。本文是从Gb接口拦截移动互联网产生的数据,并对数据尽情分类,聚类等数据挖掘方面的研究。原始数据由Gb接口得到,进行深层次的分析,不仅能够实时地了解当前的网络质量,还能发现移动用户的网络行为。以SGSN作为研究对象,GPRS是GPRS服务节点(Service GPRS Support Node)是移动通信核心网的重要组成部分,也是分组交换的核心部分。研宄流经具体SGSN的网络业务流量、接入用户数以及访问记录数的情况,以此来表征网络中具体节点的业务情况。

结束语

当前的三代移动通信系统(2G\3G\4G)并存的移动互联网环境中,移动互联网流量中虽然WAP流量不能构成主流的移动用户流量的主要组成部分,原有的WAP内容正逐渐被WEB内容所代替。本文所研究在移动互联网环境下,关于个人用户数据隐私保护的数据挖掘相关问题。采取从基础的移动互联网机制下的显示存在的“混搭”网络为数据研究出发点,深入分析地研究不同代移动通信系统所组成的网络中产生的互联网用户数据。针对每个个人为基本单位内容,采用“理论建模→方法论证→实验认证”的研究方法。随着移动数据接入的蓬勃发展,WAP网关面临着各种问题。但是作为数据分析方,需要的是广而全的数据,数据挖掘用户行为不是仅仅需要少数服从多数的统计,无论是Symbian系统的MS移动终端使用GPRS技术通过WAP网关访问WML 语言编写的网站,还是早已去电路域依靠软交换全网IP化实现核心网部分的网关转接传递,每一个bit流量都代表这一个用户一个群体的价值与意义。所以现网并存的三代移动通信系统的数据全面采集的多样性,才能展现其内在隐藏的特征,才是正确的得到数据揭示真理的第一步。

参考文献:

[1]王璐.移动互联网用户行为分析[D].重庆:重庆邮电大学,2016.

[2]赵其朋.WAP网关应对移动互联网大流量的改造及演进[J].广州:移动通信,2014.

[3]李威.移动互联网用户行为分析研究[D].北京:北京邮电大学2014.

论文作者:姚棚烽

论文发表刊物:《建筑细部》2018年第25期

论文发表时间:2019/6/25

标签:;  ;  ;  ;  ;  ;  ;  ;  

移动通信网络数据采集方法分析论文_姚棚烽
下载Doc文档

猜你喜欢