基于属性聚类的传销网站账户去重方法研究*
赵广晔
(中国刑事警察学院,辽宁 沈阳 110854)
摘 要: 在网络传销案件取证过程中,需要分析传销活动的实际参与人数,但是由于网络身份的虚拟性,经常存在一人使用多个账户的情况,因此需要对传销网站中的账户进行去重分析。目前常用的方法是将姓名、身份证号等信息一致的账户做去重处理,但是该方法无法对使用虚假身份注册的账户进行去重。文章提出了一种基于属性聚类的账户去重方法,通过对与使用者身份关联的属性进行聚类分析,从而实现对传销网站中的账户进行去重。
关键词: 电子数据取证;网络传销;并查集;去重统计
1 概述
在办理网络传销案件时,根据法律规定和相关的司法解释,犯罪嫌疑人直接或间接发展下线的人数是对其定罪量刑的重要依据。但是网络传销案件的参与人是以虚拟账户的方式加入传销组织的,存在大量一人多账户的情况。然而在司法解释中的人数指的是参与传销活动的自然人。
本文首先介绍目前司法实践中常用的简单去重法,并对该种方法在司法实践中遇到的问题进行分析。然后针对这些问题,提出一种基于属性聚类的传销网站账户去重分析方法。
2 简单去重法及其在司法实践中存在的问题
2.1 简单去重法
目前网络传销组织者往往会要求参与者提供姓名、身份证等个人身份信息,以及手机、邮箱、微信、QQ等联系方式,同时还会要求参与者提供银行卡、支付宝等用来提取返利资金的账户信息。
麦穗鱼隶属于鲤形目,鲤科,鮈亚科,麦穗鱼属,东亚地区土著物种,现已遍布于世界各地,其主要分布于淡水中,常栖息在水流较缓的水域或水草密集的浅水区域。由于麦穗鱼入侵给生态系统带来了严重影响,因此利用麦穗鱼的生物学特征进行其入侵防御机制的研究日益增多。本研究通过声音结合投饵对麦穗鱼幼鱼进行驯化,试验结果可为进一步开展麦穗鱼的生物学特性以及其入侵防治的研究提供基础数据。
简单去重法指的是依据姓名和身份证号等个人身份信息组合进行查重、去重的方法。表1是某传销网站中五个账户的部分注册信息。因为一人使用多部手机的情况十分常见,在应用简单去重法时通常采用“姓名+身份证号”的组合进行分析。表1中只有“ZZKL0083”与“ZZKL0096”两个账户注册时使用的姓名和身份证号完全一致,为同一人注册,即这5个账户实际上应为4个人注册的。虽然简单去重法可以快速的得出分析结果,但是该方法在庭审过程中也遭到了嫌疑人及其辩护律师的质疑。
表1 某传销网站中部分账户的注册信息
2.2 存在的问题
(1)网站对注册信息缺乏严格验证。目前,网络传销的网站并不会进行实名验证,甚至对信息格式都不进行校验。例如,表 1中“ZZKL0096”和“ZZKL1983”两个账户的姓名和手机号完全一致,但是身份证的最后两位不同,如果使用简单去重法,这两个账户将会被作为2个人进行统计。但两个账户实际上是同一人的,只是其中一个身份证号输入错误。(2)网站对冒用身份无法鉴别。简单去重法通过注册账户信息属性的组合进行去重,无法鉴别冒用他人身份信息注册的账户。例如,表1中“ZZKL0099”这个账户注册时使用的手机号是“188****1234”,与账户“ZZKL0083”一致,但是两个账户其他信息并不一致。在该传销网站中需要使用手机接收重要信息,即两个账户实际上是同一人的。按上述逻辑分析 , 表 1 中 “ZZKL0083”、“ZZKL0096”、“ZZKL099”和“ZZKL1983”等4个账户应该是由同一人注册并操作的,即表1中账户的去重结果应为2个。
3 基于属性聚类的去重分析方法
3.1 分析思路
3.2.1 提取数据
3.2 分析方法
本文提出的基于属性聚类的分析方法主要包括三个步骤:提取数据、建立关联、聚类计数。
为了避免前文提到的情况影响去重分析结果的准确性,在进行去重分析时,不能简单的使用身份属性信息组合来进行去重。因此,本文提出一种基于属性聚类的传销网站账户去重分析方法。该方法的分析思路是对会员账户依据其属性进行聚类,如果两个账户的某一属性值相同则聚为一类,不断将聚类进行扩张,最后统计聚类数作为结果。根据会员账户的特点主要提取以下几类属性进行聚类分析:会员身份基本信息、会员操作痕迹信息、收付款账户信息等。
然后,对于会员账户信息中的每一个属性字段A[i],按照如下步骤生成关联边Erelation集合:
形心算法实现的稳定性与精度主要取决于阈值分割的情况[11]。使用最大类间方差算法找到合适的阈值且图像背景单一,因此,形心算法可以快速高效地计算出形心坐标。
高校应当培养学生正确的发展观念,提高学生思想道德水平,能够促使学生面对纷繁复杂的新媒体网络环境,树立正确的发展观念。高校可以通过开展校园文化活动,加强课堂理论知识讲解,通过不定期的举办社会实践活动等,加强学生思想政治教育工作引导,有助于强化学生政治方向与思想政治理念,提高学生明辨是非的能力,有效抵制不良信息的干扰。通过正确地引导与帮助,使学生能够正确使用新媒体软件,对新媒体的发展有着正确认知,有效掌握新媒体的操作方法,树立牢固的自律意识。在网络环境下,自觉抵制不良信息的干扰,远离不良信息的传播。
3.2.2 建立关联
在本文提出的基于属性聚类的账户去重分析方法中,所有连接在一起的结点就作为一个结点进行统计。要统计最终的去重结果即是计算图Gar中的连通分量个数Ccomponent。
3.2.3 聚类计数
将提取到的所有账户作为图中的结点,记为Naccount,结点的属性包括上述提取出的所有属性。如果两个账户有某个属性值相同,则在两个结点间建立一条边,记为Erelation。对所有账户的所有属性进行遍历,构建所有提取到的属性信息的聚类关联,从而形成一个所有账户的关联图,记为Gar。
该研究在单因素试验的基础上,运用Box-Benhnken响应面法对树舌灵芝多糖的提取条件进行优化,结果表明:提取温度、提取时间、液料比均对树舌灵芝多糖提取率有显著影响,影响大小为提取时间>液料比>提取温度;最终确定树舌灵芝多糖提取的最佳工艺条件为提取温度77 ℃、提取时间138 min、液料比27∶1,在该条件下多糖实际提取率为2.57%±0.05%。可见,运用响应面法优化树舌灵芝多糖提取工艺参数切实可靠,为树舌灵芝多糖的开发利用奠定了理论基础。
4 去重方法的实现及验证
4.1 去重方法的实现
首先,将会员账户及相关数据从传销网站后台数据库中导出。为了便于后期的数据处理和分析,将相关数据整合为一张二维表Tinfo,以CSV格式进行存储,根据传销网站存储的数据不同,相关属性字段包括账户ID、姓名、身份证号、手机号码、银行账户、登录IP地址等。
根据去重分析的需求,首先要从后台数据中提取出三类数据:(1)会员身份基本信息:主要包括姓名、身份证号、手机号等。(2)会员操作痕迹信息:主要是指会员登录时的IP地址。(3)收付款账户信息:主要包括微信账户、银行卡号、支付宝账户等。
CurValue=Tinfo[0][i];
本工程位于浙江省乐清湾瓯江口港区,拟建一个岸线总长度为1250m、带有3个件杂货泊位、2个散货泊位、2个待泊泊位的综合码头,为后方钢铁厂输入原材料及输出件杂货钢材服务。根据地勘测量,需进行地基处理的区域约2.05万m²。实例工程土层分布情况见图1。
基于激光雷达技术的京津冀区域气溶胶特性分 析 ………… 温玉海,倪晓昌,董 昊,程飞帆,张 琦(18)
Tinfo.sort_by(A[i]);
其次,定义图的数据结构Gar,使用导出的CSV数据建立图中的结点Naccount实例,记录结点的ID和相关属性。
辽东湾新区形成税收收入的产业结构较为单一,在粮食加工、装备制造类项目仍未投产前,仍然极大依赖石化加工企业的税收贡献,各重点石化企业形成公共财政预算收入占总体税收收入的60%以上,如果以后年度石化产品出现市场不景气,产品价格走低,将对辽东湾新区的税收收入产生极不利的影响。
CurId=Tinfo[0][‘Id’];
for j in range(1,len(Tinfo)):
if Tinfo[j][i]==CurValue:
Erelation.append(CurId,Tinfo[j][‘Id’]);
此次育婴童专题研讨,主讲嘉宾生动的演讲、耐心的解答,开阔了家政从业人员的视野,受到了与会嘉宾的一致好评。
Else:
CurValue=Tinfo[j][i];
CurId=Tinfo[j][‘Id’];
最后,统计图Gar中的连通分量个数作为去重结果。传销网站中会员账户数量和最终去重结果数都很大,所以本文采用并查集的方法进行统计。并查集主要有以下三种操作:初始化,创建一个新的并查集,并把每个元素所在的集合初始化为这个元素本身;查找,查找该元素所在的集合,即根结点;合并,将两个元素所在的不同集合合并为一个集合,在合并之前使用“查找”操作判断两个集合是否属于同一个集合。[1]
4.2 去重结果的分析
图1 某传销网站部分会员信息去重聚类结果
本文从某传销网站后台数据中提取了某一分支中1970个会员账户的相关信息,分别使用简单去重法和基于属性聚类的方法进行账户去重分析,去重结果如图1所示。图1(a)为使用简单重法去重的结果,即使用“姓名+身份证号”组合进行关联的结果,在1970个账户中,仅有两个账户的“姓名+身份证号”组合信息完全相同,即去重结果为1969。图 1(b)为分别使用“姓名”、“身份证号”、“手机号”三个属性进行关联后的去重结果,1970个账户共形成关联边280条,最终形成的连通分量数为1787个,即去重结果为1787。
使用本文方法形成的关联集合中的账户信息进行分析,发现可以有效实现对使用不同身份信息注册但是使用同一手机号码的账户进行去重,但是对于姓名相同的账户可能会发生过度去重的情况,即去重结果可能会小于实际参与人数。
5 结束语
综上,本文提出的基于属性聚类的传销网站账户去重方法可以有效实现对传销网站后台人员的去重统计,特别是可以将输入数据不规范和冒用他人身份注册的账户进行去重,虽然该方法存在过度去重的问题,即去重结果可能小于实际人数,但是相较于简单去重法,该方法的去重结果更接近真实情况,也更加合理和符合相关司法解释,具有实际应用价值。
参考文献:
[1]罗志磊,冯波,叶鹏.基于并查集的图像连通域标记算法[J].黑龙江科技信息,2017(11):41.
Abstract: In the process of collecting evidence in network marketing cases,it is necessary to analyze the actual number of participants in these pyramid marketing activities,but due to the virtual nature of network identity,there is often a situation in which one person uses multiple accounts.Therefore,it is necessary to reanalyze the accounts in the network marketing website.At present,the commonly used method is to reprocess the account with the same information such as name and ID number,but this method cannot reprocess the account registered with false identity.In this paper,an account de-duplication method based on attribute clustering is proposed.Through the cluster analysis of the attributes associated with the user's identity,the account in the pyramid selling website can be deduplicated.
Keywords: electronic data forensics;network marketing;union-find sets;deduplicated statistics
中图分类号: D631.1
文献标志码: A
文章编号: 2095-2945(2019)18-0139-02
*基金项目: 中央高校基本科研业务费专项资金资助项目(编号:3242017001)
标签:电子数据取证论文; 网络传销论文; 并查集论文; 去重统计论文; 中国刑事警察学院论文;