数据可视化技术在违法资金分析中的应用
程 科
(江西警察学院,江西 南昌 330100)
摘 要: 数据可视化技术借助图论、计算机图形学理论,将大量枯燥的数据转换为生动的图形图像形式,清晰有效地传达数据背后的关联信息,便于分析人员在数据中发掘深层次的价值。数据可视化分析的步骤分为数据获取、数据过滤、映射、渲染和观察;可视化过程遵循准确、清晰、可拓展、美观四个原则。在经济犯罪侦查中,数据可视化分析技术得到了广泛应用。利用可视化分析的映射关系,可以将大量资金交易数据展现为可视化关系图、资金流向图,帮助侦查人员洞察犯罪嫌疑人之间的资金流向、关联关系,发掘核心团伙成员。针对大量资金交易记录,可以进行基于数理统计的简单分析和基于数据挖掘算法的复杂分析。复杂分析中的中心度算法和社区发现算法常用于挖掘犯罪团伙中的核心人物和核心团伙。中心度算法主要用于挖掘资金交易网络中的活跃分子、重要中间账户和隐秘中心人物;社区发现算法则主要用于筛选交易网络中的核心团伙。
关键词: 数据可视化;违法资金交易分析;映射;中心度;社区发现
一、数据可视化技术概述
数据可视化技术是一种将数据转换成几何图形表示的计算机技术,它能够直观地展现数据含义,提供自然的人机交互能力。随着大数据时代的到来,可视化技术为各个领域的业务专家提供了有力的工具,帮助他们组织、理解、探索数据,发现新的价值。数据可视化技术旨在借助图形化手段,清晰有效地传达数据背后的关联信息,发现新的规律。这就意味着数据可视化不仅要有效地传达数据之间的隐秘关联性,又要兼顾到美学展示;要通过直观的表达方式,实现对于复杂数据集的深入洞察。
(一)数据可视化技术的发展现状
1987 年,美国国家科学基金会的“图形、图像处理和工作站”讨论组发表了一篇名为《科学计算中的可视化》的报告,该报告明确提出了将可视化技术发展成一个科学领域。此后,科学可视化和可视分析技术的研究蓬勃发展。目前,可视化技术包括三个主要分支领域,分别是科学可视化(Scientific Visualization)、信息可视化(Information Visualization)以及可视分析学(Visual Analytics)。科学可视化是其中最成熟的一个研究分支,它主要面向天文观测、地震研究、医学研究、石油勘探等特定领域,目的是将自然科学实验、探测活动、计算机建模等数据图形化以便于分析、研究。科学可视化的数据类型比较单一,主要是来自科学实验、观测、仿真的结构化数据,具有物理、几何属性。信息可视化面向的是电子商务、金融、社交网络、新闻、博客等各个新兴领域,目的是探索、发现信息之间的关系。信息可视化的数据包括结构化数据和非结构化数据,一般不具有物理、几何属性。信息可视化是普通大众、非技术人员能够理解的图形化表示形式。可视分析学是2005 年以来,可视化技术和数据分析技术相结合发展出来的数据可视化的一个新的分支领域。它借助计算机,以可视化交互界面为基础,实现对多模态信息(文本、语音、视频、图像、社交网络等)的综合分析,帮助各行各业的用户理解数据。如今,数据可视化技术已经与人类的生活息息相关,高德地图、百度指数、科研论文历史分析、新闻热点等各种常见领域都应用了可视化分析技术。在公安大数据应用的背景下,对公安工作涉及的各种数据进行分析、研判,实现情报主导侦查、数据化实战,属于可视分析学领域。
(二)数据可视化分析的步骤
数据可视化分析的一般过程包括以下步骤:数据获取、数据过滤、映射、渲染和观察。通过可视化软件的图形用户界面,用户可以参与到这些步骤中,影响和控制可视化过程。数据获取是从各种数据源中搜集面向任务的原始数据。数据过滤是指对获取的原始数据进行清洗并规范化。在这一阶段,可能要对某些数据进行转换、去重、补全等各种处理。原始数据经过过滤,就成为有待可视化的数据。映射是指将抽象数据转换为可视化表达的过程。比如,通过箭头表示资金交易数据的方向,通过颜色深浅、线条粗细表示数据值的大小等等。通过设置巧妙的映射关系,将复杂、抽象的数据形象、直观地展现到一张或多张图表中,有利于用户快速、准确地理解数据。渲染是通过图形渲染库和计算机显示卡的帮助,把经过映射的数据以二维图形或三维图形的形式绘制出来,获得最佳可视效果。观察是用户通过图形用户界面,对可视化结果进行分析、研判的过程,并因此获得反馈结果,进一步操作软件,进行优化或迭代分析。[1]数据可视化分析步骤如图1。
图1 数据可视化分析的步骤
纵向的五个步骤可以通过图形用户界面与用户交互。通俗意义上交互是指用户与计算机进行的交流,即用户通过操作做出某种动作,计算机做出相应的反应。通过设计便捷有效的交互方式,用户可以自由地对复杂数据进行探索。目前,越来越多的人机交互突破了鼠标点击和手指滑动。先进的人机交互技术可以通过捕捉人体的手势,翻转三维空间的对象,方便用户处理图形化影像。
总之,对马克思主义进行继承和创新基础上的理论重构,既要顺应时代潮流,更也要结合中国实际,在发扬马克思主义和中国优秀传统文化的同时,积极进行理论对话。只有这样,我们才能谱写出新的中国化马克思主义的宏伟乐章。
(三)数据可视化的基本原则
1.点度中心度
可视化的目的是把复杂数据有效地展示出来便于探索,其首要的原则是准确。准确是指可视化结果反映的是数据的真实性和客观性。比如,在地图中展现的经纬度定位必须与GPS 数据一致;违法资金交易数据的可视化过程中,要求交易方向、交易金额、交易次数的图形化表达与原始交易记录一致,体现数据的真实性和客观性。其次,要求数据可视化的表达清晰。清晰是指可视化结果表达的含义要简单明确,一目了然。由于数据在过滤、映射之后,可视化结果表达的信息有多个维度。那么,对可视化效果的展现就应当有取舍和侧重。一方面,应当通过最少的图形传达给用户最多的信息,对可视化效果进行合理简化,突出重点。另一方面,可视化的结果需要阐明事物之间的相互关系,事物的变化趋势等。此外,可视化结果应当可以拓展。可视化是对部分过滤数据的直观表达,当用户通过可视化分析软件进行数据探索时,不是一次性完成分析任务,通常需要多次迭代分析、研判、拓展其他关联关系。因此,数据可视化不仅要求展示重点分析的内容,还应实现在可视分析过程中添加其他扩展信息、拓展分析结果、不断形成新的结论等功能。这需要可视化技术的底层仍与数据库技术紧密连接,既能在底层进行增、删、改、查,又能在可视层得到对应图形图像,进而拓展可视结果。最后,可视化结果应当美观。数据本身是枯燥、生涩、难以理解的,经过可视化之后,除了要易懂、可读,也要具有美感。实践中,可视化分析应构建故事场景,生动展现数据;使用用户熟悉的图形图像,对于类似的事物便于形象化比较;要考虑把交互方式和动画效果进行结合,从时间和空间维度对事物的发展变化过程进行刻画,创造沉浸式的体验。比如在违法资金数据可视化分析中,就需要结合时间、空间因素进行设计,体现资金流动的前因后果,具体可以使用箭头、调整布局、创造流动感等。[2]总之,我们需要从空间、颜色、布局、对可视化的效果进行优化设计,使得可视化的结果有视觉上的冲击力,对用户产生吸引力。
二、违法资金数据可视化映射的原理
(一)数据可视化映射的原理
Experimental study on durability of subway lining concrete
但随着资本边际报酬收益的不断递减以及“人口红利”的逐渐消失,要素生产率对经济增长的重要性也日益凸显,党的十九大报告也指出,中国经济已经从高速增长阶段进入到了高质量发展阶段,因此全要素生产率成为安徽提高经济增长质量,促进经济可持续发展的关键。
(二)资金交易数据映射的基础规范
违法资金数据是指根据侦查、调查工作需要,有权机关(侦查、监察调查机关)查询获取的涉案账户交易明细、嫌疑人第三方支付交易数据以及其他金融产品的交易数据。目前,侦查人员获取违法资金数据的来源主要有公安网违法犯罪资金查控平台、银行业金融机构、第三方支付平台等。办案实践中,常见的数据有涉案账户交易明细,支付宝交易明细和微信交易明细及开户资料信息。这些资金交易数据通常以CSV 或XLSX 文件格式的形式由协查的银行业金融机构、第三方支付平台反馈,供办案民警分析。如表1 实例为银行反馈的交易明细表部分数据。
表1 银行反馈账户交易数据部分截图
这些数据其实来源于各银行业金融机构、第三方支付交易平台的数据库。虽然不同数据库管理系统对数据字段的设计和对数据类型的设置有一些不同,但根据资金交易的特征,表征一条完整的交易记录必须设置的字段普遍包含交易账号、交易户名、交易金额、收付标志、对方账号、对方户名、交易时间等关键信息。
对大量资金交易数据进行可视化分析的关键是数据映射,即将数据字段按照某种规范转换为图形。在情报分析可视化映射理论中,通常用实体(节点)和链接(线条)来描述数据与图形的对应关系。实体(entity)本是一个哲学概念,指现实存在物。这一概念后来被引入计算机科学中,指电子数据所描述的个体。随后实体一词被引入公安情报分析,泛指情报研判所关注的人员、组织、物品、案事件等。实体的属性主要有:实体类型(entity type)、实体标识(entity ID)、实体标签(entity label)。实体类型是情报分析目标抽象的分类,如在违法资金分析中的一个涉案银行账号6236****25317,其实体类型就是银行卡。实体标识在情报分析中起到区别唯一一个分析目标的作用,比如在资金分析中的银行账号或卡号,是区分唯一实体的一个标识,不可能与其他任何账号产生重复。情报分析中常用的实体标识还包括居民身份证号、手机号码、交易流水号等。实体标签是根据分析需要给实体标识赋予一个简单易读的分析字段,可以有重复值。在资金交易分析中,通常用交易户名作为实体标签,如上述涉案账号6236****25317 的标签可以是该账号的开户名称康某。链接(link)是可视化映射过程中连接两个实体的一种关系表达,通常用线条和方向箭头的形式表示。链接可以被赋予很多属性,如在资金交易分析中,康某向邱某转账,康某和邱某的关系即为交易对手,交易对手是此次要表达的链接属性。违法资金交易分析中的实体标识、实体标签、链接映射如图2。
图2 资金交易中实体、链接的可视化映射
链接可以没有方向或根据分析需求设置方向。通过给线条加上箭头方向可以显示实体或关系的所有权,有方向的链接称为有向链接。违法资金分析中通常用有向链接表示资金的流向。链接同样有属性设置,链接的属性可以表达实体关系中的方向、数值、发生时间等具体信息。违法资金分析中通常用交易金额、交易时间作为链接属性。通过以上这些基本设置,就能够把违法资金交易数据项中最常用的交易账号、交易户名、交易金额、收付标志、对方账号、对方户名、交易时间全部进行映射,形成一条交易记录的可视化效果。如图3,通过映射,按时序还原了表1 谢某2019 年6 月2 日16 时03 分向康某的20000元转账和康某2019 年6 月2 日16 时23 分向邱某的2223 元转账情况。
图3 违法资金交易记录的时序可视化映射
基本映射原理可以形成一种规范,对这种映射规范的复用可以将海量的资金交易记录进行可视化表达,进而实现所有资金交易数据的全面图形化。
(三)违法资金交易可视化关系图
在经济犯罪侦查过程中,通常需要去追踪嫌疑人之间的关系、资金流关系、团伙层级关系等。具体做法就是首先将涉案资金数据的一条交易记录设置成前述数据映射的基础规范,然后将该规范应用至全部交易记录,形成资金交易可视化关系图。数据可视化技术不仅用于作为对静态数据的绘制工具,还可以构建对动态数据的交互分析模型。在资金交易可视化关系图中可以通过设置分析研判参数来筛选大额资金的进出记录,设置各种时间属性来溯源或追踪账户的进出关系等,然后通过选择适当的布局直观地显示实体间的关系网,给分析研判带来便利,提高侦查效率。
点度中心度应用非常广泛,如某人微信朋友圈里的真实活跃好友越多,就意味着他的点度中心度越高,社交圈子比较广。在违法资金数据可视化分析中,经常要根据资金交易记录去计算哪些账户是活跃程度较高的账户,或哪个账户是与其他账户有最多的直接交易,交易对手最多。这时就可以用点度中心度计算出资金交易网络中的活跃分子。
三、违法资金可视化分析中的常用算法
(一)简单分析与复杂分析
违法资金数据可视化分析分为简单分析与复杂分析。简单分析是对违法资金交易数据的简单统计与研判,主要依靠侦查人员的经验和软件操作。如某网店每天都有正常的资金交易往来,表面上是购买产品的一笔笔正常的交易。但是通过可视化分析,对交易时间及交易金额进行探索就会发现:该网店交易时间集中在世界杯比赛期间,支付时间比较集中在某场比赛开始之前半个小时,几乎每分钟都有多笔交易;对照历史交易记录,有明显的峰值;进而要判断其是否存在一定的赌球犯罪嫌疑。这种直接通过分析人员的经验就能发现交易特征的分析过程即为简单分析。简单分析并不意味着分析工作的复杂度低和工作量小,有时候反而需要大量的肉眼识别和手工操作。上述涉嫌网络赌球的案例,如果再用可视化分析软件将其时间线拉长,变成一个赛季亦或是一年,再去人工比对比赛期间与非比赛期间的交易数据,或对交易量异常增长的时间段进行分析,通过不同维度进行统计、分析研判,是现阶段典型的违法资金可视化数据分析过程。
Zhu Bing Ren needs to be discovered by collectors in Western society.
违法资金可视化简单分析比纯粹的原始数据分析效率提高了不少,如果没有可视化的技术和相应的软件开发,要从纷繁芜杂的枯燥交易流水数据中去发现这些犯罪规律,是很困难的。然而,这种简单分析需要侦查员丰富的个人经验和娴熟的软件操作能力,甚至需要大量的专职分析时间。在涉众互联网金融犯罪高发的背景下,侦查员很难具备多种经济案件的办案经验,也没有大量的专职分析时间。因此,需要引入计算机算法,完成对常用可视化分析需求的数据建模,这就是复杂分析。
可视化数据的复杂分析,不仅仅是基于数据的统计和整理,而是引入算法模型的一种有洞察力的数据可视化分析。在公安业务系统领域中,大数据可视化复杂分析技术主要用于挖掘犯罪网络、展现犯罪过程、监控犯罪人员轨迹、锁定犯罪证据等。[3]在违法资金交易数据分析中,如果要在海量数据中迅速描绘传销犯罪网络层级,追踪和回溯地下钱庄的资金去向和来源,拓展百万级别的情报数据,使用传统的简单分析方法和工具是捉襟见肘,难以实现的。复杂分析意味着引入算法模型,对涉案资金交易进行特征提取,基于图计算、机器学习、深度学习算法,使计算机自适应地探索、挖掘资金交易数据,进行智能分析,推送出嫌疑账户,实现大数据背景下的可视化侦查需求。
其中Xij表示i →j 之间是否有连接,有则为1,没有则为0;N 表示所有节点的个数。
7)计算综合评价值:式中:Di为综合评价值;wi为第i个指标在整个指标空间所占的比重,即权重。Di值越大,表明与参考数列X0越接近,方案越可行。
(二)社会网络分析在违法资金可视化分析中的应用
在一个社会网络中,如果一个行动者与其他行动者之间存在直接联系,那就说明该行动者在该网络中非常活跃,处于一定的中心地位。在这种思路的指导下,网络中一个点的点度中心度,就能够以网络中与该点之间有联系的点的数量来衡量。点度中心度表示与该点直接相连的点的个数n,点度中心度越大就意味着这个节点的点度中心性越高,该节点在网络中就越重要,计算公式如下所示:
作为外向型经济的排头兵,长三角被全球经济低迷和发达国家经济不景气影响最大。同时,在国家宏观调控政策的影响下,各地淘汰了大量的高污染和高耗能项目,在苏南、浙江、上海等地出现了大量的产业转移现象。受中西部地区产业承接的影响及各地最低工资上调,劳动力供给减少,区域内的大量劳动密集型加工行业都面临着招工难和劳务成本上涨的压力。为应对2008年的金融危机,各地政府普遍支持战略性新兴产业发展,以培育新的增长点。但是政府在产业发展中越位导致部分产业产能过剩,未能给经济发展提供新的动力。十八届三中全会明确提出全面深化改革,旨在通过改革,简政放权,把政府权力让渡给市场,充分发挥市场机制,寻求新的经济增长点。
社会网络分析是指社会行动者(social actor)及其间的关系的集合,也可以说,一个社会网络是由多个点(社会行动者)和各点之间的连线(行动者之间的关系)组成的集合。用点和线来表示网络,是社会网络的抽象化和形式化界定。“中心性”是社会网络分析的重点之一。个人或组织在其社会网络中具有怎样的权力,或者说居于怎样的中心地位,这一问题是社会网络分析重点探讨的内容。个体中心度(Centrality)测量个体处于网络中心的程度,反映了该点在网络中的重要性程度。因此,一个网络中有多少个行动者(节点),就有多少个个体中心度。除了计算网络中个体的中心度外,还可以计算整个网络的集中趋势,简称网络中心势。与个体中心度刻画的个体特性不同,网络中心势刻画的是整个网络中各个点的差异程度,因此一个网络只有一个中心势。根据计算方法不同,中心度和中心势都可以分为三种:点度中心度与点度中心势,中间中心度与中间中心势,接近中心度与接近中心势。违法资金数据可视化分析中,常用的是三种中心度计算方法。
这些题目要求学生多角度、全方位地观察、思考问题,并运用所学基础知识、思想方法分析、寻找解决问题的途径,最终给出解决问题的方法.这体现了高考重点考查“学生所学知识的运用能力,强调独立思考、分析问题和解决问题、交流与合作等学生适应未来不断变化发展社会的至关重要的能力”的要求[6].
数据可视化的形式多种多样,比较常见的有柱状图与饼图,散点图与直方图,线图与雷达图,表现层次关系的树状图,表达多维数据结构的信息立方体(Infor Cube),社交网络关键字河流图(Stacked River)等。无论哪一种数据可视化形式,无外乎涉及准确、清晰、可拓展、美观四个原则。
数据可视化分析中常用的复杂分析是社会网络分析。社会网络分析(Social Network Analysis,SNA)是社会学家根据数学方法、图论等发展起来的定量分析方法,近年来应用很广。从社会网络的角度出发,人在社会环境中的相互作用可以表达为基于关系的一种模式或规则,而基于这种关系的有规律模式反映了社会结构,对这种结构的量化分析是社会网络分析的出发点。
随着网络时代的发展,出现了大量老年教育网站,老年人可以通过网络学习、交友、娱乐等。通过对温州老年人学习网、夕阳红·江苏老年学习网、山东老年大学远程教育网、老年开放大学等18家国内主流老年教育网站调研,发现存在课程资源缺乏老年特色,这些网站多数不能多终端共享,老年远程教育网站缺乏真正的交互设计等问题。
在可视分析过程中,侦查人员通过可视化关系图可以增强对于交易数据的认知。关系图把大量的数据在有限的空间里进行整体展示,使得侦查员对资金交易有一个总体的把握;在时间和空间维度上展示数据的变化,帮助侦查员对资金交易的模式进行感知,进一步加深理解;把复杂的网络关系以可视化的方式展示出来,帮助侦查员基于感知进行交易关系的推理;通过交互式分析的方式,侦查员可以调整参数值,并即时改变可视化结果,对交易数据进行深入探索。简而言之,关系图即是对数据可视化分析结果的全部动态展示。在违法资金数据可视化分析时,通常需要展示人员层级结构、账户资金流向、资金账户交易关系等各种图形。在关系图的设置当中,可以选择多种布局展现方式,比如:网状、圆形、弹性、流向、树形、层次布局等,方便侦查人员对违法事实、涉案金额、作案时间的认定和线索的拓展。
2.中间中心度
在一个网络中,如果一个行动者处于许多其他两点之间的路径上,可以认为该行动者居于重要地位,因为他具有控制其他两个行动者之间直接互动的能力。根据这种思路来刻画行动者个体中心度的指标就是中间中心度,它测量的是行动者对资源控制的程度。行动者在网络中占据这样的位置,代表他具有很高的中间中心度,就有越多的行动者要通过他才能发生直接关系。
信息可视化需要三个要素:空间维度、图形元素、图形属性。也就是说,要呈现数据的映射,将数据转换为图形,必须要考虑展示空间维度、空间中的展示元素和图形视觉效果。我们使用可视化映射的目的是通过这三种元素提供一个强大的系统结构,它可以帮助我们更好地表达数据的含义。空间维度就是我们要创造的可视化空间。目前,绝大多数信息可视化结果都会布置在二维空间中,通常是沿着x 轴与y 轴布置轴线,映射文本、定量或排序的数据类型。在某些可视化软件中也会有三维和超维的表现方法可以选择。对资金交易记录进行可视化,通常采用二维或三维空间作为数据映射的空间质基。图形元素是出现在空间维度中的视觉元素。视觉元素有四种:点(point)、线(line)、面(surface)、体(volume)。在数据映射时,应根据需求选择恰当的图形元素清晰地表达可视化含义;避免采用过多的视觉元素使可视化效果变得复杂且不易理解。图形属性是可以应用于图形元素的属性,即点、线、面、体的大小、粗细、方向、颜色、纹理、形状等,这些元素可以更加引人注目,并传递特有的可视化价值。目前公认的影响可视化效果的图形元素有轴线位置、线条粗细、线条方向、区域形状、体积形状、颜色指标。实践中,在违法资金数据可视化映射之前,我们需要定义空间维度,然后考虑在空间基质中布置的图形元素,使用何种图形属性来传达准确、清晰的数据价值。将资金数据分析与空间维度、图形元素、图形属性进行有机结合,即形成一个交互的可视化分析过程。
中间中心度计算方法为其他任何两点的测地线,以及过该点的测地线数目之比。(测地线表示两点之间的最短距离)计算方法如下公式所示:
其中σst表示经过节点i 的s →t 的最短路径条数,σst表示的最短路径条数。
中间中心度指的是一个结点担任其它两个结点之间最短路径的桥梁的次数。通俗地说,中间中心度表示该点的“中间人”程度,即媒介程度。一个结点充当“中介”的次数越高,它的中间中心度即重要程度就越大。如果要考虑标准化的问题,可以用一个结点承担最短路径桥梁的次数除以所有的路径数量。
在违法资金数据可视化分析中,常常要分析犯罪团伙之间的资金交易往来,看是否有重点账户充当了账款汇集和转移的任务;在地下钱庄的交易流水分析中,也经常要分析是否有一些中间账户,联系了上下游资金链,从而找出那些大部分联系路径都要通过的嫌疑账户。
3.接近中心度
中国古典园林强调人与自然和谐共处,强调园林意境,这与现代景观设计注重生态性、文化性、合理性是不冲突的。因此,很多古典园林设计手法是值得现代景观设计师借鉴和深思的,中国古典园林艺术需要在现代景观设计中得到传承和发扬光大。
接近中心度刻画的是局部的中心指数,衡量的是网络中行动者与他人联系的多少,没有考虑到行动者能否控制他人。与中间中心度衡量行动者控制其上下游行动者联系的能力不同,接近中心度只考查捷径,而不是直接关系。如果一个节点通过比较短的路径与许多其他点相连,就可以说该节点具有较高的接近中心度,通俗讲就是一个点和所有其他点的接近性程度。
接近中心度的计算方法是节点v 到其它节点的距离总和的倒数。计算公式如下:
2001-2012年海南省入境旅游者人均天消费总体呈波动上升趋势,增长了30.03美元,排名从第二十五名上升至第二十名。人均天消费与全国平均值差距越来越小,缩小了9.3美元。其中外国游客人均天消费增长了20.9美元,港澳台游客人均天消费增长了146.6美元。同时,港澳台游客人均天消费的增长量大于外国游客,约是外国游客的5倍。其12年间增长的速度也比外国游客增长的速度快,增长了8.65%。海南省入境旅游者人均天消费构成中,长途交通所长比重较大。2012年海南省入境旅游者人均天消费主要在提高层次方面的消费,在购物和娱乐方面消费较多,说明海南省旅游业发展越来越健康。
其中dij表示i →j 的最短距离。
违法资金数据的可视化分析中,通常要计算那些能最快地联系到交易网络中的每个交易对手的账户。有些专业犯罪团伙中的某些账户可以通过最短路径将资金尽可能地转移至每个团伙成员。这就涉及接近中心性的概念,接近中心度表示一种对不受他人控制的中心地位测度。接近中心度需要考量每个结点到其它结点的最短路径的平均长度。也就是说,对于一个结点而言,它距离其它结点越近,接近中心度越高。[4]分析实践中,三种中心度算法计算出的点度中心度、中间中心度和接近中心度最高值有可能为同一行动者,或部分重叠,代表该行动者按几种算法都居于网络中心地位。图4 为通过以上三种算法,在违法资金交易网络中计算出的活跃程度最高(点度中心度)、中介能力最强(中间中心度)和中心地位最高(接近中心度)的三名重点嫌疑人,此处没有重合。
图4 通过三种中心度算法找到违法资金交易中的重点人员
(三)社区发现在违法资金交易可视化分析中的应用
社区发现(Community Detection)是社交网络分析的另一基本任务。社区是指社交网络中的一些密集群体,简单理解即每个社区内部节点间的联系相对紧密,各个社区之间的连接比较稀疏。从视觉上判断,社区是一个完全子图,包括顶点和边。研究网络中的社区对理解整个网络的结构和功能起着至关重要的作用,并且可帮助我们分析及预测整个网络各元素间的交互关系。社区发现即给定一个社交网络,找出其中连接紧密的社区结构。社交网络的社区发现应用很广,如在特定的疾病和病毒传播网络中找出传染病的关键社区、关键节点以及重点防护易感人群,在微信、微博等社交媒体中发现潜在客户群体用于精准广告投放,在公安业务中应用于反电信诈骗、反恐等各个领域。
在违法资金交易可视化分析中,常需要找到资金交易的紧密社区结构,即核心团伙成员。将资金交易数据映射成大数据社交网络关系图后,如果靠肉眼去识别其中的核心团伙,几乎是不可能的,此时用社区发现算法就能够很快地完成任务。社区发现算法有很多,可以分为图分割法、聚类法、分裂法、谱方法、基于模块度的方法、动态算法等。比较成熟的算法有GN 算法,K-L 算法,SCAN 算法,CPM 算法等。[5]
在违法资金交易可视化分析中查找核心交易团伙,可以基于Clique 渗透算法进行修订。核心团伙(社区)是具有共享节点的全连通子图集合,通过一种团(Clique)过滤算法来识别网络中的社区结构,其原理是这些实体相互之间的连接数多于和组外实体之间的连接数。对于一个图而言,如果其中有一个完全子图(任意两个节点之间均存在边),节点数是k,那么这个完全子图就可称为一个k-clique。进而,如果两个k-clique 之间存在k-1 个共同的节点,那么就称这两个clique 是“相邻”的。彼此相邻的这样一串clique 构成最大集合,就可以称为一个社区(可以重叠)。算法首先搜索所有具有k 个节点的完全子图,而后建立以k-clique 为节点的新图,在该图中如果两个k-clique 有(k-1)个公共节点则在新图中为代表他们的节点间建立一条边。最终在新图中,每个连通子图即为一个核心团伙。[6]
参考文献:
[1]覃雄派,陈跃国,杜小勇.数据科学概论[M].北京:中国人民大学出版社,2018:271-296.
[2]YAU N,向怡宁.鲜活的数据:数据可视化指南[M].北京:人民邮电出版社,2012:270-281.
[3]武海燕.信息可视化技术在公安领域的应用研究[J].电脑知识与技术,2017,(5).
[4]李明雪.基于社会网络的社区发现和中心性分析算法研究[D].吉林:吉林大学,2016,(4).
[5]王婷.异构社交网络中社区发现算法研究[D].北京:中国矿业大学,2016,(1).
[6]可视分析技术.智器云火眼金睛社区,智器云科技官网[EB/OL].(2019-08-06)[2019-09-10].http://www.zqykj.com/bbs/forum.php?mod=forumdisplay&fid=39.
中图分类号: D918.2
文献标志码: A
文章编号: 2095-2031(2019)05-0010-06
收稿日期: 2019-09-11
基金项目: 江西省经济犯罪侦查与防控技术协同创新中心资助项目“犯罪资金查控系统的构建与设计”(JXJZXTCX-021);2018 年度江西警察学院重点科研项目“数据可视化技术在违法资金分析中的应用”(2018ZD001)
作者简介: 程科(1981-),男,江西永新人,江西警察学院安全技术系讲师,硕士,从事公安信息技术、经侦情报、违法资金分析与查控技术研究。
责任编辑:熊佳莹