大数据与侦查模式改革研究_大数据论文

大数据与侦查模式改革研究_大数据论文

大数据与侦查模式变革研究,本文主要内容关键词为:模式论文,数据论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

       【中图分类号】D918 【文献标志码】A 【文章编号】1672-2140(2015)01-0072-09

       早在1980年,未来学家阿尔文·托夫勒认为大数据是“第三次浪潮的华彩乐章”[1]。“大数据”作为一个明确的概念提出是在2008年9月《自然》杂志发表的文章《Big Data:Science in the Petabyte Era》。2011年9月全球知名咨询公司麦肯锡报告揭示了“大数据”时代到来[2]。大数据带来了生活、工作、思维的根本变革[3]1。2012年3月,奥巴马政府将“大数据战略”上升到国家战略的高度,认为大数据是“未来的新石油”[4]。大数据在西方广泛应用于总统选举预测、商业营销、疾病预防、金融分析、教育变革,也运用于社会监控和预测、治安管理、恐怖主义打击等等方面。

       运用大量数据进行犯罪侦查和控制始于1994年纽约市的警察部门启用的一个新的治安信息管理系统,即CompStat(Computer Statistics的缩写)。CompStat是通过比较数据统计报告为基础来确定警力资源分配、犯罪预防和打击对策[5]。大数据时代的到来,西方更是着力建构大数据驱动的犯罪侦查和控制体系。大数据驱动犯罪侦查和控制体系利用大数据帮助警察分析历史案件、发现犯罪趋势和犯罪模式;通过分析城市数据源和社交网络数据,预测犯罪;利用大数据,优化警力资源分配,从而提高社会和公众安全水平[6]。大数据已使犯罪侦查和控制模式发生根本性变革,利用大数据提升犯罪侦查和控制能力是未来的发展方向。

       公安部部长郭声琨强调要大力加强大数据时代提升维护公共安全和服务人民群众的能力和水平[7]。我国各级公安机关已开始有意识运用大数据推动犯罪侦查和控制。然而大数据不仅是一个技术问题,也带来了侦查理念、方式、机制的变革。我国学界的研究集中在大数据技术应用研究,对大数据带来的侦查理念、方式、机制的变革的研究偏少,也不够深入,迫切需要更为系统的、深入的研究。

       一、复杂的犯罪态势与大数据时代犯罪的数据化生态

       当下,犯罪呈现出更加严峻和复杂的态势。首先是犯罪总量大,犯罪率逐年上升。据统计,仅2012年公安机关刑事案件立案的案件数为6551440起,检察机关批捕、决定逮捕犯罪嫌疑人的案件数为680539,人数为986056[8]。近二十多年来,中国犯罪率呈逐年上升趋势,刑事案件立案数平均每年增长22%以上,超过了全国GDP的增长。①其次是犯罪智能化。犯罪是一种社会存在,科学的发展渗透到犯罪的方方面面,提升了其能力和危害程度。这表现为两个方面:一是运用科学思维实施的犯罪,主要表现为犯罪思维严密,犯罪前经过周密部署和策划,犯罪过程渗透着科学思维和谋略。二是利用科学技术实施的犯罪,突出表现为数字化犯罪。以利用网络犯罪为例,2012年,全国公安机关累计破获涉网违法犯罪案件11.8万余起,抓获犯罪嫌疑人21.6万余人。据赛门铁克公司2012年9月发布的诺顿安全报告估算,2011年7月至2012年7月,中国有超过2.57亿人成为网络违法犯罪的受害者。网络违法犯罪所造成的直接经济损失达2890亿元人民币,受害者人均蒙受的直接经济损失约1200元人民币[9]。第三,犯罪时空的复杂性。现代科技的发展,使得犯罪时间非线性,犯罪空间缺席性,时空组合的多维、多样化和任意性[10]。第四,案件因果联系复杂。相对于传统的静态、单一社会来说,现代社会是一个动态、复杂社会。在动态、复杂社会中,因果联系具有非线性、偶合性、多因性、断裂性,犯罪的因果联系往往难以确定。

       计算机及网络技术的发展,使得当下社会已经进入了大数据时代。大数据时代首先是数据记录时代。在数据记录时代,数据记录成为默认模式[11],人类社会处在被无所不在各种各样传感器和微处理器构成“万维触角”的数据网络记录之下,手机、网络、监控探头、射频技术等等无所不在地记录着我们的行为乃至我们的思想。“早上出门,电梯的摄像头记录着我们的出行时间;开车上班,道路的摄像头记录着我们的位置和车速;工作期间,网页记录着我们的浏览习惯和搜索记录,电话记录着我们的联网对象和通话时长;下班回家,购物记录界定着我们的职业身份、家庭背景甚至性格特征,电视机顶盒记录着我们的收视习惯和价值品位……”[12]“在数字世界里,我们都会留下电子‘脚印’或电子‘指纹’。”[13]20“我们正处于一种不断变化却日趋紧密的被监视状态中。事实上,现在我们的一举一动都能在某个数据库中找到线索。”[14]12

       狡猾的犯罪者能有例外而成为“数据隐士”吗?要成为“数据隐士”,意味着你要完全脱离现代社会系统,不仅不能使用数字化产品,还要完全意义上不食“人间烟火”。因为现代社会几乎被数据化了,一旦你与现代社会系统进行交换,就很有可能被数据捕捉和记录。然而,这并不是说犯罪者的具体犯罪的任何要素或片段如犯罪时间、犯罪空间、犯罪行为、犯罪工具等等都会直接且完整无缺被数据记录和储存;而是说犯罪者隐藏的犯罪信息总是被相关的海量数据从不同的侧面记录着,即便是某些甚至是主要或关键的犯罪要素或片段缺失,也可以通过不同侧面相关海量数据联接、分析,拼接或描画出犯罪过程。因此,在大数据时代,不要说数字化犯罪,即使传统手段的犯罪,都可以说落入了一种“天网恢恢,疏而不漏”的网络记录和存储体系,数据化就是当下犯罪的现实生态。

       二、大数据驱动的侦查模式是时代的必然选择

       模式指经过提炼和抽象的标准样式。侦查模式反映了侦查要素的结构关系和运行逻辑。侦查模式可以按照不同的标准进行分类。学界按照侦查是否运用信息科技手段,把侦查模式分为传统的侦查模式、信息主导侦查模式。然而,如果从信息论的视角来看,传统侦查模式与信息主导侦查模式的本质区别不是是否运用信息,而是信息记录、存储、提取以及分析方式上的根本差别。按照侦查所能运用信息的记录、存储、提取以及分析方式,可以把侦查模式划分为传统侦查模式、业务信息主导的侦查模式和大数据驱动的侦查模式。学界一般将业务信息主导的侦查模式和大数据驱动的侦查模式合称为信息主导侦查模式,但两者之间不仅是发展阶段上的差异(大数据驱动的侦查模式是在业务信息主导侦查的基础上发展起来的),而且在信息类型、信息提取和研判方式上也有根本差异,最重要的是由此差异而带来侦查理念、特征和机制上的根本变革。

       传统侦查模式是在信息存储、提取和分析上几乎没有什么科技含量的模式。传统社会,人类对信息的记录和存储方式主要是人的大脑和书写体系(传统社会由于信息记录的需要发展出一整套书写体系,由此而产生了许许多多按时间汇集的分门别类的书写档案库)。对于犯罪的信息记录来说,除了大脑和书写档案外,犯罪现场也以物质交换的形式记录着犯罪信息。因此,传统的侦查主要手段是调查访问(对大脑储存的信息提取)、书写档案的查询。②人脑信息的存储和提取的特点是:分散在不同的人身上;信息的准确性差,受到外在环境和信息储存者自身感受能力、记忆能力等影响;信息缺乏稳定性,信息量和准确性随着时间变化而衰减;信息能否提取以及提取的质量,首先取决于能否找到储存信息的人,其次取决于侦查人员的询问技术(经验)、被询问人表达能力、情绪、配合态度等等多种因素。书写档案记录信息的优点是准确性高、稳定性强,但其有两个重大缺陷:一是提取困难。人们要找到其中一点有用信息,就得把所有的资料翻阅一遍;尽管后来建立了图书馆式的目录索引,但查找起来依然耗时费力。二是不能提供直接的犯罪信息。书写档案不可能是犯罪的实时记录,只可能是犯罪破获后一种事后登记,因此这种档案对于需要破获的犯罪来说,不能提供直接的犯罪信息。传统侦查的信息分析研判主要依靠侦查人员的经验,有经验的侦查人员往往成为是否破案的关键。总之,这种模式科技含量低、粗放型特征突出,能否破案主要取决于侦查人员的经验和投入的人力多少,不仅如此,还取决于侦查人员的运气。这对于传统静态、单一的社会及其犯罪也许能够适应,而与动态、复杂的社会及其犯罪几乎完全不匹配。

       业务信息主导侦查模式是在信息技术引领下的以业务信息存储、提取和研判为基础的侦查模式。随着信息技术的发展,各种各样信息记录和存储设备被广泛使用。信息记录和存储不再完全依赖人脑和书写档案,而是电子化的记录,存储设备成为人类记录和存储信息的主要方式。这些设备代替人脑和书写档案实时记录着人类的行为,也记录了犯罪行为。所记录和存储的信息从来源和存储分布来看,形成于不同的业务经营并分布储存在不同的业务信息库中,如商家记录和存储人们的消费信息、银行记录和存储了人们的金融交易信息、医院记录病人信息等等。这些信息库缺乏整合,相互之间形成信息孤岛,信息冗余和信息孤岛成为信息存在的基本生态。就业务信息主导侦查模式来说,其主要特征是:一是侦查部门依赖于公安平台所累积的结构化的数据库主要用于人、事、物的核查、比对,实时犯罪信息仍然主要依靠人工采集。二是信息提取依然困难。不可否认,相比传统侦查模式,业务信息主导的侦查模式针对公安机关所累积结构化信息来说,确实大大提高了查询、比对效率,但是面对越来越多地被累积的不同来源、不同结构的数据,尤其是大量的半结构化和非结构化数据,既缺乏数据整合的技术和机制,也缺乏信息提取的技术手段。结构化数据是先有模型后有数据,大多具有事后登记的性质(也有少量的实时记录的数据如旅馆住宿等),很难有实时犯罪行为记录信息,其主要价值在于对人、事、物的核查;而正是不同来源的半结构化、非结构化数据中实时记录了犯罪的“蛛丝马迹”。三是信息分析、研判仍然主要依靠侦查人员的经验。业务信息系统主要用于简单的查询、比对,但是不能进行智能化的算法分析。总的来说,这种侦查模式面对当下的犯罪态势,尤其是流动性犯罪、数字化犯罪等,难有成效。

       大数据驱动侦查模式是建立在大数据和云计算平台的基础上,是大数据时代的信息主导侦查模式的升级换代。在大数据时代,大数据驱动的侦查模式是一种时代的必然选择,这不仅在于复杂的犯罪态势及其数据化生态,更在于大数据技术使得这种选择成为现实。

       首先,犯罪的数据化生态是大数据驱动侦查模式的现实基础。面对当下复杂的犯罪态势,人们似乎有点不知所措。犯罪的控制某种程度上是一种侦查技术对犯罪技术保持优势。然而现代性的发展使犯罪者具有更强的匿名性、流动性等,从而一度打破了公安机关曾经具有的优势,这也是如今犯罪爆发性增长的原因之一。然而犯罪作为一种社会存在,当社会成就犯罪条件时,也会给人类提供制约其的机会。犯罪的数据化生态根本改变了犯罪信息的记录和存储方式,极大扩大了“社会记忆”,大数据技术将彻底改变侦查技术与犯罪技术之间的对比关系。因此,我们必须改换传统的侦查模式,采用大数据驱动侦查模式以控制犯罪和打击犯罪。

       其次,在大数据时代,侦查所面对和所能处理的数据不再是小数据,而是大数据。如今,侦查所面对和所能处理的数据具有体量大、类型多、价值密度低的特征。“池塘”和“大海”最容易发现的区别就是规模[15]。过去侦查,即使是业务信息主导侦查阶段,所面对或所能处理的数据量相当于“池塘”,而与此相对照,现代侦查所面对和能处理的数据量则是“大海”。不仅如此,现代侦查所面对的则是数据的多样性:从结构上看,不仅有结构化数据,还有大量半结构化和非结构化数据;从数据类型看,有业务数据、用户原创数据、传感器感知数据;从数据表现形式看,有文字、图片、音频、视频、链接等;从犯罪案件构成角度看,有人及其关系、行为、物、时间、空间和主观意图数据。数据的价值密度低。在巨量的数据中,有关犯罪数据混杂其间,仅仅是其中小小的“浪花”,但其弥足珍贵。以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒[16]。

       第三,大数据技术能从海量的数据中对犯罪信息进行提取、分析研判以及预测未来。大数据是其规模或复杂程度超出了常用技术按照合理的成本和时限捕捉、处理的数据。而以云计算为依托的大数据技术可以突破常规技术成本和时限的要求。具体来说,其一,大数据技术能适时提取和分析处理多结构多源数据,尤其是半结构和非结构化的数据,能够从海量的、杂乱无章的数据中抽取出大量的与犯罪相关的细节、点滴片断、不同侧面数据、信息,并且能把“数据联系起来、信息点连接起来、片断串联起来”[13]29-30,从而能将表面看来毫无意义、互不关联的数据碎片拼出一幅清晰完整的犯罪图画。而对于确定一个犯罪嫌疑人的身份来说,也许只需要四个信息点就足够了。其二,大数据以云计算为依托,能够在合理时间内进行信息提取和分析。以周克华案件为例,南京警方动用上百名警力花费了数天时间对视频监控数据进行人肉搜索,而运用大数据技术也许只要几个小时就足够了。其三,大数据技术,一个最为根本的突破是能够运用海量数据进行算法分析,进行信息研判,从而帮助我们认识过去,分析原因,揭示犯罪发生的规律。最后,大数据能在分析过去中寻找有意义的模式,从而预测未来,为我们优化警力资源配置、打击犯罪提供先机。

       三、大数据驱动的侦查模式的理念变革

       黑格尔指出,“理念是任何一门学问的理性”[17],并认为理念中包含着“某种预想的东西”,具有前瞻性、导向性和设计性[18]。侦查模式转换首先是理念转换。侦查模式中的理念就是指贯穿在侦查模式中反映了侦查规律的并具有引导、支配、决定侦查活动的观点、看法、信念。大数据驱动侦查模式不仅是一种新的工作模式,更是一种新思维、新理念。在大数据时代,侦查要确立的理念有:

       在线、开放的理念。大数据首先是在线数据。大数据不仅是体量大,更是实时记录社会的复杂动态数据:用户原创和各种传感器感知数据,而正是这些数据混杂了犯罪的“蛛丝马迹”。对于侦查来说,公安大平台累积的结构化数据是重要的,尤其是对人、事、物的核查具有重要价值,但是很难有实时的犯罪记录。大数据驱动的侦查就是在公安大平台累积的结构化数据的基础上,对不断变动用户原创和各种传感器感知数据进行提取、分析和处理,获取信息。因此,对于大数据驱动的侦查,我们必须坚持在线和开放的数据理念,以获得我们需要的海量数据,进而分析、处理这些数据。

       数据主导侦查理念。大数据时代,数据是犯罪的生态,侦查过程就是数据储存、提取和分析过程,数据贯穿于侦查的各个环节,“让数据说话”成为侦查的基本思维。数据主导侦查的理念至少包括以下三个方面的内容:首先,有关犯罪的一切现象皆可数据化。凡事皆可量化,皆可数据化[19]25-26。不仅与犯罪相关的有形之物如时间、空间、人的特征(生物识别特征、行为习惯等)、行为、手段、物等可以量化和数据化,那些与犯罪相关的无形之物如人的价值观念、态度、情绪等等也可以量化和数据化。其次,大数据是侦查的基础资源,是侦查的工具箱。侦查就是对数据开矿式的挖掘和分析,侦查能否成功某种程度上取决于对大数据资源的提取、分析能力;运用大数据各种分析技术,可以获得我们所需要的犯罪信息。最后,在大数据时代,数据居于侦查过程的核心地位,支配着侦查的运行。犯罪现场重建、侦查决策、侦查途径的选择、侦查分析、数据摸排、侦查预测等等无不围绕数据运行。

       相关性理念。大数据是通过量化两个数据值之间的数理关系来确定相关关系。相关关系强,是指当一个数据值增加时,另一个数据值很有可能随之增加[3]71。传统侦查,是按照因果关系和数据结构的标准③来采集数据和分析数据。到大数据时代,我们能分析、运用几乎所有相关数据,收集数据不必再拘泥于因果关系和数据结构标准,而是坚持相关性标准,不仅采集结构化数据,还要采集半结构化和非结构化数据。这种相关关系虽然不能直接揭示内在的因果关系,但是对于犯罪侦查和控制来说,其展现的相关关系仍具有较强的效用价值。

       相关关系能让侦查人员全方位、多角度地思考分析案情。相关关系虽然不追求精确性,但是其追求丰富性,不拒绝任何机会,尽可能去创造和利用机会。通过相关关系,才能将看起来没有联系的信息内在地联系起来,从而更为全面地认识案件情况。这也许可以帮助我们发现破案线索,理清破案思路,划定侦破范围。

       相关关系可以给我们进一步确定因果关系以指引,从而确定犯罪原因和证明犯罪。相关关系的分析是分析因果关系的基础。相关关系并不必然是因果关系,但因果关系必然是高度相关关系。通过相关关系,我们可以进一步探究其中是否存在因果关系,从而证明犯罪。

       相关关系的一个重要价值是可以监控犯罪情势。如上所述,当下影响犯罪的原因是纷繁复杂的,要确定犯罪发生的原因相当不容易甚至不可能。对于侦查人员来说,重要的也许不是去理清犯罪原因,而是控制犯罪。通过相关关系,确定关联物,进而可以监控犯罪情势,从而使我们有效配置警力资源,打击犯罪。

       通过相关关系,可以预测犯罪。大数据的核心价值是预测。通过收集具有相关关系的数据,建立大数据模型,我们可以从微观上预测什么时间、什么地点、什么人、什么类型等等的犯罪容易发生,也可以从宏观上预测犯罪趋势,这为我们防范和打击犯罪提供了更好的机会。

       线上破案与线下证明相结合的理念。大数据使得发现和确定某一犯罪嫌疑人似乎变得相当容易。但是数据只是事实的镜像,并不等于就是事实;④而且大数据的算法逻辑(强调相关关系、确定的只是一种概率,甚至由于噪音等因素会出现致命的误差)与法律证明逻辑(强调因果关系和排除合理怀疑标准)存在差异,因此,犯罪侦查尚需要进一步按照法律体系的操作要求进行证明。即使我们通过大数据可以确定犯罪嫌疑人,达到了排除合理怀疑的标准,我们也必须把大数据的算法体系转化为符合法律规范要求的证明体系,把数据确定转换为法律确定。然而,线上破案和线下证明并不是割裂的,大数据能对我们证明起引导作用,帮助我们寻找证据,确定因果关系。因此,在大数据时代我们既不能抛弃相关关系,只追求因果关系,也要必须防止用相关关系代替因果关系,防止用预测来代替事实。

       四、大数据驱动的侦查模式的特点

       与传统侦查模式和业务信息主导的侦查模式相比,大数据驱动的侦查模式有如下特点:

       一体性侦查。一体性侦查是指在侦查活动中以数据共享为机制,将分散的、不同层级的、不同区域的主体及其行为有机组织起来,形成一个整体的侦查模式。过去,由于缺乏有效内在动力和联通机制,侦查合作往往较为困难。大数据时代,大数据产生大价值,数据共享产生价值将成为合作的内在动力;而数据共享本身也就是高效的合作机制。大数据驱动的侦查模式将以数据共享为机制形成纵向合成和横向合成。纵向合成是指将不同层级的主体,形成扁平化的决策、指挥结构。数据决策和数据共享将颠覆传统侦查的金字塔式层级决策和指挥结构,形成人人参与决策、上下互联的扁平机制。横向合成包括两个方面:一个方面是指不同警种、侦查各部门(视频侦查、技侦、网侦等)以及社会的有机合成。大数据时代,大数据是侦查的基础资源,而大数据主要来源于各警种的协同收集。侦查能否成功某种程度上取决于各警种收集数据的质量,进而言之,社区警察、治安警察等以数据收集这种最为基础而又重要的方式参与到侦查活动中。各警种之间的差异只不过是数据收集、分析的不同环节而已。在这里,也许最需要提出的是,当我们侦查人员在获得侦破犯罪成功的荣耀时,要将其部分荣耀甚至主要的荣耀归功于数据采集和分析人员。进而言之,这也许将形成围绕数据采集、分析、使用等环节的职务晋升、奖金分配的基本机制。此外,社会各种力量也通过提供数据为侦查提供条件,这些数据往往是我们大数据不可或缺的一部分。警力有限,民力无穷。大数据产生的新的运用民力的方式“众包”(crowd sourcing),使得全社会几乎所有的人都可以参与到侦查中去。⑤可以确定,“众包侦查”将是大数据时代侦查动员社会力量的新模式。另一个方面是跨区域的侦查主体及其行为的合成。数据共享打破了区域间割裂,而数据共享产生价值的内在动力将推动形成高效的合作机制。总之,大数据通过纵向合成和横向合成机制形成了一体化的侦查模式。

       全景式侦查。所谓的全景式侦查,就是采用海量的数据,甚至是相关的所有数据,对侦查案件进行全方位、多角度扫描、分析的侦查模式。相对于过去的侦查模式,全景式侦查有如下两个特点:一是侦查中采集和分析的数据是全景数据。全景数据也就是全面而完整的数据,在具体侦查中是够用的数据。传统侦查,由于缺乏相关信息,我们只能依赖于经验和因果关系的分析,试错式的寻找犯罪嫌疑人。而如今,我们拥有和能处理有关犯罪或某个具体犯罪的几乎所有数据,因此犯罪的任何细节、犯罪过程几乎都可能被清晰展现出来。具体来说,我们采集和分析的数据不仅是现场访问、现场勘查的数据和身份信息数据,还可以实时采集和分析视频数据、通讯数据、网络数据以及各种交易数据等等,甚至可以采集公众拥有的相关数据。这样的数据采集和分析模式突破了时空上的障碍,实现360度全方位的采集和分析数据,突破了以往的地域范围、人员范围、时间范围的限制,能将摸排范围扩大到几乎全社会所有时空,让案件侦查成为“让数据说话”的科学侦查。二是侦查思路的从面到点,侦查路径发生了根本变革。传统的侦查模式主要是根据已有条件,提出侦查假设,然后根据因果联系,一步一步验证假设。从侦查途径的类型来说,有所谓的从案到人、从人到案、从案到案、从物到案等模式[20]。总的来看,这是一种点到点的线式思路。而大数据将改变过去的点线式侦查,是从面到点式侦查,即从时间、空间、人、物、案、事件等全景式数据比对碰撞和分析,实现向数据要线索,从而锁定犯罪嫌疑人。

       预测型侦查。传统的侦查模式是回溯型侦查,即案件发生后,侦查行动才介入,侦查的内容是重建过去。随着信息技术的发展,侦查行为从回溯型侦查转向了主动型侦查。主动型侦查将侦查行为介入时间大大向前推进,甚至是侦查行为与犯罪行为时间同步,即侦查行为不仅指向已经发生的犯罪,还指向正在进行的犯罪。进入大数据时代,大数据技术使我们侦查介入时间进一步发生颠覆性的变革。大数据不仅能实时感知犯罪,从而及时采取行动,更为重要的是大数据将我们的侦查行动引向未来。大数据的核心就是预测。在大数据面前,“我们不会再把人类的行为视为互不相关、随意偶然的独立事件。相反,它们应该是相互依存的奇妙大网的一部分,是相互串联的故事集中的一个片段……人类行为遵循着一套简单可重复的模型”,而且“它们的可重现性和可预测性与自然科学不相上下”[14]13。因此,借助大数据,既可以预测某一区域乃至全国的某种类型的犯罪趋势,也可以预测某一时间某一具体地点某种类型的犯罪,还可以预测某一个体的犯罪概率。⑥根据预测,我们可以制订计划,优化警力配置,采取行动。这样,对于犯罪侦查来说,过去的“犯罪发生——再反应”模式或将被改变为“预测——行动”模式。

       算法侦查。传统侦查模式主要依靠侦查员的人力、经验以及运气;业务信息主导的侦查模式是通过信息查询提高了侦查效率;而大数据驱动侦查模式的核心是数据运算,算法有汇总、分类、回归、聚类等等,而云计算是大数据最基本的支撑。从宏观上说,犯罪发现、犯罪监控、犯罪预测都是大数据运算来实现;从微观上说,现场重建、现场分析、侦查决策等等都是一种数据运算。从侦查过程来看,大数据驱动的侦查过程就是算法过程:首先是数据采集和清洗,为数据运算做准备;然后是确立运算法则,建立运算模型;最后是通过运算结果获得犯罪相关信息。在算法侦查中,侦查员就是算法师,他们不仅要懂侦查学,还要掌握数学、统计学、计算机科学。他们不仅要评估数据,选取分析和预测的工具,还要确定运算法则,建立运算模型,解读运算结果。

       五、大数据驱动的侦查模式运行机制

       大数据驱动的侦查模式运行机制主要有三个相互关联机制组成,即犯罪监控机制、犯罪侦破机制、犯罪预测机制。

       犯罪监控机制。监控(surveillance)的本意是密切注视、观察或监视所要监控的对象,包括人、事、物、场所等。在传统社会,监控是靠人的感官来完成的;而在现代社会中,监控依赖于各种各样的数据记录、存储设备以及分析、提取技术,是一种数据监视。而大数据监视是一种“全景敞式监视”[21]。但这种监视已经超越了边沁和福柯的概念,因为其不仅是空间上的全景敞式,也是时间上的全景敞式,是空间、时间、权力的立体交汇。

       数据监控作为一种犯罪监控机制来说,要实现监控,必须要适时提取或捕捉到犯罪的相关信息。在依靠人工提取、分析信息的时代,大量数据不能被应用,处于沉睡状态,有关犯罪的信息不能得到及时提取。到了大数据时代,不仅数据量大了,更重要的是犯罪信息能够被适时抽取,大数据的监控价值得以真正实现。

       根据提取或捕捉犯罪信息的时间,可以把大数据监控机制划分为两大机制:一是数据记录、存储以供分析、提取机制。这种机制实质是为犯罪侦破机制的数据做准备。二是实时报警机制。这需要三个步骤:问题识别和定义、模型建构、实时报警。问题识别和定义是指要对什么样的信息进行提取,数据分析要达到的目标是什么?并对要提取的信息和达到的目标进行数据化的界定。模型建构就是根据大数据和其要提取的信息、达到的目标构建数据模型。数据模型或者能够进行智能化搜索和比对,如苏州市公安局近期开发的人脸识别系统;或者能捕捉到异常的数据。最后是对搜索比对到的有价值的信息或异常数据进行可视化的报警。

       犯罪侦破机制。犯罪侦破机制是指案件发生后,侦查机关为达到侦查破案的目的所采用的手段、方式和过程。大数据时代的犯罪侦破机制大体分为四个阶段:

       数据准备。数据准备包括数据采集、清洗、转换和数据集成。数据采集既包括具体案件发生后现场勘查、现场访问所获得的数据,也包括准备的与案件相关的大平台数据,更重要的是按照相关性理念,向社会采集相关的各种数据,⑦如出租车运行轨迹数据、银行数据、公共场所非公安视频数据、电话数据、移动设备数据、私家庭院视频数据、个人手机随手拍数据、互联网数据等等。数据清洗是指清除数据噪声和与挖掘主题明显无关的数据。数据集成是将来自多个数据源、不同结构的相关数据组合在一起。数据转换就是对数据进行一定的格式转换,使其适应数据挖掘系统或挖掘软件的处理要求。

       明确问题和确定分析思路。侦查过程是一个问题(比如是谁在什么时间用什么工具作案等一系列问题)求解过程。根据现有的数据比如现场勘查、现场访问等收集的信息以及采集到海量数据情况,明确侦查要求解的问题,并对问题具体化和数据化。然后根据明确的问题,确定具体分析思路。

       数据挖掘。这个阶段主要是根据所编制的问题进行大数据分析。通常的分析方法有关联分析、序列模式分析、分类分析、聚类分析等等。所谓的“关联”是指两个或多个数据之间存在着一定的相关关系或规律。数据中的关联按照关联物的类型可以分为人员关联、行为关联、事件关联、物品关联和综合关联;按照关联方式可分为简单关联、时序关联和因果关联等。关联分析,是利用计算机技术、统计技术、数学模型等挖掘出隐藏在数据中的关联关系。比如某个具有一定特点的系列案件发生时,总有甲的手机信号存在,由此我们就可推断出甲可能与该系列案件有相关关系。链接分析是相关分析的一种类型,主要用于从确定的已知条件通过分析人与人之间,事与事之间、地点之间以及组织之间的相互联系去确定犯罪嫌疑人及其整个犯罪网络。这对于结伙犯罪、恐怖主义犯罪、洗钱、网络诈骗尤为有效。比如已知某个嫌疑人,可以通过电话链接、电邮链接、业务链接等等的分析,追踪到犯罪的关系网络,可以确定哪些人是这个关系网络的核心,从而确定关键人物[22]。再比如若已知某笔异常的资金交易,可以通过追踪其流向确定犯罪嫌疑人及其运作方式。序列模式分析与关联分析法相似,是一种挖掘出能反映数据间的前后关系的分析。如通过银行账号资金的流动前后分析、比较,发现异常账户,追踪犯罪嫌疑人的动向。分类分析和聚类分析是两个相反过程的分析方法。分类分析是按预先标准或记录对数据进行分类,并在此基础上对数据特征进行更为深入的描述。聚类分析是一种探索性的分析,是根据一定的规则,对未标定或未分类的数据进行合理的分类。分类和聚类在侦查中的应用,如对身体特征、作案方式等进行分类分析与聚类分析,也许能给侦查人员提供更多、更详细的信息,从而确定犯罪嫌疑人。

       确定目标和验证阶段。通过大数据分析,可能会产生两种结果:一种是缩小了侦查范围,这当然还需要进一步线下查证,以确定犯罪嫌疑人。另一种是确定了犯罪嫌疑人,但这仍然需要线下查证。这是因为数据只是事实的镜像,其确定只是一种概率以及数据证明与法律证明体系的间隔,所以需要从现实关系上进一步查证,把数据确定转换为法律确定。

       预测机制。研究证明,人类的行为93%是可以预测的,成为“已发生的未来”。犯罪预测机制是通过大数据和“幂律分布”分析,较为准确预报犯罪类型、犯罪时间、犯罪场所、犯罪趋势的手段、方式和过程。在美国的孟菲斯,犯罪预测系统“让当地的犯罪率下降了31%”[23]。大数据预测的一般路径是通过对过去犯罪规律的描述建立模型并对模型优化,然后将现有数据输入模型进而从其结果中预测未来。⑧大数据预测犯罪常用的分析工具是贝叶斯网络。贝叶斯网络是一种概率推理方法,它能从不完全、不精确和不确定的知识和信息中做出推理,可以处理不完整和带有噪声的数据集,从而解决了数据间不一致甚至相互独立的问题[24]。

       大数据引领现代警务的发展,但毋庸赘言大数据并不是完美无缺的。美国微软研究院首席研究员、麻省理工学院公民媒体中心客座教授凯特·克劳福德对大数据的效用提出了质疑,认为大数据中存在偏见和盲区[25]。我们认为,大数据仅仅是一种技术,再高端的技术也离不开人的驾驭。大数据不能排除人的经验、直觉在其中的作用。大数据驱动的侦查模式,是对传统侦查模式的超越,但其有效模式应是大数据、侦查直觉、经验的完美结合。

       注释:

       ①笔者根据国家统计局1990年至2012年数据测算而来。

       ②除此以外,还有现场勘查(现场物质交换信息的采集)。现场勘查在上述的三种侦查模式中都十分重要,这里作为三种模式的比较,因此不再赘述。

       ③按照这两个标准,公安机关只是采集业务工作的基本信息,如户籍警按照一定的结构记录了人口基本信息、治安警察按照一定的结构记录了违法犯罪信息等,采集信息范围狭窄。

       ④数据有时表现的是一种虚假事实,而且数据易于篡改。

       ⑤在波士顿爆炸案的破案过程中,FBI就采用了众包的形式。在众包侦查中,公众提供犯罪数据和智慧。

       ⑥美国国土安全部研发的“未来行为检测科技系统”就是预测个体犯罪概率的系统,在研究测试中,系统检测的准确度可以达到70%。近来,苏州市公安局开发使用的PPS犯罪预测系统也有较高的准确率。

       ⑦在波士顿爆炸案的破案过程中,FBI收集了Copley广场附近的所有监控录像、各种私人录像、照片、网上信息,包括Twitter,Facebook,Vine,Youtube等社交媒体上出现的相关相片、录像等;向公众提出了收集相关信息的请求等。

       ⑧如意大利特兰托大学一项名为“Once Upon a Crime”的研究,用免费的人口统计和移动数据与犯罪数据进行了比对,并成功预测伦敦可能发生犯罪事件的地点,准确度高达70%。参见:警务大数据案例:用手机移动数据预测犯罪[EB/OL].http://www.ctocio.com/bigdata/16748.html.苏州市公安局开发了PPS预测系统。PPS预测系统就是综合了大量环境数据和犯罪数据的基础上建立预测模型,对未来3天内的案件进行推理预测,然后通过热点制图的方式来给出每个热点网格区域内可能会发生的犯罪数量。

标签:;  ;  ;  ;  

大数据与侦查模式改革研究_大数据论文
下载Doc文档

猜你喜欢