利用大数据预测犯罪?看洛杉矶警局是如何做到的 2016年09月30日10:16 来源:36大数据|
洛杉矶警局与加州大学洛杉矶分校合作,采集分析了80年来1300万起犯罪案件,用于进行犯罪行为的大型研究,通过算法预测成功将相关区域的犯罪率降低了36个百分点。
可见,算法不仅仅可以帮助运营人从用户数据挖掘中获得灵感,同样,如果不是简单地分析以往的犯罪规律,而是采用预测式警务的做法,分析人员就可以利用之前犯罪行为表现出来的规律,全神贯注地分析下一个可能发生犯罪行为的地点并重点干预。
10年前,在梳理2.45亿顾客每周生成的海量数据时,沃尔玛的数据挖掘算法偶然发现了一条奇怪的信息:在发布恶劣天气预警后,除了管道胶带、啤酒及瓶装水等应急用品以外,草莓酱馅饼需求量的增长幅度最大。为了验证这一发现,在2004年飓风“弗朗西斯”即将袭来的消息发布后,沃尔玛超市的管理者下令用卡车装载家乐氏快餐,运送至可能遭受飓风袭击的地区。结果,这些快餐很快就被抢购一空。通过这个,沃尔玛的管理者对消费者的消费习惯及“公式”的威力有了非常清楚的认识。
认识到这个发现具有重要价值的并不仅仅是沃尔玛的管理层。当时,心理学家考林·麦库与洛杉矶警察局长查理·贝克正准备合写一篇论文,并向法律实施方面的杂志《警察局长》投稿。他们以沃尔玛的这个发现为契机,对警务工作进行了再思考,认为其要由反应式向预测式转型。
2009年,他们的这篇题为《预测式警务:沃尔玛及亚马逊对打击经济衰退期犯罪行为的启示》的论文一经发表,就立刻引起了美国法律实施专业人士的关注与思考。麦库与贝克所谓的“预测式警务”,是指由于计算机科学的发展,犯罪数据的收集与分析工作有可能做到“准实时”,因此在将来可用于提高预测、预防和响应犯罪行为的效率。借用Quantcast的广告词来形容,这意味着警察可以“提前了解、提前行动”。
目前,与预测式警务联系最紧密的人当属洛杉矶警察局的肖恩·马林诺夫斯基警官。他被指派协助威廉·布拉顿局长的工作,先是当他的助手,后来成为他的参谋长。从此,马林诺夫斯基时来运转。在来到洛杉矶之前,布拉顿在纽约市工作。
他只用了几年时间,就将纽约市的犯罪率降低到之前的一半,在警界名声显赫。布拉顿的工作方法很有效率,但也明显不循常规。在到纽约市警察局之前,他还担任过纽约警察部门的领导者。在此期间,他首先对逃票行为予以打击,把纽约市地铁系统从一个犯罪案件频发的暴力之地变成了一个遵纪守法、安宁整洁、秩序井然的场所。
换句话说,在重大犯罪率创历史最高纪录的时候,布拉顿首先关注的是让人们掏钱买车票。他的理由十分简单。2009年,他在回忆录中说,逃票是导致更严重犯罪行为的根源。布拉顿指出:“合法乘客会认为他们身处一个不讲法律、没有秩序的场所。
他们看到人们不买票就能乘车,便开始怀疑遵纪守法是否明智。久而久之,整个社会就会陷入一片混乱。”通过制止并惩处违法行为,甚至连最轻微的犯罪行为也不放过,就会让那些制造麻烦的人明白,最好还是掏钱买票,并且把武器(搜查时通常会被发现)留在家中。因此,犯罪率开始急剧下降。
来到洛杉矶之后,布拉顿希望继续实施某些先发制人的手段。马林诺夫斯基在布莱顿的手下工作了5年,亲眼见证了布拉顿单凭意志力就使一个暮气沉沉的部门发生了种种良性的变化。他说:“如果我们所处的机构官僚主义盛行,我们就会对遇到的各种阻力习以为常,而我们的创造力却会受到限制。布拉顿告诉我不要受到官僚主义的影响,他还教导我要有远大的志向,要有所作为。”
在工作中,布拉顿最迫切期待的是不断出现一些可以带来革命性变化的“奇思妙想”。他认为,预测性分析可以帮助他实现这个愿望。布拉顿发现,犯罪率与数据分析的速度之间存在某种联系。1990年,警察局一年只能完成一次犯罪数据的收集与研究工作,而同一年,美国大多数城市的犯罪率正在急剧攀升。
到1995年年底,警察局可以做到每月研究一次犯罪数据,而同期的犯罪率却有所下降。现在,他们可以随时查看犯罪率情况,因此布拉顿希望通过预测可能发生犯罪行为的地点,大幅度降低犯罪率。既然Quantcast和谷歌等公司可以从用户数据挖掘中获得灵感,同样,如果不是简单地分析以往的犯罪规律,而是采用预测式警务的做法,分析人员就可以利用之前犯罪行为表现出来的规律,全神贯注地分析下一个可能发生犯罪行为的地点。用亚马逊的话说:“既然你敢偷手提包,难道你就不敢抢酒庄吗?”
用算法预测并制止犯罪行为
众所周知,在某个具体区域内,犯罪地点并不是随机分布的,而是集中于某些小范围的“热点地区”。比如,西雅图历时14年收集的犯罪数据表明,有一半的犯罪行为都集中在占该市4.5%的街道上。
明尼苏达州明尼阿波利斯市的情况也差不多,半数电话都来自占该市3.3%的街道。28年间,波士顿市多达66%的街道案都高度集中于占该市8%的街道。了解这些热点地区以及这些地区可能发生哪些类型的犯罪行为,对城市的警力部署具有非常重要的参考价值。
例如,假设在我们当地的白鹿酒吧门口,每周六晚上都有人因实施人身侵害行为而被捕。如果我们可以证明这个假设是正确的,那么不难预测以后的周六晚上在同一地点还会发生类似的行为。因此,派一名警官到那里执勤,就可以预防此类恶性事件再次发生。
在发现了上述特征之后,布拉顿局长请肖恩·马林诺夫斯基协助他做这件事。在接受布拉顿的建议之后,马林诺夫斯基每个周五下午都会开车去加州大学洛杉矶分校,与该校数学系与计算机科学系的人碰头。
洛杉矶警察局同意提供犯罪统计数据集(该数据集非常庞大,收集了80年来约1300万起犯罪案件的相关数据),用于进行犯罪行为的大型研究。马林诺夫斯基非常享受与加州大学洛杉矶分校的研究人员一起合作的这段经历。10年前,他在查处酒驾任务中与警察的第一次合作使他对警务工作产生了兴趣,而在这次与计算机科学家的合作中,他们梳理数据、寻找规律,并试图建立某些公式的研究工作,再一次吸引了他。
马林诺夫斯基回忆说:“我非常喜欢那段经历。”当时,一位数学家兼计算机科学家的研究让他产生了浓厚的兴趣。这位二十四五岁的年轻人名叫乔治·莫勒,当时正在研究一个用于预测地震危害的算法。在刚听到莫勒的研究领域时,马林诺夫斯基以为这与他们当时的研究关系不大,但后来他发现自己错了。
地震会导致余震,而犯罪行为也有同样的特点。在发生入室或汽车失窃案之后,短时间内同一地点发生类似犯罪行为的可能性会增至之前的4~12倍。这种传染作用叫作“邻近重复”(nearrepeat)效应。莫勒解释说:“抢劫犯常常会在一周后再次潜入同一住户或邻近住户的家中作案。”
加州大学洛杉矶分校的研究小组借鉴了莫勒地震研究的某些成功做法,在人类学家杰夫·布兰汀汉姆与犯罪学家乔治·蒂塔的帮助下,建立了一个犯罪预测算法。他们把洛杉矶市分成单位面积约为0.15平方公里的一个个“方块区”,然后按照犯罪行为发生的可能性为这些方块区排序。
2011年11月,他们利用该算法开展了一次为期三个月的随机研究。在当天的“巡逻待命通知”中,马林诺夫斯基一开始就明确宣布:“今天是一个历史性的日子。”他所在的富特希尔区有拉图那峡谷、湖景露台、帕克伊马、影子山、太阳谷、桑兰以及图洪加7个主要的巡逻区,被分成共计5200个方块区。
在当天早晨点名时,富特希尔区的每个巡逻警察都收到一份任务地图,每张地图上都清楚地标示出一个或多个方块区,表明这些地区是犯罪发生“可能性高”的区域。图上还附有犯罪类型的统计学预测。马林诺夫斯基告诉他们:“只要你们有时间,就深入这些方块区巡逻,找出那些可能会采取犯罪行为的人或预示着可能会发生犯罪案件的状况,并采取强制或预防措施,避免犯罪案件发生。”
这次实验一直持续到第二年的2月。次月,他们对实验结果进行了评估,并就是否推广这项技术形成了结论。分析显示,这项实验取得了非常显着的成果。实验期间,富特希尔区的犯罪率下降了36个百分点。在利用算法为巡逻队下达指令的那些天里,算法预测犯罪行为的准确程度是分析人员的两倍。
乔治·莫勒说:“造成这个结果的原因之一是,人脑无法准确地为全市20个热点地区排序。也许人脑可以找出排在前两位的热点地区,但是排完前6位或前7位之后,剩下的只能胡乱猜测了。”
这项技术在推广之初并非一帆风顺,其中大部分阻力来自马林诺夫斯基手下的那些警察。他承认:“的确,有的警察认为自己不需要计算机来告诉他们哪里有可能会发生犯罪行为。
很多家伙都抵制这种做法,即使告诉他们计算机的预测结果,他们也会说:“我早就知道范纳伊斯与格伦奥克斯的交界处是一个麻烦之地。’于是我问他们:‘这个地方一直让我们头疼,对吗?那你们在这里工作多久了?’他们说:‘我们在这个地方已经工作10年了。’我接着说:‘既然10年前你们就知道这个事实,为什么这个问题至今没有解决呢?别废话了,赶紧去那里把这个问题解决掉。’”
责任编辑:钟娟娟
上一页1