首页 > 焦点要闻 > 龙哥死,白衣哥伤,大数据时代你应该有所思考

龙哥死,白衣哥伤,大数据时代你应该有所思考

2018-09-05 22:30  

基本信息


文/张涵诚
 
龙哥死了,白衣哥受伤了,大家议论的很热闹,龙哥死的大快人心,白衣哥受伤了,不要判刑、是打抱不平,是当代英雄等观点,跃然朋友圈。各种文字看后,大体可以分为系统性分析的,有做技术细节分析的,有做社会价值分析的,专业法律分析等等,总之都很精彩、很正能量。就是没有想要利用大数据来解决这个问题,故笔者试图利用计算机与数据科学提出这个问题的解决方案。
 
闲话少说,直接上干货:
 
 
第一步,杀人大数据采集
 
这一步自然是要采集人类历史上尽可能多的杀人数据案例,可以肯定,大部分是文字描述,不管如何,咱假定采集到了10万个典型案例,形成10T的文本资料吧。
 
数据源:法律文库,互联网爬虫,只要设计好采集的关键词、国内外各种法律文库网址等规则相信专业公司可以轻松完成;
 
第二步,杀人大数据治理
 
文本资料是需要经过NLP技术进行数据治理的,文言文要修改为白话文,英语要翻译成中文这两部可以不拘泥于细节。有系统可以做。因为自然语言是人类智慧的结晶,自然语言处理也是我们理解案例中最为困难的问题之一,我们拿到了10个T的文本资料,10万个案例,就需要利用NLP对这些案例进行文本分析,
 
先是分类,假定我们主要分4类: 1)坏人杀好人,直接杀杀人成功了 2)坏人杀好人没有成功但被好人反杀死一类 3)好人杀坏人,直接杀死的 4)好人杀坏人,反被坏人杀死了。这里需要对好人和坏人也要做些检索,比如利用舆论定义主人公是好人,还是坏人,机器先辨认一遍,然后按照人的分类再分一次。
 
然后,我们对于分类好的案例,做两个事情,自动分词:
 
好人姓名,特点,网络标注信息;
 
坏人特点,名称,网络标注信息;
 
然后我们根据分类会形成宽表,包括杀人者、被杀者、年龄、动机、时间、国家、地区、原因,职业、社会议论,社会影响、社会环境、具体描述等;
 
第三步,杀人大数据算法与建模
 
根据上一步我们宽表,我们需要提取好人的标签,比如,见义勇为,忠诚、正义、为民除害等;
 
当事人标签:主要区分当事人的属性特征,如职业信息可设定诸如古代英雄、历史忠臣,企业高管、普通白领、职场新人、全职妈妈、小企业、社会知名人士,人物分类很难,需要根据法律上的经验进行数据的标签化。
 
案件标签:主要根据案件发生的场景设定标签,白天,晚上,事件起因等。这个需要律师来参与。
 
行为标签:用刀杀、用枪杀、用身体杀、推下楼,用毒品,还是活埋,这个应该可以从10万个案例根据词频提取,也可以根据律师的经验总结;
 
社会背景标签:社会背景,人文情况,朝代、文化属性等;
 
确定应用场景的模型设计。假定我们建立两个模型
 
1)告诉杀人的人,杀人的后果?
 
2)告诉被杀人你如何正当防卫?
 
这里可能用到的算法
 
推荐算法: 基于关联规则的推荐(Association Rule-based Recommendation)是以关联规则为基础,把之前的案件作为参考,根据目前的案例标签找到相似的案例,为本案件推荐对象作出建议,关联规则挖掘可以发现不同案件在实施过程中的相关性,在法律案件中为当事人提供行为参考。可以了解为,相同属性的当事人的行为规则和判案结果之间必然有联系。通过这种联系预测判案结果。
 
聚类:主要解决对犯罪案件的动态分类,将当事人标签、案件标签、社会标签、行为标签的集合分成由类似的标签组成的多个类,这个符合 “物以类聚,人以群分”,这里聚类分析可称群分析,它是研究分类问题的一种统计分析方法。聚类分析起源于分类学,但是聚类不等于分类。聚类与分类的不同在于,聚类所要求划分的类是未知的。聚类分析内容非常丰富,有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。10万个案例估计聚类后就十多个。这样我们再处理起来就比较方便了。最后我们可以可以通过图形化感知案件。为当时人提供决策依据;
 
还可以应用回归、决策树:、支持向量机、深度学习、神经网络等算法,具体也是不断的完善和反馈的过程;
 
第四部,杀人大数据分析
 
这里有一个非常重要的数据源要在这个时候输入,就是当时的杀人情况,假定我们采取意念输入,我要杀人,愿意,动机,杀人设想,以及我要防卫,我为什么防卫等;
 
场景一:输入数据后,我们根据模型1)杀人后果分析模型,立刻给你得出结果,后果是什么?坐牢,失去亲人,孩子,老婆,父母后半生的生活窘迫等;
 
场景二、输入数据后,我们正当防卫分析模型1)如何正当防卫,正当防卫的时间把握,防卫前是否要沟通,防卫后可能遇到的法律风险,经济损失,刑期多久。
 
模型是假设的,清楚逻辑,不断试错(这种事情不知道如何试错,笔者还没有思考好);
 
第五步,杀人大数据应用产品
 
 “杀忍痛” APP下载,手动输入杀人的动机,时间,方式,工具,周围环境等因素,然后系统自动告知,你TMD还是不要杀了,伤财害命,得不偿失,冲动是魔鬼;
 
这样我们的大数据产品从数据采集,到数据治理,到数据结构化,数据标签化,标签结合算法模型,应用分析,然后把结果推荐到APP端基本就完成了一个杀人大数据解决方案;

当然,大数据杀人的大数据解决方案总结下需要的人才和工具:
 
人才队伍:产品经理,数据分析师,技术工程师,架构师,律师。
 
工具:大数据采集平台,自然语言分析平台、大数据标签管理系统、大数据建模、数据分析挖掘,数据可视化,APP快速开发定制系统等,因为考虑到实时性,系统要部署在云端;

最后,肯定没有那么简单,数据是需要不断训练和反馈优化的,我们的大数据杀人系统解决的问题是惩恶杨善,利用大数据技术,利用机器学习人工智能,辅助杀人和被杀者做出理性的判断;数据与技术仅仅是在人与世间之间构建起桥梁,把深藏在案例的数据中的价值挖掘出来并加以应用。这不仅顺应了当下的大数据思维模式,也符合法律判案未来的发展方向。
 
有一天,数据辅助判案,判案结果倒逼人的行为,利用数据治理国家将可期!

 

赞 0个人觉得赞
logo

北京东方金信科技有限公司

规模:200-500人

网站: http://www.seaboxdata.com/

北京东方金信科技有限公司(后简称东方金信)成立于2013年2月,是一家专注于大数据平台和大数据解决方案的国内领先企业,拥有ISO9001和CMMI3认证,是首批...

粉丝0

关联信息

关于我们 | 全生命周期管理 | 服务的客户 | 版权说明 | 联系我们

公司名称:北京金誉在线伙伴文化传播有限公司    备案号:京ICP备 15026202号-1

意见
反馈
返回
顶部