大数据的潜力是无穷的-可能带来好处也可能带来坏处。一份描述大数据的变革特质的白宫新报告深入地探究了与数据相关的隐私和安全主题。
关键的关注点:大数据正在创造大量的隐私主题需要及时处理,宜早不宜晚。
该报告的引文说到:“本报告一个显着的发现是大数据分析将个人信息用于供房、信贷、雇用、健康、教育和商场购物,有潜力使长期存在的公民权利保护黯然失色。美国人与数据的关系,她(他)们的机会和潜力将得以扩展而不是消减”.
报告讨论了一系列有关隐私的主题,包括以下5个:
1.“去识别化”并不总是有效
机构常常采用隐私保护技术来去除与特定个人或设备数据的连接识别性。不幸的是,再识别技术又同样有效地把这些数据连接起来。
报告提出:“综合性的多种数据可能导致某些分析师所说的”马赛克效应“,即个人可识别信息可以从甚至不包括个人识别码的数据集里衍生或推断出来,关注点在于描绘一个人的形象和她(他)们所喜欢的东西”.
随着再识别匿名数据的技术日益强大,个人如何管理她(他)们的私人信息和身份,或者基于多种数据集信息做出决策,这逐渐变得扑朔迷离。
2.“完美的个性化”可以有助于识别力
报告说,不同类型非结构化数据的融合使得营销人员可以“在消费者提出要求之前就准确地把她(他)们想要的消息、产品或服务发送过去”.“可惜的是,完美的个性化也为定价、服务和机会方面精细的和不那么精细的识别力留下了空间。”
3.“小”数据造成更大的隐私威胁
不论对大数据潜在侵犯个人权利的言论多么汹涌,今天大多数最常见的隐私风险都与“小数据”有关,比如黑客以个人银行信息为目标实施金融诈骗。报告指出:“这些风险并不总是大量、快速或信息种类繁多的,也不隐含某种与大数据相关的复杂分析”.报告认为,小数据的保护已经由美国隐私法律、强有力的实施细则,以及全球隐私保护机制修正规范起来。即使这是事实,最近的2篇文章显示出在这个领域还有很大的改进空间。
4.预测医学可能导致隐私混乱
“预测医学”是一个前景远大的大数据应用,它深入挖掘病人的健康和基因信息,以预测她(他)们是否将得一种特殊的疾病,以及对具体治疗方法的接受程度。这儿数据滥用的潜力是巨大的。比如,通过“预测医学”收集来的健康信息也许就被运用于拥有类似基因的人们(比如病人的孩子们)的医疗决策中。
报告提到:“目前覆盖信息并运用于健康的隐私框架体系并没有很好的适应处理这些新发展,或者对驱动新发展的研究起到促进作用”.
5.相反地,隐私法律反而阻碍了某些重要的分析
报告说:“大数据分析使得数据科学家可以积累大量的数据,包括非结构化数据,并且发现异常现象和模式”,“这个发现模型中一个关键的隐私挑战是,你不得不去大海里捞针。为了获得一定的洞察力,你就需要一定数量的数据。”
因此难题就出来了:研究人员可以受益于获得更大量敏感的基因信息数据集,但是隐私法律却限制她(他)们获取这些数据。报告说,举个例子,布罗德研究所的一位基因研究者就未能探测与3500个精神分裂症基因数据集相关的基因变异,但却取得了35000个案例的“统计显着性”结果。