【转】大数据的不精确性如何伤害大众?

全球三大公关公司之一福莱希乐国际传播公司(FleishmanHillard)的“事实”(TRUE)栏目是一个屡获殊荣的在线杂志,旨在分享全球通信、营销和媒体等领域方面思想领袖的远见卓识。他们在Pasquale的书《黑箱社会》(有关该书的介绍和书评,请参考博文:黑箱社会中的失控代码与隐形控制)出版后采访了他,以下是这个采访的记录(节选)。 里面的内容对于我们理解这本书和认识我们身临其境的社会很有借鉴意义。

Q:当你在说黑箱社会的时候,是什么意思呢?

A:工程师使用黑箱(black box)这个词来描述可以看到输入和输出,但二者之间却不透明的系统,这个无形的过程在神秘面纱下将输入转换成输出。谷歌有时认为他们的黑箱算法是让其处于竞争优势的秘密武器。就数据而论,企业越来越依赖这种保密策略,也是合理的,因为如果人们知道了系统是如何工作的,就有可能与系统玩游戏(game the system)。当我想到这个题目时,我也想到了飞机上的黑匣子(black box),在飞机崩溃时有巨大的作用。黑匣子记录了所有的飞机记录,并监测约30000个变量。你看现在物联网、大数据和无处不在的传感器网络,就像我们都被类似飞机上的黑匣子监视一样。我们都有自己的黑匣子,我们指望互联网可用于追踪、截片和监控,现在有了物联网,甚至我们处于互联网之外的实际生活空间也被监视了。如果以这种方式收集数据,数据泄露问题就是一个潜在的巨大危害。想想看,在黑市中有包含文件名、密码、用户名、社会安全号、信用卡号码,甚至医疗记录等数据清单的销售。数据收集的潜力远远超过营销信息的单纯个性化。

Q:你认为什么样的数据会因为缺乏透明度而最可能有害?

A:很难说什么是最可能的危险。但是我担心个人健康数据的传播。人们需要意识到自己的健康数据,甚至健康档案都没有受到健康保险流通与责任法案(HIPAA)的保护。当你去医院或去看病,你有权利检查所收集的数据,以确保它的精确性,并知道它是如何被使用的。但对于任何未被HIPAA覆盖的内容,并不是健康提供者所收集的,那就没有监管。基于你访问过的网站,执行过的搜索都可以留下详细的资料。其中大部分用于市场营销目,也可以过滤后用于其他方面。如果潜在雇主获得了有关可能的糖尿病、抑郁症患者或酗酒者的清单,又将如何呢?这是有严格法律限制的。但在我们生活的大数据世界里,不可能知道雇主看到了什么。甚至雇主可能并不知道他们在看什么。一些数据公司提供了有关人的评分,使用这些数据的人知道是如何评分的吗?例如,如果雇主告诉你不能雇你因为你是一个糖尿病患者,显然这是非法的。但是,如果有一些得分系统,指出你是否适合做雇员或对公司的潜在成本,这些得分系统暗地里可能就包括了雇员的医疗诊断数据,这是有问题的而且几乎不可能证明,因为雇员几乎不知道是什么让雇主做出决定是否录用某个人。平等就业机会委员会正在考虑源于雇主性格测试的纠纷,他们似乎在寻找与精神疾病相联系的想法模式,而与工作无关。这是一个新兴领域。现在更进一步,如果评分系统所使用的信息是错误的,又将如何呢?例如,他们根据你在谷歌进行的搜索和访问的网站的信息,得出认为你是抑郁症患者。你做这些事儿可能只是因为关注一个朋友或同事,或只是想研究研究。由于HIPAA的缘故,他们没有因为获得你实际的健康数据。

Q:是什么让你开始调查这些潜在的负面数据的?

A:2010年,我正在写有关律师为谷歌寻找合法的方式来更容易收集、归档、排名和评价互联网的网站。我分享了他们的热情,但同时我看到有些人在搜索中受到不公平的待遇。一些抱怨他们排名过低,但通常人们所抱怨的是因为最尴尬的事,或者是最前面的结果。人发现自己在这种情况下被告知,“你只需要让自己多一点点。”但是真正的问题是,对大多数人来说谷歌网站是如何排名和评级的,这是非常不清楚的。这有点像信用评分,这种排序经常有一些神秘的结果。早在60年代,征信机构保存着有关人员的各种信息。他们花钱去监视一些家庭,并报庭院是否混乱,或家中的男人是否有女人的姿态。在1970年代,公平信用报告法案开始控制这些活动。今天,信用评分和数据收集是不同的:使用信用评分,您可以要求是如何得到这个分数的。这个有关人的非常敏感的信息收集在1970年代被法律叫停了,但现在因为大数据又回来了。

Q:在最近的《纽约时报》专栏,你指出这个清单背后用于评分的数据是不正确的,为什么是这样的呢?

A:有两个原因。最重要的可能是这样一个事实:数据收集不需要做到完美或让完全准确的数据来改进目标。如果我得到一个清单,而且我为这个清单中的一个名字只要支付一分钱,尽管只有70%的名字和信息匹配,我仍然可以做的比我不知道任何有关数据集的时候要好得多。这就是真正的大数据承诺,即使有所谓的有些不准确的脏数据,你仍然得到基本准确的画面,所以人们都乐意购买这样的清单。

Q:政府有没有办法迫使清单收集者做到准确?

A:我不确定政府想要尽力达到100%的准确率。我认为他们能将清单收集进行登记,并让他们给用户一个有关准确性的警告。正如信用评级,人们应该有能力去质疑与他们名字相关的数据。所以我想说,透明肯定是第一步,但你也必须被赋予抗争、校对并知道谁在看这些信息的权利。 

Q:你也谈到了雇主如何使用这些清单。你能简要讨论一下你所看到的这种做法的问题吗?

A:有一个清单,称为盗窃或欺诈清单之类的。它列出的是被雇主指控盗窃的人。这并不表明他们在法庭上被判有罪,许多都没有经历任何官方过程,纯粹是一个指控而已。也许他们为了保住自己的工作,签署了一些说他们盗窃之类的东西,但关键是他们可能并没有做错什么。突然,他们的名字出现在一个黑名单中,他们要找另外一个工作就会变得非常困难。我知道,他们要在沃尔玛找一份工作比进入哈佛大学还难。

Q:那么,在大数据进化中我们在哪里?我们是否到达了一个临界点,民众和政府将退回去吗?

A:这是一个日益增长的担心,如果任其发展,我们正在走向24小时全年无休的监视中,包括我们生活的每一刻。但我并不认为政府甚至专家们完全理解了这个问题的严重程度。他们仍然停留在说人们应该从监视中保护自己以及保护自己的隐私。但是这是不切实际的。期望大多数人加密自己的iPhone也是不可能的。这并不是解决方案,尽管我们看到更多的活动是从州开始试图限制到处进行数据收集,但我们对于全面应对所发生的事情还很远。

参考资料

How big data’s inaccuracy hurts people

大数据的不精确性如何伤害大众?