元数据的真面目
绝大部分人对美国国家安全局(NSA)的了解,要归功于爱德华·斯诺登。作为NSA的项目承包商,斯诺登收集了NSA有关监控活动的成千上万份文档,并于2013年逃到香港把资料交给经过他慎重选择的记者。
这些文档曝出的第一个故事就是收集所有美国公民的手机电话拨打记录,注意,只是拨打记录。据此,美国政府就一直以“拨打记录”为辩护说词,说是他们收集的“只是元数据“。也就是说,NSA并没有收集电话的谈话内容,只是收集了接打双方的电话号码,以及拨打电话的日期、时间和时长。
元数据(me
比如,国外电影中经常有雇佣私人侦探窃听某人的情节。请注意,这里的用词是“窃听”。私人侦探接收委托后,会在被监视人的家中、办公室和汽车中装上窃听器,偷听电话内容、查看计算机。然后,委托人会收到一份被监听者的详细谈话内容报告。
如果把委托任务从“窃听”变为“监视”呢?最后委托人收到的报告内容肯定有所变化,但范围却更广了。监视包括,被监视人的行踪去向,干了什么事,与谁谈话并谈了多长时间,与谁通信,阅读什么,购买什么等等。这些信息就是“元数据”。简而言之,窃听可以得到谈话内容,监视则包含所有其他的背景或相关信息。
元数据是描述数据属性的集合,是对数据的说明比如,数据的类型、名称、字段等。
电话元数据还可以透露更多的信息。比如,根据谈话的时机、长度和频率,能推算出谈话人彼此之间的关系。是密友,商业伙伴,还是其他什么人。电话元数据显示被监视人对谁感兴趣,什么对他是重要的,不管这些信息有多么私密。它是窥探人们个性的窗口,它能够在任何时间点绘制出被监视人的事件报告。
有些人觉得不以为然,这些所谓的元数据能有什么严重的隐私问题,是不是有点大惊小怪了?
好,我们来看看美国斯坦福大学做过的一项分析电话元数据的实验,这次实验在几个月的时间里收集了500个志愿者的元数据。
志愿者A与多个地方的神经病学小组有联系,联系过一家专项药房,一个罕见病症管理服务机构,以及一条药品热线,该热线只用来咨询多发性硬化症的复发。
志愿者B与一个大型医疗中心的心脏病专家详谈,还与一个医疗实验室有过简短会话,接过药房打来的电话,并接通过一个家用医疗设备的热线,该设备用于监视心率失常。
志愿者C给一家专门售卖AR半自动步枪的枪支商店打过不少次电话,而且还与AR步枪的生产商客户服务详谈过。
志愿者D一连三个星期与家居改善店、锁匠、水栽经销商和烟草用品商店联系。
志愿者E在一个早晨与她的姐姐通了很长时间的话。两天后,她给当地的计划生育机构打了许多电话,两周后又打了几个,一个月后打了最后一个电话。
这五个志愿者的元数据代表着什么呢?
一个多发性硬化症患者,一个心脏病患者,一个半自动武器持有者,一个家庭大麻种植者,最后是一个做流产的母亲。
搜索引擎的杀伤力
下面我们再来看看网页搜索数据,它是另一种NSA用于大规模监视公民行为的私密数据。有人认为网页搜索数据不能算是元数据,但NSA认为是,理由是搜索词是嵌入在网址中的。(话说这算哪门子理由?)之所以说搜索数据是私密的,是因为人们不会对搜索引擎撒谎,这些数据甚至比朋友、情人或是家人更与自身紧密和贴切,因为我们总是尽可能准确的告诉搜索引擎,我们在想什么。
谷歌知道每一个人搜索的色情网站,知道人们内心深处的担心和秘密,甚至是耻辱和罪恶。如果谷歌想知道某一个网民心里面正在想什么,它就能知道,不管你是在想逃税还是计划抗议政府的某项方针政策。曾经有人说,谷歌比自己的妻子还了解自己。但实际上还可以更进一步,应该说谷歌比你自己还了解自己,因为它能毫无改变地、永远地记住你曾经在那个长条框里输进去的东西,不管它是什么。
现在,我们来用谷歌的自动完成功能做一个实验(由于工作原因,笔者很少用百度)。这个功能可以实时的把你想要查询的问题补充完整。当我键入“should i tell my w”的时候,搜索框自动会出现以下几个结果:
should i tell my wife i cheated(我应该告诉我妻子我出轨了吗)。
should i tell my wife about emotional affair (我应该告诉我妻子我有外遇了吗)。
should i tell my wife i filed for divorce(我应该告诉我妻子我提交离婚申请了吗)。
should i tell my wife i’m in love with another woman(我应该告诉我妻子我爱上另一个女人了吗)。




















































