top of page
Search
Writer's pictureIYP

无法匿名的数据指纹 —— 我可以如何避免被识别?


2016 年8月,澳大利亚政府发布了一份“匿名”数据集,其中有 290 万人的医疗账单记录,包括每个处方和手术。记录中删除了姓名和其他识别功能。但是,墨尔本大学的一个研究小组很快发现,重新识别人员并在未经他们同意的情况下了解他们的整个病史非常简单,只要通过将数据集与其他公开可用的信息进行比较。


政府从其网站上删除了数据,但是那一时刻,这些数据已经被下载了超过 1500 次


这个隐私噩梦只是许多看似无害的、“去标示”的信息片段之一。这些信息被反向设计以暴露人们的身份。


随着人们将更多的生活花在了网上相当于洒上了数字面包屑,这些线索能够很轻松地追溯到他们,以他们从未预料到的方式侵犯他们的隐私。而且这种情况只会越来越严重。


2017 年,德国研究人员就能够根据“隐身/无痕”网络浏览模式识别任何人。本周,伦敦大学学院的研究人员展示了他们如何基于与推文相关的元数据来识别个人 Twitter 用户,而健身追踪应用程序 Polar 则透露了家庭住址信息,甚至可以识别机密军事基地、士兵和间谍的名字。



“我们所做的事是一年级数据科学专业学生就可以做到的事,“墨尔本大学研究人员 Vanessa Teague 表示,他们揭示了开放健康数据的缺陷。


1996 年马萨诸塞州集团保险委员会发布了“匿名”数据,显示了国家公务员的医院就诊情况,这大概是最早发生的此类事件。与澳大利亚的数据一样,该州删除了明显的标识,如姓名,地址和社会安全号码等。其实一点用都没有


Latanya Sweeney 是一名计算机科学专业毕业生,后来成为联邦贸易委员会的首席技术官,他通过在数据集中查找马萨诸塞州州长 William Weld 的医疗记录发现了数据的错误。Sweeney 使用了 Weld 的邮政编码和出生日期 —— 取自选举名单,以及他去医院的信息,以追踪到了他。Sweeney 把他的病历直接寄到了他的办公室。


政治人物的健康状况与政治局势密切相关,你懂的(如果不懂,请阅读《独裁者手册 The Dictator's Handbook: Why Bad Behavior is Almost Always Good Politics》作者:Mesquita B.B.D.) / Smith A. )


Sweeney 后来的工作表明,美国有 87% 的人口可以通过他们的出生日期、性别和五位邮政编码进行精准识别。



“重点是,看起来匿名的数据不一定是匿名的,”她在国土安全部隐私委员会的证词中说道。


最近,计算隐私研究员 Yves-Alexandre de Montjoye 展示了如何通过手机位置数据揭示人们的行为模式,来识别绝大多数人口。通过分析移动电话数据库中 15 个月内 150 万人的近似位置数据(基于最近的手机信号塔)在没有其他识别信息的情况下,也可以通过仅有的四个数据点做到精准识别 95% 的人所处的地点和时间。如果只有两个数据点,依然可以确定大约 50% 的人。


这四个数据点完全可以来自公开的信息,包括一个人的家庭住址、工作单位和带有地理标记的 Twitter 帖子等等。



“位置数据就是指纹。这是一条可能存在于各种数据集中的信息,可能被用作全球标识符,“ De Montjoye 说。


特别是对于有工作的人群来说,那完全就是追踪者的梦想。


原理非常简单。“你从家到工作单位,然后以非常规律的方式再返回来。基本就可以推断是一个住在地址 A 并在地址 B 工作的人,“ 咨询公司 Salinger Privacy 的主管 Anna Johnston 说。


她解释说,即使位置数据没有透露个人的身份,它仍然会使一群人处于危险之中。例如,健身应用 Strava 发布的公共地图无意中成为国家安全风险,因为它揭示了人们在秘密军事基地的位置和移动。


2015 年,De Montjoye 表示,只要知道少量人们的购买情况信息,就可以从数百万看起来“匿名”的支付中识别出信用卡的所有者。


只需要购买商店的名称和地点、以及大致的日期和购买金额,就能通过查看三笔交易来精准识别 94% 的人。这意味着有人可以找到你和朋友喝咖啡的 Instagram 照片 + 关于最近关于购买的推文和旧收据,可以将它与你的整个购买历史相匹配。


请注意,这种方法可以用于各种目的,全凭行为者的德行。你还迷恋在网上晒生活吗?

Montjoye 和其他人的实验一次又一次地表明,无论数据如何被剥离,根本不可能对单位级记录数据(与个人相关的数据)进行匿名化。因为人们太喜欢自我表达了。


“它可能在过去有效,但现在不行了,”他说。


如果希望保护自己免受这种隐私侵犯,对个人来说能做的事很少。


普林斯顿计算机科学教授 Arvind Narayanan 说:“一旦我们的数据传出,它就会永远存储起来。有些公司专注于将来自不同来源的关于我们的数据结合起来,以创建虚拟档案,并应用数据挖掘以各种方式预测并影响我们的行为。”


延伸阅读:“一整面墙上布满了显示器。那些数据被整合成了一个详细的人格分析,以此来预测逃离者最有可能做出什么样的选择,然后提前下手围堵。这些构成你的人格分析图解的数据都来自于公开信息,来自你平时完全没有留意到就泄漏出去了的信息。它们最终会变成等着你的手铐”……



要解决这个问题,只需坚持使用现金支付,并放弃手机,就可以减少数字面包屑的痕迹,但这并不是特别实用。


这也使得个人很难就任何应用程序或服务收集数据的方式给出“知情同意”。公司提出的不分享个人身份信息的承诺称其为欺骗一点不过分,因为在重新识别某人时则会非常容易。


“要想解决这个问题,取决于良好的监管和适当的执法,”De Montjoye 说。“欧洲数据保护新规的一个缺点就是它在没有充分了解风险的环境中对消费者施加了过多的责任。应该将更多的法律责任推给数据托管人,例如政府研究人员和公司。”



“隐私并没有死去。我们每个人都需要它,隐私是基础人权,保护它我们一定能做到。“


本网提供几点建议,以缓解这种恐怖局面:

  • 谨慎对待所有应用程序权限 —— 您可以在这里进行自查

  • 参加重要活动时(如集会和敏感会面)不要携带电子设备,或者使用一次性手机;

  • 当你想在网络上任何地方晒自己真实生活或向他人介绍自己真实信息之前,请三思!—— 请见关于反侦查的诸多细节问题

  • 谨慎使用一切需要手机号注册的通讯应用(推荐 Cryptocat)——更多安全工具在这里都能找到

  • 在尽可能多的时间里关闭移动设备地理定位权限

  • 必需上传照片时抹去元数据

  • 尽可能少的使用在线支付,使用现金

  • 加密、加密、加密,将重要信息和普通信息所关联的身份区分开来,将自己在线上和线下的身份区分开来。

75 views0 comments

Comments


bottom of page