数据挖掘与隐私:你真的匿名了吗?
Sam Carroll //
当我开始在BHIS工作时,我对个人数据的敏感性感到惊讶,比如我的生日。这让我想起了去年参加的一门数据挖掘课程,其中Karlsson博士(南达科他矿业与技术学院)从伦理部分开始授课。他特别警告我们关于用户数据匿名化和个人数据重识别的伦理问题。
敏感信息如果被拙劣地模糊处理,可以被逆转以发现关于个人的非常具体的信息。自1998年GeoCities告诉客户信息不会被共享但却将数据出售给第三方以来,这一直是个人和公司的一大担忧。FCC裁定公司不得在其隐私政策上撒谎。
想想有多少公司让你同意隐私政策,而有时由于糟糕的匿名化,敏感信息可能会泄露。最令人震惊的例子之一来自90年代初,当时Latanya Sweeney发现大约90%的美国人口可以通过他们的邮政编码、出生日期和性别被唯一识别。为了证明这一点,Sweeney购买了选民名册(公共记录)并将其与GIC(州雇员健康保险购买者)的数据结合。尽管GIC删除了姓名、社会安全号码和家庭地址,Sweeney还是能够识别出州长的健康记录,包括处方(州长亲自为匿名化的安全性担保)。
尽管这次医疗保健重识别事件仅限于马萨诸塞州,但重识别是一个影响几乎每个人的问题,包括科技巨头。
2006年有两个著名的隐私泄露例子,涉及两家知名公司Netflix和AOL。Netflix宣布了一项竞赛以击败他们的推荐算法,因此人们可以训练和测试他们的解决方案。Netflix从50万用户的评分中删除了用户名,但提供了唯一标识符代替用户名。在对这些数据进行的一项研究中,研究人员将IMDB上的评分(与IMDB配置文件关联的用户名)与Netflix数据库结合,仅通过6部电影评分,就发现了Netflix数据库中几乎所有用户。
AOL类似地发布了三个月内的数千万搜索查询,并通过删除用户名和IP地址对数据进行了匿名化,再次为每个用户提供了唯一标识符,意味着每个用户仍然被唯一标记但无法立即识别。利用这些数据,研究人员能够将单个用户的所有搜索结合起来,并通过所有搜索发现他们的个人信息,例如“纽约市的天气如何”、“18岁的人周六有什么好玩的事可做”、搜索自己的姓名或社会安全号码。从而让任何感兴趣且足够投入的人获得本应未披露的个人信息。一些信息包括更私密的内容,例如如何向家人透露自己是虐待受害者,或如何摆脱虐待关系。
2009年,卡内基梅隆大学发现了一种分析数据以发现个人社会安全号码的方法。他们仅使用出生地点(因为社会安全号码使用物理位置作为前5位数字)做到了这一点。最后四位数字被减少到只有1000种组合,他们通过使用记录社会安全号码的公共死亡记录来减少这一数字,以找到与出生日期高度相关的最后4位数字的模式。因此,仅凭两条小信息(这两条信息几乎由任何社交网络网站提供)和一点工作,就相对容易揭示个人的社会安全号码。
国会上周通过了一项法案,允许政府和商业无人机运营商收集关于个人的潜在可识别数据(包括面部识别),而无需披露。此外,该法案未包括关于他们将如何使用数据以及是否/何时销毁数据的条款,表明我们仍然面临隐私方面的担忧。
Pokemon Go甚至在iOS版本的应用程序上发生了严重的隐私泄露,最初要求用户整个Gmail账户的权限。有些人甚至说这包括发送电子邮件、读取日历事件、访问联系人和照片的能力。尽管开发商Niantic表示未收集任何信息,但有一点是清楚的。隐私不是一个日益增长的问题。你必须小心你分享的内容,即使是在玩Pokemon时。
小心你分享的内容,提取个人信息最阴险(也许也是最好的方式之一)的方法是直接索要。人们非常小心那些他们知道会危及自己的信息,但对于那些他们认为不会危及自己的数据,他们愿意自由分发。然而,即使是专业人士有时也无法保持数据的真正匿名,有时因此可能会泄露非常尴尬或高度私密的数据。假设你已经受到威胁,并采取措施保持安全。
来源:
http://digital.law.washington.edu/dspace-law/bitstream/handle/1773.1/417/vol5_no1_art3.pdf
https://epic.org/privacy/reidentification/#process
www.nytimes.com/2016/07/14/technology/personaltech/how-to-protect-privacy-while-using-pokemon-go-and-other-apps.html
www.computerworld.com/article/3095491/robotics/faa-compromise-bill-drops-key-drone-privacy-provisions.html