数据挖掘与隐私:你真的匿名了吗?
Sam Carroll //
当我加入BHIS时,对个人数据的敏感性感到惊讶,比如我的生日。这让我回想起去年参加的数据挖掘课程,其中卡尔森博士(南达科他矿业与技术学院)首先讲解了伦理部分。他特别警告我们关于用户数据匿名化与个人数据重识别的伦理问题。
敏感信息若经拙劣混淆处理,可被逆向还原以发现个体的具体信息。自1998年GeoCities告知客户信息不会共享却出售给第三方以来,这一直是个人和公司的重大关切。FCC裁定公司不得在隐私政策上撒谎。
想想有多少公司让你同意隐私政策,而有时因匿名化处理不当,敏感信息可能泄露。最恶劣的例子之一是90年代初,拉塔尼亚·斯威尼发现约90%的美国人口可通过邮政编码、出生日期和性别唯一识别。为证明这一点,她购买选民名册(公开记录)并与州雇员健康保险购买者GIC的数据结合。尽管GIC删除了姓名、社会安全号和家庭地址,斯威尼仍能识别出州长的健康记录,包括处方(州长曾亲自担保匿名化的安全性)。
尽管这次医疗重识别事件仅限于马萨诸塞州,但重识别是影响几乎每个人的问题,包括科技巨头。
2006年有两个著名隐私泄露案例,涉及Netflix和AOL。Netflix宣布举办竞赛以击败其推荐算法,允许人们训练和测试解决方案。Netflix从50万用户的评分中删除用户名,但提供了唯一标识符替代。一项研究中,研究人员将IMDB评分(与IMDB配置文件用户名关联)与Netflix数据库结合,仅需6部电影评分,就几乎发现了Netflix数据库中的所有用户。
AOL类似地发布了三个月内的数千万搜索查询,通过删除用户名和IP地址匿名化数据,并再次为每个用户提供唯一标识符,意味着每个用户仍被唯一标记但无法立即识别。利用这些数据,研究人员能合并单个用户的所有搜索以发现个人信息,例如“纽约市天气如何”、“18岁周六有趣活动”、搜索自己的姓名或社会安全号。从而使任何感兴趣且足够投入的人获得本应保密的信息。部分信息涉及更私密内容,如如何向家人坦白受虐待或如何摆脱虐待关系。
2009年,卡内基梅隆大学发现一种分析数据以揭示个人社会安全号的方法。他们仅使用出生地点(因为社会安全号前5位使用物理位置)。后4位数字被缩减到仅1000种组合,并通过使用记录社会安全号的公共死亡记录来找到与出生日期高度相关的后4位模式。因此,仅需两条小信息(两者几乎由任何社交网站提供)和少量工作,就能相对容易地揭示个人的社会安全号。
国会上周通过一项法案,允许政府和无人机商业运营商收集可能 personally identifiable 的个人数据(包括面部识别),而无需披露。此外,该法案未包含关于数据使用方式及是否/何时销毁的条款,表明我们仍面临隐私担忧。
Pokemon Go甚至在iOS版本应用上出现严重隐私泄露,最初要求用户整个Gmail账户的权限。有人甚至称这包括发送电子邮件、读取日历事件、访问联系人和照片的能力。尽管开发者Niantic表示未收集信息,但有一点很清楚:隐私并非日益增长的关切。即使与Pokemon分享,也必须小心。
小心你分享的内容,提取个人信息最阴险(或许也是最佳)的方式是直接索要。人们对明知会危及自己的信息非常谨慎,但对于他们认为不会危及自己的数据则愿意自由分发。然而,即使专业人士有时也无法保持数据真正匿名,有时因此可能泄露极其尴尬或高度私密的数据。假设你已受损,并采取措施保持安全。
来源:
http://digital.law.washington.edu/dspace-law/bitstream/handle/1773.1/417/vol5_no1_art3.pdf
https://epic.org/privacy/reidentification/#process
www.nytimes.com/2016/07/14/technology/personaltech/how-to-protect-privacy-while-using-pokemon-go-and-other-apps.html
www.computerworld.com/article/3095491/robotics/faa-compromise-bill-drops-key-drone-privacy-provisions.html
准备了解更多?
通过Antisyphon的实惠课程提升你的技能!
随你支付培训
提供直播/虚拟和点播选项