社交媒体数据研究的隐私保护框架

本文探讨了使用社交媒体数据进行安全研究时的隐私保护挑战,通过系统文献回顾识别了11种隐私风险,并针对研究人员、机构和政策制定者提出了具体的隐私保护建议和缓解措施。

社交媒体数据研究中的隐私保护框架

社交媒体数据使研究人员能够以前所未有的便捷性和规模理解当前事件和人类行为。然而,研究人员在访问、处理和存储社交媒体数据中的敏感信息时常常侵犯用户隐私。

社交媒体在很大程度上被证明对研究有益。测量COVID-19传播和预测犯罪的研究突显了没有社交媒体上的大数据就不可能获得的宝贵见解。然而,这些数据集中潜藏着与敏感话题相关的私密个人故事,如性虐待、流产和性别转变——既有匿名的,也有可识别的方式。

在我们于2025年IEEE安全与隐私研讨会上发表的最新论文《SoK:使用社交媒体数据进行安全研究的隐私框架》中,我们研究了社交媒体研究中的紧张关系:一方面是追求社交媒体数据带来的更好科学,另一方面是保护社交媒体用户的隐私。我们专注于安全和隐私研究,因为它可能涉及错误信息、骚扰和滥用等敏感话题,以及安全研究人员在披露影响公司和用户的漏洞时需要达到更高标准。

方法论

为此,我们对社交媒体安全文献进行了系统回顾。我们从六个不同学科收集了超过10,000篇论文:计算机安全与密码学(CSC)、数据挖掘与分析(DMA)、人机交互(HCI)、人文、文学与艺术、传播学(HLAC)、社会科学、犯罪学(SSC)以及社会科学、法医学(SSFS)。经过几轮筛选后,我们的最终数据集包括跨越16年的601篇论文。

安全研究人员如何处理社交媒体数据的隐私?

我们最令人担忧的发现是,只有35%的论文提到了数据匿名化、可用性和存储的任何考虑。这意味着安全和隐私研究人员未能报告他们如何处理用户隐私。

该图表显示,尽管研究产出不断增长,但研究人员越来越多地未能报告隐私考虑。

使用社交媒体数据的安全研究会出现哪些隐私风险?

我们揭示了研究人员使用社交媒体数据时的11种隐私风险。这些风险在整个研究过程中持续存在——从数据收集到发布。我们根据对安全研究人员如何处理社交媒体数据隐私的发现,调整了Solove的隐私分类法,开发了这些风险。下面我们简要回顾这些风险及其表现方式。

信息收集

监控:尽管社交媒体数据是公开的,但数据收集方法(如网络爬虫和API)使得能够记录、研究和存储用户数据,超出了其预期目的。

信息处理

聚合:不同的社交媒体平台有不同的背景。在一个平台上可能被允许的内容在另一个平台上可能被禁止。聚合打破了不同平台之间的界限,使得能够进行更敏感的推断。

识别:社交媒体网站以各种方式实现识别:真实姓名、匿名和假名。跨平台收集数据可能导致通过机器学习和风格测量等方法识别用户。

不安全:尽管具有公共性质,但由于监控和识别等其他隐私风险,研究人员应像处理其他私人信息一样处理社交媒体数据。

排斥:当研究人员仅将社交媒体视为比特时,他们剥夺了用户对自己数据的自主权。

信息传播

披露:在出版物中分享社交媒体数据可能会增加对私人主题的关注,并可能发布令人尴尬的敏感信息。

增加可访问性:收集的社交媒体数据可能在收集后多年保持公开可用,使该数据中的用户面临"潜在未来风险"。

敲诈:社交媒体数据通常包含令人尴尬或敏感的信息。研究人员在传播他们的输出时,有可能被敲诈或促成敲诈。当与其他风险(如聚合和识别)结合时,这种风险会加剧。

扭曲:研究人员分析或传播研究的方式可能会影响用户或社区的看法。研究人员反思他们的偏见和决策如何影响他们的研究非常重要。

侵犯

侵入:互联网使研究人员能够轻松找到任何在线社区或群体。然而,在没有适当培训或经验的情况下进入这些数字空间增加了研究干扰用户的风险。

决策干扰:除了干扰在线社区或群体外,研究人员可能直接影响人们彼此之间以及与社交媒体平台的关系。研究人员可能创造或加剧群体内现有的紧张关系,或突出平台进一步边缘化弱势声音的方式。

安全研究人员如何缓解隐私风险?

没有万全之策能够缓解所有上述风险。甚至对于每个单独的风险也没有单一解决方案。相反,我们发现世界各地的研究人员正在开发新颖的方法,使他们的社交媒体研究更加注重隐私。这些解决方案伴随着权衡,但仍然是朝着正确方向迈出的步骤。

让我们看看识别风险。关于用户的信息,虽然不直接与其个人相关联,可能足以识别他们——例如,用户的名字、性别和出生日期足以识别单个个体。

机器学习方法,占我们数据集中论文的55%(n=332),特别容易受到识别风险的影响,因为研究人员经常部署ML来对大型数据集进行推断。

识别最常通过数据匿名化来缓解:删除个人身份信息以确保数据无法与在线或离线用户关联。然而,只有26%(n=158)的论文提到了数据匿名化——无论是在论文文本中还是在使用的数据集中。其中,60%(n=95)使用匿名数据,36%(n=57)使用非匿名数据,7%(n=11)同时使用匿名和非匿名数据。令人不安的是,11%(n=17)使用了可以重新识别个人的数据。

数据匿名化防止简单的识别,但不能防止更复杂的识别技术。如今,研究人员可以使用数据修改或扰动技术,通过修改数据保持数据的主要概念或结果,而不提供精确副本。

对数据进行匿名化或使用更先进的匿名化技术存在权衡。某些公众人物总是可识别的。在这些情况下,避免识别几乎没有任何好处,同时需要研究人员做更多工作。

我们从这里走向何方?

我们现在知道,关于安全研究人员如何处理社交媒体数据隐私的问题严重缺乏透明度。我们还知道,隐私风险比比皆是,取决于所研究的平台、数据来源、分析方法以及数据发布方式。根据我们的发现,下面我们回顾研究人员、机构/场所和政策制定者可以采取哪些措施来保护用户隐私:

对于研究人员

优先考虑清晰和包容的风险披露:识别所有相关利益相关者——平台、用户和社区——并制定针对性的、透明的关于隐私风险的沟通。

评估和记录第三方数据实践:在使用第三方工具和数据集之前,评估它们的访问控制、数据处理策略和潜在危害。在你的方法中明确证明它们的使用是合理的,并确保符合道德和法律标准。

实施强大且有资源支持的数据存储计划:早期为安全数据存储分配资源,包括加密、受控访问和长期数据保护的基础设施。在你的研究中报告存储实践,以促进问责制和可重复性。

对于机构和场所

加强IRB对数字和社交媒体研究的素养:倡导IRB培训,解决社交媒体数据的特定隐私风险——特别是其半公开性质和重新识别潜力——即使研究似乎符合豁免条件。

推动更清晰的伦理审查文档:倡导期刊和会议采用一致、可执行的关于社交媒体数据隐私的指南——确保伦理严谨性,同时不阻碍对敏感话题的重要研究。

授权评审人员深思熟虑地评估隐私:鼓励评审人员批判性地评估隐私实践,而不将其用作惩罚手段,认识到研究设计中需要灵活性——特别是涉及边缘化或污名化社区的工作。

对于政策制定者

创建针对研究人员的指南:需要更清晰的指南,说明研究人员在使用个人数据时如何遵守隐私法规,如同意权、被遗忘权和数据存储权。GDPR第89(1)条为科学研究引入了一些豁免,前提是删除会妨碍实现研究目的。然而,这在实践中意味着什么尚不清楚。

资助要求:资助机构应考虑要求研究人员在使用社交媒体数据时记录他们的数据隐私考虑、风险和缓解策略。这不应成为停止或限制资助的理由,而是引导研究人员进行更周到的研究设计的一种方式。

致谢

没有我出色的合著者,这项工作是不可能完成的:Kieron Ivy Turk、Ali

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计