社交媒体数据研究中的隐私保护框架

本文分析了安全研究人员在使用社交媒体数据时面临的11种隐私风险,涵盖从数据收集到发布的全过程。研究显示仅35%的论文提及数据匿名化考虑,提出了针对研究者、机构和政策制定者的具体隐私保护建议。

社交媒体数据研究中的隐私框架

社交媒体数据使研究人员能够以前所未有的便利和规模理解当前事件和人类行为。然而,研究人员在访问、处理和存储社交媒体数据中的敏感信息时,常常侵犯用户隐私。

社交媒体已被证明对研究 largely 有益。测量COVID-19传播和预测犯罪的研究突显了没有社交媒体上的大数据就不可能获得的宝贵见解。然而,这些数据集中潜藏着与敏感话题相关的亲密个人故事,如性虐待、流产和性别转变——既有匿名的,也有可识别的方式。

在我们于2025年IEEE安全与隐私研讨会上发表的最新论文《SoK:使用社交媒体数据的安全研究隐私框架》中,我们研究了社交媒体研究中的紧张关系:追求社交媒体数据促成的更好科学与保护社交媒体用户隐私之间的平衡。我们专注于安全和隐私研究,因为它可能涉及错误信息、骚扰和滥用等敏感话题,以及安全研究人员在披露影响公司和用户的漏洞时需要达到更高标准。

方法论

为此,我们对关于社交媒体的安全文献进行了系统性文献综述。我们从六个不同学科收集了超过10,000篇论文:计算机安全与密码学(CSC)、数据挖掘与分析(DMA)、人机交互(HCI)、人文、文学与艺术、传播学(HLAC)、社会科学、犯罪学(SSC)以及社会科学、法医学(SSFS)。经过几轮筛选后,我们的最终数据集包括跨越16年的601篇论文。

安全研究人员如何处理社交媒体数据的隐私?

我们最令人担忧的发现是,只有35%的论文提及任何关于数据匿名化、可用性和存储的考虑。这意味着安全和隐私研究人员未能报告他们如何处理用户隐私。

该图表显示,尽管研究产出不断增长,但研究人员越来越未能报告隐私考虑。

使用社交媒体数据的安全研究出现哪些隐私风险?

我们揭示了研究人员使用社交媒体数据时的11种隐私风险。这些风险贯穿整个研究过程——从数据收集到发布。我们通过基于安全研究人员处理社交媒体数据隐私的发现,调整Solove的隐私分类法来开发这些风险。下面,我们简要回顾这些风险及其表现方式。

信息收集

监控:尽管社交媒体数据是公开的,但数据收集方法(如网络爬虫和API)使得能够记录、研究和存储用户数据,超出其预期目的。

信息处理

聚合:不同的社交媒体平台有不同的背景。在一个平台上可接受的在另一个平台上可能被禁止。聚合打破了不同平台之间的界限,使得能够进行更敏感的推断。

识别:社交媒体网站以各种方式实现识别:真实姓名、匿名和假名。跨平台收集数据可能导致通过机器学习和笔迹学等方法识别用户。

不安全:尽管其具有公共性质,但由于监控和识别等其他隐私风险,研究人员应像处理其他私人信息一样处理社交媒体数据。

排斥:当研究人员仅将社交媒体视为比特时,他们剥夺了用户对自己数据的自主权。

信息传播

披露:在出版物中分享社交媒体数据可能增加对私人主题的关注,并可能发布令人尴尬的敏感信息。

增加可访问性:收集的社交媒体数据可能在收集后多年保持公开可用,使该数据中的用户面临"潜在未来风险"。

敲诈:社交媒体数据通常可能包含令人尴尬或敏感的信息。研究人员在传播他们的输出时,面临被敲诈或促成敲诈的风险。当与其他风险(如聚合和识别)结合时,这种风险会加剧。

扭曲:研究人员分析或传播研究的方式可能影响用户或社区的看法。研究人员反思他们的偏见和决策如何影响他们的研究非常重要。

侵犯

侵入:互联网使研究人员能够轻松找到任何在线社区或群体。然而,在没有适当培训或经验的情况下进入这些数字空间增加了研究干扰用户的风险。

决策干扰:除了干扰在线社区或群体外,研究人员可能直接影响人们彼此之间以及与社交媒体平台的关系。研究人员可能创造或加剧群体内现有的紧张关系,或突显平台进一步边缘化弱势声音的方式。

安全研究人员如何减轻隐私风险?

没有万能解决方案能够减轻所有上述风险。甚至对于减轻每个单独风险也没有单一解决方案。相反,我们发现世界各地的研究人员正在开发新颖的方法,使他们的社交媒体研究更加注重隐私。这些解决方案带有权衡,但仍然是朝着正确方向迈出的步骤。

让我们看看识别风险。关于用户的信息,虽然不直接链接到他们个人,可能足以识别他们——例如,用户的名字、性别和出生日期足以识别单个个体。

机器学习方法,占我们数据集中论文的55%(n=332),特别容易受到识别风险,因为研究人员经常部署ML在大型数据集上进行推断。

识别最常通过数据匿名化来减轻:删除个人识别信息以确保数据无法链接到在线或离线用户。然而,只有26%(n=158)的论文引用数据匿名化——无论是在论文文本中还是在使用的数据集中。其中,60%(n=95)使用匿名数据,36%(n=57)使用非匿名数据,7%(n=11)同时使用匿名和非匿名数据。令人不安的是,11%(n=17)使用了可以重新识别个人的数据。

数据匿名化防止简单的识别,但不能防止更复杂的识别技术。今天,研究人员可以使用数据修改或扰动技术,通过修改数据保持数据的主要概念或结果而不提供精确副本。

对数据进行匿名化或使用更先进的匿名化技术存在权衡。某些公众人物总是可识别的。在这些情况下,避免识别提供很少或没有好处,同时需要研究人员做更多工作。

我们从这里走向何方?

我们现在知道,关于安全研究人员如何处理社交媒体数据隐私存在严重缺乏透明度。我们还知道,隐私风险 abound 取决于研究的平台、数据来源、分析方法以及数据发布方式。根据我们的发现,下面我们回顾研究人员、机构/场所和政策制定者可以采取哪些措施来保护用户隐私:

对于研究人员

优先考虑清晰和包容的风险披露:识别所有相关利益相关者——平台、用户和社区——并制定量身定制的、透明的关于隐私风险的沟通。

评估和记录第三方数据实践:在使用第三方工具和数据集之前,评估它们的访问控制、数据处理策略和潜在危害。在您的方法论中明确证明它们的使用是合理的,并确保符合道德和法律标准。

实施强大和有资源支持的数据存储计划:早期为安全数据存储分配资源,包括加密、受控访问和长期数据保护的基础设施。在您的研究中报告存储实践,以促进问责制和可复制性。

对于机构和场所

加强IRB对数字和社交媒体研究的素养:倡导IRB培训,解决社交媒体数据的特定隐私风险——特别是其半公开性质和重新识别潜力——即使研究似乎符合豁免资格。

推动更清晰的伦理审查文档:倡导期刊和会议采用一致、可执行的关于社交媒体数据隐私的指南——确保伦理严谨性而不阻止关于敏感主题的重要研究。

授权评审人员深思熟虑地评估隐私:鼓励评审人员批判性地评估隐私实践,而不将其用作惩罚手段,认识到研究设计中需要灵活性——特别是涉及边缘化或污名化社区的工作。

对于政策制定者

创建研究人员特定指南:需要更清晰的指南,说明研究人员在使用个人数据时如何遵守隐私法规,如同意权、被遗忘权和数据存储。GDPR第89(1)条为科学研究引入了一些豁免,前提是删除会阻碍实现研究目的。然而,这在实践中意味着什么尚不清楚。

资助要求:资助机构应考虑要求研究人员在使用社交媒体数据时记录他们的数据隐私考虑、风险和缓解策略。这不应成为停止或限制资助的原因,而是引导研究人员进行更周到的研究设计的方式。

致谢

没有我令人难以置信的合著者,这项工作是不可能的:Kieron Ivy Turk、Ali

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计