社交媒体数据研究中的隐私保护框架
社交媒体数据使研究人员能够以前所未有的便捷性和规模理解当前事件和人类行为。然而,研究人员在访问、处理和存储社交媒体数据中的敏感信息时,常常侵犯用户隐私。
社交媒体已被证明对研究 largely 有益。测量 COVID-19 传播和预测犯罪的研究突显了社交媒体大数据带来的宝贵见解,没有这些数据,这些见解是不可能的。然而,这些数据集中潜藏着与敏感话题相关的亲密个人故事,如性虐待、流产和性别转变——既有匿名的,也有可识别的方式。
在我们于 2025 年 IEEE 安全与隐私研讨会上发表的论文《SoK:使用社交媒体数据进行安全研究的隐私框架》中,我们审视了社交媒体研究中的紧张关系:追求社交媒体数据带来的更好科学与保护社交媒体用户隐私之间的平衡。我们专注于安全和隐私研究,因为它可能涉及错误信息、骚扰和滥用等敏感话题,以及安全研究人员在披露影响公司和用户的漏洞时需要达到更高标准。
方法论
为此,我们对社交媒体安全文献进行了系统性文献综述。我们从六个不同学科收集了超过 10,000 篇论文:计算机安全与密码学(CSC)、数据挖掘与分析(DMA)、人机交互(HCI)、人文、文学与艺术、传播(HLAC)、社会科学、犯罪学(SSC)以及社会科学、法医学(SSFS)。经过几轮筛选,我们的最终数据集包括 601 篇论文,跨越 16 年。
安全研究人员如何处理社交媒体数据的隐私?
我们最令人担忧的发现是,只有 35% 的论文提到任何关于数据匿名化、可用性和存储的考虑。这意味着安全和隐私研究人员未能报告他们如何处理用户隐私。
该图显示,尽管研究产出不断增加,研究人员越来越多地未能报告隐私考虑。
使用社交媒体数据进行安全研究会出现哪些隐私风险?
我们揭示了研究人员使用社交媒体数据时的 11 种隐私风险。这些风险在整个研究过程中持续存在——从数据收集到发布。我们通过根据安全研究人员处理社交媒体数据隐私的发现,调整 Solove 的隐私分类法,开发了这些风险。下面,我们简要回顾这些风险及其表现方式。
信息收集
- 监视:尽管社交媒体数据是公开的,但数据收集方法,如网络爬虫和 API,使得记录、研究和存储用户数据超出了其预期目的。
信息处理
- 聚合:不同的社交媒体平台有不同的背景。在一个平台上预期的内容可能在另一个平台上被禁止。聚合打破了不同平台之间的界限,使得可以进行更敏感的推断。
- 识别:社交媒体网站以多种方式实现识别:真实姓名、匿名和假名。跨平台收集数据可以通过机器学习和风格计量学等方法导致用户识别。
- 不安全:尽管其公共性质,研究人员应将社交媒体数据视为其他私人信息,由于其他隐私风险,如监视和识别。
- 排除:当研究人员仅将社交媒体视为比特时,他们剥夺了用户对自己数据的自主权。
信息传播
- 披露:在出版物中分享社交媒体数据可能会增加对私人主题的关注,并可能发布令人尴尬的敏感信息。
- 增加可访问性:收集的社交媒体数据可能在收集后多年保持公开可用,使数据中的用户暴露于“潜在未来风险”。
- 敲诈:社交媒体数据通常可能包括令人尴尬或敏感的信息。研究人员在传播其输出时面临被敲诈或 enable 敲诈的风险。当与其他风险(如聚合和识别)结合时,这种风险会加剧。
- 扭曲:研究人员分析或传播研究的方式可能会影响用户或社区的看法。研究人员反思他们的偏见和决策如何影响他们的研究很重要。
入侵
- 侵入:互联网使研究人员能够轻松找到任何在线社区或团体。然而,在没有适当培训或经验的情况下进入这些数字空间增加了研究干扰用户的风险。
- 决策干扰:除了干扰在线社区或团体之外,研究人员可能直接影响人们彼此之间以及社交媒体平台的关系。研究人员可能创建或加剧团体内的现有紧张关系,或突出平台可以进一步边缘化脆弱声音的方式。
安全研究人员如何减轻隐私风险?
没有银弹可以减轻所有上述风险。甚至没有单一解决方案来减轻每个 individual 风险。相反,我们发现世界各地的研究人员正在开发新颖的方法,使他们的社交媒体研究更加注重隐私。这些解决方案带有权衡,但仍然是朝着正确方向迈出的步骤。
让我们看看识别的风险。关于用户的信息,虽然不直接链接到其人,可能足以识别他们——例如,用户的名字、性别和出生日期是足够的信息来识别单个个体。
机器学习方法,我们数据集中 55%(n=332)的论文,特别容易受到识别风险,因为研究人员经常部署 ML 来跨大型数据集进行推断。
识别最常通过数据匿名化来减轻:删除个人识别信息以确保数据无法链接到在线或离线用户。然而,只有 26%(n=158)的论文引用数据匿名化——无论是在论文文本中还是在使用的数据集中。其中,60%(n=95)使用匿名化数据,36%(n=57)使用非匿名化数据,7%(n=11)同时使用匿名化和非匿名化数据。令人不安的是,11%(n=17)使用了可以重新识别个体的数据。
数据匿名化防止简单识别,但不防止更复杂的识别技术。今天,研究人员可以使用数据修改或扰动技术,通过修改数据来保持数据的主要概念或结果,而不提供 exact 副本。
匿名化数据或使用更先进的匿名化技术存在权衡。某些公众人物将始终可识别。在这些情况下,避免识别提供很少或没有好处,同时需要研究人员更多工作。
我们从这里去哪里?
我们现在知道,关于安全研究人员如何处理社交媒体数据隐私,严重缺乏透明度。我们还知道,隐私风险 abound 取决于研究的平台、数据来源、分析方法和数据发布方式。根据我们的发现,下面我们回顾研究人员、机构/场所和政策制定者可以做什么来保护用户隐私:
对于研究人员
- 优先考虑清晰和包容的风险披露:识别所有相关利益相关者——平台、用户和社区——并制定 tailored、透明的关于隐私风险的沟通。
- 评估和记录第三方数据实践:在使用第三方工具和数据集之前,评估它们的访问控制、数据处理政策和潜在危害。在您的方法论中 clearly 证明它们的使用,并确保符合道德和法律标准。
- 实施 robust 和资源化的数据存储计划: early 分配资源用于安全数据存储,包括加密、受控访问和长期数据保护的基础设施。在您的研究中报告存储实践,以促进问责制和可复制性。
对于机构和场所
- 加强 IRB 对数字和社交媒体研究的素养:倡导 IRB 培训,解决社交媒体数据的特定隐私风险——特别是其半公共性质和重新识别潜力——即使研究似乎有资格获得豁免。
- 推动更清晰的伦理审查文档:倡导期刊和会议采用一致、可执行的关于社交媒体数据隐私的指南——确保道德严谨性,而不阻止对敏感话题的重要研究。
- ** empower 审稿人 thoughtful 评估隐私**:鼓励审稿人批判性评估隐私实践,而不使用它们惩罚性,认识到研究设计中需要灵活性——特别是涉及边缘化或 stigmatized 社区的工作。
对于政策制定者
- 创建研究人员特定指南:需要更清晰的指南,说明研究人员在使用个人数据时如何遵守隐私法规,如同意、被遗忘权和数据存储。GDPR 第 89(1)条为科学研究引入了一些豁免, provided that 删除会阻碍实现研究目的。然而,这在实践中意味着什么 unclear。
- 资助要求:资助机构应考虑要求研究人员在使用社交媒体数据时记录他们的数据隐私考虑、风险和减轻策略。这不应成为停止或限制资助的原因,而是作为引导研究人员走向更体贴的研究设计的一种方式。
致谢
这项工作没有我不可思议的合著者是不可能的:Kieron Ivy Turk, Aliai Eusebi, Mindy Tran, Marilyne Ordekian, Dr. Enrico Mariconti, Dr. Yixin Zou, and Dr. Marie Vasek.
照片由 Stockcake 提供