社交媒体数据研究中的隐私保护框架

社交媒体数据使研究人员能够以前所未有的便捷性和规模理解当前事件和人类行为。然而，研究人员在访问、处理和存储社交媒体数据中的敏感信息时，常常侵犯用户隐私。

社交媒体已被证明对研究大有裨益。测量COVID-19传播和预测犯罪的研究突显了社交媒体大数据带来的宝贵见解，这些在没有大数据的情况下是不可能实现的。然而，这些数据集中潜藏着与敏感话题相关的亲密个人故事，如性虐待、流产和性别转换——既有匿名方式，也有可识别的方式。

在我们于2025年IEEE安全与隐私研讨会上发表的论文《SoK：使用社交媒体数据进行安全研究的隐私框架》中，我们探讨了社交媒体研究中的紧张关系：追求社交媒体数据带来的更好科学与保护社交媒体用户隐私之间的平衡。我们专注于安全和隐私研究，因为它可能涉及错误信息、骚扰和虐待等敏感话题，以及安全研究人员在披露影响公司和用户的漏洞时需要达到更高标准。

方法论

为此，我们对社交媒体安全文献进行了系统性文献综述。我们从六个不同学科收集了超过10,000篇论文：计算机安全与密码学（CSC）、数据挖掘与分析（DMA）、人机交互（HCI）、人文、文学与艺术、传播（HLAC）、社会科学、犯罪学（SSC）以及社会科学、法医学（SSFS）。经过几轮筛选，我们的最终数据集包括16年间的601篇论文。

安全研究人员如何处理社交媒体数据的隐私？

我们最令人担忧的发现是，只有35%的论文提到了数据匿名化、可用性和存储的任何考虑。这意味着安全和隐私研究人员未能报告他们如何处理用户隐私。

该图表显示，尽管研究产出不断增长，但研究人员越来越未能报告隐私考虑。

使用社交媒体数据进行安全研究会出现哪些隐私风险？

我们揭示了研究人员使用社交媒体数据时的11种隐私风险。这些风险贯穿整个研究过程——从数据收集到发布。我们根据安全研究人员处理社交媒体数据隐私的发现，调整了Solove的隐私分类法，开发了这些风险。下面，我们简要回顾这些风险及其表现方式。

信息收集

监视：尽管社交媒体数据是公开的，但数据收集方法（如网络爬虫和API）使得能够记录、研究和存储用户数据，超出了其预期目的。

信息处理

聚合：不同的社交媒体平台有不同的背景。在一个平台上预期的内容可能在另一个平台上被禁止。聚合打破了不同平台之间的界限，使得能够进行更敏感的推断。
识别：社交媒体网站以多种方式实现识别：真实姓名、匿名和假名。跨平台收集数据可能导致通过机器学习和风格计量学等方法识别用户。
不安全：尽管其公开性质，但由于其他隐私风险（如监视和识别），研究人员应像处理其他私人信息一样处理社交媒体数据。
排除：当研究人员仅将社交媒体视为比特时，他们剥夺了用户对自己数据的自主权。

信息传播

披露：在出版物中分享社交媒体数据可能会增加对私人主题的关注，并可能发布令人尴尬的敏感信息。
增加可访问性：收集的社交媒体数据可能在收集后多年保持公开可用，使该数据中的用户面临“潜在未来风险”。
敲诈：社交媒体数据通常可能包含令人尴尬或敏感的信息。研究人员在传播其输出时面临被敲诈或促成敲诈的风险。当与其他风险（如聚合和识别）结合时，这种风险会加剧。
扭曲：研究人员分析或传播研究的方式可能会影响用户或社区的看法。研究人员反思他们的偏见和决策如何影响他们的研究非常重要。

入侵

侵入：互联网使研究人员能够轻松找到任何在线社区或群体。然而，在没有适当培训或经验的情况下进入这些数字空间会增加研究干扰用户的风险。
决策干扰：除了干扰在线社区或群体外，研究人员可能直接影响人们彼此之间以及社交媒体平台的关系。研究人员可能创建或加剧群体内的现有紧张关系，或突出平台进一步边缘化脆弱声音的方式。

安全研究人员如何减轻隐私风险？

没有一种万能药可以减轻所有上述风险。甚至没有一种单一的解决方案来减轻每个个体风险。相反，我们发现世界各地的研究人员正在开发新颖的方法，使他们的社交媒体研究更加注重隐私。这些解决方案带有权衡，但仍然是朝着正确方向迈出的步骤。

让我们看看识别的风险。关于用户的信息，虽然不直接与其个人相关联，但可能足以识别他们——例如，用户的名字、性别和出生日期足以识别单个个体。

机器学习方法，占我们数据集中论文的55%（n=332），特别容易受到识别风险的影响，因为研究人员经常部署ML来跨大型数据集进行推断。

识别最常通过数据匿名化来减轻：删除个人识别信息以确保数据无法与在线或离线用户关联。然而，只有26%（n=158）的论文提到了数据匿名化——无论是在论文文本中还是在使用的数据集中。其中，60%（n=95）使用匿名化数据，36%（n=57）使用非匿名化数据，7%（n=11）同时使用匿名化和非匿名化数据。令人不安的是，11%（n=17）使用了可以重新识别个人的数据。

数据匿名化防止了简单的识别，但无法防止更复杂的识别技术。如今，研究人员可以使用数据修改或扰动技术，通过修改数据来保持数据的主要概念或结果，而不提供精确副本。

匿名化数据或使用更先进的匿名化技术存在权衡。某些公众人物将始终可识别。在这些情况下，避免识别几乎没有任何好处，同时需要研究人员更多的工作。

我们从这里走向何方？

我们现在知道，安全研究人员如何处理社交媒体数据的隐私严重缺乏透明度。我们还知道，隐私风险 abound 取决于所研究的平台、数据来源、分析方法以及数据发布方式。根据我们的发现，下面我们回顾研究人员、机构/场所和政策制定者可以采取哪些措施来保护用户隐私：

对于研究人员

优先考虑清晰和包容的风险披露：识别所有相关利益相关者——平台、用户和社区——并制定量身定制的、透明的关于隐私风险的沟通。
评估和记录第三方数据实践：在使用第三方工具和数据集之前，评估它们的访问控制、数据处理策略和潜在危害。在您的方法论中明确证明它们的使用，并确保符合道德和法律标准。
实施强大且有资源的数据存储计划：早期分配资源用于安全数据存储，包括加密、受控访问和长期数据保护的基础设施。在您的研究中报告存储实践，以促进问责制和可复制性。

对于机构和场所

加强IRB对数字和社交媒体研究的素养：倡导IRB培训，解决社交媒体数据的特定隐私风险——特别是其半公开性质和重新识别潜力——即使研究似乎有资格获得豁免。
推动更清晰的伦理审查文档：倡导期刊和会议采用一致、可执行的关于社交媒体数据隐私的指南——确保伦理严谨性，同时不阻止对敏感主题的重要研究。
授权审稿人深思熟虑地评估隐私：鼓励审稿人批判性地评估隐私实践，而不将其用作惩罚手段，认识到研究设计需要灵活性——特别是涉及边缘化或污名化社区的工作。

对于政策制定者

创建研究人员特定指南：需要更清晰的指南，说明研究人员在使用个人数据时如何遵守隐私法规，如同意、被遗忘权和数据存储。GDPR第89(1)条为科学研究引入了一些豁免，前提是删除会妨碍实现研究目的。然而，这在实践中意味着什么尚不清楚。
资金要求：资助机构应考虑要求研究人员在使用社交媒体数据时记录他们的数据隐私考虑、风险和缓解策略。这不应成为停止或限制资金的原因，而是引导研究人员进行更体贴的研究设计的一种方式。

致谢

这项工作离不开我出色的合著者：Kieron Ivy Turk、Ali