威胁数据处理挑战
本周大部分时间都投入在Synthient威胁数据上,即使在录制完这个视频后的周末仍在继续处理。这类数据对受害者造成的损害极大,同时处理过程又充满令人沮丧的噪音。
数据验证标准
在加载数据前,我必须确保:
- 数据足够新颖
- 数据合法有效
- 数据具有足够影响力
- 对数据泄露受害者的价值足以抵消不可避免的疑问:“我该如何处理这些信息,请确切告诉我我的记录中哪个密码被泄露了”
技术架构与规模
这项处理工作成本高昂:我们目前正在运行一个80核心的Azure SQL超大规模数据库,用于分析该数据集中约20亿个凭证填充邮箱地址。值得注意的是,这是20亿个唯一的邮箱地址😮
数据更新成果
我们将1.83亿个来自Synthient威胁数据收集的邮箱地址导入HIBP(其中超过1600万个是我们之前未见过的)。目前,Pwned Passwords每月查询量已远超170亿次(每月似乎都会增加约10亿次…)
更多详细信息将在下一个视频中分享,让我们先确定该系统是否将正式上线运行。