分析亚马逊的存储桶
正如我所承诺的,这里分享使用Bucket Finder工具扫描获得的数据分析结果。
我决定使用名称列表进行扫描,因为推测大多数用户创建存储桶时会使用自己的名字命名。初始扫描没有使用超大型列表,而是采用了Packet Storm的常见名称列表。该列表包含2268个名称,扫描耗时不长,以下是结果统计:
存储桶统计
类型 | 数量 |
---|---|
不存在 | 1206 |
私有 | 848 |
公开 | 131 |
可以看到,大多数名称对应的存储桶不存在,但5%的存储桶存在且为公开状态,我认为这是一个不错的命中率。Packet Storm还有其他超过10万个单词的列表,如果保持相同的回报率,那么我们将有超过5000个存储桶需要调查。
文件统计
在发现的公开存储桶中,文件分布如下:
类型 | 数量 |
---|---|
私有文件 | 6016 |
公开文件 | 9683 |
总计 | 15699 |
这表明当存储桶设置为公开时,约三分之一的用户仍然在其中存放私有文件。这可能意味着系统用户知道自己在做什么,故意选择共享哪些文件、保留哪些私有;或者某些用于管理存储桶的应用程序要求存储桶公开,但创建的文件却设置为私有。
公开文件类型分析
根据文件扩展名,发现的公开文件类型分布如下:
类型 | 扩展名 | 数量 |
---|---|---|
图像 | jpg|png|gif|tiff|psd|bmp | 7086 |
网页 | html|css|js | 1377 |
视频和音乐 | mp3|mp4|flv|mov|avi|wmv|m4v|aa|mpg | 436 |
文档 | pdf|doc|xls|ppt | 80 |
压缩包 | rar|zip|gz | 57 |
SQL | sql | 1 |
其他 | 646 | |
总计 | 9683 |
同时还提供了一个漂亮的饼图来展示这一分布。
大多数人使用S3存储图像。我随机抽取了一些样本,发现它们主要是个人照片集,其中有很多婴儿照片,这意味着人们希望分享照片,并认为亚马逊是快速将照片发布到网络的好方法。
浏览一些文档时,我发现了一份MOD培训申请表,包含SSN和大量其他个人数据,几套公司账目以及其他一些本不应在线的公司文件。
视频内容没有太多有趣发现,主要是我抓取的一些培训和励志内容。
在音乐类别中,有几个人向世界分享大型MP3合集,我现在有几个新乐队的音乐值得关注。
总而言之,这是一个相当混杂的数据集。其中肯定有一些值得提取的宝贵信息,但由于需要筛选的数据量巨大,要么需要大量人工时间,要么需要非常好的自动化技术来尝试发现它们。如果有人对如何自动化此过程有想法,请告诉我,我会看看能否将其构建到工具中。