分析亚马逊存储桶
正如我所承诺的,以下是通过运行Bucket Finder工具获取的数据分析结果。
我决定使用名称列表进行扫描,因为我认为大多数创建存储桶的用户可能会使用自己的名字命名。初始扫描没有使用庞大的列表,而是采用了Packet Storm的常见名称列表。该列表包含2268个名称,扫描耗时不长,以下是结果 breakdown:
存储桶
| 类型 | 数量 |
|---|---|
| 不存在 | 1206 |
| 私有 | 848 |
| 公开 | 131 |
如您所见,大多数尝试的名称不存在,但5%存在且为公开状态,我认为这是一个不错的命中率。Packet Storm还有其他包含超过10万个单词的列表,如果回报率相同,那么我们将有超过5000个存储桶需要调查。
文件
在发现的公开存储桶中,文件 breakdown 如下:
| 类型 | 数量 |
|---|---|
| 私有 | 6016 |
| 公开 | 9683 |
| 总计 | 15699 |
这表明当存储桶设置为公开时,约三分之一的用户仍然将私有文件放入其中。这可能意味着使用系统的用户知道他们在做什么,并有意选择共享哪些文件以及保持哪些文件私有,或者可能是一些用于管理存储桶的应用程序要求存储桶公开,但随后将存储桶中的文件创建为私有。
最后,以下是我根据文件扩展名发现的公开文件类型的 breakdown:
| 类型 | 扩展名 | 数量 |
|---|---|---|
| 图像 | jpg|png|gif|tiff|psd|bmp | 7086 |
| 网页 | html|css|js | 1377 |
| 视频和音乐 | mp3|mp4|flv|mov|avi|wmv|m4v|aa|mpg | 436 |
| 文档 | pdf|doc|xls|ppt | 80 |
| 压缩包 | rar|zip|gz | 57 |
| SQL | sql | 1 |
| 其他 | 646 | |
| 总计 | 9683 |
还有一个漂亮的饼图来展示:
![文件类型分布饼图]
大多数人使用S3存储图像,我随机抓取了一些样本,发现它们主要是个人照片集,很多婴儿照片,这意味着人们希望分享并认为亚马逊是快速将它们发布到网上的好方法。
浏览一些文档时,我发现了一份MOD培训申请表,包括SSN和大量其他个人数据,几套公司账户以及其他一些本不应在线的公司文件。
视频没有揭示太多有趣的内容,主要是我抓取的一些培训和激励材料。
在音乐类别中,有一些人与世界分享大型mp3收藏,我现在有几个新乐队的音乐会关注。
总而言之,这是一个相当混合的情况。其中肯定有一些值得挖掘的珍宝,但由于需要筛选的数据量很大,要么需要大量人工时间,要么需要一些非常好的自动化来尝试发现它们。如果有人有关于如何自动化的想法,请告诉我,我会看看我能做些什么来构建。