sitemap2proxy
当进行Web应用测试时,通常需要爬取目标网站。但如果网站能主动告诉你大部分内容呢?许多网站通过sitemap.xml
文件向搜索引擎蜘蛛(如Google)公开其内容。
该脚本解析该文件提取所有URL,并通过你选择的代理(Burp、ZAP等)发起请求。虽然无法发现文件中未提及的内容或进行暴力破解,但能快速识别网站管理员希望公开的所有页面。
Tim Tomes开发的pagefinder
是该脚本的良好补充,可检查多个站点以寻找sitemap和/或robots.txt文件。
安装
sitemap2proxy
是简单的Ruby脚本,无需安装额外gem。只需赋予可执行权限即可。
使用
用法非常简单,可指定已下载的sitemap或直接指向网站上的文件。支持原始XML(sitemap.xml)和gzip压缩文件(sitemap.xml.gz)。另一个必要参数是代理URL。
默认使用Googlebot用户代理字符串以隐藏日志中的流量,可通过ua
参数自定义。
示例
获取Google的sitemap.xml并通过本地8080端口代理:
|
|
相同操作但伪装为Yahoo Bot:
|
|
解析已下载文件并通过其他机器上的代理:
|
|
带详细输出:
|
|
查看帮助:
|
|
有趣发现
测试中发现google.com的robots.txt文件指定了多个附加sitemap。检查robots.txt文件总能发现有趣内容,这个发现使其更有价值。
下载
更新日志
- 版本1.1 - 添加响应代码统计
- 版本1 - 初始发布