CeWL - 自定义密码字典生成器深度解析

CeWL是一款基于Ruby开发的定制化密码字典生成工具,能够通过爬取目标网站收集独特词汇,支持元数据提取、代理认证、多格式文档处理等功能,广泛应用于密码破解和网络安全测试领域。

CeWL - 自定义密码字典生成器

基于PaulDotCom第129期关于通过爬取目标网站收集独特词汇生成自定义密码字典的讨论,我开发了CeWL(自定义密码字典生成器)。CeWL是一款Ruby应用程序,能够爬取指定URL到特定深度(可选是否跟踪外部链接),并生成可用于John the Ripper等密码破解工具的词汇列表。

CeWL还配备了一个关联命令行工具FAB(Files Already Bagged),使用相同的元数据提取技术从已下载文件中创建作者/创建者列表。

更新日志

版本5.2

  • 由@g0tmi1k进行的代码重构
  • 国际化支持 - 现在能更好地处理非ASCII网站
  • 改进了从JavaScript内容和其他非标准HTML区域提取词汇的方法
  • 大量小错误修复

版本5.1

  • 添加GPL-3+许可证以支持Debian包含
  • 添加Gemfile简化gem安装

版本5.0

  • 添加命令行代理支持和基本/摘要认证凭据传递功能
  • 其他小错误修复

版本4.3

  • 按词频排序输出结果
  • 新增–count参数显示词汇计数
  • 改进爬虫稳定性
  • 默认爬取深度为2,可自定义设置

版本4.2

  • 修复链接解析正则表达式缺陷
  • 改用Nokogiri解析页面链接
  • 修复内部锚点链接错误解析问题
  • 支持深度0的单页面爬取

版本4.1

  • 新增meta_file和email_file参数
  • 升级支持Ruby 1.9.x
  • 改进alt和title标签文本提取

版本3.0

  • 解决JavaScript重定向URL爬取问题
  • 添加对包含location.href页面的处理

版本2.0

  • 支持从邮件链接提取电子邮件地址
  • 从文档元数据收集作者/创建者名称
  • 支持Office 2007之前版本、Office 2007和PDF格式文档处理

发音

CeWL发音为"cool"。

下载

最新版本可在GitHub获取。标记版本也包含在Kali等各种发行版中。

下载链接:

  • cewl版本5.2
  • cewl版本5.1
  • cewl版本5.0
  • cewl版本4.3
  • cewl版本4.2
  • cewl版本4.1
  • cewl版本3.0

安装

CeWL需要安装rubygems包及以下gem:

  • nokogiri
  • mime-types
  • mini_exiftool
  • rubyzip
  • spider

可通过在cewl目录运行bundle install安装。mini_exiftool gem还需要安装exiftool应用程序。

在BT5上,默认安装的Ruby版本存在问题,可通过以下命令解决:

1
2
gem source -c
gem install --user-install spider http_configuration mini_exiftool zip mime-types

可能需要设置环境变量:RUBYOPT="rubygems"

使用方式

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
cewl [OPTION] ... URL

--help, -h                  显示帮助
--depth x, -d x            爬取深度,默认2
--min_word_length, -m      最小词长,默认3
--offsite, -o              允许爬取外部站点
--write, -w file           输出到文件而非stdout
--ua, -u user-agent        修改用户代理
-v                         显示详细输出
--no-words, -n             不输出词汇表
--meta, -a file            包含元数据,可选输出文件
--email, -e file           包含电子邮件地址,可选输出文件
--meta_file file           元数据输出文件名
--email_file file          电子邮件输出文件名
--meta-temp-dir directory  exiftool解析文件使用的目录,默认/tmp
--count, -c                显示找到的词汇计数
--auth_type                摘要或基本认证
--auth_user                认证用户名
--auth_pass                认证密码
--proxy_host               代理主机
--proxy_port               代理端口,默认8080
--proxy_username           代理用户名
--proxy_password           代理密码
--verbose, -v              详细模式
URL                        要爬取的网站

常见问题

缺少exiftool

如果出现命令未找到错误,需要安装exiftool或确保其在路径中。

HTTPS问题

如果出现net/https加载错误,需要安装Ruby libopenssl包(Debian中为libopenssl-ruby)。

爬虫遗漏页面

有报告称爬虫会遗漏带有查询字符串的页面,此问题尚未能复现,如有具体案例请反馈。

目录

  • 发音
  • 下载
  • 安装
  • 使用方式
  • 常见问题

分类

  • Wifi
  • 网络
  • Metasploit
  • 通用

支持本站

本站项目均为无偿开发,如需支持可通过下方联盟链接使用服务,我将获得账户积分或现金回馈。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计