渐进式网络爬取与四层回退系统
四层架构(每层都比前一层更智能)
第一层:WebFetch - 从简单开始
对于约60-70%的网站,您不需要复杂工具。Claude Code内置的WebFetch工具能很好地处理基本爬取。
功能示例:
|
|
🤖 WebFetch使用AI理解页面结构 - 不仅仅是原始HTML爬取。
失败情况:某些网站需要正确的浏览器标头才能正常工作,这时我们升级到第二层。
第二层:cURL与完整浏览器标头
当WebFetch不够用时,我们使用带有完整Chrome浏览器标头的cURL。
完整命令:
|
|
理解浏览器标头
为什么这些特定标头很重要:
- Sec-Fetch- 标头* - Chrome的安全标头,指示请求上下文
- Accept 标头 - 您能处理的内容类型
- User-Agent - 浏览器标识
技巧:精确匹配真实浏览器发送的内容,而不是"足够接近"。
第三层:浏览器自动化 - 完整JavaScript执行
当即使完美的标头也不够时(因为网站需要实际的JavaScript执行),我们使用Playwright。
Playwright提供:
|
|
这是实际运行的Chrome浏览器 - 不是伪装,而是实际执行。
⏱️ 当您从第一层或第二层看到"空内容"时,通常是JavaScript密集型网站。在重试时直接跳到第三层以节省时间。
第四层:Bright Data MCP - 专业基础设施
有时您需要专业基础设施,这时我们使用Bright Data。
我们使用的Bright Data MCP工具
我们的实现使用四个连接到Bright Data的Web Scraper API和SERP API的MCP工具:
- scrape_as_markdown - 单URL爬取
- scrape_batch - 同时多个URL(最多10个)
- search_engine - 爬取Google、Bing或Yandex结果
- search_engine_batch - 同时多个搜索
Bright Data的特殊之处
基础设施特性:
- 住宅代理网络 - 来自195个国家的1.5亿+真实用户IP
- 地理位置定位 - 150+地理位置
- 自动CAPTCHA解决
- 完整JavaScript渲染
- 内置指纹识别
- 自动重试
- Web Unlocker - 自动绕过阻止和反机器人措施
安装 - 设置Bright Data MCP
要使用第四层(Bright Data MCP),您需要安装和配置Bright Data MCP服务器。
步骤1:获取您的Bright Data API密钥
- 在brightdata.com创建账户
- 导航到您的账户设置
- 转到API部分
- 生成新的API密钥
- 复制API令牌
步骤2:配置MCP服务器
将Bright Data MCP服务器添加到您的Claude Code MCP配置文件:
|
|
步骤3:重启Claude Code
添加MCP服务器配置后,重启Claude Code以加载Bright Data MCP服务器。
步骤4:验证安装
Claude Code重启后,Bright Data MCP工具将可用。
渐进式升级流程
开始简单,仅在需要时升级。不要过度设计简单问题。
完整流程:
|
|
实际性能
每层计时:
- 第一层:~2-5秒 ⚡
- 第二层:~3-7秒
- 第三层:~10-20秒(运行实际浏览器)
- 第四层:~5-15秒
成本细分:
- 第一层:免费(内置)
- 第二层:免费(内置)
- 第三层:免费(本地浏览器自动化)
- 第四层:Bright Data积分(约$0.001-0.01/请求)
实际用例
用例1:日本电商研究
研究日本亚马逊的产品趋势,了解日本市场的热门商品。
用例2:网络安全防御调查
分析恶意网站而不暴露您的组织IP地址。
用例3:绕过过度积极的反向代理
访问被Cloudflare或其他反向代理无故阻止的合法公共网站。
智能优化
您可以在知道处理内容时跳过某些层:
跳到第三层如果:
- URL是已知的SPA(*.vercel.app, *.netlify.app)
- 网站已知是JavaScript密集型
跳到第四层如果:
- 用户明确说"使用Bright Data"
- URL已知需要专业基础设施
- 该域之前的爬取需要更高层
错误处理帮助:
- “403错误” → 需要正确的浏览器上下文
- “空内容” → 需要JavaScript执行
- “CAPTCHA” → 需要专业基础设施
结论
网络爬取不必是全有或全无的方法。通过构建这样的渐进式系统,您获得:
✅ 效率 - 对简单站点使用简单工具 ✅ 可靠性 - 失败时有多个回退选项 ✅ 成本优化 - 仅在需要时支付高级功能 ✅ 自动操作 - 无需手动干预 ✅ 高成功率 - 处理从简单博客到复杂站点的一切
四层模式适用于任何渐进式能力系统 - 从简单的开始,智能升级,仅在必要时使用高级资源。
定价现实检查
关于此系统的一个重要事项 - 对于典型使用,成本非常合理。
我的周使用量:每周几美分到最多几美元。
实际3周成本(大量查询):总计$0.31,平均每天$0.01。
- 第一至第三层完全免费 - 这些处理您约90-95%的爬取需求
- 第四层仅在需要时激活 - 您不为每个请求付费
- Bright Data按成功结果收费 - 起价$0.001/记录
渐进式升级系统意味着您仅在真正需要时支付高级基础设施费用 - 这正是重点所在。
💵 典型使用:每周几美分。免费层完成大部分工作。