网络爬虫正式可用
Elastic企业搜索7.15版本中,App Search的网络爬虫功能达到正式可用状态。该功能解决了网站和应用程序搜索中的数据索引难题,能够快速抓取网页内容并立即建立搜索体验。新版本增加了自动爬取控制和内容提取工具,并通过某中心的可视化工具和可观测性功能提供爬虫日志分析能力。
爬虫核心特性
- Robots.txt支持:遵循机器人排除标准,智能识别禁止爬取的页面
- 站点地图支持:基于XML网站蓝图高效定位和抓取关键内容
- 持久化爬取:在故障或重启后保持爬取进度
- 内容提取工具:精确指定需要从页面提取的内容要素,包括:
- 元标签和数据属性规则
- 文档正文的包含/排除规则
- 域名验证:检查域名有效性并规避索引限制
- 去重控制:确保搜索引擎索引中只保留页面最佳版本
- 自动爬取控制:自定义自动爬取频率
- 流程化爬取:根据爬取规则按需移除索引文档
- URL调试API:提供完整的问题URL诊断能力
个性化工作场所搜索
支持通过自定义品牌资源实现内部搜索界面个性化,只需上传PNG格式图片即可在所有关键应用中保持统一的视觉风格,无需构建自定义界面。
同步频率配置
可根据实际需求设置工作场所搜索的同步频率。增强的同步配置能力确保计算资源与基础设施需求匹配,实时同步结果能够及时反映数据更新模式。某中心白金级客户还可按内容源使用调度API进行同步规划。
自动过滤器检测
通过可配置的自动过滤器检测提升自然语言查询效果。支持创建基于自然语言查询的自定义过滤器,例如:
- 上周的拉取请求
- 本人更新的产品团队笔记
- 某机构云盘中的月度板报
统一搜索体验集成
工作场所搜索提供完整的桌面和移动搜索体验,同时提供用于设计和开发定制搜索集成的全套工具和端点。搜索API端点的多项改进确保了跨数据源的一致性体验,现支持Slack、Gmail、某机构在线办公套件等十余种原生数据集成。
体验方式
现有某中心云用户可直接通过控制台使用这些功能。新用户可参考快速入门指南(含网络爬虫快速入门视频)或免费基础培训课程(含App Search网络爬虫基础课程),也可通过14天免费试用体验Elastic企业搜索,或下载自托管版本的Elastic Stack。