Elastic企业搜索7.15新特性解析

Elastic企业搜索7.15版本正式推出网络爬虫功能,支持个性化工作场所搜索配置,包含自动内容提取、同步频率调度、自定义过滤器等企业级特性,帮助团队快速构建定制化搜索体验。

网络爬虫正式可用

Elastic企业搜索7.15版本中,App Search的网络爬虫功能达到正式可用状态。该功能解决了网站和应用程序搜索中的数据索引难题,能够快速抓取网页内容并立即建立搜索体验。新版本增加了自动爬取控制和内容提取工具,并通过某中心的可视化工具和可观测性功能提供爬虫日志分析能力。

爬虫核心特性

  • Robots.txt支持:遵循机器人排除标准,智能识别禁止爬取的页面
  • 站点地图支持:基于XML网站蓝图高效定位和抓取关键内容
  • 持久化爬取:在故障或重启后保持爬取进度
  • 内容提取工具:精确指定需要从页面提取的内容要素,包括:
    • 元标签和数据属性规则
    • 文档正文的包含/排除规则
  • 域名验证:检查域名有效性并规避索引限制
  • 去重控制:确保搜索引擎索引中只保留页面最佳版本
  • 自动爬取控制:自定义自动爬取频率
  • 流程化爬取:根据爬取规则按需移除索引文档
  • URL调试API:提供完整的问题URL诊断能力

个性化工作场所搜索

支持通过自定义品牌资源实现内部搜索界面个性化,只需上传PNG格式图片即可在所有关键应用中保持统一的视觉风格,无需构建自定义界面。

同步频率配置

可根据实际需求设置工作场所搜索的同步频率。增强的同步配置能力确保计算资源与基础设施需求匹配,实时同步结果能够及时反映数据更新模式。某中心白金级客户还可按内容源使用调度API进行同步规划。

自动过滤器检测

通过可配置的自动过滤器检测提升自然语言查询效果。支持创建基于自然语言查询的自定义过滤器,例如:

  • 上周的拉取请求
  • 本人更新的产品团队笔记
  • 某机构云盘中的月度板报

统一搜索体验集成

工作场所搜索提供完整的桌面和移动搜索体验,同时提供用于设计和开发定制搜索集成的全套工具和端点。搜索API端点的多项改进确保了跨数据源的一致性体验,现支持Slack、Gmail、某机构在线办公套件等十余种原生数据集成。

体验方式

现有某中心云用户可直接通过控制台使用这些功能。新用户可参考快速入门指南(含网络爬虫快速入门视频)或免费基础培训课程(含App Search网络爬虫基础课程),也可通过14天免费试用体验Elastic企业搜索,或下载自托管版本的Elastic Stack。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计