谷歌搜索结果分析的技术方法

本文详细介绍了如何通过自定义网络解析技术和空间分析方法,量化评估谷歌搜索结果页面中各类内容的分布情况,包括谷歌自有内容、外部链接、AMP页面和广告的占比与位置分布。

近年来,谷歌大幅扩展了直接在搜索结果页面提供答案的功能,这些内容来自网络抓取或合作伙伴数据,无需用户点击外部链接。同时,谷歌也增加了对自有产品(如YouTube、谷歌地图、谷歌航班等)的推广,以及引导用户深入搜索的"相关查询"模块。我们将这类呈现形式统称为"模块",它们通常以视觉区分明显的方框展示,不过这种区分正逐渐模糊。

我们设计了一项实验来量化这些谷歌自生成内容的数量和位置分布,并与非谷歌内容进行对比。由于缺乏公开的随机搜索查询样本,我们基于2019年11月至2020年1月谷歌趋势数据创建了15,269个搜索查询样本,使用iPhone X移动模拟器执行搜索。

通过创新的网页解析技术,我们将搜索结果分为四类:

  1. 谷歌内容(指向谷歌系产品或无外链的文本模块)
  2. 非谷歌内容(指向外部网站的链接)
  3. AMP页面(采用谷歌开发的加速移动页面技术)
  4. 广告内容

分析发现:

  • 首屏62.6%的区域被谷歌内容占据
  • 整个第一页中谷歌内容占比41%,非谷歌内容占44.8%
  • AMP页面出现频率达80.7%,占据13.3%的页面空间
  • 广告仅占1%的页面空间

技术实现细节:

  1. 使用Selenium构建移动端模拟器,固定纽约地理位置
  2. 开发60多个定制解析器,基于HTML特征识别各类内容
  3. 创新性采用"网页染色"技术,通过空间元数据量化各元素占位面积
  4. 对741个样本进行人工校验,分类错误率1.89%,面积测量误差率8.77%

附录包含完整的方法论说明、错误分析和数据处理代码(已开源)。谷歌发言人对此分类方法提出异议,认为AMP应归类为非谷歌内容,且特色摘要等模块能为外部网站带来流量。但采用任何分类标准,谷歌自有内容在首屏的占比都显著高于其他类型。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计