近年来,谷歌大幅扩展了直接在搜索结果页面提供答案的功能,这些内容来自网络抓取或合作伙伴数据,无需用户点击外部链接。同时,谷歌也增加了对自有产品(如YouTube、谷歌地图、谷歌航班等)的推广,以及引导用户深入搜索的"相关查询"模块。我们将这类呈现形式统称为"模块",它们通常以视觉区分明显的方框展示,不过这种区分正逐渐模糊。
我们设计了一项实验来量化这些谷歌自生成内容的数量和位置分布,并与非谷歌内容进行对比。由于缺乏公开的随机搜索查询样本,我们基于2019年11月至2020年1月谷歌趋势数据创建了15,269个搜索查询样本,使用iPhone X移动模拟器执行搜索。
通过创新的网页解析技术,我们将搜索结果分为四类:
- 谷歌内容(指向谷歌系产品或无外链的文本模块)
- 非谷歌内容(指向外部网站的链接)
- AMP页面(采用谷歌开发的加速移动页面技术)
- 广告内容
分析发现:
- 首屏62.6%的区域被谷歌内容占据
- 整个第一页中谷歌内容占比41%,非谷歌内容占44.8%
- AMP页面出现频率达80.7%,占据13.3%的页面空间
- 广告仅占1%的页面空间
技术实现细节:
- 使用Selenium构建移动端模拟器,固定纽约地理位置
- 开发60多个定制解析器,基于HTML特征识别各类内容
- 创新性采用"网页染色"技术,通过空间元数据量化各元素占位面积
- 对741个样本进行人工校验,分类错误率1.89%,面积测量误差率8.77%
附录包含完整的方法论说明、错误分析和数据处理代码(已开源)。谷歌发言人对此分类方法提出异议,认为AMP应归类为非谷歌内容,且特色摘要等模块能为外部网站带来流量。但采用任何分类标准,谷歌自有内容在首屏的占比都显著高于其他类型。