背景
当足球迷评估球员表现时,他们会根据球员执行特定战术的情况与对其潜力的内在认知进行衡量。然而,将这种判断编码到机器学习模型中已被证明并非易事。球迷和评论员批评现有的四分卫(QB)传球统计数据,如 Madden QB、NFL 传球评分、ESPN 的总四分卫评分(QBR)和职业足球焦点(PFF)评分,存在校准数据过时、与胜负无关或评分异常等问题。
数据来源
每场比赛,通过球员护肩中的射频识别芯片每 100 毫秒更新一次数据,提供所有 22 名球员在场地(x, y)坐标中的位置,以及他们的速度、加速度、奔跑方向和身体朝向。该时间序列长度可变,从发球开始到四分卫释放球结束。例如,四分卫在发球后四秒传球会产生 40 个时间步的时间序列,而仅需两秒多的传球则产生 25 个时间步的时间序列。
模型架构
为学习比赛时间序列中的时间复杂性,选择了时间卷积网络(TCN),这是一种能够处理不同长度输入并考虑序列输入间长远关系的卷积网络。由于比赛还具有静态属性(如档数、比分和赛季剩余比赛),这些属性影响球员的决策和表现,因此将这些属性与 TCN 状态连接,并一起传递到多层感知机,以产生最终输出——获得码数的概率预测。
分布预测
网络输出需要仔细考虑。天真地输出获得码数的点预测并使用误差损失函数训练网络无法实现衡量比赛结果相对于其潜力的目标。相反,选择了分布预测,其中网络的输出是指定概率分布的参数。
选择了 spliced binned-Pareto(SBP)分布,因为它能够灵活适应多模态、不同对称性以及轻尾或重尾分布,且其位置和尺度可以随时间、当前比分等因素变化。
SBP 分布
SBP 分布源于极值理论(EVT)的经典结果,该理论指出极端值(即尾部)的分布几乎独立于数据的基础分布,并且可以从假设的基础分布上界(t)以上的数据点估计。EVT 的第二定理指出,任何这样的分布尾部都可以用仅有两个参数(形状 x 和尺度 b)且具有封闭形式分位数的广义帕累托分布(GPD)良好近似。
模型训练
基于梯度的重尾分布学习在机器学习社区中一直是一个挑战。通过建模基础分布,获得了时变阈值。此外,训练单个神经网络以最大化在分箱和 GPD 分布下观察到时间步的对数概率,产生了一个考虑分布所有矩的时间变化的预测——包括均值和方差以及尾部重度和尺度,包括不对称尾部。
结果与应用
模型的预测概率密度函数(PDF)量化了在特定比赛情况下,联盟平均四分卫获得每个码数的可能性。因此,在该比赛的 SBP 分布的累积分布函数(CDF)中评估实际获得的码数,产生该四分卫相对于同行表现介于 0 和 1 之间的排名。
该 CDF 排名经过进一步标准化后,成为比赛级别的 QB 传球评分。聚合多个比赛的评分产生比赛、赛季或其他分割级别的 QB 传球评分。例如,基于 ‘21 赛季所有目标传球尝试,Kyler Murray 得分为 87,在季后赛四分卫中排名第九。
性能比较
NGS 传球评分与获胜百分比和季后赛百分比的相关性优于先前的传球指标,如表所示。
代码发布
已发布 spliced binned-Pareto 模型的 Pytorch 代码以及演示笔记本。
致谢
Brad Gross。