NFL新一代传球指标背后的机器学习技术

当橄榄球迷评估球员表现时，他们会根据球员执行特定战术的情况与对其潜力的内在认知进行衡量。然而，将这种判断编码到机器学习模型中已被证明并非易事。球迷和评论员曾批评现有的四分卫（QB）传球统计数据（如Madden QB、NFL传球评分、ESPN的总四分卫评分（QBR）和职业橄榄球焦点（PFF）评分）存在校准数据过时、与获胜无关或评分异常等问题。

2022年1月13日，就在第56届超级碗之前，NFL宣布了其新的QB传球评分，旨在改进前代评分的局限性，并以完全数据驱动的方式将QB的贡献与球队贡献分离开来。

战术层面

现有评级的一个根本问题是它们在战术、比赛、周和赛季之间缺乏一致性。目标是找到一个能够解释战术特定动态并在不同粒度上保持一致的指标。

希望衡量QB在比赛时钟和所受压力下的决策和传球执行情况。对于这些条件，有直接可测量的量，如防守方的移动。但如何衡量QB表现“多好”？这是下一节（“模型架构”）要解决的问题，但目前将以获得的码数作为可测量的结果。（这一假设在下游将被证明有用。）

数据表示

由于采取了数据驱动的方法，让我们仔细看看数据到底是什么。

在每个战术中，每100毫秒从球员护肩中的射频ID芯片接收更新，提供所有22名球员在场地（x, y）坐标中的位置，以及他们的速度、加速度、奔跑方向和身体朝向，如上图所示。

这个时间序列的长度是可变的，从发球开始，到QB释放球结束。例如，QB在发球后四秒传球产生40个时间步的时间序列，而仅超过两秒的传球产生25个时间步的时间序列。

下图显示了时间序列的表示方式。每行对应一个时间步，包含22名球员中每人的八个特征（x位置、y位置、x速度、y速度、x加速度、y加速度、方向和朝向），形成一个176列40行的矩阵。诸如目标接球手两码半径内的防守球员数量等特征会添加额外的列，但在此处省略以专注于建模技术。

2018-2020赛季的传球战术集合提供了大约34,000次完成传球、15,000次未完成传球和1,200次拦截，总计超过50,000次战术。特征预处理是一项内存密集型工作，需要在ml.m5.m24xlarge实例上运行两小时。然而，对如此大量的时间序列进行建模是一项高计算工作。

对于下一节描述的模型，单GPU p3.8xlarge实例需要八小时的训练时间。虽然NFL可以在赛季开始前承担两小时的预处理和八小时的模型拟合，但在电视直播比赛中，返回QB战术评分的推理需要实时进行，如下述模型的每战术0.001秒。

模型架构

为了学习战术时间序列中的时间复杂性，选择了时序卷积网络（TCN），这是一种适用于处理不同长度输入并考虑序列输入之间长程关系的卷积网络。

由于战术还具有静态属性（如档数、比分和赛季剩余比赛），这些属性影响球员的决策和表现，因此将这些属性与TCN状态连接起来，并将两者传递给多层感知器，以产生最终输出：获得码数的概率预测。然后，将其与战术的实际获得码数进行比较。

现在，网络输出值得仔细考虑。天真地，可能希望输出获得码数的点预测，并使用误差损失函数训练网络。但这未能实现衡量战术结果相对于其潜力的预期目标。

在较容易情况下多获得两码与在更困难情况下获得两码是不同的，但两者都会有两码的平均绝对误差（MAE）。相反，选择了分布预测，其中网络的输出是指定概率分布的参数。

考虑了哪种概率分布函数（PDF）最合适。对于某些战术，获得码数的PDF需要不对称：例如，在完成传球中，如果QB将球传给已经朝向前场跑的接球手，正码数比负码数更可能。而对于其他战术，获得码数的PDF需要捕捉对称性：例如，在拦截中，防守球员获得的“负”码数会与完成传球可能获得的正码数平衡。

甚至有些战术的PDF会是双峰的：如果QB将球传给只有一名防守球员逼近的接球手，那么获得码数的可能性要么在一到两码范围内（如果接球手被擒抱），要么在高码数范围内（如果接球手摆脱擒抱），但不会在中间。其他多模式战术包括当QB可能需要争抢码数时，如此视频中的第二个战术。

因此，需要一个参数化足够灵活以容纳多模态、不同对称性以及轻或重尾的分布，并且其位置和尺度可以随时钟时间、当前比分和其他因素变化。无法用高斯或伽马等分布满足这些要求，但可以用spliced binned-Pareto分布满足。

Spliced binned-Pareto分布

Spliced binned-Pareto（SBP）分布源于极值理论（EVT）中的一个经典结果，该理论指出极值（即尾部）的分布几乎独立于数据的基础分布，并且如下所示，可以从假设基础分布上限（t）以上的数据点估计。

EVT的第二定理指出，任何这样的分布尾部都可以用仅有两个参数（形状x和尺度b）且具有闭式分位数的广义帕累托分布（GPD）很好地近似。下图显示了GPD的PDF，其中x < 0产生有限尾；x = 0产生指数尾；x > 0产生比指数更重的尾。

由于需要基础分布的多模态和不对称性，使用离散分箱分布对预测分布的基础进行建模；如下所示，将两个点之间的实轴离散化为箱，并预测观察值落入每个箱的概率。

这产生了一个对训练时极端值鲁棒的分布，因为它现在是一个分类问题。对数似然不受预测均值与观察点之间距离的影响，而使用高斯、学生t或其他参数分布时则会受到影响。此外，箱的概率高度彼此独立，因此可以捕捉分布中的不对称性或多模式。

从分箱分布中，用第五分位数界定下尾并用加权GPD替换。类似地，用第95分位数界定上尾并用另一个加权GPD替换，以产生如下所示的SBP。

上左图显示基础分布确实是鲁棒的：极端红点代表的事件不会偏倚学习到的分布均值，而只会增加最右箱的概率。

然而，这仍然留下两个问题：（i）尽管观察到红点事件发生，但分箱分布会给予其零概率；相反，（ii）分布会确定地预测极端（即伟大）战术不会发生。由于深远传球达阵、突破拦截等极端码数很少见，但正是运动的肾上腺素，也是最感兴趣的概率描述对象。上右SBP图图形化地说明了GPD尾部如何量化每增加一码的可能性降低程度（即难度增加）。

分箱分布和GPD由上述神经网络参数化，该网络以战术矩阵作为输入，并输出参数：每个箱的概率，以及每个GPD的x和b，可用于预测获得码数值的概率。

基于梯度的重尾分布学习一直是ML社区的挑战。Carreau和Bengio的混合帕累托模型将GPD尾部缝合到参数分布上，但由于似然关于阈值t不可微，他们的模型辅以模拟和数值近似，放弃了时变应用。其他先前方法如SPOT、DSPOT和NN-SPOT放弃建模基础，仅捕捉均值固定距离外的尾部，这排除了高阶非平稳性和不对称尾部。

虽然先前方法使用固定阈值t界定尾部，但通过建模基础分布，获得了时变阈值。此外，训练单个神经网络以在分箱和GPD分布下最大化观察时间步的对数概率，产生了一个解释分布所有矩时间变化的预测——均值和方差以及尾部重度和尺度，包括不对称尾部。不同方法的能力如下表所示。

虽然需要分布预测来评分QB表现——为了将模型准确性与其他模型进行比较——但需要使用获得码数的点预测。下表比较了方法预测中位数的MAE与高斯输出神经网络的MAE，以及基于决策树的模型XGBoost的点预测。

已经发布了spliced binned-Pareto模型的Pytorch代码以及演示笔记本。

NGS传球评分

模型的预测PDF量化了在特定战术情况下，联盟平均QB获得每个码数的可能性。因此，在该战术SBP分布的累积分布函数（CDF）中评估实际获得码数，产生该QB相对于同行QB表现的0到1之间的排名。

在一些进一步标准化下，这个CDF排名成为战术级别的QB传球评分。

在多个战术上聚合评分产生比赛、赛季或其他分割级别的QB传球评分。例如，基于21赛季所有目标传球尝试，Kyler Murray得分为87，在季后赛QB中排名第九。

在压力下，Murray的得分跃升至89；缩小到2.5到4秒之间的传球（2020年和2021年），Murray现在得分为99，在五方并列中取得最高可能得分。其他分割也可以用NGS传球评分 contextualize，例如深远传球。

最后，下表显示NGS传球评分与获胜百分比和季后赛百分比的相关性优于先前的传球指标。

致谢：Brad Gross