NFL新一代统计数据中传球指标的技术解析

当足球迷评估球员表现时，他们会根据球员执行特定战术的情况与其潜在能力进行比较。然而，将这种判断编码到机器学习模型中并非易事。球迷和评论员曾批评现有的四分卫传球统计数据存在校准数据过时、与获胜无关或评分异常等问题。

2022年1月13日，就在第56届超级碗之前，某机构宣布了其新的QB传球评分，旨在改进前代评分的局限性，并以完全数据驱动的方式将QB的贡献与球队贡献分离开来。

战术层面分析

现有评分的根本问题在于它们在不同战术、比赛、周次和赛季间的不一致性。我们寻求一种能够考虑战术特定动态并在不同粒度上保持一致的指标。

我们希望根据比赛时间和承受的压力来衡量QB的决策和传球执行情况。对于这些条件，我们有直接可测量的量，例如防守方的移动。但我们如何衡量QB表现得“多好”？这是我们在下一节（“模型架构”）中要解决的问题，但现在我们将获得的码数作为可测量的结果。

由于我们采用数据驱动的方法，让我们看看具体的数据是什么。在每个战术中，我们每100毫秒从球员护肩中的射频ID芯片接收更新，为我们提供所有22名球员在场地（x，y）坐标中的位置，以及他们的速度、加速度、跑动方向和身体方向。

这个时间序列的长度是可变的，从发球开始，到QB释放球结束。例如，QB在发球后四秒传球产生40个时间步长的时间序列，而仅需两秒多的传球产生25个时间步长的时间序列。

下图显示了时间序列的表示方式。每行对应单个时间步长，包含22名球员中每名的八个特征（x位置、y位置、x速度、y速度、x加速度、y加速度、方向和方向），形成176列40行的矩阵。目标接球手两码半径内的防守球员数量等特征需要额外的列，但为了专注于建模技术，我们在此避开它们。

2018-2020赛季的传球战术集合为我们提供了大约34,000次完成传球、15,000次未完成传球和1,200次拦截，总计超过50,000次战术。特征预处理是内存密集型工作，需要在ml.m5.m24xlarge实例上运行两小时。然而，对如此大量的时间序列进行建模是一项高计算量工作。

对于下一节描述的模型，单GPU p3.8xlarge实例需要八小时的训练时间。虽然某机构可以在赛季开始前承受两小时的预处理和八小时的模型拟合，但在电视直播比赛中，返回QB战术评分的推理需要实时进行，如下面模型的每个战术0.001秒。

模型架构

为了学习战术时间序列中的时间复杂性，我们选择了时间卷积网络（TCN），这是一种经过调整的卷积网络，可以处理不同长度的输入并考虑顺序输入之间的长程关系。

由于战术还具有静态属性（如下一个进攻机会、比分和赛季剩余比赛），这些属性会影响球员的决策和表现，我们将这些与TCN状态连接起来，并将两者传递给多层感知器，以产生最终输出：获得码数的概率预测。我们将其与战术实际获得的码数进行比较。

现在，网络输出值得仔细考虑。天真地，人们可能希望输出获得码数的点预测，并使用误差损失函数训练网络。但这未能实现衡量战术结果相对于其潜力的预期目标。

在较容易情况下多获得两码与在更困难情况下获得两码不同，但两者的平均绝对误差（MAE）都是两码。相反，我们选择了分布预测，其中网络的输出是指定概率分布的参数。

我们考虑了哪种概率分布函数（PDF）最合适。对于某些战术，获得码数的PDF需要不对称：例如，在完成传球中，如果QB将球传给已经朝向前场跑的接球手，获得正码数的可能性比负码数更大。而对于其他战术，获得码数的PDF需要捕捉对称性：例如，在拦截中，防守者获得的“负”码数将与完成传球可能获得的正码数平衡。

甚至有些战术的PDF是双峰的：如果QB将球传给只有一名防守者逼近的接球手，那么获得码数的可能性要么在一到两码范围内（如果接球手被擒抱），要么在高码数范围内（如果接球手躲避擒抱），但不会在中间。其他多峰战术包括当QB可能需要争抢码数时。

因此，我们需要一个参数化足够灵活的分布，以适应多峰性、不同对称性以及轻尾或重尾，并且其位置和尺度可以随比赛时间、当前比分和其他因素而变化。我们无法使用高斯或伽马等分布满足这些要求，但我们可以使用拼接分段帕累托分布满足它们。

拼接分段帕累托分布

拼接分段帕累托（SBP）分布源于极值理论（EVT）中的经典结果，该理论指出极值（即尾部）的分布几乎独立于数据的基础分布，并且可以从假设的基础分布上限（t）以上的数据点估计。

EVT的第二定理指出，任何这样的分布尾部都可以通过仅有两个参数（形状x和尺度b）且具有封闭形式分位数的广义帕累托分布（GPD）很好地近似。下图显示了x < 0（产生有限尾部）、x = 0（产生指数尾部）和x > 0（产生比指数更重的尾部）时GPD的PDF。

由于我们需要基础预测分布的多峰性和不对称性，我们使用离散分段分布对基础进行建模；如下所示，我们将两个点之间的实轴离散化为多个区间，并预测观察值落入每个这些区间的概率。

这产生了一个对训练时极端值稳健的分布，因为它现在是一个分类问题。与使用高斯、学生t或其他参数分布时预测均值与观察点之间的距离会影响对数似然不同，现在不会受到影响。此外，区间概率高度彼此独立，因此它们可以捕捉分布中的不对称性或多种模式。

从分段分布中，我们通过第五分位数界定下尾部，并用加权的GPD替换它。类似地，我们通过第95分位数界定上尾部，并用另一个加权的GPD替换它，以产生如下所示的SBP。

上左图显示基础分布确实是稳健的：极端红点代表的事件不会偏斜学习到的分布均值，而只会增加最右区间相关的概率。

然而，这仍然留下两个问题：（i）尽管观察到红点事件发生，但分段分布会给予其零概率；相反，（ii）该分布会确定性地预测极端（即伟大）战术不会发生。由于来自深远传球达阵、突破拦截等的极端码数很罕见，这是运动的肾上腺素，正是我们最感兴趣概率描述的内容。上右SBP图图形化地说明了GPD尾部如何量化每个增量码数变得更不可能（即更难）的程度。

分段分布和GPD由我们上面描述的神经网络参数化，该网络以战术矩阵作为输入，并输出参数：每个区间概率，以及每个GPD的x和b，这些可用于预测获得码数值的概率。

基于梯度的重尾分布学习一直是ML社区的挑战。Carreau和Bengio的混合帕累托模型将GPD尾部缝合到参数分布上，但由于似然相对于阈值t不可微，他们的模型补充了模拟和数值近似，放弃了时变应用。其他先前的方法（如SPOT、DSPOT和NN-SPOT）放弃建模基础，仅捕获均值固定距离之外的尾部，这排除了高阶非平稳性和不对称尾部。

虽然先前的方法使用固定阈值t来界定尾部，但通过建模基础分布，我们获得了时变阈值。此外，训练单个神经网络以在分段和GPD分布下最大化观察时间步长的对数概率，产生考虑分布所有矩时间变化的预测——均值和方差以及尾部重度和尺度，包括不对称尾部。不同方法的能力如下表所示。

虽然我们需要分布预测来评分QB的表现——将我们模型的准确性与其他模型进行比较——但我们需要使用获得码数的点预测。下表比较了我们方法预测中位数的MAE与高斯输出神经网络的MAE，以及基于决策树的模型XGBoost的点预测。

我们已经发布了拼接分段帕累托模型的Pytorch代码以及演示笔记本。

NGS传球评分

我们模型的预测PDF量化了在特定战术情况下，联盟平均QB获得每个码数增益的可能性。因此，在该战术SBP分布的累积分布函数（CDF）中评估实际获得的码数，产生该QB相对于同行QB表现的0到1之间的排名。

在进一步标准化下，这个CDF排名成为战术级别的QB传球评分。

在多个战术上聚合评分产生比赛、赛季或其他分割级别的QB传球评分。例如，基于'21赛季所有目标传球尝试，Kyler Murray得分为87，在季后赛QB中排名第九。

在压力下，Murray的得分跃升至89；聚焦到2.5到4秒之间的传球（2020年和2021年），Murray现在得分为99，在五路并列中获得最高可能分数。其他分割也可以使用NGS传球评分进行情境化，例如深远传球。

最后，下表显示NGS传球评分与获胜百分比和季后赛百分比的相关性优于先前的传球指标。

致谢：Brad Gross