选举2029:不可能异常的解决之道

本文详细记录了作者在选举系统开发过程中遇到的一个棘手异常排查过程。通过分析异常信息误解、数据重载机制和哈希映射拼接错误,最终定位并修复了预测集排序问题。文章包含具体的代码示例和调试思路,对软件开发中的错误诊断具有参考价值。

选举2029:不可能异常——已解决

在写完上一篇文章后不久,一位同事联系我,说她找到了问题所在——至少在最直接的层面上,即异常本身。排序代码没有问题,只是异常信息太容易被误读。她说得完全正确,我后悔莫及。

再次看一下异常信息:

1
Incorrect ordering for PredictionSets: mic-01 should occur before focaldata-01

以及创建该异常的代码:

1
2
3
4
5
6
7
string currentText = selector(current);
string nextText = selector(next);
if (StringComparer.Ordinal.Compare(currentText, nextText) >= 0)
{
    throw new InvalidOperationException(
        $"Incorrect ordering for {message}: {currentText} should occur before {nextText}");
}

在我之前的文章中,我曾声称:

异常信息暗示在异常发生时,currentText的值是"focaldata-01",而nextText的值是"mic-01"。

不,并非如此!它暗示的恰恰相反,currentText的值是"mic-01",而nextText的值是"focaldata-01"……换句话说,数据确实有问题。

唉。即使不断想着"当我的代码出问题时,几乎总是我的错",我仍然没能真正退后一步,仔细复核我的逻辑。

但这很奇怪,对吧?因为之前无效的数据(20:15:57)后来神奇地"变成"了有效(20:26:22),对吧?这就是我上一篇文章中声称的。我应该更仔细地查看日志……一个新的实例在20:22:58启动了。那个新实例正确加载了数据,因此重新加载已经有效的数据没有问题。

真正的问题是什么?

我在实际修复代码之前就开始写这篇文章,但我现在确定问题在于"部分"重载——向数据库添加一个新的预测集,然后从缓存中已有现有数据的存储系统重新加载数据。这应该相对容易测试——

首先,值得修复那条消息。与其讨论"应该出现"什么,不如说明实际情况,并指出集合中出错位置的索引:

1
2
3
4
5
6
7
8
9
foreach (var (index, (current, next)) in source.Zip(source.Skip(1)).Index())
{
    string currentText = selector(current);
    string nextText = selector(next);
    if (StringComparer.Ordinal.Compare(currentText, nextText) >= 0)
    {
        throw new InvalidOperationException($"Incorrect ordering: {message}[{index}]={currentText}; {message}[{index + 1}]={nextText}");
    }
}

接下来,让我们在上传新数据时添加另一层检查:除了从干净启动重新加载两次外,让我们添加一个"前后"重载。这方面的代码并不有趣(尽管由于依赖注入的原因很繁琐)。然后测试添加一个ID为"aaaa"的"绝对第一个"预测集……

太好了,我重现了问题!

1
Incorrect ordering: PredictionSets[4]=name-length; PredictionSets[5]=aaaa

之后,花了不太长时间(通过添加更多日志)就找到了问题。一旦找到,修复就非常容易。无需过多不必要的细节,我在合并新旧映射时破坏了我的"哈希到完整数据"的内部映射。

1
2
3
var predictionSetsByHash = newHashes.Concat(currentHashes)
    .Zip(currentPredictionSets.Concat(newPredictionSets))
    .ToOrdinalDictionary(pair => pair.First, pair => pair.Second);

本应该是:

1
2
3
var predictionSetsByHash = newHashes.Concat(currentHashes)
    .Zip(newPredictionSets.Concat(currentPredictionSets))
    .ToOrdinalDictionary(pair => pair.First, pair => pair.Second);

这只有在加载具有新预测集的上下文,而我们之前已有预测集时才会成为问题。

这就是我的选举站点缺乏许多自动化测试(这些可能必须是集成测试而非单元测试)的不足之处……尽管公平地说,这是少数几次出现这种情况。

可能是时候开始编写更多测试了——尤其是在这种情况下,这是一个在凌晨重写的整个上下文存储系统。

结论

那么,学到了一些教训:

  • 是的,当我的代码出问题时,几乎总是我的错。即使我盯着它看,认为我发现了什么真正奇怪的东西。
  • 我应该编写更多测试。
  • 使异常信息尽可能明确非常重要。
  • 我应该总是听阿曼达的。
comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计