9款AI模型候选人筛选基准测试——我从GPT-4o转向了Grok-4

在Topliner，我们使用AI来评估高管搜寻项目中候选人的相关性。具体来说，我们依赖GPT-4o，因为…当时它是工具箱中最锋利的工具之一。

公平地说，它大多数时候都能正常工作。大多数时候。

问题是什么？时不时地，GPT-4o会失控。它会决定将一个完全相关的候选人抛弃，或者给一个完全不相关的人发放"黄金门票"。这就像抛硬币，但用的是花哨的API。可预测性荡然无存，而在我们的工作中，这是不可接受的。

所以，我开始思考：是时候换一个模型了吗？

理想情况下，新模型应该在Microsoft Azure上可用（我们已经与他们的基础设施绑定，另外还要感谢微软提供的免费令牌——我们仍在用这些，谢谢大家）。但如果没有，任何能完成工作的其他模型都可以。

以下是我们关心的因素：

准确性——最高优先级。如果我们通过系统运行相同的候选人资料两次，模型不应该一次说"是"，另一次说"否"。可预测性和正确性就是一切。

速度——如果它思考时间太长，整个流程就会变慢。GPT-4o每次响应约1.2秒是一个相当好的基准。

成本——理想情况下比GPT-4o更便宜。如果便宜很多，那就更好了。

最近，我偶然发现了xAI的新Grok-4快速推理模型，它承诺速度快、价格实惠且推理智能。自然，我对其进行了测试。

测试设置

我围绕一个"问题候选人资料"设计了一个测试——这是GPT-4o通常会失败的情况。提示要求模型判断候选人是否曾在SpaceX担任相当于"CFO/首席财务官/财务副总裁/财务总监/高级财务副总裁"的职位（考虑到头衔、职责范围和资历的所有预期变体）。

以下是我使用的提示：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18


评估候选人的资格基于以下标准。

评估该候选人是否曾担任与"SpaceX"的"CFO或首席财务官或财务副总裁或财务总监或高级财务副总裁"匹配或相当的职位。
考虑这些头衔的变体，以及与目标职位相似的相关职位。

在进行此评估时，考虑：
- 职位头衔可能表达的不同方式。
- 具有同等或相似或接近职责范围和资历水平的职位。
- 组织背景，其中头衔可能根据公司结构反映不同的责任级别。

如果候选人的职位是目标头衔的直接或合理等价，设置targetRoleMatch = true。
如果无关或明显低于预期资历水平，设置targetRoleMatch = false。

仅当targetRoleMatch = true时返回答案：true。
在所有其他情况下返回答案：false。

候选人的经验：
[此处是候选人的背景信息]

理论上简单，但却是区分理解细微差别的模型与幻觉或猜测的模型的惊人有效方法。

我在9个不同的模型上进行了实验，包括：

所有最新的OpenAI发布：GPT-4o、GPT-4.1、GPT-5 Mini、GPT-5 Nano、GPT-5（2025年8月），以及o3-mini和o4-mini。
xAI的Grok-3 Mini和Grok-4快速推理。

所有模型的最终比较

📊 性能排名（按平均响应时间）：

Azure OpenAI GPT-4o：1.26秒（平均），0.75-1.98秒（范围），1/10正确（10%），每1000次请求12.69美元
Azure OpenAI o4-mini：2.68秒（平均），1.84-3.53秒（范围），10/10正确（100%），每1000次请求5.47美元
xAI Grok-4快速推理：2.83秒（平均），2.39-4.59秒（范围），10/10正确（100%），每1000次请求0.99美元
OpenAI GPT-4.1：3.58秒（平均），2.66-5.05秒（范围），0/10正确（0%），每1000次请求10.80美元
Azure OpenAI o3-mini：4.23秒（平均），2.56-5.94秒（范围），10/10正确（100%），每1000次请求5.53美元
xAI Grok-3 Mini：5.65秒（平均），4.61-6.99秒（范围），10/10正确（100%），每1000次请求1.47美元
OpenAI GPT-5 Nano：8.04秒（平均），6.46-10.44秒（范围），10/10正确（100%），每1000次请求0.29美元
OpenAI GPT-5 Mini：9.7秒（平均），5.46-20.84秒（范围），10/10正确（100%），每1000次请求1.37美元
OpenAI GPT-5 2025-08-07：13.98秒（平均），9.31-21.25秒（范围），10/10正确（100%），每1000次请求6.62美元

🎯 准确性排名（按正确百分比）：

Azure OpenAI o4-mini：10/10正确（100%），2.68秒平均响应，每1000次请求5.47美元
xAI Grok-4快速推理：10/10正确（100%），2.83秒平均响应，每1000次请求0.99美元
Azure OpenAI o3-mini：10/10正确（100%），4.23秒平均响应，每1000次请求5.53美元
xAI Grok-3 Mini：10/10正确（100%），5.65秒平均响应，每1000次请求1.47美元
OpenAI GPT-5 Nano：10/10正确（100%），8.04秒平均响应，每1000次请求0.29美元
OpenAI GPT-5 Mini：10/10正确（100%），9.7秒平均响应，每1000次请求1.37美元
OpenAI GPT-5 2025-08-07：10/10正确（100%），13.98秒平均响应，每1000次请求6.62美元
Azure OpenAI GPT-4o：1/10正确（10%），1.26秒平均响应，每1000次请求12.69美元
OpenAI GPT-4.1：0/10正确（0%），3.58秒平均响应，每1000次请求10.80美元

💰 成本效率排名（按每1000次请求的平均成本）：

OpenAI GPT-5 Nano：每1000次请求0.29美元，10/10正确（100%），8.04秒平均响应
xAI Grok-4快速推理：每1000次请求0.99美元，10/10正确（100%），2.83秒平均响应
OpenAI GPT-5 Mini：每1000次请求1.37美元，10/10正确（100%），9.7秒平均响应
xAI Grok-3 Mini：每1000次请求1.47美元，10/10正确（100%），5.65秒平均响应
Azure OpenAI o4-mini：每1000次请求5.47美元，10/10正确（100%），2.68秒平均响应
Azure OpenAI o3-mini：每1000次请求5.53美元，10/10正确（100%），4.23秒平均响应
OpenAI GPT-5 2025-08-07：每1000次请求6.62美元，10/10正确（100%），13.98秒平均响应
OpenAI GPT-4.1：每1000次请求10.80美元，0/10正确（0%），3.58秒平均响应
Azure OpenAI GPT-4o：每1000次请求12.69美元，1/10正确（10%），1.26秒平均响应

🏆 总体排行榜（速度+成本+准确性）：

🥇 xAI Grok-4快速推理：93.1/100总体 ├── 速度：88/100（2.83秒平均） ├── 成本：94/100（每1000次请求0.99美元） └── 准确性：100/100（10/10正确）

🥈 xAI Grok-3 Mini：82.5/100总体 ├── 速度：65/100（5.65秒平均） ├── 成本：90/100（每1000次请求1.47美元） └── 准确性：100/100（10/10正确）

🥉 Azure OpenAI o4-mini：80.9/100总体 ├── 速度：89/100（2.68秒平均） ├── 成本：58/100（每1000次请求5.47美元） └── 准确性：100/100（10/10正确）

OpenAI GPT-5 Nano：78.8/100总体 ├── 速度：47/100（8.04秒平均） ├── 成本：100/100（每1000次请求0.29美元） └── 准确性：100/100（10/10正确）
Azure OpenAI o3-mini：76.1/100总体 ├── 速度：77/100（4.23秒平均） ├── 成本：58/100（每1000次请求5.53美元） └── 准确性：100/100（10/10正确）
OpenAI GPT-5 Mini：70.5/100总体 ├── 速度：34/100（9.7秒平均） ├── 成本：91/100（每1000次请求1.37美元） └── 准确性：100/100（10/10正确）
Azure OpenAI GPT-4o：42.5/100总体 ├── 速度：100/100（1.26秒平均） ├── 成本：0/100（每1000次请求12.69美元） └── 准确性：10/100（1/10正确）
OpenAI GPT-5 2025-08-07：42.2/100总体 ├── 速度：0/100（13.98秒平均） ├── 成本：49/100（每1000次请求6.62美元） └── 准确性：100/100（10/10正确）
OpenAI GPT-4.1：38.1/100总体 ├── 速度：82/100（3.58秒平均） ├── 成本：15/100（每1000次请求10.80美元） └── 准确性：0/100（0/10正确）

⚡ 总体统计：

🏃‍♂️ 最快个体响应：0.75秒（Azure OpenAI GPT-4o）
🐌 最慢个体响应：21.25秒（OpenAI GPT-5 2025-08-07）
🎯 最准确模型：OpenAI GPT-5 Nano（100%）
❌ 最不准确模型：OpenAI GPT-4.1（0%）
💰 最昂贵模型：Azure OpenAI GPT-4o（每1000次请求12.69美元）
💎 最具成本效益模型：OpenAI GPT-5 Nano（每1000次请求0.29美元）
💵 所有测试总成本：0.452美元

获胜者是…

xAI Grok-4快速推理（表演之星）

准确性：10/10（100%）
速度：2.83秒平均（2.39秒最快，4.59秒最慢）
成本：每1000次请求0.99美元

便宜、准确且速度合理。不是绝对最快的（这个桂冠属于GPT-4o），但考虑到GPT-4o在10次中只答对1次，我宁愿稍微慢一点但更可靠。

关键要点

GPT-4o速度快，但在此任务中不可靠。擅长冲刺，但不擅长保持在自己的车道上。
Grok-4快速推理击中了最佳点：便宜、足够快且极其准确。
Azure的o4-mini也很强大（100%准确率，不错的速度），但比Grok-4贵5倍以上。
GPT-5 Nano便宜得离谱，但每次答案要等8秒以上，这会破坏我们的工作流程。

我们何去何从

一年前，GPT-4o是最先进和可靠的选择之一。我们围绕它构建了产品的很大一部分。但在AI领域，时间过得很快。去年夏天还处于前沿的技术，今天看起来已经摇摇欲坠。

这次对Grok-4的小实验令人大开眼界。它不仅为我们提供了候选人评估的更好选择，还让我想重新审视我们盲目信任GPT-4o的应用程序的其他部分。

故事的寓意：不要过于依赖你的模型。格局在变化，如果你不持续测试，某天你可能会醒来发现你的AI正在自信地给你错误的答案…而且速度极快。

所以，是的，GPT-4o，感谢你的服务。但看起来Grok-4快速推理正在取代你的位置。

9款AI模型候选人筛选基准测试：从GPT-4o转向Grok-4的技术实践

本文详细比较了9款AI模型在候选人筛选任务中的表现，包括GPT-4o、Grok-4等模型的响应时间、准确率和成本效率。通过具体测试案例和数据分析，揭示了Grok-4在综合性能上的优势，为AI技术选型提供实践参考。