9款AI模型候选人筛选基准测试——我从GPT-4o转向了Grok-4
在Topliner,我们使用AI来评估高管搜寻项目中候选人的相关性。具体来说,我们依赖GPT-4o,因为…当时它是工具箱中最锋利的工具之一。
公平地说,它大多数时候都能正常工作。大多数时候。
问题是什么?时不时地,GPT-4o会失控。它会决定将一个完全相关的候选人抛弃,或者给一个完全不相关的人发放"黄金门票"。这就像抛硬币,但用的是花哨的API。可预测性荡然无存,而在我们的工作中,这是不可接受的。
所以,我开始思考:是时候换一个模型了吗?
理想情况下,新模型应该在Microsoft Azure上可用(我们已经与他们的基础设施绑定,另外还要感谢微软提供的免费令牌——我们仍在用这些,谢谢大家)。但如果没有,任何能完成工作的其他模型都可以。
以下是我们关心的因素:
准确性——最高优先级。如果我们通过系统运行相同的候选人资料两次,模型不应该一次说"是",另一次说"否"。可预测性和正确性就是一切。
速度——如果它思考时间太长,整个流程就会变慢。GPT-4o每次响应约1.2秒是一个相当好的基准。
成本——理想情况下比GPT-4o更便宜。如果便宜很多,那就更好了。
最近,我偶然发现了xAI的新Grok-4快速推理模型,它承诺速度快、价格实惠且推理智能。自然,我对其进行了测试。
测试设置
我围绕一个"问题候选人资料"设计了一个测试——这是GPT-4o通常会失败的情况。提示要求模型判断候选人是否曾在SpaceX担任相当于"CFO/首席财务官/财务副总裁/财务总监/高级财务副总裁"的职位(考虑到头衔、职责范围和资历的所有预期变体)。
以下是我使用的提示:
|
|
理论上简单,但却是区分理解细微差别的模型与幻觉或猜测的模型的惊人有效方法。
我在9个不同的模型上进行了实验,包括:
- 所有最新的OpenAI发布:GPT-4o、GPT-4.1、GPT-5 Mini、GPT-5 Nano、GPT-5(2025年8月),以及o3-mini和o4-mini。
- xAI的Grok-3 Mini和Grok-4快速推理。
所有模型的最终比较
📊 性能排名(按平均响应时间):
- Azure OpenAI GPT-4o:1.26秒(平均),0.75-1.98秒(范围),1/10正确(10%),每1000次请求12.69美元
- Azure OpenAI o4-mini:2.68秒(平均),1.84-3.53秒(范围),10/10正确(100%),每1000次请求5.47美元
- xAI Grok-4快速推理:2.83秒(平均),2.39-4.59秒(范围),10/10正确(100%),每1000次请求0.99美元
- OpenAI GPT-4.1:3.58秒(平均),2.66-5.05秒(范围),0/10正确(0%),每1000次请求10.80美元
- Azure OpenAI o3-mini:4.23秒(平均),2.56-5.94秒(范围),10/10正确(100%),每1000次请求5.53美元
- xAI Grok-3 Mini:5.65秒(平均),4.61-6.99秒(范围),10/10正确(100%),每1000次请求1.47美元
- OpenAI GPT-5 Nano:8.04秒(平均),6.46-10.44秒(范围),10/10正确(100%),每1000次请求0.29美元
- OpenAI GPT-5 Mini:9.7秒(平均),5.46-20.84秒(范围),10/10正确(100%),每1000次请求1.37美元
- OpenAI GPT-5 2025-08-07:13.98秒(平均),9.31-21.25秒(范围),10/10正确(100%),每1000次请求6.62美元
🎯 准确性排名(按正确百分比):
- Azure OpenAI o4-mini:10/10正确(100%),2.68秒平均响应,每1000次请求5.47美元
- xAI Grok-4快速推理:10/10正确(100%),2.83秒平均响应,每1000次请求0.99美元
- Azure OpenAI o3-mini:10/10正确(100%),4.23秒平均响应,每1000次请求5.53美元
- xAI Grok-3 Mini:10/10正确(100%),5.65秒平均响应,每1000次请求1.47美元
- OpenAI GPT-5 Nano:10/10正确(100%),8.04秒平均响应,每1000次请求0.29美元
- OpenAI GPT-5 Mini:10/10正确(100%),9.7秒平均响应,每1000次请求1.37美元
- OpenAI GPT-5 2025-08-07:10/10正确(100%),13.98秒平均响应,每1000次请求6.62美元
- Azure OpenAI GPT-4o:1/10正确(10%),1.26秒平均响应,每1000次请求12.69美元
- OpenAI GPT-4.1:0/10正确(0%),3.58秒平均响应,每1000次请求10.80美元
💰 成本效率排名(按每1000次请求的平均成本):
- OpenAI GPT-5 Nano:每1000次请求0.29美元,10/10正确(100%),8.04秒平均响应
- xAI Grok-4快速推理:每1000次请求0.99美元,10/10正确(100%),2.83秒平均响应
- OpenAI GPT-5 Mini:每1000次请求1.37美元,10/10正确(100%),9.7秒平均响应
- xAI Grok-3 Mini:每1000次请求1.47美元,10/10正确(100%),5.65秒平均响应
- Azure OpenAI o4-mini:每1000次请求5.47美元,10/10正确(100%),2.68秒平均响应
- Azure OpenAI o3-mini:每1000次请求5.53美元,10/10正确(100%),4.23秒平均响应
- OpenAI GPT-5 2025-08-07:每1000次请求6.62美元,10/10正确(100%),13.98秒平均响应
- OpenAI GPT-4.1:每1000次请求10.80美元,0/10正确(0%),3.58秒平均响应
- Azure OpenAI GPT-4o:每1000次请求12.69美元,1/10正确(10%),1.26秒平均响应
🏆 总体排行榜(速度+成本+准确性):
🥇 xAI Grok-4快速推理:93.1/100总体 ├── 速度:88/100(2.83秒平均) ├── 成本:94/100(每1000次请求0.99美元) └── 准确性:100/100(10/10正确)
🥈 xAI Grok-3 Mini:82.5/100总体 ├── 速度:65/100(5.65秒平均) ├── 成本:90/100(每1000次请求1.47美元) └── 准确性:100/100(10/10正确)
🥉 Azure OpenAI o4-mini:80.9/100总体 ├── 速度:89/100(2.68秒平均) ├── 成本:58/100(每1000次请求5.47美元) └── 准确性:100/100(10/10正确)
-
OpenAI GPT-5 Nano:78.8/100总体 ├── 速度:47/100(8.04秒平均) ├── 成本:100/100(每1000次请求0.29美元) └── 准确性:100/100(10/10正确)
-
Azure OpenAI o3-mini:76.1/100总体 ├── 速度:77/100(4.23秒平均) ├── 成本:58/100(每1000次请求5.53美元) └── 准确性:100/100(10/10正确)
-
OpenAI GPT-5 Mini:70.5/100总体 ├── 速度:34/100(9.7秒平均) ├── 成本:91/100(每1000次请求1.37美元) └── 准确性:100/100(10/10正确)
-
Azure OpenAI GPT-4o:42.5/100总体 ├── 速度:100/100(1.26秒平均) ├── 成本:0/100(每1000次请求12.69美元) └── 准确性:10/100(1/10正确)
-
OpenAI GPT-5 2025-08-07:42.2/100总体 ├── 速度:0/100(13.98秒平均) ├── 成本:49/100(每1000次请求6.62美元) └── 准确性:100/100(10/10正确)
-
OpenAI GPT-4.1:38.1/100总体 ├── 速度:82/100(3.58秒平均) ├── 成本:15/100(每1000次请求10.80美元) └── 准确性:0/100(0/10正确)
⚡ 总体统计:
- 🏃♂️ 最快个体响应:0.75秒(Azure OpenAI GPT-4o)
- 🐌 最慢个体响应:21.25秒(OpenAI GPT-5 2025-08-07)
- 🎯 最准确模型:OpenAI GPT-5 Nano(100%)
- ❌ 最不准确模型:OpenAI GPT-4.1(0%)
- 💰 最昂贵模型:Azure OpenAI GPT-4o(每1000次请求12.69美元)
- 💎 最具成本效益模型:OpenAI GPT-5 Nano(每1000次请求0.29美元)
- 💵 所有测试总成本:0.452美元
获胜者是…
xAI Grok-4快速推理(表演之星)
- 准确性:10/10(100%)
- 速度:2.83秒平均(2.39秒最快,4.59秒最慢)
- 成本:每1000次请求0.99美元
便宜、准确且速度合理。不是绝对最快的(这个桂冠属于GPT-4o),但考虑到GPT-4o在10次中只答对1次,我宁愿稍微慢一点但更可靠。
关键要点
- GPT-4o速度快,但在此任务中不可靠。擅长冲刺,但不擅长保持在自己的车道上。
- Grok-4快速推理击中了最佳点:便宜、足够快且极其准确。
- Azure的o4-mini也很强大(100%准确率,不错的速度),但比Grok-4贵5倍以上。
- GPT-5 Nano便宜得离谱,但每次答案要等8秒以上,这会破坏我们的工作流程。
我们何去何从
一年前,GPT-4o是最先进和可靠的选择之一。我们围绕它构建了产品的很大一部分。但在AI领域,时间过得很快。去年夏天还处于前沿的技术,今天看起来已经摇摇欲坠。
这次对Grok-4的小实验令人大开眼界。它不仅为我们提供了候选人评估的更好选择,还让我想重新审视我们盲目信任GPT-4o的应用程序的其他部分。
故事的寓意:不要过于依赖你的模型。格局在变化,如果你不持续测试,某天你可能会醒来发现你的AI正在自信地给你错误的答案…而且速度极快。
所以,是的,GPT-4o,感谢你的服务。但看起来Grok-4快速推理正在取代你的位置。