摘要
大型语言模型(LLM)在招聘中的应用有望简化候选人筛选流程,但在缺乏足够保障措施的情况下,其准确性和算法偏见问题引发严重关切。本研究对多个先进的基础LLM(包括来自某中心、某机构、某科技公司等机构的模型)与专有领域招聘模型(Match Score)进行基准测试,评估各模型在预测准确性(ROC AUC、精确召回AUC、F1分数)和公平性(跨声明性别、种族及交叉子组的截断分析影响比)方面的表现。
实验方法
基于约10,000个真实世界近期候选人-职位配对数据集的实验表明:
- Match Score在准确性上优于通用LLM(ROC AUC 0.85 vs 0.77)
- 在人口统计组间实现更公平的结果
- 最佳种族影响比达到0.957(接近完全平等),而最佳LLM仅为0.809或更低
- 交叉组影响比为0.906 vs 0.773
关键发现
- 预训练偏见问题:缺乏足够保障的LLM可能在招聘场景中传播社会偏见
- 定制化优势:专门设计的监督模型能更有效缓解这些偏见
- 准确性-公平性协同:实证表明招聘场景中无需在准确性与公平性间二选一,良好设计的算法可同时实现招聘准确性和结果公平性
实践意义
研究结果强调:
- 在高风险领域(如招聘)部署AI时需要领域特定建模和偏见审计
- 对未经充分公平性保障的现成LLM应保持谨慎态度
- 专用算法设计可同时优化准确性和公平性指标