大语言模型角色扮演基准测试新突破

Wed, 17 Sep 2025 01:55:55 +0800

RMTBench：通过多轮用户中心化角色扮演评估大语言模型

大型语言模型（LLMs）在角色扮演应用方面展现出卓越潜力，评估这些能力变得至关重要但仍具挑战性。现有基准测试主要采用角色中心化方法，将用户-角色交互简化为孤立的问答任务，无法反映实际应用场景。