大语言模型角色扮演基准测试新突破

本文介绍了RMTBench这一用户中心化的多轮角色扮演基准测试框架,包含80个多样化角色和超过8000轮对话,通过基于用户动机的对话构建和LLM评分机制,有效评估大语言模型在实际应用中的角色扮演能力。

RMTBench:通过多轮用户中心化角色扮演评估大语言模型

大型语言模型(LLMs)在角色扮演应用方面展现出卓越潜力,评估这些能力变得至关重要但仍具挑战性。现有基准测试主要采用角色中心化方法,将用户-角色交互简化为孤立的问答任务,无法反映实际应用场景。

为解决这一局限,我们推出RMTBench——一个全面的用户中心化双语角色扮演基准测试框架,包含80个多样化角色和超过8,000轮对话。该框架既包含具有详细背景设定的定制角色,也包含通过简单特征定义的抽象角色,支持跨多种用户场景的评估。

与传统方法不同,我们的基准测试基于明确的用户动机而非角色描述来构建对话,确保与实际用户应用场景保持一致。此外,我们构建了真实的多轮对话模拟机制,通过精心设计的评估维度和基于LLM的评分系统,精准捕捉用户与角色之间对话的复杂意图。

通过将评估重点从角色背景转向用户意图实现,RMTBench有效弥合了学术评估与实际部署需求之间的差距,为评估LLMs的角色扮演能力提供了更有效的框架。所有代码和数据集即将公开发布。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计