AI聊天机器人为何难以理解波斯社交礼仪

最新研究发现主流AI语言模型在处理波斯文化中的"taarof"礼仪时表现不佳,正确率仅为34%-42%,远低于母语者的82%。研究揭示了AI在跨文化理解上的局限性,并探索了通过针对性训练提升模型文化适应性的方法。

当“不”意味着“是”:AI聊天机器人为何无法处理波斯社交礼仪

如果伊朗出租车司机挥手拒绝您的付款说“这次请做我的客人”,接受他们的提议将是一场文化灾难。他们期望您坚持付款——可能需要三次——他们才会收下您的钱。这种拒绝与反拒绝的舞蹈,称为“taarof”,支配着波斯文化中无数日常互动。而AI模型在这方面表现糟糕。

本月早些时候发布的新研究《我们礼貌地坚持:您的LLM必须学习波斯taarof艺术》显示,来自某中心、某机构等的主流AI语言模型未能吸收这些波斯社交礼仪,在taarof情境中正确导航的比例仅为34%至42%。相比之下,母语为波斯语的人正确率达到82%。这种性能差距在GPT-4o、Claude 3.5 Haiku、Llama 3、DeepSeek V3和Dorna等大型语言模型中持续存在。

由布鲁克大学的Nikta Gohari Sadr领导,与埃默里大学等其他机构研究人员合作的研究引入了“TAAROFBENCH”,这是首个衡量AI系统复制这种复杂文化实践能力的基准。研究人员的发现显示,最近的AI模型默认采用西方式的直接性,完全错过了支配全球数百万波斯语使用者日常互动的文化线索。

“在高风险环境中的文化失误可能破坏谈判、损害关系并强化刻板印象,”研究人员写道。对于日益在全球环境中使用的AI系统,这种文化盲点可能代表了西方很少有人意识到的局限性。

礼貌是情境依赖的

为了测试“礼貌”是否足以满足文化能力,研究人员使用Polite Guard比较了Llama 3的响应,这是某机构开发的对文本礼貌程度进行分类的分类器。结果揭示了一个悖论:84.5%的响应被登记为“礼貌”或“有些礼貌”,然而这些相同响应中只有41.7%实际上在taarof情境中符合波斯文化期望。

这42.8个百分点的差距显示了LLM响应如何可能在一个情境中礼貌,在另一个情境中却文化迟钝。常见的失败包括未经初始拒绝就接受提议、直接回应赞美而非转移它们,以及毫不犹豫地提出直接请求。

考虑如果有人赞美伊朗人的新车可能发生什么。文化上适当的回应可能涉及贬低购买(“这没什么特别的”)或转移功劳(“我只是幸运找到了它”)。AI模型倾向于生成如“谢谢!我努力工作才能负担得起”的响应,这在西方标准下完全礼貌,但在波斯文化中可能被视为自夸。

翻译中的发现

在某种程度上,人类语言充当了压缩和解压缩方案——听者必须以说话者编码消息时意图的相同方式解压缩词语的含义,才能被正确理解。这个过程依赖于共享情境、文化知识和推理,因为说话者经常省略他们期望听者能够重建的信息,而听者必须积极填补未陈述的假设、解决歧义,并推断超出字面词语的意图。

虽然压缩通过留下隐含信息未说来使沟通更快,但当说话者和听者之间不存在这种共享情境时,它也打开了严重误解的大门。

类似地,taarof代表了重度文化压缩的情况,其中字面消息和意图含义分歧足够大,以至于主要基于显式西方沟通模式训练的LLMs通常无法处理波斯文化情境,即“是”可能意味着“不”,提议可能是拒绝,而坚持可能是礼貌而非强制。

由于LLMs是模式匹配机器,当研究人员用波斯语而非英语提示它们时,分数提高是有道理的。DeepSeek V3在taarof情境上的准确率从36.6%跃升至68.6%。GPT-4o显示出类似的增益,提高了33.1个百分点。语言切换显然激活了不同的波斯语训练数据模式,更好地匹配了这些文化编码方案,尽管像Llama 3和Dorna这样较小的模型分别显示出更适度的12.8和11点改进。

该研究包括33名人类参与者,平均分为母语波斯语使用者、传统使用者(在家庭中接触波斯语但主要在英语环境中受教育的波斯裔人士)和非伊朗人。母语使用者在taarof情境中达到81.8%的准确率,建立了性能上限。传统使用者达到60%的准确率,而非伊朗人得分42.3%,几乎匹配基础模型性能。据报道,非伊朗参与者显示出与AI模型类似的模式:避免从他们自己的文化视角被视为粗鲁的响应,并将“我不会接受不作为答案”这样的短语解释为攻击性而非礼貌坚持。

研究还在测量AI模型提供符合taarof期望的文化适当响应的频率时发现了性别特定模式。所有测试模型在回应女性时获得比男性更高的分数,GPT-4o对女性用户显示43.6%的准确率,而对男性用户为30.9%。语言模型经常使用训练数据中通常发现的性别刻板印象模式来支持它们的响应,陈述“男性应该付款”或“女性不应被单独留下”,即使taarof规范同样适用 regardless of gender。“尽管我们提示中从未为模型角色分配性别,但模型经常假设男性身份并在响应中采用刻板男性行为,”研究人员指出。

教授文化细微差别

研究人员发现的非伊朗人类和AI模型之间的相似性表明,这些不仅仅是技术失败,而是解码跨文化情境中含义的基本缺陷。研究人员没有停留在记录问题上——他们测试了AI模型是否可以通过针对性训练学习taarof。

在试验中,研究人员报告通过针对性适应,taarof分数有实质性改进。一种称为“直接偏好优化”的技术使Llama 3在taarof情境上的性能翻倍,将准确率从37.2%提高到79.5%。监督微调产生了20%的增益,而简单的上下文学习与12个示例将性能提高了20点。

虽然研究聚焦于波斯taarof,但该方法可能为评估其他低资源传统中的文化解码提供了模板,这些传统可能在标准的、西方主导的AI训练数据集中没有得到充分代表。研究人员建议他们的方法可以为教育、旅游和国际通信应用中开发更具文化意识的AI系统提供信息。

这些发现突显了AI系统如何编码和延续文化假设的更重要方面,以及解码错误可能在人类读者心中发生的位置。LLMs可能拥有许多研究人员尚未测试的情境文化盲点,如果LLMs被用于促进文化和语言之间的翻译,这些盲点可能产生重大影响。研究人员的工作代表了朝着AI系统可能更好地导航超越西方规范的人类沟通模式多样性的早期步骤。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计