人工智能信任心理学:用户信任度测量与设计实战指南
当人工智能“产生幻觉”时,这不仅仅是系统故障,更是信任的崩塌。随着生成式AI融入越来越多的数字产品,信任已成为看不见的用户界面。但信任并非神秘之物,它可以被理解、测量和设计。这是一份设计更值得信赖、更合乎道德的人工智能系统的实用指南。
对AI的误用和错信正日益成为不幸的常见事件。例如,律师试图利用生成式AI进行研究,提交的法庭文件引用了多个引人注目的法律判例。问题何在?AI自信、雄辩且完全捏造了所引用的案例。随之而来的制裁和公开羞辱可能成为一个病毒式传播的警示故事,在社交媒体上被广泛分享,作为AI易犯错性的鲜明例证。
这超越了技术故障;这是一个对AI工具信任的灾难性失败,而在法律这个准确性和信任至关重要的行业,这种失败尤为严重。这里的信任问题是双重的——律师事务所提交了他们认为可以盲目过度信任AI工具能返回准确信息的简报。随后的连锁反应可能导致对AI工具的强烈不信任,以至于在信任重新建立之前,带有AI功能的平台可能不会被考虑使用。
信任AI的问题不仅限于法律领域。我们看到虚构的AI生成信息在医疗保健和教育等关键领域产生影响。在更个人化的层面上,我们许多人都有过这样的经历:要求Siri或Alexa执行任务,结果任务被错误执行或完全没有执行,且原因不明。在Siri误将我请求的名字调换成完全不同的人之后,我曾不止一次将脱离语境的免提短信发送给毫无防备的联系人。
图1:Siri和Alexa经常混淆我的消息收件人,导致我在准确性很重要时不再信任使用它们。使用Gemini Pro生成的图像。(大预览)
随着数字产品以日益频繁的速度融入生成式和代理式AI,信任已成为看不见的用户界面。当它有效时,我们的交互无缝而强大;当它失效时,整个体验崩溃,并可能产生毁灭性后果。作为用户体验专业人士,我们站在应对一个常见挑战新变化的第一线。我们如何构建用户可以依赖的产品?我们又该如何开始测量像对AI信任这样转瞬即逝的东西?
信任不是一种神秘的品质。它是一种建立在可预测因素上的心理建构。本文不会深入探讨关于信任的学术文献。然而,理解信任是一个可以被理解、测量和设计的概念很重要。本文将为UX研究人员和设计师提供一份实用指南。我们将简要探讨信任的心理剖析,提供具体的测量方法,并为设计更值得信赖、更合乎道德的人工智能系统提供可操作的策略。
遇见Smashing关于前端、设计和用户体验的工作坊,包含实用要点、现场会议、视频录制和友好的问答环节。与Brad Frost, Stéph Walter等众多专家一起。跳转至工作坊
信任的剖析:AI的心理框架
要建立信任,我们必须首先理解其组成部分。将信任想象成一张四条腿的凳子。如果任何一条腿不结实,整个凳子就会变得不稳定。基于经典的心理模型,我们可以将这些“腿”适用于AI环境。
1. 能力(或胜任力)
这是最直接的支柱:AI是否具备准确有效地执行其功能的技能? 如果一个天气应用总是出错,你就会停止信任它。如果一个AI法律助手捏造了虚构的案例,它就未能通过基本的能力测试。这是信任的功能性、基础层。
2. 善意
这从功能转向意图。用户是否相信AI是出于他们的最佳利益行事? 一个即使多花几分钟也建议走免收费路线的GPS可能被认为是善意的。相反,一个咄咄逼人地推送赞助产品的AI则显得自私自利,侵蚀了这种善意感。用户对工作被替代等担忧直接挑战信任的地方就在这里——用户开始相信AI不是站在他们这边的。
3. 诚信
AI是否遵循可预测和道德的原则运作? 这关乎透明度、公平性和诚实性。一个明确说明如何使用个人数据的AI体现了诚信。一个悄悄更改服务条款或使用黑暗模式让用户同意的系统则违反了诚信。一个存在微妙但极其有害的社会偏见的AI招聘工具(这些偏见存在于算法中)也违反了诚信。
4. 可预测性与可靠性
用户能否对AI的行为形成稳定而准确的心理模型? 不可预测性,即使偶尔结果不错,也会造成焦虑。用户需要大致知道会发生什么。一个对同一问题给出两次截然不同答案的AI是不可预测的,因此也难以信任。
信任光谱:目标在于建立校准良好的关系
作为UX专业人士,我们的目标不应是不惜一切代价地最大化信任。一个盲目信任收到的每一封邮件的员工是一种安全风险。同样,一个盲目信任每一个AI输出的用户可能会被带入危险的境地,例如本文开头提到的法律简报。我们的目标是校准良好的信任。
将其想象成一个光谱,其中中上水平是真正值得信赖的产品应力求实现的理想状态:
- 积极不信任:用户认为AI无能或恶意。他们会避开它或积极对抗它。
- 怀疑与审视:用户谨慎互动,不断验证AI的输出。这是用户使用新AI时常见且通常是健康的状态。
- 校准信任(理想状态):这是最佳点。用户准确了解AI的能力——其优势,以及至关重要的,其弱点。他们知道何时依赖它,何时持怀疑态度。
- 过度信任与自动化偏见:用户无条件接受AI的输出。在这里,用户会跟着有缺陷的AI导航开进田野,或者接受虚构的法律简报作为事实。
我们的工作是设计引导用户远离“积极不信任”和“过度信任”这两个危险极端,走向校准信任那个健康、现实的中间地带的体验。
图2:在您的AI产品中建立用户信任,避免不信任和过度依赖。使用Gemini Pro生成的图像。(大预览)
研究人员的工具箱:如何测量对AI的信任
信任感觉是抽象的,但它留下了可测量的痕迹。社会科学领域的学者在定义信任的表现形式及其测量方法方面做了大量工作。作为研究人员,我们可以通过定性、定量和行为方法的组合来捕捉这些信号。
定性探究:倾听信任的语言
在访谈和可用性测试中,超越“这容易使用吗?”,去倾听潜在的心理。以下是一些您可以立即开始使用的问题:
- 测量能力:“请告诉我这个工具的性能让您感到惊讶(无论是正面还是负面)的一次经历。”
- 测量善意:“您觉得这个系统是站在您这边的吗?是什么给了您这种印象?”
- 测量诚信:“如果这个AI犯了错,您期望它会如何处理?怎样的回应才是公平的?”
- 测量可预测性:“在您点击那个按钮之前,您期望AI会做什么?实际情况与您的期望有多接近?”
探究存在性恐惧(工作替代情景)
对AI善意最有力的挑战之一是对工作被替代的恐惧。当参与者表达这一点时,这是一个关键的研究发现。它需要一种特定的、符合伦理的探究技巧。
想象一位参与者说:“哇,它把我这部分工作做得相当好。我想我应该担心了。”
未经训练的研究人员可能会采取防御态度或忽视这个评论。一位有伦理、训练有素的研究人员会验证并深入探究:
“感谢您分享这一点;这是一个至关重要的观点,正是我们需要听到的那种反馈。您能多告诉我一些,是这个工具的哪些方面让您有这种感觉吗?在理想的情况下,像这样的工具应该如何与您合作,让您的工作变得更好,而不是取代它?”
这种方法尊重参与者,验证他们的担忧,并将反馈重新构建为关于设计协作性、增强性工具而非替代品的可操作见解。同样,您的研究结果应反映用户表达的关于被替代的担忧。我们不应假装这种恐惧不存在,也不应假装每个AI功能的实现都意图纯粹。用户比我们更清楚这一点,我们应该准备好代表他们去论证这项技术如何最好地与他们的角色共存。
定量测量:量化信心
无需数据科学学位,您也可以量化信任。在用户使用AI完成任务后,在标准的可用性问题之外,补充一些简单的李克特量表项目:
- “AI的建议是可靠的。”(1-7分,非常不同意到非常同意)
- “我对AI的输出有信心。”(1-7分)
- “我理解AI为何做出该推荐。”(1-7分)
- “AI的回应方式符合我的预期。”(1-7分)
- “AI随时间推移提供了一致的回应。”(1-7分)
随着时间的推移,这些指标可以追踪信任如何随着产品演变而变化。
注意:如果您想超越这些我编造的问题,学术文献中存在许多(测量)技术信任的量表。测量用户的一些相关心理特征和人口统计学特征,并观察其与对AI/您产品的信任度之间的相关性,可能是一项有趣的尝试。文章末尾的表1包含了四个您可能考虑用来测量信任的当前量表示例。您可以决定哪一个最适合您的应用,或者如果您不打算在学术期刊上发表您的发现,但又想使用经过一定程度实证检验的项目,也可以从任何量表中抽取部分项目。
行为指标:观察用户做什么,而不只是说什么
人们的真实感受常常通过行动揭示。您可以使用反映产品具体使用情境的行为指标。以下是一些可能适用于大多数AI工具的通用指标,可以洞察用户的行为及其对您工具的信任程度。
- 修正率:用户手动编辑、撤销或忽略AI输出的频率有多高?高修正率是能力信任度低的强烈信号。
- 验证行为:用户是否切换到谷歌或打开另一个应用程序来再次核对AI的工作?这表明他们不信任它作为独立的真相来源。当他们提前使用它时,也可能意味着他们正在校准对该系统的信任,这可能是积极的。
- 脱离接触:用户是否关闭AI功能?是否在经历一次糟糕体验后完全停止使用它?这是最终的行为性不信任投票。
为信任而设计:从原则到像素
一旦您研究并测量了信任,就可以开始为信任而设计。这意味着将心理原则转化为有形的界面元素和用户流程。
为能力和可预测性而设计
- 设定清晰的期望:使用入门引导、工具提示和空状态,诚实地传达AI擅长什么以及它可能在何处遇到困难。一句简单的“我还在学习[话题X],所以请仔细检查我的回答”就能产生奇效。
- 显示置信度水平:不仅仅是给出答案,让AI能表示自己的不确定性。一个说“70%概率会下雨”的天气应用比一个只说“会下雨”却出错的应用更值得信赖。AI可以说,“我对这个摘要有85%的把握,”或者突出显示它不太确定的部分。
可解释性(XAI)与透明度的作用
可解释性不是向用户展示代码。它是提供对决策有用、人类可理解的理由。
- 不要这样:“这是给您的推荐。”
- 尝试这样:“因为您经常阅读关于UX研究方法的文章,我向您推荐这篇关于测量AI信任度的新文章。”
这个补充将AI从一个不透明的神谕转变为一个透明的逻辑伙伴。
许多流行的AI工具(例如ChatGPT和Gemini)会显示它们为用户提供的回答所经历的思考步骤。图3显示了当我要求Gemini帮助我生成上文图2中展示的杰作时,Gemini为给我提供一个无法完成的回应所经历的步骤。虽然这可能比大多数用户关心的信息要多,但它为用户审核回答是如何产生的提供了一个有用的资源,并为我提供了如何继续处理任务的说明。
图3:Gemini展示其流程以及为何无法完成我要求执行的任务。它巧妙地建议了实现我请求的替代方法。(大预览)
图4显示了OpenAI提供的一个记分卡示例,旨在增加用户的信任。这些记分卡适用于每个ChatGPT模型,并详细说明了模型在关键领域(如幻觉、基于健康的对话等)的表现如何。仔细阅读记分卡,您会发现没有任何AI模型在任何领域是完美的。用户必须保持在“信任但验证”的模式下,才能使人类现实与AI之间的关系以避免潜在灾难的方式运作。永远不应该对大型语言模型有盲目信任。
图4:GPT-4o的OpenAI记分卡示例。(大预览)
为信任修复(优雅的错误处理)和“不知道答案”而设计
您的AI会犯错。信任不是由没有错误决定的,而是由如何处理这些错误决定的。
- 谦逊地承认错误:当AI出错时,它应该能够清楚地说明。“抱歉,我误解了那个请求。请您重新表述一下好吗?”比沉默或给出无意义的回答要好得多。
- 提供简单的修正路径:使反馈机制(如点赞/点踩或修正框)显而易见。更重要的是,展示反馈正在被使用。一句“谢谢,我正在从您的修正中学习”可以在失败后帮助重建信任。前提是这要是真的。
同样,您的AI不可能知道一切。您应该向用户承认这一点。UX从业者应与产品团队合作,确保诚实地面对局限性成为核心产品原则。
这可以包括以下内容:
- 建立以用户为中心的指标:UX人员可以与产品经理合作,定义并追踪除参与度或任务完成率之外的指标,例如:
- 幻觉率:AI提供可验证虚假信息的频率。
- 成功回退率:AI正确识别其无法回答并提供有用、诚实的替代方案的频率。
- 优先考虑“我不知道”的体验:UX人员不应将“我不知道”的回答框定为错误状态,而应将其视为关键功能。他们必须为设计高质量、有帮助的回退体验争取所需的工程和内容资源。
UX文案撰写与信任
所有这些考虑都突显了UX文案撰写在开发可信赖AI中的关键作用。UX文案撰写者是AI声音和语调的设计师,确保其沟通清晰、诚实且富有同理心。他们将复杂的技术流程转化为用户友好的解释,撰写有用的错误信息,并设计能建立信心和融洽关系的对话流程。没有深思熟虑的UX文案撰写,即使是最先进的AI也会显得不透明且不可信。
AI使用的词汇和短语是它与用户的主要界面。UX文案撰写者在塑造这种互动方面具有独特的地位,确保每个工具提示、提示和回复都有助于建立积极和信任的体验。他们在以人为中心的语言和设计方面的专业知识对于创建不仅能良好运行,而且能赢得并保持用户信任的AI系统是不可或缺的。
UX文案撰写者在为AI撰写时需要关注的几个关键领域包括:
- 优先考虑透明度:清楚地传达AI的能力和局限性,特别是在它仍在学习或回答是生成而非事实的情况下。使用表明AI本质的短语,例如“作为AI,我可以……”或“这是一个生成的回答。”
- 为可解释性而设计:当AI提供推荐、决策或复杂输出时,努力以可理解的方式解释其背后的推理。这通过向用户展示AI如何得出结论来建立信任。
- 强调用户控制:通过提供清晰的反馈、纠正错误或选择退出某些AI功能的方式,赋予用户权力。这强化了用户掌控、AI是辅助工具的理念。
伦理钢丝:研究人员的责任
作为负责理解和倡导用户权益的人,我们走在一条伦理钢丝上。我们的工作伴随着深刻的责任。
“信任粉饰”的危险
我们必须划清为校准信任而设计与操纵用户信任一个有缺陷、偏见或有害系统之间的明确界限。例如,如果一个用于贷款审批的AI系统持续歧视某些人群,但其用户界面却暗示公平和透明,这将是信任粉饰的一个实例。
另一个信任粉饰的例子是,如果一个AI医疗诊断工具偶尔误诊病情,但用户界面使其看起来万无一失。为避免信任粉饰,系统应清晰传达出错的可能性以及需要人工监督。
我们的目标必须是创建真正值得信赖的系统,而不仅仅是制造信任的表象。利用这些原则诱使用户产生虚假的安全感是对我们职业道德的背叛。
为避免和防止信任粉饰,研究人员和UX团队应:
- 优先考虑真正的透明度:清楚传达AI系统的局限性、偏见和不确定性。不要夸大能力或掩盖潜在风险。
- 进行严格、独立的评估:超越内部测试,寻求对系统性能、公平性和稳健性的外部验证。
- 与多元化利益相关者互动:让用户、伦理专家和受影响的社区参与设计、开发和评估过程,以识别潜在危害并建立真正的信任。
- 对结果负责:对AI系统的社会影响负责,即使是无意的。建立补救和持续改进的机制。
- 为结果负责:建立清晰且可访问的救济机制,当发生伤害时,确保受AI决策影响的个人和社区有寻求补救和补偿的途径。
- 教育公众:帮助用户理解AI的工作原理、其局限性以及评估AI产品时应注意什么。
- 倡导伦理准则和法规:支持制定和实施行业标准和政策,以促进负责任的AI发展并防止欺骗性做法。
- 警惕营销炒作:批判性地评估关于AI系统的声明,尤其是那些强调“可信赖”但没有明确证据或详细解释的声明。
- 公布负面发现:不要回避报告研究中遇到的挑战、失败或伦理困境。对局限性的透明度对于建立长期信任至关重要。
- 专注于用户赋权:设计给予用户控制权、能动性和理解的系统,而不是仅仅被动接受AI输出。
倡导的责任
当我们的研究揭示出根深蒂固的不信任或潜在危害——比如对工作被替代的恐惧——时,我们的工作才刚刚开始。我们有伦理责任去为那些用户倡导。在我指导研究团队的经验中,我见过我们工作中最困难的部分,往往是将这些令人不适的真相带入决策讨论室。我们必须支持这些发现,并倡导设计和战略上的转变,优先考虑用户的福祉,即使这会挑战产品路线图。
我个人尝试将呈现这些信息视为成长和改进的机会,而不是负面的挑战。
例如,与其陈述“用户不信任我们的AI,因为他们害怕工作被替代”,我可能会这样表达:“解决用户对工作被替代的担忧,提供了一个通过展示我们对负责任AI开发的承诺,并探索增强而非替代人类能力的功能,来建立更深层次信任和长期忠诚度的重大机会。” 这种重新表述可以将对话从防御姿态转变为积极主动、解决问题的思维模式,鼓励协作和最终使用户和企业都受益的创新解决方案。
众所周知,企业使用AI更具吸引力的领域之一是劳动力削减。实际上,在许多情况下,由于感知到的AI效率提升,企业会寻求削减特定职位类别10-20%的人员。然而,给用户提供塑造产品的机会可能会引导产品朝着让他们感觉更安全的方向发展,而不是不提供反馈。我们不应试图说服不信任AI的用户他们是错的。我们应该感激他们愿意提供反馈,从而创造出由长期从事被自动化任务的人类专家信息所塑造的体验。
结论:在信任的基础上构建我们的数字未来
AI的兴起并非我们领域面临的第一次重大技术转变。然而,它呈现了我们当前时代最重大的心理挑战之一。构建不仅可用,而且负责、人道、值得信赖的产品,是我们作为UX专业人士的义务。
信任不是软指标。它是任何成功的人与技术关系的基本货币。通过理解其心理根源,严谨地测量它,并以意图和诚信为其设计,我们可以从创造“智能”产品,转向构建一个用户能够对他们日常使用的工具寄予信心的未来。这是一种应得且赢得的信任。
表1:已发表的测量自动化系统信任的学术量表
| 调查工具名称 | 焦点 | 信任的关键维度 | 引用 |
|---|---|---|---|
| 自动化信任量表 | 12项问卷,用于评估人与自动化系统之间的信任。 | 测量总体信任水平,包括可靠性、可预测性和信心。 | Jian, J. Y., Bisantz, A. M., & Drury, C. G. (2000). Foundations for an empirically determined scale of trust in automated systems. International Journal of Cognitive Ergonomics, 4(1), 53–71. |
| 自动化系统信任测试(TOAST) | 9项,用于测量用户对多种自动化系统的信任,设计用于快速实施。 | 分为两个主要子量表:理解(用户对系统的理解)和性能(对系统有效性的信念)。 | Wojton, H. M., Porter, D., Lane, S. T., Bieber, C., & Madhavan, P. (2020). Initial validation of the trust of automated systems test (TOAST). (PDF) The Journal of Social Psychology, 160(6), 735–750. |
| 自动化信任问卷 | 一份19项问卷,能够预测用户对自动化系统的依赖程度。提供2项子量表用于快速评估;建议使用完整工具进行更彻底的分析。 | 测量6个因素:可靠性、可理解性、信任倾向、开发者意图、熟悉度、对自动化的信任。 | Körber, M. (2018). Theoretical considerations and development of a questionnaire to measure trust in automation. In Proceedings 20th Triennial Congress of the IEA. Springer. |
| 人机信任量表 | 12项问卷,旨在为评估用户对技术的信任提供一个经验上可靠的工具。 | 分为两个关键因素: 1. 善意与能力:捕捉技术的积极属性。 2. 感知风险:测量用户在使用技术产品时对潜在负面后果的主观评估。 |
Siddharth Gulati, Sonia Sousa & David Lamas (2019): Design, development and evaluation of a human-computer trust scale, (PDF) Behaviour & Information Technology |
附录A:信任构建策略清单
为校准信任而设计时,请考虑实施以下策略,按信任的四大支柱组织:
1. 能力(胜任力)与可预测性
- ✅ 设定清晰期望:使用入门引导、工具提示和空状态,诚实地传达AI的优势和弱点。
- ✅ 显示置信度水平:展示AI的不确定性(例如,“70%概率”,“85%置信度”)或高亮显示其输出中不太确定的部分。
- ✅ 提供可解释性(XAI):为AI的决策或推荐提供有用、人类可理解的理由(例如,“因为您经常阅读X,我推荐Y”)。
- ✅ 设计优雅的错误处理:
- ✅ 谦逊地承认错误(例如,“抱歉,我误解了那个请求。”)。
- ✅ 提供简单的修正路径(例如,突出的反馈机制,如点赞/点踩)。
- ✅ 显示反馈正在被使用(例如,“谢谢,我正在从您的修正中学习”)。
- ✅ 为“我不知道”的回答而设计:
- ✅ 诚实地承认局限性。
- ✅ 当AI无法回答时,优先考虑高质量、有帮助的回退体验。
- ✅ 优先考虑透明度:清楚地传达AI的能力和局限性,特别是在回答是生成的情况下。
2. 善意
- ✅ 解决存在性恐惧:当用户表达担忧(例如,工作被替代)时,验证他们的担忧,并将反馈重新构建为关于协作工具的可操作见解。
- ✅ 优先考虑用户福祉:倡导优先考虑用户福祉的设计和战略转变,即使这会挑战产品路线图。
- ✅ 强调用户控制:为用户提供清晰的反馈、纠正错误或选择退出AI功能的方式。
3. 诚信
- ✅ 遵循伦理原则:确保AI按照可预测的、道德的原则运作,体现公平和诚实。
- ✅ 优先考虑真正的透明度:清楚传达AI系统的局限性、偏见和不确定性;避免夸大能力或掩盖风险。
- ✅ 进行严格、独立的评估:寻求对系统性能、公平性和稳健性的外部验证,以减轻偏见。
- ✅ 与多元化利益相关者互动:让用户、伦理专家和受影响的社区参与设计和评估过程。
- ✅ 对结果负责:为即使是无意的社会影响建立清晰的救济和持续改进机制。
- ✅ 教育公众:帮助用户理解AI的工作原理、其局限性以及如何评估AI产品。
- ✅ 倡导伦理准则:支持制定和实施促进负责任AI开发的行业标准和政策。
- ✅ 警惕营销炒作:批判性地评估关于AI“可信赖性”的声明,并要求可验证的数据。
- ✅ 公布负面发现:对研究中遇到的挑战、失败或伦理困境保持透明。
4. 可预测性与可靠性
- ✅ 设定清晰期望:使用入门引导、工具提示和空状态,诚实地传达AI擅长什么以及它可能在何处遇到困难。
- ✅ 显示置信度水平:不仅仅是给出答案,让AI能表示自己的不确定性。
- ✅ 提供可解释性(XAI)和透明度:为AI决策提供有用、人类可理解的理由。
- ✅ 设计优雅的错误处理:谦逊地承认错误,并提供简单的修正路径。
- ✅ 优先考虑“我不知道”的体验:将“我不知道”框定为功能,并设计高质量的回退体验。
- ✅ 优先考虑透明度(UX文案):清楚地传达AI的能力和局限性,特别是在它仍在学习或回答是生成的情况下。
- ✅ 为可解释性而设计(UX文案):解释AI推荐、决策或复杂输出背后的推理。