AI信任心理学:测量与设计用户信心的指南
当AI“产生幻觉”时,这不仅仅是技术故障——这是信任的崩塌。随着生成式AI成为更多数字产品的一部分,信任已成为无形的用户界面。但信任并非神秘不可测,它可以被理解、测量和设计。本文是一份实用指南,帮助设计更可信和符合伦理的AI系统。
信任危机:从法律到日常生活的AI失误
AI的误用和错误信任正成为不幸的常见事件。例如,律师试图利用生成式AI进行研究时,提交的法庭文件引用了多个令人信服的判例。问题在于?AI自信、流利且完全捏造了这些案例。由此产生的制裁和公开尴尬成为了病毒式的警示故事,在社交媒体上作为AI不可靠性的鲜明例证被广泛分享。
这超越了技术故障;在准确性和信任至关重要的行业中,这是对AI工具信任的灾难性失败。这里的信任问题是双重的——律师事务所提交了他们盲目过度信任AI工具返回准确信息的简报。随后的后果可能导致对AI工具的强烈不信任,直到信任重新建立之前,带有AI功能的平台可能不会被考虑使用。
信任AI的问题不仅限于法律领域。我们看到虚构的AI生成信息在医疗保健和教育等关键领域的影响。在更个人化的层面上,我们许多人都有过要求Siri或Alexa执行任务,却因无明显原因而执行错误或完全未执行的经验。
随着数字产品以越来越快的速度整合生成式和代理AI,信任已成为无形的用户界面。当它正常工作时,我们的交互是无缝且强大的。当它崩溃时,整个体验都会崩塌,带来潜在的毁灭性后果。
信任不是神秘品质。它是建立在可预测因素上的心理建构。本文将为UX研究人员和设计师提供实用指南。我们将简要探讨信任的心理解剖,提供具体的测量方法,并为设计更可信和符合伦理的AI系统提供可操作的策略。
信任的解剖:AI的心理框架
要建立信任,必须首先理解其组成部分。将信任想象成一个四条腿的凳子。如果任何一条腿薄弱,整个结构就会变得不稳定。基于经典心理模型,我们可以为AI背景调整这些“腿”:
1. 能力(或胜任力)
这是最直接的支柱:AI是否具备准确有效执行其功能的技能?如果天气应用持续出错,你就会停止信任它。如果AI法律助理创建虚构案例,它就未能通过基本的能力测试。这是信任的功能性基础层。
2. 善意
这从功能转向意图。用户是否相信AI正在为他们最大利益行事?即使需要多花几分钟,建议免收费路线的GPS可能被视为有善意。相反,积极推送赞助产品的AI感觉是自私的,侵蚀了这种善意感。
3. 诚信
AI是否基于可预测和符合伦理的原则运作?这关乎透明度、公平性和诚实性。明确说明如何使用个人数据的AI展示了诚信。悄悄更改服务条款或使用黑暗模式让用户同意某事的系统违反了诚信。
4. 可预测性与可靠性
用户能否形成关于AI将如何行为的稳定准确心理模型?不可预测性,即使结果偶尔良好,也会产生焦虑。用户需要大致知道会发生什么。对同一问题两次给出截然不同答案的AI是不可预测的,因此难以信任。
信任谱系:校准良好关系的目标
作为UX专业人员,我们的目标不应是不惜一切代价最大化信任。盲目信任每封邮件的员工是安全风险。同样,盲目信任每个AI输出的用户可能被引入危险情况。目标是良好校准的信任。
将其视为一个谱系,其中上中水平是真正可信产品应达到的理想状态:
- 积极不信任:用户认为AI无能或恶意。他们会避免使用或积极对抗它。
- 怀疑与审查:用户谨慎交互,不断验证AI的输出。这是新AI用户的常见且通常健康的状态。
- 校准信任(理想状态):这是最佳点。用户准确理解AI的能力——其优势和关键弱点。他们知道何时依赖它,何时应持怀疑态度。
- 过度信任与自动化偏见:用户 unquestioningly 接受AI的输出。这是用户跟随有缺陷的AI导航进入田地或将虚构法律简报视为事实的地方。
我们的工作是设计引导用户远离积极不信任和过度信任这两个危险极端,走向校准信任的健康、现实中间地带的体验。
研究人员的工具包:如何测量AI中的信任
信任感觉抽象,但它留下可测量的指纹。社会科学的学者们已经做了大量工作来定义信任的样子以及如何测量它。作为研究人员,我们可以通过定性、定量和行为方法的组合来捕捉这些信号。
定性探针:倾听信任的语言
在访谈和可用性测试期间,超越“这容易使用吗?”并倾听底层心理。以下是一些您可以立即开始使用的问题:
测量能力: “告诉我这个工具性能让您感到惊讶的时候,无论是正面还是负面。”
测量善意: “您觉得这个系统站在您这边吗?是什么给您这种印象?”
测量诚信: “如果这个AI犯了错误,您期望它如何处理?什么是公平的回应?”
测量可预测性: “在您点击那个按钮之前,您期望AI做什么?它与您的期望有多接近?”
量化测量:为信心赋予数字
您无需数据科学学位即可量化信任。在用户使用AI完成任务后,用几个简单的李克特量表项目补充您的标准可用性问题:
- “AI的建议是可靠的。”(1-7,非常不同意到非常同意)
- “我对AI的输出有信心。”(1-7)
- “我理解AI为什么提出那个建议。”(1-7)
- “AI以我期望的方式回应。”(1-7)
- “AI随时间提供一致的回应。”(1-7)
随着时间的推移,这些指标可以跟踪信任如何随着产品演变而变化。
行为指标:观察用户做什么,不仅仅是说什么
人们的真实感受常常在他们的行动中显现。您可以使用反映您产品特定使用情境的行为。以下是可能适用于大多数AI工具的一些通用指标,可洞察用户的行为和他们给予您工具的信任:
修正率 用户手动编辑、撤销或忽略AI输出的频率如何?高修正率是低能力信任的有力信号。
验证行为 用户是否切换到Google或打开其他应用程序来双重检查AI的工作?这表明他们不信任它作为独立的信息来源。
脱离接触 用户是否关闭AI功能?在一次糟糕体验后是否完全停止使用它?这是最终的不信任行为投票。
为信任设计:从原则到像素
一旦您研究并测量了信任,就可以开始为其设计。这意味着将心理原则转化为有形的界面元素和用户流程。
为能力和可预测性设计
设定清晰期望 使用引导、工具提示和空状态诚实传达AI擅长什么以及可能在哪里遇到困难。简单的“我仍在学习[主题X],所以请双重检查我的答案”可以产生奇效。
显示置信水平 不仅仅是给出答案,让AI表示自己的不确定性。说“70%降雨概率”的天气应用比只说“会下雨”但出错的应用更可信。AI可以说“我对这个摘要有85%的信心”,或突出显示它不太确定的句子。
可解释性(XAI)和透明度的作用
可解释性不是向用户展示代码。它是为决策提供有用、人类可理解的理由。
而不是: “这是您的推荐。”
尝试: “因为您经常阅读关于UX研究方法的文章,我推荐这篇关于测量AI信任的新文章。”
这个添加将AI从不透明的神谕转变为透明的逻辑伙伴。
为信任修复设计(优雅的错误处理)和不知道答案
您的AI会犯错。信任不是由没有错误决定的,而是由如何处理这些错误决定的。
谦卑地承认错误 当AI出错时,它应该能够清楚地说明。“抱歉,我误解了那个请求。请您重新表述一下好吗?”比沉默或荒谬的答案要好得多。
提供简单的修正路径 使反馈机制(如拇指向上/向下或修正框)明显。更重要的是,显示反馈正在被使用。“谢谢,我正在从您的修正中学习”可以在失败后帮助重建信任。
同样,您的AI不可能知道一切。您应该向用户承认这一点。
UX从业者应与产品团队合作,确保关于局限性的诚实是核心产品原则。
UX写作与信任
所有这些考虑都突出了UX写作在开发可信AI中的关键作用。UX写手是AI声音和语调的建筑师,确保其沟通清晰、诚实和共情。他们将复杂的技术过程转化为用户友好的解释,制作有用的错误消息,并设计建立信心和融洽关系的对话流程。
UX写手在为AI写作时应关注几个关键领域:
- 优先考虑透明度:清楚传达AI的能力和局限性,特别是当它仍在学习或其回应是生成的而非事实时。
- 为可解释性设计:当AI提供建议、决策或复杂输出时,努力以可理解的方式解释其背后的推理。
- 强调用户控制:通过提供明确的方式让用户提供反馈、纠正错误或选择退出某些AI功能,赋予用户权力。
伦理走钢丝:研究人员的责任
作为负责理解和倡导用户的人,我们走在伦理的钢丝上。我们的工作伴随着 profound 责任。
“信任洗白”的危险
我们必须划清界限,区分设计校准信任与设计操纵用户信任有缺陷、偏见或有害系统。例如,如果为贷款批准设计的AI系统持续歧视某些人口统计群体,但呈现暗示公平和透明的用户界面,这将是信任洗白的实例。
我们的目标必须是创建真正可信的系统,而不仅仅是信任的感知。使用这些原则诱使用户进入错误的安全感是对我们职业伦理的背叛。
倡导的责任
当我们的研究揭示根深蒂固的不信任或潜在伤害时——如对工作流失的恐惧——我们的工作才刚刚开始。我们有伦理责任为那个用户倡导。我们必须支持这些发现,并倡导优先考虑用户福祉的设计和策略转变,即使它挑战了产品路线图。
结论:在信任基础上构建我们的数字未来
AI的兴起不是我们领域面临的第一次重大技术转变。然而,它呈现了我们当前时代最重要的心理挑战之一。构建不仅可用而且负责任、人道和可信的产品是我们作为UX专业人员的义务。
信任不是软指标。它是任何成功的人与技术关系的基本货币。通过理解其心理根源,严谨测量它,并有意向和诚信地为其设计,我们可以从创建“智能”产品转向构建用户可以对日常使用工具放置信心的未来。一种应得且值得的信任。
表1:测量自动化系统信任的已发表学术量表
| 调查工具名称 | 焦点 | 信任的关键维度 | 引用 |
|---|---|---|---|
| 自动化信任量表 | 12项问卷,评估人与自动化系统之间的信任 | 测量一般信任水平,包括可靠性、可预测性和信心 | Jian等人(2000) |
| 自动化系统信任测试(TOAST) | 9项用于测量各种自动化系统中用户信任的工具,设计用于快速管理 | 分为两个主要子量表:理解(用户对系统的理解)和性能(对系统有效性的信念) | Wojton等人(2020) |
| 自动化信任问卷 | 19项能够预测用户对自动化系统依赖的问卷 | 测量6个因素:可靠性、可理解性、信任倾向、开发者意图、熟悉度、自动化信任 | Körber(2018) |
| 人机信任量表 | 12项问卷,为评估技术用户信任提供经验上合理的工具 | 分为两个关键因素:善意和能力(捕捉技术的积极属性)和感知风险(测量用户使用技术制品时潜在负面后果的主观评估) | Gulati等人(2019) |