揭秘魔法：奥兹巫师法在用户体验研究中的应用

奥兹巫师法（Wizard of Oz，简称WOZ）是一种经过验证的用户体验研究工具，通过模拟真实交互来揭示用户的真实行为。Victor Yocco探讨了其基本原理、高级技巧和关键注意事项，包括其在新兴的代理式AI领域中的相关性。

新技术和创新概念经常进入产品开发生命周期，承诺彻底改变用户体验。然而，如果没有对用户与这些新体验交互的基本理解，即使是最巧妙的想法也有失败的风险。

以任天堂动力手套（Nintendo Power Glove）的困境为例。尽管在商业上取得了成功（售出超过100万台），但其在1989年底发布后，不到一年就在1990年停产。专为动力手套开发的两款游戏销量不佳，而且手套在任天堂已经流行的传统主机游戏中也几乎没有用处。

失败的大部分原因是用户对产品的反应，该产品（据称在8周内开发完成）笨重且不直观。用户发现将手套与特定游戏中的动作同步非常令人沮丧，因为这需要将动作编码到手套的预设动作按钮中，然后记住哪些按钮会产生哪些动作。随着任天堂WII和其他基于运动的控制器主机和游戏的现代成功，我们可以看到动力手套是一个超前于时代的概念。

如果动力手套的开发者希望在构建之前进行有效的研究，他们就需要超越传统方法（如调查和访谈），以了解用户如何真正与手套交互。如果没有功能原型且不拖慢整体开发过程，这该如何实现？

奥兹巫师法作为一种潜在选择，是一种强大的工具，用于弥合抽象概念和具体用户理解之间的鸿沟。该技术模拟一个全功能系统，但由人类操作员（“巫师”） discreetly 编排体验。这使得研究人员无需完全构建产品即可收集真实的用户反应和见解。

WOZ方法以Frank L. Baum的同名书籍命名。在书中，巫师只是一个藏在帘子后面的人，操纵着那些穿越奥兹国的人的现实。主人公多萝西揭露了巫师的本质， essentially 是一个幻觉或骗子，欺骗那些相信他全能的人。类似地，WOZ获取当前可能存在或不存在的技术，并以一种应该让研究参与者相信他们正在使用现有系统或工具的方式模拟它们。

WOZ使用户需求的探索、 nascent 概念的验证和开发风险的缓解成为可能，特别是在复杂或新兴技术方面。

我们上面例子中的产品团队可能已经使用这种方法让用户模拟戴手套的动作，将动作编程到手套中，并在不需要全功能系统的情况下玩游戏。这可能会发现要求外行编码他们的硬件以响应游戏的不合逻辑的情况，显示在更换游戏时需要重新编码设备时遇到的挫折，以及物理设备上控制器的笨重布局（即使他们使用了一个纸板手套，上面用蜡笔在适当的位置绘制了模拟控制）。

Jeff Kelley声称（PDF）他在1980年创造了WOZ方法这个术语，来描述他在论文中采用的研究方法。然而，Paula Roe认为Don Norman和Allan Munro早在1973年就使用该方法对机场自动旅行助手进行测试。无论该方法起源于谁，双方都同意，当IBM后来使用它进行一项名为“听写打字机”的语音转文本工具的研究时，该方法获得了 prominence（见下图）。

在本文中，我将介绍WOZ方法的核心原则，探索从实践经验中获取的高级应用，并通过真实世界的例子展示其独特价值，包括其在代理式AI领域的应用。用户体验从业者可以使用WOZ方法作为另一种工具来解锁用户见解并打造以人为中心的产品和体验。

黄砖路：核心原则与机制

WOZ方法基于用户相信他们正在与一个 autonomous 系统交互，而一个人类巫师在幕后管理系统的响应。这个人，通常 remote 定位（或 off-screen），解释用户输入并生成模仿预期体验功能的输出。

角色阵容

一个成功的WOZ研究涉及几个关键角色：

用户：参与他们认为的功能系统的参与者。
促进者：引导用户完成预定义任务并观察其行为和反应的研究人员。
巫师：实时操纵系统行为，提供对用户输入的响应的人。
观察者（可选）：一个额外的研究人员，观察会话而不直接互动，允许对用户行为有 secondary 视角。

为可信度搭建舞台：离开堪萨斯

创造一个令人信服的幻觉是WOZ研究成功的关键。这需要仔细规划研究环境和用户将承担的任务。考虑一项评估智能家居设备新语音命令系统的研究。研究设置可能涉及一个智能扬声器的物理模型和预定义场景，如“播放我最喜欢的音乐”或“调暗客厅灯光”。巫师 remote 监听，然后触发适当的响应（例如，播放一首歌，口头确认灯光已调暗）。

或者，可能是一个基于屏幕的体验，测试一个新的AI驱动的聊天机器人。你让用户在文本框中输入命令，产品团队的另一个成员使用像Figma/Figjam、Miro、Mural或其他允许多用户同时协作的基于云的软件（作者与任何提到的产品没有关联）同时提供响应。

幻觉的艺术

维持 genuine 系统的幻觉需要以下内容：

及时自然的响应：巫师必须以最小的延迟并以符合预期系统行为的方式对用户输入做出反应。犹豫或不自然的措辞会打破幻觉。
一致的系统逻辑：响应应遵守预定义的逻辑。例如，如果用户询问特定城市的天气，巫师应 consistently 提供准确信息。
处理意外情况：用户将不可避免地偏离计划路径。巫师必须具备适应性，以 plausible 响应 unforeseen 输入，同时保持 perceived 功能。

伦理考虑

透明度至关重要，即使在一个涉及一定程度欺骗的方法中。参与者应在会话后始终接受汇报， clear 解释奥兹巫师技术及其使用原因。数据隐私必须像任何研究一样得到维护，参与者应在整个过程中感到舒适和受尊重。

区分方法

WOZ方法在用户体验研究工具包中占据独特空间：

与评估现有界面的可用性测试不同，奥兹巫师在 significant 开发之前探索概念。
与比较产品设计变体的A/B测试 distinct，WOZ评估全新的功能，这些功能如果展示给用户可能 otherwise 缺乏上下文。
与通常涉及静态模型的传统原型制作相比，WOZ提供动态和交互式体验， enabling 观察用户与模拟系统的实时行为。

当探索真正新颖的交互或复杂系统时，该方法证明 particularly 有价值，在这些情况下构建全功能原型为时过早或资源密集。它允许研究人员在投入 significant 开发努力之前回答关于用户需求和期望的基本问题。

让我们超越WOZ方法的基础方面，探索一些可以提升其有效性的更高级技巧和关键注意事项。

时间节省：WOZ与粗糙原型制作

与甚至更粗糙的原型制作方法（如纸质原型或静态数字模型）相比，WOZ是否真正节省时间是一个公平的问题。

虽然纸质原型对于基本流程和布局的创建和测试 incredibly 快速，但它们 fundamentally 缺乏动态响应能力。静态模型提供视觉保真度，但无法模拟复杂交互或个性化输出。

WOZ的真正时间节省优势在测试新颖、复杂或AI驱动的概念时显现。它允许研究人员在看似实时的环境中评估 genuine 用户交互和心理模型，收集更简单原型无法获得的丰富行为数据。这种模拟动态体验的保真度，即使幕后有人， often 比纯粹静态表示更早、更全面地揭示关键可用性或概念缺陷， ultimately 防止开发管道中成本高昂的返工。

额外技巧与注意事项

虽然WOZ方法的核心原则 straightforward，但其真正力量在于 nuanced 应用和周到的执行。经验丰富的从业者可能会利用几种高级技巧来提取更丰富的见解并解决更复杂的研究问题。

迭代巫术

WOZ方法不一定是一次性努力。在迭代周期中 employing 它可以 yield 显著 benefits。初始轮次可能专注于 broad 概念验证和识别 fundamental 用户反应。随后的迭代可以 then 基于先前发现 refine 模拟功能。

例如，在初步研究显示用户对特定交互流程感到困惑后，可以调整模拟，并进行后续研究以评估这些更改的影响。这种迭代方法允许对复杂体验进行更敏捷和以用户为中心的探索。

管理复杂性

模拟复杂系统对一个人巫师来说可能很困难。将复杂交互分解为更小、可管理的步骤至关重要。考虑研究新软件应用程序的多步 onboarding 过程。与其一个人尝试模拟整个流程，不如由多个团队成员 sequentially 甚至协调他们的响应来处理不同方面。

在这种情况下，清晰的沟通协议和明确定义的责任对于维持 seamless 用户体验至关重要。

超越观察衡量成功

虽然定性观察是WOZ方法的 cornerstone，但定义 clear 指标可以为发现增加一层 rigor。这些指标应 match 研究目标。例如，如果目标是评估新导航模式的直观性，你可能会跟踪用户表达困惑的次数或他们完成特定任务所需的时间。

将这些定量测量与定性见解相结合，提供了对用户体验更 comprehensive 的理解。

与其他方法集成

WOZ方法不是一个孤岛。通过将其与其他研究技术集成，可以放大其有效性。在WOZ研究之前进行用户访谈可以帮助建立对用户需求和心理模型的更深入理解， informing 模拟体验的设计。在WOZ研究之后，调查可以收集关于所探索概念的 broader 定量反馈。例如，在观察用户与模拟的AI驱动的调度工具交互后，一项调查可以 gauge 他们对这种系统的整体信任和 perceived 有用性。

何时不使用WOZ

WOZ与所有方法一样，有局限性。其他方法可能 yield 更可靠发现的一些场景示例如下：

详细可用性测试：人类充当巫师无法完美复制用户将遇到的确切体验。WOZ通常 best 在早期阶段，原型是粗糙草案，你的团队正在寻找关于正在考虑的解决方案的指导。当你进入详细设计阶段时，在更详细的线框图或原型上进行测试将比WOZ更可取。
评估具有不可预测输出的极其复杂的系统：如果系统的响应极其 varied，需要 sophisticated 实时计算，超出人类能力，或者 intended 真正不可预测，人类可能难以 convincingly 和 consistently 模拟它们。这可能导致疲劳、错误或不反映 intended 系统的即兴发挥， thereby 损害发现的有效性。

培训与准备

巫师的技能对该方法的成功 critical。培训将模拟系统的个人 essential。该培训应涵盖：

理解研究目标：巫师需要掌握研究旨在 uncover 的内容。
响应一致性：在整个会话中保持一致行为对于用户可信度 vital。
** anticipating 用户行动**：虽然即兴发挥有时 necessary，但巫师应准备好 common 用户路径和潜在偏差。
保持 unbiased：巫师必须避免引导用户或将他们自己的意见注入模拟。
处理意外输入：应建立 clear 协议来处理 unforeseen 用户行动。这可能涉及有一套预先准备好的备用响应或一种与促进者快速协商的机制。

所有这些都表明在实际运行会话之前需要练习。我们不应忘记进行一些 dry runs，我们请我们的同事或那些愿意协助的人不仅参与，而且思考可能的响应，这些响应可能会 stump 巫师或如果用户在实时会话中提供它们，可能会 throw things off。

我建议准备一个可信的错误声明，当用户抛出 curveball 时 ready to go。巫师的一个简单响应“抱歉，我目前无法执行该任务”可能足以推动会话 forward，同时也 capturing 一个 potentially 意外情况，你的团队可以在最终产品设计中解决。

这都是一场梦吗？汇报的艺术

WOZ互动后的汇报会话是收集丰富定性数据的额外机会。除了问“你怎么想？”之外，有效的汇报涉及分享研究的目的和体验是模拟的事实。

研究人员应 then 进行心理 probing 以理解用户行为和反应背后的原因。问开放式问题，如“你为什么尝试那个？”或“当你点击那个按钮时期望发生什么？”可以揭示关于用户心理模型和期望的宝贵见解。

详细探索困惑、挫折或喜悦的时刻可以 uncover 设计改进的关键领域。思考动力手套开发团队如果询问参与者编程手套并试图记住他们编程到哪组键中的体验，可能会 uncover 的潜在信息。

案例研究：真实世界应用

当检查其在真实世界研究场景中的应用时，WOZ方法的价值变得 apparent。这里是一个场景的深入审查和另一个涉及WOZ的研究的快速摘要，其中该技术在塑造用户体验方面证明 invaluable。

解开代理式AI：理解用户心理模型

在新兴技术领域的一个 significant 挑战在于用户理解。当我们的团队开始探索代理式AI用于企业HR软件的潜力时，这一点 particularly evident。

代理式AI指的是 artificial intelligence 系统，可以 autonomous 追求目标，通过做出决策、采取行动和适应 changing 环境， with minimal 人类干预。与 primarily 响应直接命令或生成内容的生成式AI不同，代理式AI designed 理解用户意图， independently 计划和执行多步任务，并从其交互中学习以随时间改进性能。这些系统 often 结合多个AI模型，并可以通过复杂问题 reasoning。对于设计师来说，这标志着向创建体验的转变，其中AI更像一个 proactive 合作者或助手， capable of anticipating 需求并采取主动帮助用户实现目标，而不是 solely 依赖 explicit 用户指令 for every step。

初步研究，包括调查和初始访谈，表明许多HR专业人士，虽然对AI辅助的概念 intrigued，但 struggled 掌握真正代理式系统的潜在功能和实际含义——那些 capable of autonomous 行动和 proactive 决策的系统。我们看到他们对代理式AI是什么没有参考点，即使我们尝试了与当前例子的相关类比。

在这个 exploratory 阶段构建一个全功能的代理式AI原型是不切实际的。底层算法和集成复杂且耗时开发。 Moreover，我们 risked 基于 potentially 有缺陷的用户需求和理解假设构建解决方案。WOZ方法提供了一个解决方案。

设置

我们设计了一个场景，其中HR员工与他们认为是一个 intelligent AI助手交互， capable of autonomous 处理某些任务。促进者向用户展示一个Web界面，他们可以请求协助任务，如“为新的营销招聘起草个性化 onboarding 计划”或“基于最近活动识别可能受益于 proactive 健康资源的员工”。

在幕后，一个设计师充当巫师。基于用户的请求和（模拟的）可用数据，设计师会制作一个模仿代理式AI输出的响应。对于 onboarding 计划，这涉及组装预写模板并用用户提供的细节个性化它们。对于健康资源识别，巫师会基于场景中讨论的一般指标选择一个 plausible 员工列表。

Crucially，促进者鼓励用户自然交互， asking follow-up 问题并探索系统的 perceived 能力。例如，用户可能会问，“系统还能安排初始团队介绍吗？”巫师， guided by 预定义规则和整体研究目标，会 accordingly 响应， perhaps with a “是的，我可以基于每个人的日历自动提议会议时间”（再次，模拟）。

如 recommended，我们在每个会话后向参与者汇报。我们以透明度开始，解释模拟以及我们有另一个 live 人类基于参与者所说的发布响应。开放式问题探索了初始反应和设想的使用。任务特定 probing，如“你为什么期望那个？”揭示了 underlying 假设。我们 specifically 解决了信任和控制（“多少信任…？什么级别的控制…？”）。为了理解心理模型，我们问用户认为“AI”如何工作。我们还 solicited 改进建议（“什么功能…？”）。

通过专注于用户行动和期望背后的“为什么”，这些汇报提供了丰富的定性数据， directly informed 后续设计决策， particularly 围绕透明度、人类监督和优先考虑特定、高价值用例。我们还有一个理解代理式AI的研究参与者，可以基于该理解提供额外见解。

关键见解

这项WOZ研究 yield 了几个 crucial 关于HR上下文中代理式AI用户心理模型的见解：

高估能力：一些用户最初将近乎 magical 能力归因于“AI”，期望它理解高度 nuanced 或 ambiguous 请求而无需 explicit 指令。这 highlighted 需要 clear 沟通关于系统的实际范围和限制。
信任与控制：一个 significant 主题围绕信任和控制。用户表达了对于潜在时间节省的兴奋和对 relinquishing 重要HR过程控制的焦虑。这 indicated 需要提供对AI决策 transparency 并允许人类监督的设计解决方案。
** proactive 协助的价值**：用户对AI proactive 识别潜在问题（如倦怠风险）反应 positively，但他们强调了AI提供 clear reasoning 并允许人类HR专业人士审查和批准任何建议行动的重要性。
需要具体例子：代理式AI的抽象解释 insufficient。用户通过这些与具体任务和结果的模拟交互获得了更 clear 理解。

resulting 设计更改

基于这些发现，我们做了几个关键设计决策：

强调透明度：用户界面需要 clearly 显示AI的 reasoning 和它用于做出决策的数据。
人类监督与审查：内置批准工作流对于关键行动 essential，确保HR专业人士 retain 控制。
专注于特定、高价值用例：与其尝试构建一个通用代理，我们优先考虑代理式能力提供 clear 和 demonstrable benefits 的特定用例。
教育性 onboarding：产品 onboarding 将包括 clear、具体的AI能力在行动中的例子。

探索车内系统的语音交互

在另一个项目中，我们使用WOZ方法评估用户与用于控制车内功能的语音界面的交互。我们的研究问题 focused on 语音命令对于调整气候控制、导航到兴趣点和管理媒体播放等任务的自然性和效率。

我们建立了一个带有麦克风和扬声器的汽车驾驶室模拟器。巫师， located 在相邻房间，监听用户的语音命令并触发相应的动作（通过显示器上的视觉变化和音频反馈模拟）。这使我们能够识别 ambiguous 命令、用户对语音识别的挫折区域（即使它是人类驱动的），以及在不同措辞和交互风格上的偏好， before investing 在复杂语音识别技术中。

这些例子说明了该方法在解决跨 diverse 产品类型和技术复杂性的广泛用户体验研究问题方面的 versatility 和力量。通过模拟功能，我们可以在设计过程早期获得关于用户行为和期望的 invaluable 见解， leading to 更以用户为中心和 ultimately 更成功的产品。

巫术的未来：适应新兴技术

WOZ方法，远非更简单技术时代的 relic， retains 相关性，因为我们 navigate 日益 sophisticated 和 often opaque 新兴技术。

WOZ方法的核心优势，即用人类 ingenuity 模拟复杂功能的能力，使其 uniquely 适合探索用户与仍处于 nascent 阶段的系统的交互。

“AI时代的WOZ”

考虑蓬勃发展的AI驱动体验领域。例如，研究用户与生成式AI的交互可以通过WOZ effectively 完成。巫师可以策划和呈现AI生成的内容（文本、图像、代码）以响应用户提示，允许研究人员评估用户对质量、相关性和信任的 perceptions，而无需 fully trained 和 integrated AI模型。

类似地，对于个性化推荐系统，人类可以基于用户的 stated 偏好和 observed 行为模拟推荐，在算法开发之前收集关于此类建议的 perceived 准确性和 helpfulness 的宝贵反馈。

甚至 autonomous 系统，看似 human control 的 antithesis，也可以受益于WOZ研究。通过模拟特定场景中的 autonomous 行为，研究人员可以探索用户舒适水平，识别可解释性需求，并理解用户可能希望如何与此类系统交互或覆盖它们。

虚拟与增强现实

沉浸式环境如虚拟和增强现实 presents 用户体验研究的新