揭秘魔法：奥兹巫师法在UX研究中的妙用

奥兹巫师法是一种经过验证的UX研究工具，通过模拟真实交互来揭示真实的用户行为。Victor Yocco探讨了其基本原理、高级技巧和关键考量，包括其在新兴的代理式AI领域的相关性。

新技术和创新概念经常进入产品开发生命周期，承诺彻底改变用户体验。然而，如果没有对用户与这些新体验交互的基本理解，即使是最巧妙的创意也面临失败风险。

以任天堂动力手套（Nintendo Power Glove）的命运为例。尽管商业上成功（售出超过100万台），但其在1989年底发布后不到一年，即在1990年停产。专为动力手套开发的两款游戏销量惨淡，且手套在任天堂已流行的传统主机游戏上用途有限。

失败很大程度上归因于用户对产品的反应——据称该产品在8周内开发完成，但笨重且不直观。用户发现将手套与特定游戏中的动作同步极其令人沮丧，因为这需要将动作编码到手套的预设动作按钮中，然后记住哪些按钮会产生哪些动作。随着任天堂WII和其他基于动作的控制台和游戏的现代成功，我们可以看到动力手套是一个超前于时代的概念。

如果动力手套的开发者希望在构建之前进行有效研究，他们需要超越传统方法（如调查和访谈），以了解用户可能如何真正与手套交互。如果没有功能原型且不拖慢整体开发过程，这该如何实现？

奥兹巫师法（Wizard of Oz method）作为一种潜在选择，是弥合抽象概念与具体用户理解之间鸿沟的有效工具。该技术模拟一个全功能系统，但由人类操作员（“巫师”） discreetly 编排体验。这使得研究人员无需完全构建产品即可收集真实的用户反应和见解。

奥兹巫师（WOZ）方法得名于Frank L. Baum的同名书籍。在书中，巫师只是一个藏在帘子后面的人，操纵着穿越奥兹国的人的现实。主人公多萝西揭露了巫师的本质， essentially 一个欺骗那些相信他全能的人的幻觉或骗子。类似地，WOZ获取当前可能存在或不存在的技术，并以应使研究参与者相信他们正在使用现有系统或工具的方式模拟它们。

WOZ能够探索用户需求、验证新生概念并减轻开发风险，特别是在复杂或新兴技术方面。

上述示例中的产品团队可能使用这种方法让用户模拟戴手套、将动作编程到手套中以及玩游戏，而无需全功能系统。这可能揭示出要求外行编码其硬件以响应游戏的不合理情况，显示在更换游戏时需要重新编码设备时的挫败感，以及物理设备上控制布局的笨拙（即使他们使用纸板手套，并在适当位置用蜡笔绘制模拟控制）。

Jeff Kelley自称（PDF）在1980年创造了WOZ方法一词，以描述他在论文中采用的研究方法。然而，Paula Roe认为Don Norman和Allan Munro早在1973年就使用该方法对机场自动旅行助手进行测试。无论该方法起源于谁，双方都同意当IBM后来使用它进行名为“听写打字机”（The Listening Typewriter）的语音转文本工具研究时，该方法获得了 prominence。

在本文中，我将介绍WOZ方法的核心原则，探索从实践经验中获取的高级应用，并通过真实世界示例（包括其在代理式AI领域的应用）展示其独特价值。UX从业者可以使用WOZ方法作为另一种工具来解锁用户见解并打造以人为本的产品和体验。

黄砖路：核心原则与机制

WOZ方法的前提是用户相信他们正在与自主系统交互，而人类巫师在幕后管理系统的响应。这个人通常远程定位（或屏外），解释用户输入并生成模拟预期功能体验的输出。

角色阵容

成功的WOZ研究涉及几个关键角色：

用户：参与他们认为的功能系统的参与者。
促进者：引导用户完成预定义任务并观察其行为和反应的研究人员。
巫师：实时操作系统行为的个人，提供对用户输入的响应。
观察者（可选）：在不直接交互的情况下观察会话的额外研究人员，允许对用户行为进行次要视角观察。

为可信度搭建舞台：离开堪萨斯州

创造令人信服的幻觉是WOZ研究成功的关键。这需要仔细规划研究环境和用户将承担的任务。考虑一项评估智能家居设备新语音命令系统的研究。研究设置可能涉及智能扬声器的物理模型和预定义场景，如“播放我最喜欢的音乐”或“调暗客厅灯光”。远程聆听的巫师随后会触发适当的响应（例如，播放歌曲，口头确认灯光已调暗）。

或者可能是基于屏幕的体验测试新的AI驱动聊天机器人。您让用户在文本框中输入命令，产品团队的另一名成员使用Figma/Figjam、Miro、Mural或其他允许多用户同时协作的基于云的软件（作者与任何提及的产品无关联）同时提供响应。

幻觉的艺术

维持真实系统的幻觉需要以下内容：

及时自然的响应：巫师必须对用户输入做出反应，延迟最小，且方式符合预期系统行为。犹豫或不自然的措辞可能打破幻觉。
一致的系统逻辑：响应应遵守预定义逻辑。例如，如果用户询问特定城市的天气，巫师应 consistently 提供准确信息。
处理意外情况：用户将不可避免地偏离计划路径。巫师必须具备适应性，以合理响应 unforeseen 输入，同时保持 perceived 功能。

伦理考量

透明度至关重要，即使在涉及一定程度欺骗的方法中。会话后应始终向参与者汇报，清楚解释奥兹巫师技术及其使用原因。必须像任何研究一样维护数据隐私，并且参与者应在整个过程中感到舒适和受尊重。

区分方法

WOZ方法在UX研究工具包中占据独特空间：

与评估现有界面的可用性测试不同，奥兹巫师在重大开发之前探索概念。
与比较产品设计变体的A/B测试不同，WOZ评估全新功能，这些功能如果向用户展示可能缺乏上下文。
与通常涉及静态模型的原型设计相比，WOZ提供动态和交互式体验，能够观察用户与模拟系统的实时行为。

该方法在探索真正新颖的交互或复杂系统时特别有价值，在这些系统中构建全功能原型为时过早或资源密集。它允许研究人员在投入重大开发工作之前回答有关用户需求和期望的基本问题。

让我们超越WOZ方法的基础方面，探索一些可以提升其有效性的更高级技巧和关键考量。

时间节省：WOZ与粗糙原型设计

询问WOZ与更粗糙的原型设计方法（如纸质原型或静态数字模型）相比是否真正节省时间是合理的。

虽然纸质原型对于基本流程和布局的创建和测试非常快速，但它们 fundamentally 缺乏动态响应能力。静态模型提供视觉保真度，但无法模拟复杂交互或个性化输出。

WOZ的真正时间节省优势出现在测试新颖、复杂或AI驱动的概念时。它允许研究人员在看似实时的环境中评估真实的用户交互和心理模型，收集更简单原型无法获得的丰富行为数据。这种模拟动态体验的保真度，即使幕后有人，通常比纯静态表示更早、更全面地揭示关键可用性或概念缺陷，最终防止开发流程中的昂贵返工。

额外技巧与考量

虽然WOZ方法的核心原则简单，但其真正力量在于细微应用和周全执行。经验丰富的从业者可能利用几种高级技巧来提取更丰富的见解并解决更复杂的研究问题。

迭代巫术

WOZ方法不一定是一次性努力。在迭代周期中采用它可以产生显著效益。初始轮次可能专注于广泛概念验证和识别基本用户反应。随后的迭代可以根据先前发现 refined 模拟功能。

例如，在初步研究显示用户对特定交互流程感到困惑后，可以调整模拟，并进行后续研究以评估这些更改的影响。这种迭代方法允许对复杂体验进行更敏捷和以用户为中心的探索。

管理复杂性

模拟复杂系统对一名巫师来说可能困难。将复杂交互分解为更小、可管理的步骤至关重要。考虑研究新软件应用程序的多步 onboarding 流程。不是一个人尝试模拟整个流程，而是可以顺序处理不同方面，甚至由多个团队成员协调他们的响应。

在这种情况下，清晰的沟通协议和明确定义的责任对于维持无缝用户体验至关重要。

超越观察衡量成功

虽然定性观察是WOZ方法的基石，但定义清晰指标可以为发现增加一层严谨性。这些指标应匹配研究目标。例如，如果目标是评估新导航模式的直观性，您可能会跟踪用户表达困惑的次数或完成特定任务所需的时间。

将这些定量测量与定性见解相结合，可以更全面地理解用户体验。

与其他方法集成

WOZ方法不是孤岛。通过将其与其他研究技术集成，可以放大其有效性。在WOZ研究之前进行用户访谈可以帮助建立对用户需求和心理模型的更深入理解，为模拟体验的设计提供信息。在WOZ研究之后，调查可以收集关于所探索概念的更广泛定量反馈。例如，在观察用户与模拟的AI驱动调度工具交互后，调查可以评估他们对这种系统的整体信任和感知有用性。

何时不使用WOZ

WOZ与所有方法一样，有局限性。其他方法可能产生更可靠发现的几种场景示例如下：

详细可用性测试：人类充当巫师无法完美复制用户将遇到的确切体验。WOZ通常最好在早期阶段使用，此时原型是粗略草案，您的团队正在寻找关于正在考虑的解决方案的指导。当您进入详细设计阶段时，在更详细的线框图或原型上进行测试比WOZ更可取。
评估具有不可预测输出的极其复杂系统：如果系统的响应极其多样，需要超出人类能力的复杂实时计算，或者意图真正不可预测，人类可能难以令人信服且一致地模拟它们。这可能导致疲劳、错误或不反映预期系统的即兴发挥，从而损害发现的有效性。

培训与准备

巫师的技能对方法的成功至关重要。培训将模拟系统的个人是必要的。此培训应涵盖：

理解研究目标：巫师需要掌握研究旨在揭示的内容。
响应一致性：在整个会话中保持一致行为对于用户可信度至关重要。
预测用户行动：虽然即兴发挥有时是必要的，但巫师应准备好常见的用户路径和潜在偏差。
保持无偏见：巫师必须避免引导用户或将他们自己的意见注入模拟。
处理意外输入：应建立处理 unforeseen 用户操作的清晰协议。这可能涉及有一套预先准备的备用响应或与促进者快速协商的机制。

所有这些表明在实际运行会话之前需要练习。我们不应忘记进行一些 dry runs，在其中我们请同事或愿意协助的人不仅参与，还思考可能难住巫师或如果在实时会话中用户提供会搞砸的可能响应。

我建议准备好可信的预备错误声明，以备用户抛出曲线球。巫师的简单响应“抱歉，我目前无法执行该任务”可能足以推动会话前进，同时捕获您的团队可以在最终产品设计中解决的潜在意外情况。

这都是一场梦吗？汇报的艺术

WOZ交互后的汇报会话是收集丰富定性数据的额外机会。除了询问“您认为如何？”之外，有效的汇报涉及分享研究目的和体验是模拟的事实。

研究人员应随后进行心理探测以理解用户行为和反应背后的原因。询问开放式问题，如“您为什么尝试那个？”或“当您点击那个按钮时期望发生什么？”可以揭示关于用户心理模型和期望的宝贵见解。

详细探索困惑、挫败或喜悦的时刻可以 uncover 设计改进的关键领域。思考如果动力手套的开发团队询问参与者编程手套并尝试记住他们编程到哪组键中的体验，可能 uncover 的潜在信息。

案例研究：真实世界应用

WOZ方法的价值在检查其在真实世界研究场景中的应用时变得明显。以下是深入审查一种场景和另一项涉及WOZ的研究的快速总结，其中该技术在塑造用户体验方面证明 invaluable。

解开代理式AI：理解用户心理模型

新兴技术领域的一个重大挑战在于用户理解。当我们的团队开始探索代理式AI用于企业HR软件的潜力时，这一点尤其明显。

代理式AI指的是可以自主追求目标的人工智能系统，通过做出决策、采取行动和适应变化环境，以最少的人类干预。与主要响应直接命令或生成内容的生成式AI不同，代理式AI旨在理解用户意图，独立规划和执行多步任务，并从其交互中学习以随时间提高性能。这些系统通常结合多个AI模型，并可以通过复杂问题推理。对于设计师来说，这标志着向创造体验的转变，其中AI更像主动协作者或助手，能够预测需求并主动帮助用户实现目标，而不是 solely 依赖显式用户指令完成每一步。

初步研究，包括调查和初始访谈，表明许多HR专业人员虽然对AI辅助的概念感兴趣，但难以掌握真正代理式系统的潜在功能和实际含义——那些能够自主行动和主动决策的系统。我们看到即使我们尝试了与当前示例的相关类比，他们对代理式AI也没有参考点。

在这个探索阶段构建全功能代理式AI原型是不切实际的。底层算法和集成复杂且耗时开发。此外，我们 risked 基于可能 flawed 关于用户需求和理解的假设构建解决方案。WOZ方法提供了解决方案。

设置

我们设计了一个场景，其中HR员工与他们认为能够自主处理某些任务的智能AI助手交互。促进者向用户呈现一个Web界面，他们可以请求协助任务，如“为新营销招聘起草个性化 onboarding 计划”或“根据最近活动识别可能受益于主动福祉资源的员工”。

幕后，一名设计师充当巫师。基于用户的请求和（模拟的）可用数据，设计师会 crafting 模仿代理式AI输出的响应。对于 onboarding 计划，这涉及组装预写模板并使用用户提供的细节个性化它们。对于福祉资源识别，巫师会根据场景中讨论的一般指标选择合理的员工列表。

关键的是，促进者鼓励用户自然交互，询问后续问题并探索系统的 perceived 能力。例如，用户可能会问，“系统还能安排初始团队介绍吗？”巫师在预定义规则和整体研究目标的指导下，会相应响应， perhaps 带有“是的，我可以根据每个人的日历自动提议会议时间”（再次，模拟）。

如 recommended，我们在每个会话后向参与者汇报。我们以透明度开始，解释模拟以及我们有另一个真人根据参与者所说的发布查询响应。开放式问题探索初始反应和设想用途。任务特定探测，如“您为什么期望那个？”揭示了底层假设。我们 specifically 解决信任和控制（“多少信任…？什么控制水平…？”）。为了理解心理模型，我们询问用户认为“AI”如何工作。我们还征求改进建议（“什么功能…？”）。

通过专注于用户行动和期望背后的“为什么”，这些汇报提供了丰富的定性数据，直接为后续设计决策提供信息，特别是围绕透明度、人类监督和优先排序特定高价值用例。我们还