WCAG 3.0评分模型：无障碍评估的革命性转变

演进中的无障碍指南

WCAG正在演进。自1999年以来，《Web内容无障碍指南》一直以二元方式定义无障碍性：要么符合成功标准，要么不符合。但真实的用户体验很少如此简单。WCAG 3.0重新思考了这一模型——将可用性置于合规性之上，并将焦点从功能的存在转向访问质量。这是否意味着无障碍性新纪元的开始？

自1999年推出以来，WCAG塑造了我们设计和开发包容性数字产品的方式。2008年发布的WCAG 2.x系列引入了清晰的二进制技术标准：要么符合成功标准，要么不符合。虽然这种模式支持监管清晰度和可审计性，但其"全有或全无"的特性往往无法反映实际用户体验（UX）的细微差别。

随着时间的推移，技术合规性与实际可用性之间的脱节越来越难以忽视。人们以复杂且通常非线性的方式与数字系统交互：导航多步骤流程、动态内容和交互状态。在这些场景中，检查元素是否通过规则并不总能回答主要问题：用户能否真正使用它？

草案状态：雄心勃勃但仍处于演进中

WCAG 3.0于2021年初由W3C无障碍指南工作组首次作为公开工作草案发布。该草案仍在积极开发中，预计需要数年甚至数十年才能达到W3C推荐标准状态。这个延长的 timeline 反映了任务的复杂性和背后的雄心：

WCAG 3.0不仅仅是更新——它是范式转变。

与主要关注网页的WCAG 2.x不同，WCAG 3.0旨在覆盖更广泛的生态系统，包括应用程序、工具、连接设备以及语音交互和扩展现实等新兴接口。它还将自己重新命名为W3C无障碍指南（WCAG缩写保持不变），表明无障碍性不再是利基问题——它是数字世界的基线期望。

重要的是，WCAG 3.0不会立即取代2.x。两个标准将共存，符合WCAG 2.2在一段时间内仍然有效和必要，特别是在法律和政策背景下。

这种扩展不仅仅是技术性的。WCAG 3.0反映了更深层次的哲学转变：无障碍性正在从合规模式转向有效模式。

“规则本身无法捕捉系统是否真正为某人工作。这就是为什么WCAG 3.0倾向于灵活性和面向未来，旨在支持不断发展的技术和实际使用。它正式化了一个从业者长期理解的原则：

包容性设计不是为了通过测试；而是为了赋能人们。”

新结构：从成功标准到成果和方法

WCAG 2.x围绕四个基本原则——可感知、可操作、可理解和稳健（简称POUR）——以及组织成三个合规级别（A、AA、AAA）的可测试成功标准。虽然技术上精确，但这些标准通常强调实施而非影响。

WCAG 3.0将这种结构重新定位到用户需求和实际成果上。其层次结构建立在：

指南：与特定用户需求相关的高级无障碍目标
成果：可测试的、以用户为中心的陈述（例如"用户有时基于媒体的替代方案"）
方法：技术特定或无关的技术，帮助实现成果，包括代码示例和测试说明
操作指南：提供实用建议、用户上下文和设计考虑的叙述性文档

这种转变不仅仅是组织性的。它反映了将技术实施与用户体验对齐的更深层次承诺。成果说的是能力的语言，这是关于用户应该能够做什么（而不仅仅是技术存在）。

关键的是，成果也是合规评分开始形成的地方。例如，想象一个电子商务网站的结账流程。在WCAG 2.x下，如果结账表中即使一个字段缺少标签，整个过程可能完全无法通过AA合规。然而，在WCAG 3.0下，同一流程可能跨多个成果（如键盘导航、表单标签、焦点管理和错误处理）进行评估，每个成果获得单独分数。如果大多数区域得分良好但错误消息处理较差，总体评级可能是"良好"而不是"优秀"，提示有针对性的改进而不否定整个流程的无障碍性。

从二进制检查到分级评分

WCAG 3.0引入了反映无障碍支持程度的评分模型，而不是依赖通过或失败的结果。这种转变使团队能够认识到部分成功并优先考虑真正的改进。

评分工作原理

WCAG 3.0中的每个成果通过一个或多个原子测试进行评估。这些可以包括：

二进制测试：“是"和"否"结果（例如，每个图像是否有替代文本？）
基于百分比的测试：基于覆盖率的评分（例如，有多少百分比的表单字段有标签？）
定性测试：基于标准的评级判断（例如，替代文本的描述性如何？）

这些测试的结果为每个成果产生分数，通常在0-4或0-5尺度上标准化，带有如差、一般、良好和优秀等标签。这些分数然后在功能类别（视觉、移动性、认知等）和用户流程中聚合。

这使团队能够衡量进展，而不仅仅是合规性。一个产品随着时间的推移从"一般"改进到"良好"显示了真正的进化——这在WCAG 2.x中是不存在的概念。

关键错误：平衡机制

为确保严重性仍然重要，WCAG 3.0引入了关键错误，这些是高影响的无障碍故障，可以覆盖原本积极的分数。

例如，考虑结账流程。在WCAG 2.x下，单个缺失标签可能导致整个流程无法通过合规。然而，WCAG 3.0评估多个成果——如表单标签、键盘访问和错误处理——每个都有自己的分数。小问题，如不清楚的错误消息或可选字段上缺失的标签，可能会将评级从"优秀"降低到"良好”，而不使整个体验无效。

但如果用户无法完成核心操作，如提交表单、进行购买或登录，则构成关键错误。这些故障直接阻止任务完成并显著降低总体分数，无论其余体验多么完善。

另一方面，非必要功能的问题——如上传个人资料图片或更改主题颜色——被视为影响较低，在评估中不会那么重要。

合规级别：青铜、白银、黄金

WCAG 3.0提出了三个不同的合规层级，而不是按A级、AA级和AAA级分类合规性：

青铜：新的最低标准。相当于WCAG 2.2 AA级，但基于评分和基础成果。要求被认为可通过自动化和指导性手动测试实现。
白银：更高的标准，需要更广泛的覆盖、更高的分数和残疾人的可用性验证。
黄金：最高层级。代表示范性的无障碍性，可能需要包容性设计流程、创新和广泛的用户参与。

与WCAG 2.2中AAA级通常被视为理想化且不一致不同，这些级别旨在激励进步。它们也可以在范围内，团队可以声称结账流程、移动应用程序或特定功能的合规性，允许迭代改进。

现在应该做什么

虽然WCAG 3.0仍在开发中，但其方向是明确的。也就是说，重要的是要承认指南预计不会在几年内最终确定。团队可以通过以下方式准备：

继续追求WCAG 2.2 AA级。它仍然是最强大、公认的标准。
熟悉WCAG 3.0草案，特别是成果和评分模型。
开始以成果思考。专注于用户需要完成什么，而不仅仅是什么功能存在。
将无障碍性嵌入工作流程。左移。不要在最后测试——设计和构建时考虑访问。
早期并定期让残疾用户参与。

这些实践不仅会使您的产品更具包容性；它们将使您的团队在WCAG 3.0下表现出色。

潜在缺点

尽管WCAG 3.0向更全面的无障碍性迈出了大胆的一步，但几个结构性风险值得早期关注，特别是对于 navigating 监管、扩展设计系统或构建可持续无障碍实践的组织。重要的是，许多这些风险是相互关联的：一个领域的挑战可能放大其他领域的问题。

主观评分

从二进制通过或失败标准转向评分评估引入了主观解释的空间。没有标准化校准，相同的用户流程可能因评估者不同而获得不同的分数。这使得可比性和可重复性更加困难，特别是在采购或多供应商环境中。一个简单的替代文本可能被一个团队评为"足够"，而被另一个团队评为"不清楚"。

降低合规清晰度

同样的主观性导致第二个担忧：清晰合规阈值的侵蚀。评分评估用更灵活但不太明确的结果取代了"合规"或"不合规"的二进制清晰度。这可能使法律执行、合同定义和审计报告复杂化。在实践中，一个产品可能获得"良好"评级，同时仍然为某些用户呈现关键可用性差距，在分数和实际访问之间造成脱节。

法律和政策不对齐

随着合规清晰度的模糊，与现有法律框架的对齐也变得模糊。许多现行法律明确引用WCAG 2.x及其A、AA和AAA级别（例如《1973年康复法案》第508条、欧洲无障碍法案、《公共部门机构（网站和移动应用程序）（第2号）无障碍条例2018》）。

在WCAG 3.0正式映射到这些标准之前，其在受监管环境中的使用可能引入风险。在医疗保健、金融或公共部门运营的团队在过渡期间可能需要维持双重合规策略，增加成本和复杂性。

最低可行无障碍性的风险

也许最令人担忧的是，这种模糊性可能为"最低可行无障碍性"心态奠定基础。评分模型可能鼓励"青铜就足够"的思维，特别是在截止日期驱动的环境中。团队一旦达到通过分数可能会降低改进的优先级，即使基本障碍仍然存在。

例如，一个具有强大键盘支持但缺少音频转录的移动应用程序仍然可以通过层级，使一些用户被排除在外。

结论

WCAG 3.0标志着无障碍性的新时代——一个更好地反映真实用户多样性和复杂性的时代。通过从清单转向评分评估，从 rigid 技术合规转向实际可用性，它鼓励团队优先考虑现实世界的影响而不是理论完美。

正如有人所说，“不是关于分数。而是关于谁能使用产品。“根据我自己的经验，我看到团队花费数小时修复小颜色对比问题，同时忽略损坏的键盘导航，使屏幕阅读器用户无法完成基本任务。WCAG 3.0对成果的关注提醒我们，无障碍性从根本上说是关于功能和包容。

同时，WCAG 3.0提出的评分模型引入了新的责任。没有清晰的校准、更强的执行模式以及远离"足够好"的文化转变，我们可能会失去使WCAG 2.x可执行和可操作的清晰度。灵活性的承诺只有在我们用它来瞄准更高目标而不是更早满足时才有效。

“对于跨设计、开发和产品领导的团队，这种转变是重新思考成功意味着什么的机会。无障碍性不是为了勾选框——而是为了赋能人们。