攻击硬件AES的差分故障分析

过去几个月，我一直在尝试从PlayStation Vita中提取硬件密钥。我写了一篇论文描述整个过程的技术细节，但觉得也应该写一篇更随意的博客文章。本文将作为论文的补充，更多地阐述过程和遇到的困境，而不仅仅是呈现结果。

差分故障分析(DFA)

关于差分故障分析的实用介绍，可以查看这篇关于使用DFA攻击白盒软件AES的文章。作者给出了不过于学术化的解释，并最终提供了代码（我们在攻击中使用了这些代码）。DFA的主要思想是：我们可以像对处理器一样对AES硬件进行故障攻击，但不是用它来控制代码执行，而是用它来在使用正确密钥的情况下产生错误的AES加密。由于AES是一种脆弱的算法，微小的修改会导致它以意外方式泄漏密钥信息，我们正是利用这一事实。

不幸的是，除了学术界，对AES DFA的兴趣不大。Github上的搜索结果很少，总体上我们只找到了两个严肃的AES DFA攻击实现。dfa-aes实现了一篇2009年的论文，其中在第八轮注入一个精确故障和2^32暴力破解可以得到AES-128密钥。phoenixAES（来自上述文章的作者）实现了一篇2003年的论文，需要在第八轮注入两个独立的精确故障，不需要暴力破解（尽管后来我们描述了一些修改，放宽了"精确故障"要求，并将所需的暴力破解增加到约2^8）。从2002年到2016年，还有许多其他论文描述了假设故障发生在更早轮次、更多字节受故障影响或算法其他部分的攻击。然而，我们未能找到这些论文附带的源代码。最终，我们基于phoenixAES开展的工作，尽管它不是最先进的，但因为编写代码很无聊，而且文献中的大多数改进在实践中意义不大（一小时对比五分钟是很长时间，但如果只需要做一次，编写所有代码和调试的时间会抵消收益）。

差分功耗分析(DPA)

在深入探讨我们为DFA故障注入设计的设置之前，值得先谈谈我们（失败的）对Vita进行DPA攻击的尝试，作为后续一些设计决策的背景。差分功耗分析是一种侧信道攻击，如果攻击者观察AES引擎在使用秘密密钥操作时的功耗，就有可能泄漏密钥。

为了对目标进行DPA，你需要能够精确测量芯片中的电流。一种方法是应用法拉第定律：变化的磁场会感应出电压。你可以用"磁探针"测量电流。Colin O’Flynn在Blackhat上描述了如何构建自己的磁探针，我成功构建了一个，并使其与ChipWhisperer示例目标一起工作。

不幸的是，环路的大小决定了测量的精确程度。5美元的DIY探针的环路大小几乎与整个芯片一样大，而AES引擎不到芯片总面积的1%，我们无法获得良好的信噪比。一个具有小环路尺寸的良好电流探针可能要花费数千美元，这超出了预算。测量电流的另一种方法是应用欧姆定律：通过电阻的电流变化等效于电阻两端的电压变化。这需要修改电路，在电源和目标芯片之间引入一个小电阻。

为了使用分流电阻测量，我们首先需要切断PCB中从电源到目标芯片的走线。然后将目标芯片连接到我们的定制板，该板上有一个分流电阻和一个用于测量探针的端口。我们使用外部电源为板子供电（我们本可以使用Vita自己的电源，但连接外部电源更容易）。

然而，即使使用分流电阻方法，我们也无法获得良好的信噪比。外部噪声太多（可以通过足够的工作消除），但内部噪声也太多（更难消除）。我们观察到SRAM读/写操作在AES加密期间主导了功耗轨迹（幅度大很多数量级），因此很难找到轨迹与密钥之间的任何相关性。我们确定使用我们的设置进行DPA是不可能的，因为Vita的SoC是为低功耗设计的。获得提高信噪比所需的合适设备将过于昂贵。

尽管名称相似，DPA和DFA完全不同。DPA是一种（被动）侧信道攻击，而DFA是一种（主动）故障攻击。然而，尝试DPA的所有工作并没有浪费。首先，我们获得了关于AES操作何时发生的宝贵信息。通过比较单个AES操作的轨迹与我们收集的其他轨迹（即没有AES操作或有多个AES操作），我们得出结论，AES操作发生在触发器后约250-350个周期功耗下降的地方。我们为插入分流电阻和降低测量中的信噪比而进行的PCB修改也具有双重目的，即允许更精确的故障注入。这很重要，因为之前我们是以安全处理器为目标进行故障注入（以获得代码执行），并且为了产生某种效果，进行多个周期的故障注入是可以的。然而，对于每个周期执行4次操作的AES引擎，我们需要能够引起尖锐的电压尖峰，而不会被设备的电源分配网络过滤掉。分流电阻对此有帮助。

PlayStation Vita的安全架构

Vita是索尼一款商业上失败的产品，为什么它是如此有趣的攻击目标？那些关注我博客的人可以看到，在过去的几年里，Vita占据了我的兴趣。除了想向我最喜欢被忽视的游戏机表达一些爱意，我喜欢黑客攻击Vita的技术原因是它是一个极其独特的设备，实现了很多"正确"的安全功能。

如果我们想查看内容（游戏、数据、固件、更新等）是如何解密的，我们必须查看F00D处理器，这是一个处理所有加密和安全关键任务的卫星处理器。F00D运行在一个基本上未文档化的架构上，但我们最终成功黑客了它。然而，即使黑客了F00D也不足以完全"拥有"系统。F00D代码中有许多加密密钥，但最重要的密钥，包括解密引导程序的密钥，都隐藏在硅片中，只能被我们称为Bigmac的硬件AES引擎访问。有250个这样的密钥槽。其中30个密钥被称为"元"或"主"密钥，因为Bigmac只被允许使用它们将数据加密到另一个密钥槽（即派生密钥）。不可能直接使用主密钥加密数据并查看密文。

大多数密钥槽（包括所有主密钥）在引导程序执行之前被锁定。这意味着只有引导ROM可以在Bigmac中使用它们。因此，总结路线图，在到达这一点之前我们必须黑客的是：WebKit以获得初始执行，ARM内核，ARM TrustZone，F00D内核和F00D引导ROM。从零开始，我们花了六年时间到达这一点，除了F00D引导ROM，其他都是通过软件漏洞完成的。（我们将所有知识倾注在一个社区维护的wiki中。）理性的观察者可能想知道所有这些的意义是什么。对于所有实际目的，黑客ARM内核足以越狱系统，运行自制程序和mod，以及（不幸的是）盗版游戏。然而，理性的观察者可能在CTF活动中找不到乐趣。六年前，我为自己设定了一个任意目标：获取引导程序的解密密钥。想法是，如果我们可以解密第一个可加载代码，那么索尼就无法在未来的更新中隐藏代码。后来，这个"根解密"密钥获得了名称：槽0x208（一个元密钥）。这篇文章是关于夺取那最终旗帜，这六年旅程的最后一段。

故障注入和DFA

之前，我谈到过如何使用电压故障注入在F00D安全处理器上获得启动时代码执行。DFA与之有何关系？因为大多数密钥槽在引导ROM退出到引导程序之前被锁定，我们需要在接管引导ROM后执行DFA攻击。为此，我们必须使用之前找到的相同故障注入参数对F00D重复电压故障注入攻击。之前，我们执行的载荷只是转储引导ROM，但现在它已被RPC替换，以便我们可以通过ChipWhisperer的串行接口从PC控制Bigmac。一旦这个RPC载荷运行，我们可以使用不同的触发器信号和参数执行第二次故障注入，以便在Bigmac AES中引起故障。主要任务是找到这第二组参数。一旦我们有了它们，我们可以开始收集错误的密文，通过使用RPC发送Bigmac命令，触发故障，下载错误的密文，并重复。有了足够的错误密文，最终任务是进行DFA攻击以提取密钥。

分析错误密文

为了将故障注入AES操作，我们使用RPC切换GPIO引脚并立即启动Bigmac。GPIO切换设置了一个参考点，并作为故障注入器的触发器。我们需要在触发器之后等待一定数量的周期再执行第二次故障注入。从上面的功耗轨迹我们知道，在触发器后250到350个周期之间发生AES加密。当我们在偏移240-280尝试故障注入时，我们得到错误的输出密文。然而，我们不知道哪一轮受到影响，或者状态中有多少字节被破坏。回顾一下，要使用phoenixAES，我们需要两个错误的密文，每个在第八轮有一个单字节损坏，并且两个错误的密文不相同。

为了找出周期偏移与受影响的AES轮次之间的关系，我们可以将已知密钥传递给Bigmac，并尝试加密已知明文。然后我们使用已知密钥"解密"错误的密文。在解密的每一步，我们可以将状态矩阵与解密正确密文的相同步骤的状态矩阵进行差异比较。我们可以假设状态中翻转位数最少的步骤是我们成功注入故障的步骤。为什么？因为AES通过设计确保了一种称为扩散的特性。这意味着输入中的单个位翻转平均应导致输出中一半的位翻转。AES中的每一步都试图将状态中的小变化传播到尽可能多的地方。

使用这个，我们可以在每个偏移收集许多样本错误密文，并查看每个偏移主要影响哪一轮。下面的视频展示了这个工作的过程：我们改变故障注入偏移并触发故障，然后立即分析故障以查看哪一轮受到影响以及状态中的哪些位被翻转。

此外，我们还发现，无论偏移如何，我们的大多数故障只影响一个或两个位。这比phoenixAES要求的（单字节损坏）更好。

提取密钥

使用正确的偏移，我们可以在第八轮获得故障。以高概率，我们获得1-2位翻转，并且它适用于phoenixAES的要求。然而，如果我们不幸收集了两个具有>1字节损坏的错误密文怎么办？我们确实遇到了这个问题（这并不完全基于运气）。这里"最佳"解决方案是改变故障模型。我们使用的是Piret在2003年首次提出并在phoenixAES中实现的模型。然而，后来的模型允许最多12字节的损坏（尽管有一些限制）。由于我们懒惰，不想编写大量代码，我们可以做一些次优的事情。

笨拙的DFA

这里的关键洞察是，如果我们传入两个"不符合模型"（有超过1字节损坏）的错误密文，它将返回无解。那么，我们何不尝试每一个错误密文的组合？在找到有效对之前，我们需要尝试多少？

假设概率p=0.25，我们得到一个1字节错误密文（上面的直方图显示这个估计是保守的）。我们预期收集的密文数量X在获得一个这样的密文之前遵循几何分布，且E[X]=1/p。通过期望的线性性，两个这样的密文需要m=2E[X]=2/p=8个样本。（实际上每次试验不是独立的，但这给了我们一个粗略的概念。）

如果我们有m个样本，那么我们的"暴力破解"方法需要(m选2)=O(m^2)次尝试来找到密钥。实际上，对于m⪅2^16，这种笨拙的暴力解决方案优于dfa-aes实现的2009年结果（参见开头关于DFA的部分），后者只需要在第八轮一个故障，但需要2^32暴力破解。

稍微更笨拙的DFA

如果我们能假设故障注入翻转的位是独立的，那将很好。然而，实际上情况并非如此，因为"哪个位被破坏"取决于晶体管的物理布局以及工艺变化和处理的数据。对于大约20%的槽，我们无法在第八轮获得只有一个字节损坏的错误密文。由于我们已经在对输入phoenixAES的两个错误密文进行暴力破解，一时兴起，我们还决定用每个错误密文替换正确的密文输入（对于(m选3)=O(m^3)次尝试）。像魔术一样，这奏效了，我们得到了剩余的密钥！现在，取决于你是哪种人，你可以将其视为上帝的礼物，或者你可以整夜思考为什么它奏效。证明在论文中给出，但有点技术性且不太有趣。简短的版本是，由于我们进行差分分析，如果相同的位在"正确"密文以及两个损坏的密文都被翻转，一切仍然有效。这意味着翻转位缺乏独立性实际上帮助了我们。

不过有一个缺点。我们失去了如果我们找到解，那么它将是正确的假设。对于少数槽，我们意外地破坏了两个轮次的状态，最终得到了一个稍微错误的密钥。然而，一旦我们识别出这个错误，我们能够通过假设密钥中最多有4位错误（回忆故障破坏的位数分布）然后暴力破解256^4种密钥可能被破坏的方式來恢复正确的密钥。

扩展到AES-256

到目前为止，我们只提到攻击AES-128密钥。然而，扩展到AES-256并不太困难。不是攻击第八轮，我们攻击第十二轮以获得相同的结果。但这只得到一半的密钥。要得到另一半，我们需要应用找到的轮密钥来反转一轮AES。然后我们以相同方式攻击第十一轮，结合两个轮密钥，我们可以得到完整的密钥。

主密钥

到目前为止，描述的一切都适用于非主密钥。回顾之前，我们说过主密钥不能用于直接加密内容。相反，过程涉及使用Bigmac将一些明文加密到另一个密钥槽，其中从密钥槽也无法读取。当然，解决这个问题的一种方法是执行两级DFA攻击：一个故障填充从密钥槽，然后使用从密钥槽进行m次故障以获得主密钥槽的错误密文。然而，我们没有走这条路，因为我们已经知道Bigmac中的一个硬件漏洞暴露了从密钥。

对于每个主密钥槽，我们收集大约m=100个这些从密钥"部分"的样本（为了安全）。然后我们运行Davee的工具来"破解"部分并恢复从密钥。这个从密钥是损坏的密文。然后我们进行上述相同的DFA攻击，我们也可以恢复主密钥。

对于部分破解，我们启动了一个AWS c5.18xlarge spot实例（具有72个AES-NI启用的核心），可以在大约15秒内破解一个部分（我们见过的最长仍然少于一分钟）。

结论

我们恢复了所有30个主密钥，包括槽0x208密钥。

我们还恢复了240个非主密钥中的238个。最后两个是用于全盘加密的AES XEX密钥，并且在我们能够执行RPC载荷（从eMMC加载）之前被锁定。获取它们需要额外的工作，我们发现这没有用，因为密钥是设备唯一的。

成本

这样的攻击并不像人们想象的那么昂贵。我们是业余爱好者，只在空闲时间工作，持续半年。我们没有获得任何资金或访问任何专业实验室。整个实验的总成本，从设备到板子到AWS EC2，很容易少于1000美元。大部分成本在Rigol示波器（用于调试）（400美元）和ChipWhisperer Lite（300美元）。在一个软件攻击越来越难执行，公司用硬件安全保护越来越多软件的世界里，硬件没有得到同样好的保护似乎是一个巨大的疏忽。

剩余成本主要是9块Vita主板的死亡。以下是它们的讣告：一块给出了eMMC的引脚排列，两块导致意识到3.3V eMMC会损坏SoC，一块教导了保持烙铁不过热的重要性，两块带来了探测时的谨慎，因为将相邻的1.1V核心短接到1.8V IO是不允许的，一块因切割走线上的内部金属因回流焊的热膨胀变形而短路，两块死于神秘原因。（感谢所有为这个实验捐赠备用Vita板的人。）

代码

与往常一样，本文中引用的所有工具都是公开和开源的。请查看论文以获取有关设置和实现的更多细节。

我们分叉的ChipWhisperer包含所有修改以故障注入Vita目标。
f00dsimpleserial包括RPC载荷、运行它的ChipWhisperer脚本、故障注入Bigmac和收集密文的ChipWhisperer脚本、分析脚本以及基于phoenixAES的DFA工具。
f00d-partial-buster暴力破解从部分恢复从密钥。
psvemmc和psvcw目标板用于与ChipWhisperer接口。

使用差分故障分析攻击硬件AES：PlayStation Vita密钥提取实战

本文详细介绍了如何通过差分故障分析技术攻击PlayStation Vita的硬件AES加密引擎，包括电压毛刺注入、故障密文收集和密钥恢复过程，成功提取了所有30个主密钥和238个非主密钥。