McSema预览：x86到LLVM比特码转换框架

2014年6月28日，Artem Dinaburg和Andrew Ruef将在REcon 2014会议上介绍名为McSema的项目。McSema是一个将x86二进制文件转换为LLVM比特码的框架。这种转换与编译器内部发生的过程相反：编译器将LLVM比特码转换为x86机器码，而McSema则将x86机器码转换回LLVM比特码。

为什么需要这样的转换？

我们之所以进行这种看似疯狂的操作，是因为我们想要分析现有的二进制应用程序，而对LLVM比特码进行推理比x86指令要容易得多。不仅推理更容易，而且操作和将比特码重新定位到不同架构也更为简便。现在，许多为LLVM比特码编写的程序分析工具（如KLEE、PAGAI、LLBMC）都可以用于现有应用程序。此外，在保持原始应用程序功能的同时，以复杂方式转换应用程序变得简单得多。

McSema将LLVM程序分析和操作工具的世界带到了二进制可执行文件中。虽然还有其他x86到LLVM比特码转换器，但McSema具有几个优势：

McSema将控制流恢复与翻译分离，允许使用自定义控制流恢复前端
McSema支持FPU指令
McSema是开源的，采用宽松许可证
McSema有文档记录，可以工作，并在REcon演讲后不久即可使用

翻译挑战：以timespi函数为例

本文将预览McSema，并研究将一个使用浮点运算的简单函数从x86指令转换为LLVM比特码的挑战。我们将转换的函数名为timespi，它接受一个参数k并返回k * PI的值。

1
2
3
4


long double timespi(long double k) {
    long double pi = 3.14159265358979323846;
    return k*pi;
}

当使用Microsoft Visual Studio 2010编译时，汇编代码如下图所示（IDA Pro截图）。

使用McSema转换为LLVM比特码后重新生成为x86二进制文件，汇编代码看起来有很大不同。新代码明显更大，下面我们将解释原因。

翻译背景

McSema将x86指令建模为对寄存器上下文的操作。也就是说，有一个寄存器上下文结构包含所有寄存器和标志，指令语义表示为结构成员的修改。这个概念通过简化的伪代码示例最容易理解。例如，ADD EAX, EBX操作将被翻译为context[EAX] += context[EBX]。

翻译困难

现在让我们看看为什么像timespi这样的小函数会带来严重的翻译挑战：

PI值从数据段读取

控制流恢复必须检测到第一个FLD指令引用数据，并正确识别数据大小。McSema将控制流恢复与翻译分离，因此可以通过IDAPython脚本利用IDA的优秀CFG恢复功能。

需要支持x86 FPU寄存器、FPU标志和控制位

FPU寄存器与整数寄存器不同。整数寄存器（EAX、ECX、EBX等）是命名且独立的。引用EAX的指令总是引用寄存器上下文中的相同位置。

FPU寄存器是8个数据寄存器（ST(0)到ST(7)）的堆栈，由TOP标志索引。引用ST(i)的指令实际上引用寄存器上下文中的st_registers[(TOP + i) % 8]。

整数寄存器仅由寄存器内容定义。FPU寄存器部分由寄存器内容定义，部分由FPU标记字定义。FPU标记字是一个位图，定义浮点寄存器的内容是：

有效（即正常浮点值）
零值
特殊值（如NaN或Infinity）
空（寄存器未使用）

要确定FPU寄存器的值，必须同时查阅FPU标记字和寄存器内容。

需要至少支持FLD、FSTP和FMUL指令

实际指令操作（如加载、存储和乘法）相对容易支持。困难的部分是实现FPU执行语义。

例如，FPU存储有关FPU指令的状态信息，如：

最后指令指针：最后执行的FPU指令的位置
最后数据指针：FPU指令的最新内存操作数的地址
操作码：最后执行的FPU指令的操作码

这些概念中有些比其他的更容易翻译到LLVM比特码。存储最后内存操作数的地址翻译得很好：如果翻译的指令引用内存，则将内存地址存储在寄存器上下文的最后数据指针字段中。其他概念根本不翻译。例如，当单个FPU指令被翻译成多个LLVM操作时，“最后指令指针"意味着什么？

自引用状态并不是翻译困难的终点。FPU标志（如精度控制和舍入控制标志）影响指令操作。精度控制标志影响算术操作，而不是存储寄存器的精度。因此，可以通过FLD将双扩展精度值加载到ST(0)和ST(1)中，但FMUL可能在ST(0)中存储单精度结果。

翻译步骤

现在我们已经探讨了翻译的困难，让我们看看仅翻译timespi核心FMUL指令所需的步骤。IA-32软件开发手册将此FMUL实例定义为"将ST(0)乘以m64fp并将结果存储在ST(0)中”。以下是将FMUL翻译为LLVM比特码所需的一些步骤：

检查ST(0)的FPU标记字，确保其不为空
读取TOP标志
从st_registers[TOP]读取值。除非FPU标记字说该值为零，否则只读取零
加载m64fp指向的值
进行乘法运算
检查精度控制标志。根据需要调整结果的精度
将调整后的结果写入st_registers[TOP]
更新ST(0)的FPU标记字以匹配结果。也许我们乘以了零？
更新寄存器上下文中的FPU状态标志。对于FMUL，这只是C1标志
更新最后的FPU操作码字段
我们的指令引用数据了吗？确实引用了！将最后的FPU数据字段更新为m64fp
跳过更新最后的FPU指令字段，因为它目前并不真正映射到LLVM比特码…

对于单个指令来说，这是很多工作，而且列表还不完整。除了翻译原始指令的工作外，还需要在函数入口和退出点、外部调用以及地址被获取的函数上采取额外步骤。这些额外细节将在REcon演讲中涵盖。

结论

翻译浮点操作是一项棘手且困难的工作。看似简单的浮点指令隐藏了许多操作，并翻译成大量的LLVM比特码。翻译后的代码很大，因为McSema暴露了浮点操作的隐藏复杂性。考虑到目前还没有尝试优化指令翻译，我们认为当前的输出相当不错。

要更详细地了解McSema，请参加Artem和Andrew在REcon的演讲，并继续关注Trail of Bits博客以获取更多公告。

编辑：McSema现在是开源的。请参阅我们的公告以获取更多信息。

深入解析McSema：将x86二进制转换为LLVM比特码的技术突破

本文详细介绍了McSema框架如何将x86二进制代码转换为LLVM比特码，重点探讨了浮点运算指令的转换挑战，包括FPU寄存器建模、控制流恢复和复杂语义转换等关键技术实现细节。