四字节的力量：利用Linux内核中的CVE-2021-26708

2021年2月9日

CVE-2021-26708被分配给Linux内核虚拟套接字实现中的五个竞争条件错误。我在2021年1月发现并修复了它们。在本文中，我将描述如何在x86_64架构的Fedora 33 Server上利用这些漏洞进行本地权限提升，绕过SMEP和SMAP。

今天我在Zer0Con 2021上就此主题进行了演讲（幻灯片）。

我喜欢这个漏洞利用。竞争条件可以被用来进行非常有限的内存破坏，我逐渐将其转化为对内核内存的任意读写，最终完全控制系统。这就是我将本文标题为“四字节的力量”的原因。

现在来看PoC演示视频：

漏洞

这些漏洞是由net/vmw_vsock/af_vsock.c中的错误锁定引起的竞争条件。这些竞争条件在2019年11月添加VSOCK多传输支持的提交中被隐式引入。这些提交被合并到Linux内核版本5.5-rc1中。

在所有主要的GNU/Linux发行版中，CONFIG_VSOCKETS和CONFIG_VIRTIO_VSOCKETS作为内核模块提供。当你为AF_VSOCK域创建套接字时，易受攻击的模块会自动加载：

1

vsock = socket(AF_VSOCK, SOCK_STREAM, 0);

AF_VSOCK套接字创建对非特权用户可用，不需要用户命名空间。很整洁，对吧？

错误和修复

我使用经过自定义修改的syzkaller模糊测试器。在1月11日，我看到它在virtio_transport_notify_buffer_size()中得到了一个可疑的内核崩溃。然而，模糊测试器未能重现这个崩溃，因此我开始手动检查源代码并开发重现器。

几天后，我在vsock_stream_setsockopt()中发现了一个令人困惑的错误，看起来是故意的：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11


struct sock *sk;
struct vsock_sock *vsk;
const struct vsock_transport *transport;

/* ... */

sk = sock->sk;
vsk = vsock_sk(sk);
transport = vsk->transport;

lock_sock(sk);

这很奇怪。虚拟套接字传输的指针在lock_sock()调用之前被复制到局部变量中。但是当套接字锁未被获取时，vsk->transport的值可能会改变！这是一个明显的竞争条件错误。我检查了整个af_vsock.c文件，并发现了另外四个类似的问题。

搜索git历史有助于理解原因。最初，虚拟套接字的传输不能更改，因此将vsk->transport的值复制到局部变量是安全的。后来，这些错误被提交c0cfa2d8a788fcf4（vsock：添加多传输支持）和提交6a2c0962105ae8ce（vsock：防止传输模块卸载）隐式引入。

修复这个漏洞很简单：

1
2
3
4
5
6
7


	sk = sock->sk;
	vsk = vsock_sk(sk);
-	transport = vsk->transport;
 
	lock_sock(sk);
 
+	transport = vsk->transport;

有点奇怪的漏洞披露

在1月30日完成PoC漏洞利用后，我创建了修复补丁，并向security@kernel.org进行了负责任的披露。我得到了Linus和Greg非常迅速的回复，我们确定了以下程序：

公开将我的补丁发送到Linux内核邮件列表（LKML）。
将其合并到上游并回溯到受影响的稳定树。
通过linux-distros邮件列表通知发行版此问题的安全相关性。
当发行版允许时，通过oss-security@lists.openwall.com进行披露。

第一步是有问题的。Linus决定立即合并我的补丁，没有任何披露禁运，因为补丁“看起来与我们每天做的补丁没有什么不同”。我服从了，并提议将其公开发送到LKML。这样做很重要，因为任何人都可以通过过滤未出现在邮件列表上的内核提交来找到内核漏洞修复。

在2月2日，我的补丁的第二版本被合并到netdev/net.git，然后进入Linus的树。在2月4日，Greg将其应用到受影响的稳定树。然后我立即通知linux-distros@vs.openwall.org，修复的错误是可利用的，并询问Linux发行版需要多少时间才能进行公开披露。

但我得到了以下回复：

如果补丁已提交到上游，那么问题就是公开的。

请立即发送到oss-security。

有点奇怪。无论如何，然后我在https://cve.mitre.org/cve/request_id.html请求了一个CVE ID，并在oss-security@lists.openwall.com上发布了公告。

这提出了一个问题：这个“尽快合并”程序是否与linux-distros邮件列表兼容？

作为一个反例，当我向security@kernel.org报告CVE-2017-2636时，Kees Cook和Greg通过linux-distros邮件组织了一周的披露禁运。这使得Linux发行版能够不慌不忙地将我的修复集成到他们的安全更新中，并同时发布。

内存破坏

现在让我们专注于利用CVE-2021-26708。我利用了vsock_stream_setsockopt()中的竞争条件。重现它需要两个线程。第一个调用setsockopt()：

1
2


setsockopt(vsock, PF_VSOCK, SO_VM_SOCKETS_BUFFER_SIZE,
			&size, sizeof(unsigned long));

第二个线程应该在vsock_stream_setsockopt()尝试获取套接字锁时更改虚拟套接字传输。这是通过重新连接到虚拟套接字来执行的：

1
2
3
4
5
6
7
8
9


struct sockaddr_vm addr = {
    .svm_family = AF_VSOCK,
};

addr.svm_cid = VMADDR_CID_LOCAL;
connect(vsock, (struct sockaddr *)&addr, sizeof(struct sockaddr_vm));

addr.svm_cid = VMADDR_CID_HYPERVISOR;
connect(vsock, (struct sockaddr *)&addr, sizeof(struct sockaddr_vm));

为了处理虚拟套接字的connect()，内核执行vsock_stream_connect()，它调用vsock_assign_transport()。这个函数有一些我们感兴趣的代码：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13


if (vsk->transport) {
    if (vsk->transport == new_transport)
        return 0;

    /* transport->release() must be called with sock lock acquired.
     * This path can only be taken during vsock_stream_connect(),
     * where we have already held the sock lock.
     * In the other cases, this function is called on a new socket
     * which is not assigned to any transport.
     */
    vsk->transport->release(vsk);
    vsock_deassign_transport(vsk);
}

注意，vsock_stream_connect()持有套接字锁。同时，并行线程中的vsock_stream_setsockopt()正试图获取它。很好。这就是我们触发竞争条件所需要的。

因此，在具有不同svm_cid的第二个connect()上，调用vsock_deassign_transport()函数。该函数执行传输析构函数virtio_transport_destruct()，从而释放vsock_sock.trans。此时，你可能会猜到use-after-free是这一切的走向:) vsk->transport被设置为NULL。

当vsock_stream_connect()释放套接字锁时，vsock_stream_setsockopt()可以继续执行。它调用vsock_update_buffer_size()，随后调用transport->notify_buffer_size()。这里的transport具有来自局部变量的过时值，与vsk->transport（为NULL）不匹配。

内核执行virtio_transport_notify_buffer_size()，破坏内核内存：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11


void virtio_transport_notify_buffer_size(struct vsock_sock *vsk, u64 *val)
{
    struct virtio_vsock_sock *vvs = vsk->trans;

    if (*val > VIRTIO_VSOCK_MAX_BUF_SIZE)
        *val = VIRTIO_VSOCK_MAX_BUF_SIZE;

    vvs->buf_alloc = *val;

    virtio_transport_send_credit_update(vsk, VIRTIO_VSOCK_TYPE_STREAM, NULL);
}

这里vvs是指向已在virtio_transport_destruct()中释放的内核内存的指针。struct virtio_vsock_sock的大小是64字节；这个对象位于kmalloc-64 slab缓存中。buf_alloc字段的类型是u32，位于偏移量40。VIRTIO_VSOCK_MAX_BUF_SIZE是0xFFFFFFFFUL。值*val由攻击者控制，其最低有效四字节被写入已释放的内存。

“模糊测试奇迹”

正如我提到的，syzkaller未能重现这个崩溃，我不得不手动开发重现器。但为什么模糊测试器失败？查看vsock_update_buffer_size()给出了答案：

1
2
3
4
5


if (val != vsk->buffer_size &&
  transport && transport->notify_buffer_size)
    transport->notify_buffer_size(vsk, &val);

vsk->buffer_size = val;

仅当val与当前buffer_size不同时，才调用notify_buffer_size()处理程序。换句话说，执行SO_VM_SOCKETS_BUFFER_SIZE的setsockopt()每次应使用不同的size参数调用。我使用这个有趣的技巧在我的第一个重现器中触发内存破坏（源代码）：

1
2
3
4
5
6
7


struct timespec tp;
unsigned long size = 0;

clock_gettime(CLOCK_MONOTONIC, &tp);
size = tp.tv_nsec;
setsockopt(vsock, PF_VSOCK, SO_VM_SOCKETS_BUFFER_SIZE,
			&size, sizeof(unsigned long));

这里，size值取自clock_gettime()返回的纳秒计数，并且每次竞争回合很可能不同。未经修改的上游syzkaller不会做这样的事情。syscall参数的值在syzkaller生成模糊测试输入时选择。当模糊测试器在目标上执行它时，它们不会改变。

无论如何，我仍然不完全理解syzkaller如何设法触发这个崩溃¯_(ツ)_/¯看起来模糊测试器用SO_VM_SOCKETS_BUFFER_MAX_SIZE和SO_VM_SOCKETS_BUFFER_MIN_SIZE做了一些幸运的多线程魔法，但后来未能重现它。

想法！也许添加在运行时随机化一些syscall参数的能力将使syzkaller能够发现更多像CVE-2021-26708这样的错误。另一方面，这样做也可能使崩溃重现不太稳定。

四字节的力量

这次我选择Fedora 33 Server作为利用目标，内核版本为5.10.11-200.fc33.x86_64。从一开始，我就决心绕过SMEP和SMAP。

总结一下，这个竞争条件可能导致将4字节受控值写后释放到偏移量40的64字节内核对象。这是相当有限的内存破坏。我很难将其转化为真正的武器。我将根据其开发时间线描述漏洞利用。

这些照片来自俄罗斯国家冬宫博物馆收藏的文物。我喜欢这个美妙的博物馆！

作为第一步，我开始研究稳定的堆喷洒。漏洞利用应执行一些用户空间活动，使内核在已释放的virtio_vsock_sock位置分配另一个64字节对象。这样，4字节写后释放应该破坏喷洒的对象（而不是未使用的空闲内核内存）。

我使用add_key syscall设置了一些快速的实验性喷洒。在第二次连接到虚拟套接字之后，我立即调用它几次，而并行线程完成易受攻击的vsock_stream_setsockopt()。使用ftrace跟踪内核分配器允许确认已释放的virtio_vsock_sock被覆盖。换句话说，我看到成功的堆喷洒是可能的。

我利用策略的下一步是找到一个64字节内核对象，当它在偏移量40有四个损坏的字节时，可以提供更强的利用原语。嗯…不那么容易！

我的第一个想法是采用Maddie Stone和Jann Horn的Bad Binder漏洞利用中的iovec技术。其本质是使用精心破坏的iovec对象对内核内存进行任意读写。然而，这个想法我遇到了三重失败：

64字节iovec在内核堆栈上分配，而不是堆上。
偏移量40的四个字节覆盖iovec.iov_len（而不是iovec.iov_base），因此原始方法无法工作。
这个iovec利用技巧自Linux内核版本4.13以来已经失效。出色的Al Viro在2017年6月用提交09fc68dc66f7597b杀死了它：

我们最近没有做access_ok()；我们依赖于iovec数组在创建时通过了健全性检查，并且自那以后没有任何东西破坏它。然而，这是非常非本地的，所以我们最好重新检查。

在用少量其他适合堆喷洒的内核对象进行详尽实验后，我找到了msgsnd() syscall。它在内核空间创建struct msg_msg，参见pahole输出：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10


struct msg_msg {
	struct list_head           m_list;               /*     0    16 */
	long int                   m_type;               /*    16     8 */
	size_t                     m_ts;                 /*    24     8 */
	struct msg_msgseg *        next;                 /*    32     8 */
	void *                     security;             /*    40     8 */

	/* size: 48, cachelines: 1, members: 5 */
	/* last cacheline: 48 bytes */
};

这是消息头，后面是消息数据。如果用户空间中的struct msgbuf有16字节的mtext，相应的msg_msg在kmalloc-64 slab缓存中创建，就像struct virtio_vsock_sock一样。4字节写后释放可以破坏偏移量40的void *security指针。使用security字段来打破Linux安全：讽刺本身！

msg_msg.security字段指向由lsm_msg_msg_alloc()分配的内核数据，在Fedora的情况下由SELinux使用。当msg_msg被接收时，它由security_msg_msg_free()释放。因此，破坏安全指针的前半部分（在小端x86_64上是最低有效字节）提供了任意释放，这是一个更强大的利用原语。

内核信息泄漏作为奖励

在实现任意释放后，我开始思考目标是什么——我可以释放什么？在这里，我使用了与CVE-2019-18683漏洞利用中相同的技巧。正如我之前提到的，第二次连接到虚拟套接字调用vsock_deassign_transport()，它将vsk->transport设置为NULL。这使得易受攻击的vsock_stream_setsockopt()在调用virtio_transport_send_pkt_info()后显示内核警告：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20


WARNING: CPU: 1 PID: 6739 at net/vmw_vsock/virtio_transport_common.c:34
...
CPU: 1 PID: 6739 Comm: racer Tainted: G        W         5.10.11-200.fc33.x86_64 #1
Hardware name: QEMU Standard PC (Q35 + ICH9, 2009), BIOS 1.13.0-2.fc32 04/01/2014
RIP: 0010:virtio_transport_send_pkt_info+0x14d/0x180 [vmw_vsock_virtio_transport_common]
...
RSP: 0018:ffffc90000d07e10 EFLAGS: 00010246
RAX: 0000000000000000 RBX: ffff888103416ac0 RCX: ffff88811e845b80
RDX: 00000000ffffffff RSI: ffffc90000d07e58 RDI: ffff888103416ac0
RBP: 0000000000000000 R08: 00000000052008af R09: 0000000000000000
R10: 0000000000000126 R11: 0000000000000000 R12: 0000000000000008
R13: ffffc90000d07e58 R14: 0000000000000000 R15: ffff888103416ac0
FS:  00007f2f123d5640(0000) GS:ffff88817bd00000(0000) knlGS:0000000000000000
CS:  0010 DS: 0000 ES: 0000 CR0: 0000000080050033
CR2: 00007f81ffc2a000 CR3: 000000011db96004 CR4: 0000000000370ee0
Call Trace:
  virtio_transport_notify_buffer_size+0x60/0x70 [vmw_vsock_virtio_transport_common]
  vsock_update_buffer_size+0x5f/0x70 [vsock]
  vsock_stream_setsockopt+0x128/0x270 [vsock]
...

使用gdb的快速调试会话显示，RCX寄存器包含已释放的virtio_vsock_sock的内核地址，RBX寄存器包含vsock_sock的内核地址。太好了！在Fedora上，我可以打开和解析/dev/kmsg：如果内核日志中再出现一个警告，那么漏洞利用就赢得了又一次竞争，它可以从寄存器中提取相应的内核地址。

从任意释放到use-after-free

我的利用计划是使用任意释放进行use-after-free：

释放内核警告中泄漏的内核地址处的对象。
执行堆喷洒以用受控数据覆盖该对象。
使用损坏的对象进行权限提升。

起初，我想利用任意释放针对vsock_sock地址（来自RBX），因为这是一个大结构，包含许多有趣的东西。但这没有奏效，因为它位于一个专用的slab缓存中，我无法在那里执行堆喷洒。所以我不知道在vsock_sock上利用use-after-free是否可能。

另一个选项是释放来自RCX的地址。我开始搜索一个64字节的内核对象，该对象对use-after-free有趣（例如，包含内核指针）。此外，用户空间中的漏洞利用应该以某种方式使内核将那个对象放在已释放的virtio_vsock_sock的位置。搜索符合这些要求的内核对象是一个巨大的痛苦！我甚至使用了我模糊测试器的输入语料库并自动化了该搜索。

同时，我正在学习System V消息实现的内部结构，因为我已经在这个漏洞利用中使用了msg_msg进行堆喷洒。然后我对如何在msg_msg上利用use-after-free有了洞察。

实现任意读取

System V消息的内核实现具有最大大小DATALEN_MSG，即PAGE_SIZE减去sizeof(struct msg_msg))。如果你发送更大的消息，其余

四字节的力量：深入剖析Linux内核CVE-2021-26708漏洞利用

本文详细分析了Linux内核虚拟套接字实现中的五个竞争条件漏洞CVE-2021-26708，展示了如何利用这些漏洞在Fedora 33 Server上实现本地权限提升，绕过SMEP和SMAP保护机制。