Chain-of-Table：在推理链中演化表格以实现表格理解

2024年3月11日
Zilong Wang（学生研究员）与Chen-Yu Lee（研究科学家，云AI团队）

我们提出一个框架来解决表格理解任务，通过训练大语言模型（LLM）逐步勾勒其推理过程，迭代更新给定表格以反映思维过程的每个环节。这使得LLM能够将表格转换为更简单、更易管理的片段，从而深入理解和分析表格的每个部分。

快速链接

论文
[分享]

人们每天使用表格以结构化、易于访问的格式组织和解释复杂信息。由于表格的普遍存在，对表格数据的推理长期以来一直是自然语言处理（NLP）的核心课题。该领域的研究人员旨在利用语言模型帮助用户基于表格回答问题、验证陈述和分析数据。然而，语言模型是在大量纯文本上训练的，因此表格数据固有的结构化特性可能难以被语言模型完全理解和利用。

最近，大语言模型（LLM）通过生成可靠的推理链，在各种自然语言理解（NLU）任务中取得了出色表现，如Chain-of-Thought和Least-to-Most所示。然而，LLM最适合对表格数据进行推理的方式仍然是一个悬而未决的问题。

在《Chain-of-Table: Evolving Tables in the Reasoning Chain for Table Understanding》中，我们提出了一个框架来解决表格理解任务，通过训练LLM逐步勾勒其推理过程，迭代更新给定表格以反映思维过程的每个环节，类似于人们解决基于表格的问题的方式。这使得LLM能够将表格转换为更简单、更易管理的片段，从而深入理解和分析表格的每个部分。这种方法带来了显著改进，并在WikiTQ、TabFact和FeTaQA基准测试中实现了新的最先进结果。下图显示了所提出的Chain-of-Table方法及其他方法的高级概述。

Chain-of-Table方法对比

给定一个复杂表格，其中自行车手的国籍和姓名位于同一单元格中：

(a) 通用多步推理无法提供正确答案
(b) 程序辅助推理生成并执行程序（如SQL查询）以提供答案，但在准确解决问题方面存在不足
(c) Chain-of-Table迭代采样操作链，有效将复杂表格转换为专门针对问题定制的版本

Chain-of-Table方法

在Chain-of-Table中，我们使用上下文学习指导LLM迭代生成操作并更新表格，以表示其对表格数据的推理链。这使得LLM能够根据先前操作的结果动态规划下一个操作。表格的持续演化形成一个链，为给定问题提供了更结构化和清晰的推理过程表示，并使LLM能够做出更准确和可靠的预测。

例如，当被问及"哪位演员获得最多的NAACP形象奖？“时，Chain-of-Table框架提示LLM生成反映表格推理过程的表格操作。它首先识别相关列，然后基于共享内容聚合行，最后重新排序聚合结果以生成明确回答所提问题的最终表格。

这些操作将表格转换以与所呈现的问题对齐。为了在大型表格上平衡性能与计算成本，我们根据表格行的子集构建操作链。同时，逐步操作通过显示表格操作的中间结果揭示了底层推理过程，促进了增强的可解释性和理解。

Chain-of-Table包含三个主要阶段。在第一阶段，它指导LLM通过上下文学习动态规划下一个操作。具体而言，提示包含三个组件，如下图所示：

问题Q：“哪个国家有最多的自行车手进入前三名？”
操作历史链：f_add_col(Country)和f_select_row(1, 2, 3)
最新中间表格T：转换后的中间表格

通过在提示中提供三元组（T, Q, chain），LLM可以观察先前的表格推理过程，并从操作池中选择下一个操作以逐步完成推理链。

Chain-of-Table操作选择示意图

Chain-of-Table从操作池中采样下一个操作并生成操作参数的图示。

(a) Chain-of-Table从操作池中采样下一个操作
(b) 它将选定的操作作为输入并生成其参数

确定下一个操作f后，在第二阶段，我们需要生成参数。如上所述，Chain-of-Table在提示中考虑三个组件，如图所示：(1) 问题，(2) 选定的操作及其所需参数，以及(3) 最新的中间表格。

例如，当选择操作f_group_by时，它需要一个标题名称作为参数。LLM在表格中选择合适的标题。配备选定的操作和生成的参数后，Chain-of-Table执行操作并为后续推理构建新的中间表格。

Chain-of-Table迭代前两个阶段以规划下一个操作并生成所需参数。在此过程中，我们创建一个操作链，作为表格推理步骤的代理。这些操作生成中间表格，向LLM呈现每个步骤的结果。因此，输出表格包含关于表格推理中间阶段的全面信息。在我们的最后阶段，我们使用此输出表格制定最终查询，并提示LLM连同问题一起提供最终答案。

实验设置

我们使用PaLM 2-S和GPT 3.5作为骨干LLM，并在三个公共表格理解基准测试上进行实验：WikiTQ、TabFact和FeTaQA。WikiTQ和FeTaQA是基于表格的问答数据集。TabFact是基于表格的事实验证基准测试。在本博客文章中，我们将重点关注WikiTQ和TabFact的结果。我们将Chain-of-Table与通用推理方法（如端到端QA、少样本QA和Chain-of-Thought）以及程序辅助方法（如Text-to-SQL、Binder和Dater）进行比较。

更准确的答案

与通用推理方法和程序辅助推理方法相比，Chain-of-Table在PaLM 2和GPT 3.5上实现了更好的性能。这归因于动态采样的操作和信息丰富的中间表格。

WikiTQ和TabFact上的理解结果

使用PaLM 2和GPT 3.5在WikiTQ和TabFact上的理解结果与各种模型的比较。

在更难问题上的更好鲁棒性

在Chain-of-Table中，更长的操作链表明问题及其相应表格的更高难度和复杂性。我们根据Chain-of-Table中的操作长度对测试样本进行分类。我们将Chain-of-Table与Chain-of-Thought和Dater进行比较，作为代表性和程序辅助推理方法。我们使用PaLM 2在WikiTQ上的结果来说明这一点。

不同操作链长度下的性能比较

Chain-of-Thought、Dater和提出的Chain-of-Table在WikiTQ上针对需要不同长度操作链的问题的性能。我们提出的原子操作显著提高了相对于通用和程序辅助推理对应方法的性能。

值得注意的是，Chain-of-Table在所有操作链长度上 consistently 超过两个基线方法，与Chain-of-Thought相比显著优势达11.6%，与Dater相比达7.9%。此外，与其他基线方法相比，Chain-of-Table的性能随着操作数量的增加而优雅下降，当操作数量从四个增加到五个时仅显示最小下降。

在更大表格上的更好鲁棒性

我们根据标记数量将WikiTQ中的表格分为三组：小型（<2000标记）、中型（2000至4000标记）和大型（>4000标记）。然后我们将Chain-of-Table与Dater和Binder进行比较，这两个最新和最强大的基线。

不同大小表格上的性能比较

Binder、Dater和提出的Chain-of-Table在WikiTQ上的小型（<2000标记）、中型（2000至4000标记）和大型（>4000标记）表格上的性能。我们观察到性能随着输入表格的增大而下降，而Chain-of-Table优雅地减弱了这种下降，实现了相对于竞争方法的显著改进。（如上所述，下划线文本表示第二佳性能；粗体表示最佳性能。）

正如预期的那样，性能随着输入表格的增大而下降，因为模型需要通过更长的上下文进行推理。然而，提出的Chain-of-Table的性能优雅地减弱，在处理大型表格时相比第二佳竞争方法实现了10%以上的显著改进。这证明了推理链在处理长表格输入方面的有效性。

结论

我们提出的Chain-of-Table方法通过利用表格结构表达基于表格推理的中间步骤，增强了LLM的推理能力。它指导LLM根据输入表格及其相关问题动态规划操作链。这种演化表格设计为提示LLM进行表格理解提供了新的见解。

致谢

这项研究由Zilong Wang、Hao Zhang、Chun-Liang Li、Julian Martin Eisenschlos、Vincent Perot、Zifeng Wang、Lesly Miculicich、Yasuhisa Fujii、Jingbo Shang、Chen-Yu Lee和Tomas Pfister进行。感谢Chih-Kuan Yeh和Sergey Ioffe的宝贵反馈。

标签： 机器智能、自然语言处理

快速链接： 论文、[分享]

其他相关文章

2025年7月10日：关系数据的图基础模型（算法与理论、机器智能）
2025年7月9日：MedGemma：我们最强大的健康AI开发开源模型（生成式AI、健康与生物科学、机器智能）
2025年6月30日：我们如何在Google地图中创建HOV特定ETA（算法与理论、数据挖掘与建模、机器智能）

链式表格推理：通过动态演化表格提升大语言模型的理解能力

本文提出Chain-of-Table框架，通过指导大语言模型逐步生成表格操作链，动态演化表格结构以提升对复杂表格数据的推理能力。该方法在WikiTQ、TabFact等基准测试中实现了最先进的性能表现，显著优于传统推理和程序辅助方法。