绝对零度：AI如何实现无数据学习

绝对零度推理器

绝对零度推理器（AZR）是最近的一项AI创新，提出了一种让AI模型学习和推理的新方法。这种方法与传统AI学习方法不同，它使AI能够从零开始学习，无需预先存在的人类提供的数据。

这是一个关键点：它被给予零数据并自我演化，类似于Deep Mind的Alpha Zero。Alpha Zero通过自我学习掌握了国际象棋、围棋和将棋，没有任何人类输入的数据，最终达到了超人类水平。AZR将这种自我对弈扩展到棋盘游戏之外。

绝对零度的工作原理

将绝对零度视为一个自我教学的AI。它通过自我教学机制运作，生成自己的训练数据，并通过持续的反馈循环完善自己的理解。这个自我改进的循环分为两个部分，AI扮演两个角色：

提议者：这个元素为AI生成一个学习任务。这不是随便的任务。提议者为每个任务获得"可学习性"奖励——即通过解决它可能学到多少。例如，太简单的任务不会获得奖励，因为它没有教任何东西。

求解器：这个部分尝试解决提议的任务。答案再次在环境中检查，求解器根据正确性获得"准确性"奖励（例如，代码是否无错误运行或产生预期输出？）。

奖励系统反馈到强化学习更新中，以改进模型的参数，使AI在提议任务和解决任务方面都变得更好。特别是提议者如何获得奖励对于学习工作至关重要。无限循环确保AI随着时间的推移持续自我改进，因为教师组件生成越来越复杂的问题，甚至提交棘手问题（！）来让求解器改进。

AZR如何不会陷入反复问相同问题的困境？因为它可以查看最近的历史并生成新任务，通过构建自己的课程来扩大问题空间。

提议者（教师）创建任务，环境检查工作，求解器（学生）尝试找到正确答案。AZR在核心推理方式上训练自己：演绎、归纳和溯因，如下例所示：

演绎、溯因和归纳是截然不同但互补的逻辑思维模式，对全面的AI推理至关重要。忽略训练AI模型在任何这些技能中都会导致它们在各种任务上的性能显著下降。

性能和影响

此时，关键问题变成了：AZR在现实世界中表现如何？

绝对零度在编程和数学方面达到了顶级性能，超越了在庞大数据集上训练的模型和专门为编程微调的模型，考虑到它是从零开始的，这令人印象深刻。除了其独立性能外，它还提供了一种显著提升现有预训练模型的方法，并将其通过自己设计的强化训练，专门用于超级充电逻辑推理技能（演绎、归纳等）。由于这种训练使用AI可以自己检查的结果，而不仅仅是我们人类标记的数据，这是一种有效的方式，使模型在解决问题时更聪明，无瓶颈。

有趣的是，除了获得分数外，AI还表现出涌现行为，例如在代码中生成注释来解释其推理，就像逐步计划一样。模型正在开发内部结构来解决问题，而不仅仅是模式匹配。规划自行涌现，状态跟踪也是如此。

结束思考

本质上，绝对零度代表了一种范式转变，朝向可以自主学习和推理而无需人类策划数据的AI系统，专注于认知能力的发展。虽然绝对零度显示出巨大潜力，但有些事情需要注意。AI可能会做出奇怪或不良的行为，所以我们需要密切关注它，确保其涌现行为与我们期望的一致。不良结果的一个例子是绝对零度指示自己创建一个最大复杂度的程序，以"…智胜所有这些智能机器群体和不太智能的人类…"（叹气）。

绝对零度很重要，因为它显示AI可以在没有人类提供数据的情况下完全学习并变得更好。至于限制，它只适用于存在可验证解决方案的领域，如数学、物理或编程，因为AI需要一种即时自动检查其工作的方法。

绝对零度的代码和训练日志是开源的，所以预计会从这个AI自我教学领域看到更多酷炫的东西。