提升多语言AI代码生成准确性的新技术

研究人员开发出一种创新技术,通过顺序蒙特卡洛方法引导大语言模型生成符合编程语言规范且无错误的代码。该方法显著提升计算效率,让小模型在代码准确性上超越大模型,适用于Python、SQL查询、分子结构和机器人规划等多个领域。

提升多语言AI生成代码准确性的新技术

一种新技术能自动引导大语言模型(LLM)生成符合所用编程语言或其他格式规则的输出。

程序员现在可以更快速地使用大语言模型生成计算机代码。但只有当代码遵循编程语言规则且不会导致计算机崩溃时,才能真正提高程序员的效率。现有的一些方法可确保LLM符合所生成文本的语言规则,但许多方法要么扭曲模型的本意,要么过于耗时而难以处理复杂任务。

某机构和其它机构的研究人员开发出新方法,能自动引导LLM生成符合相关语言(如特定编程语言)规则且无错误的文本。该方法让LLM将精力集中在最可能有效和准确的输出上,同时及早丢弃没有希望的输出。这种概率方法提高了计算效率。

由于这些效率提升,研究人员的架构让小型LLM在多个实际应用场景(包括分子生物学和机器人技术)中生成准确、结构正确的输出时,性能超越了更大的模型。

从长远来看,这种新架构可以帮助非专业人士控制AI生成的内容。例如,它可以让商务人士仅使用自然语言提示来编写复杂的SQL(一种用于数据库操作的语言)查询。

“这项工作的影响超出了研究范围。通过确保AI生成的输出既实用又正确,它可以改进编程助手、AI驱动的数据分析和科学发现工具,”该框架论文的共同第一作者、某机构研究生若昂·洛拉表示。

强制执行结构和意义

控制LLM生成结构化文本的一种常见方法是检查整个输出(如计算机代码块),以确保其有效且能无错误运行。否则,用户必须重新开始,消耗计算资源。

另一方面,程序员可以中途停下来检查输出。虽然这可以确保代码符合编程语言且结构有效,但逐步修正代码可能会导致其偏离用户的意图,长期来看会损害其准确性。

“强制执行结构比强制执行意义容易得多。我们可以快速检查某些内容是否使用了正确的编程语言,但要检查其含义,必须执行代码。我们的工作也涉及处理这些不同类型的信息,”洛拉说。

概率方法提升效率

研究人员的方法涉及将知识工程化到LLM中,以引导其朝向最有希望的输出。这些输出更可能遵循用户定义的结构约束,并具有用户意图的含义。

“我们并非试图训练LLM来做这件事。相反,我们将专家拥有的某些知识工程化,并将其与LLM的知识相结合,这提供了与深度学习中所见截然不同的扩展方法,”共同资深作者维卡什·曼辛卡补充道。

他们使用称为顺序蒙特卡洛的技术实现这一点,该技术使LLM的并行生成能够相互竞争。模型根据输出的前景如何,动态地将资源分配给不同的并行计算线程。

每个输出都被赋予一个权重,代表其在结构上有效和语义上准确的可能性。在计算的每个步骤中,模型专注于那些权重较高的输出,并丢弃其余输出。

从某种意义上说,这就像LLM有一位专家在旁指导,确保其在每个步骤中做出正确的选择,同时保持对整体目标的关注。用户指定所需的结构和含义,以及如何检查输出,然后研究人员的架构引导LLM完成其余工作。

“我们已经解决了复杂的数学问题,因此对于任何你想纳入的约束类型,你都将获得适当的权重。最终,你会得到正确的答案,”洛拉说。

提升小模型性能

为了测试他们的方法,他们将框架应用于 tasked with generating four types of outputs 的LLM:Python代码、SQL数据库查询、分子结构和机器人要遵循的计划。

与现有方法相比,研究人员的方法在需要更少计算的情况下表现更准确。

例如,在Python代码生成中,研究人员的架构使一个小的开源模型的性能超过了专门的大型商业闭源模型,后者的大小是其两倍多。

“我们非常兴奋能够让这些小模型发挥远超其体量的性能,”洛拉说。

展望未来,研究人员希望使用他们的技术来控制更大的生成文本块,而不是一次处理一小部分。他们还希望将他们的方法与学习相结合,以便在控制模型生成的输出时,模型学会更加准确。

从长远来看,这个项目可能对非技术用户有更广泛的应用。例如,它可以与自动化数据建模系统以及生成式数据库查询系统相结合。

这种方法还可以实现机器辅助的数据分析系统,用户可以与软件进行对话,该软件能准确建模数据的含义和用户提出的问题,曼辛卡补充道。

“语言学的基本问题之一是如何将单词、短语和句子的含义建立在世界模型中,解释含义和指代中的不确定性和模糊性。LLM预测可能的标记序列,并不能解决这个问题。我们的论文表明,在狭窄的符号领域内,从单词映射到基于基础含义的分布在技术上是可行的。这是朝着认知科学、语言学和人工智能中更深层次问题迈出的一小步,这些问题需要理解机器如何像我们一样关于世界进行交流,”奥唐奈说。

这项研究部分由某项目、某机构智能探索项目和某研究机构资助和支持。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计