Qodo Command在SWE-bench基准测试中斩获71.2%高分,展现卓越代码生成与自动化能力

Qodo Command在SWE-bench Verified基准测试中取得71.2%的优异成绩,该测试基于真实GitHub问题和复杂代码库。文章深入解析其架构设计,包括上下文摘要、执行规划、重试机制,以及基于LangGraph的工作流和多种代理工具的实现细节。

Qodo Command在SWE-bench Verified中得分71.2%

我们兴奋地宣布,我们的CLI代理Qodo Command在SWE-bench Verified(提交待审核)上取得了71.2%的分数,这是评估AI代理在真实软件工程任务上的领先基准。

这一成就强烈表明Qodo的代理是为生产开发的现实而构建的。对于代码审查、编写测试、修复错误和生成功能等用例,我们的CLI代理超越了自动完成,提供了深思熟虑、上下文感知和高完整性的代码。

一次性、真实世界执行

大多数AI基准在孤立、简化的环境中评估代理。然而,SWE-bench Verified在混乱、复杂的真实软件工程场景中测试编码代理。SWE-bench中的每个测试用例都基于12个广泛使用的开源Python存储库中的真实GitHub问题构建。代理被给予GitHub问题以及问题打开时的代码库状态,必须像开发人员一样进行推理、规划和编辑代码,多次迭代——而不走捷径。

Qodo Command使用生产版本的Qodo Command单次运行得分71.2%——没有微调或基准特定调整——完全像任何开发人员通过运行简单安装包的方式:npm install -g @qodo/command

LLM模型灵活性与Claude合作

虽然Qodo Command设计支持所有顶级LLM,但Claude 4成为我们SWE Bench Verified结果的首选模型。得益于与Anthropic的强大合作——Qodo是一个“由Claude驱动”的解决方案,我们正在协作构建世界上最具适应性和学习导向的编码代理,利用当今最先进的语言模型之一。

我们71.2% SWE-bench成功的架构

在SWE-bench上取得高性能不是关于优化基准——而是工程Qodo Command以擅长真实世界软件工程挑战的自然结果。以下是我们架构决策如何直接贡献其性能:

上下文摘要

SWE-bench Verified在复杂的多文件代码库上测试AI,其中理解相互依赖性对成功至关重要。在这种环境中成功需要不仅仅是向LLM提供原始文件、模式匹配或自动完成。

Qodo Command通过将多层代码提炼成精确、高信号的摘要来解决这个问题——确保语言模型在每个步骤只接收最相关、结构化的上下文。这使得深度推理、准确生成和高质量审查成为可能,而不会达到上下文限制或丢失基本细节。

执行规划

Qodo的默认计划优先方法确保实施只有在用户意图的结构化分解之后才开始。我们不是匆忙行动,而是首先深入分析用户目标,然后将其分解为清晰、可操作的子任务, arranged for optimal execution。这为LLM创建了一个路线图,实现精确的任务跟踪和可靠验证。完成不仅由输出判断,而且由严格遵循原始计划判断——差距触发反馈和重试循环,直到完全对齐实现。

重试和回退机制

当工具调用失败时,Qodo代理不会停止——它们适应。系统提取错误反馈,调用LLM诊断失败,并智能调整工具参数或结构。代理被授权在需要时重试最多三次,每轮优化其调用。如果通过重试无法解决,代理转向替代策略,确保尽管初始故障,进展继续。

由LangGraph驱动

Qodo Command使用LangGraph,一个需要结构、模块化和状态管理的代理和代理工作流的框架,赋予Qodo Command模块化和速度。LangGraph启用基于图的编排,其中每个步骤是一个可配置节点。这个基础允许我们重用和扩展来自Qodo Gen(我们的IDE扩展)的经过验证的组件——包括代码分析、摘要和安全扫描——同时给我们灵活性来轻松拆分、扩展和重新利用工作流。

代理工具

Qodo Command结合代理推理与一套强大的执行工具。这些工具允许Qodo的代理更像专家开发人员操作——与真实环境交互,扫描大型代码库,并以结构化步骤思考。

  • 文件系统:用于读取、写入和编辑文件和目录的标准工具。由于即使最先进的(SOTA)LLM在使用编辑文件工具时可能产生错误,我们实现了一个回退机制,允许模糊匹配以提高工具的成功率。
  • Shell工具:像真实开发人员一样执行,Qodo代理可以与系统shell交互以运行构建脚本和linters,执行测试套件并实时验证假设。
  • Ripgrep:为了深度代码库理解,Qodo Command原生设计用于优化使用ripgrep递归搜索工具来定位大型存储库中的相关代码。
  • 顺序思考:结构化代理推理通过将任务分解为可操作步骤帮助贡献基准结果。这显示了与AI编码代理在逐步迭代中交互的重要性,以及良好结构化的票据或PRD如何产生更好的代码结果。虽然此工具默认未启用,但可以通过MCP轻松添加到任何自定义代理与Qodo Command。
  • 网络搜索:此工具已为SWE-bench运行禁用,以防止解决方案中的数据泄漏。

什么使Qodo Command在复杂代码库中卓越 代码质量

我们最近宣布了Qodo Command,它已经在改变我们在Qodo开发软件的方式。使Qodo Command独特的是我们对自动化与完整性的基础关注。以下是您可以用Qodo Command做什么:

代码完整性自动化

自推出以来,Qodo团队、我们的客户和社区贡献者一直在积极使用Qodo Command构建代理,使团队能够自动化高影响任务,如:

  • 代码审查自动化
  • 测试生成
  • 文档生成

以及更多增强代码质量的代理,您可以在Qodo Command代理存储库中探索。

用于审查代码的UI模式

代码质量不止于生成——它取决于一致、结构化的审查。这就是为什么Qodo Command包括一个专用UI模式与Qodo Merge,我们内置的高级代码审查代理。

这种集成使开发人员能够在单一、流线型流程中生成和审查代码。每个AI辅助任务都自动通过审查过程路由,检查正确性、完整性和质量——帮助团队更快交付而不降低标准。

您接下来将构建什么?

Qodo Command不是为基准构建——它是为您的生产环境构建。在SWE-bench Verified上排名全球前5的相同版本今天可用,只需一个命令:

1
npm install -g @qodo/command

使用它自动化您的代码完整性工作流,加速代码审查,并生成测试、文档和功能代码——同时保持您的团队依赖的质量标准。这是我们为自己构建并每周公开改进的CLI代理。我们才刚刚开始。不要等待,今天就开始在Qodo Command https://www.qodo.ai/products/qodo-command/

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计