增强项目特定代码补全：通过推断内部API信息

摘要

项目特定代码补全是利用项目上下文生成准确代码的关键任务。现有最先进方法采用检索增强生成（RAG）结合大语言模型（LLM）和项目信息进行代码补全。然而，这些方法往往难以有效整合内部API信息——这对准确性至关重要，特别是在文件中未显式导入API的情况下。

为解决这一问题，提出一种不依赖导入语句推断内部API信息的方法。该方法通过构建使用示例和语义描述来扩展API表示，为LLM建立知识库以生成相关补全。同时引入ProjBench基准测试，该基准避免导入泄露并包含大规模真实项目。

在ProjBench和CrossCodeEval上的实验表明，该方法显著优于现有方法：代码精确匹配率提升22.72%，标识符精确匹配率提升18.31%。此外，将该方法与现有基线整合后，代码匹配率提升47.80%，标识符匹配率提升35.55%。

通过分析项目代码库，自动构建API使用模式示例和自然语言描述，形成结构化知识库。该方法突破传统依赖显式导入语句的限制，直接从未显式声明的代码上下文中提取API关系。

该方法特别适用于大型软件项目的代码维护和开发，能够有效处理未显式导入的API调用，提升开发效率并减少编码错误。