某中心赞助研讨会推动代码深度学习技术发展
在ICLR 2023代码深度学习研讨会(DL4C)上,某中心代码生成服务赞助展示了两项重要研究成果。该研讨会是代码深度学习领域的顶级学术会议,重点关注人机交互、评估方法、推理技术、负责任AI和开源代码AI五大方向。
多级对比学习框架
首篇论文《ContraCLM:因果语言模型的对比学习》提出创新性的多级对比学习目标。针对GPT等因果语言模型存在的表示空间局限性问题(各向异性),研究团队设计了双重优化机制:
- 序列层面:训练模型将语义相同的文本序列表示拉近,语义不同的推远
- 标记层面:强制同一输入序列中的不同标记相互分离
实验结果显示,ContraCLM在自然语言任务WikiText-103测试集上获得更高MAUVE分数,表明生成文本语义更连贯;在编程语言任务中,CodeNet代码搜索任务性能提升34%,HumanEval代码补全任务提升9-11%。
代码生成鲁棒性评估
第二篇论文《ReCode:代码生成模型的鲁棒性评估》首次构建了全面的代码生成模型鲁棒性评估基准。研究团队发现大语言模型对提示词微小变化极其敏感,例如:
- 函数命名方式从"snake_case"改为"camelCase"会导致完全不同的代码生成结果
- 单个拼写错误或同义词替换可能引发逻辑错误
ReCode基准包含30种基于真实文档字符串、函数、代码语法的自动变换方法,包括:
- 字符对顺序反转
- 同义词替换
- 虚拟代码插入(零迭代循环或恒假条件)
- 变量重命名
- 命名规范转换
该研究同时提出了针对不同提示扰动的鲁棒性评估指标,并对多种主流大语言模型进行了基准测试。
学术交流平台
本次研讨会共收录23篇论文,汇集了ServiceNow、谷歌、MIT、加州大学圣地亚哥分校、Hugging Face等机构的顶尖研究者。研讨会包含特邀演讲、专题讨论和论文口头报告等环节,为代码深度学习领域的研究者提供了重要的交流平台。