近日,实验室李辉副教授和腾讯工蜂合作,在IEEE/ACM International Conference on Automated Software Engineering (ASE 2023)上以《EALink: An Efficient and Accurate Pre-Trained Framework for Issue-Commit Link Recovery》为题发表了一篇利用大模型技术实现issue-commit链接预测的论文。该工作是实验室首次在ASE会议发表论文。ASE为中国计算机学会(CCF)推荐的软件工程/系统软件/程序设计语言分类A类会议,是软件工程领域最高级别的国际学术会议之一。本研究受科技创新2030—“新一代人工智能”重大项目“紧致化多模态大模型构建关键技术研究”及2021年CCF-腾讯犀牛鸟基金“基于预训练方法的代码搜索技术研究”支持。

Issue-commit链接,作为一种软件可追溯性链接,在各种软件开发和维护任务中扮演着重要的角色。然而,开发人员常因各种原因而未能对其进行标记,导致issue-commit链接往往存在大量缺失的问题。目前已有的自动链接恢复方法通常十分耗时或表现不佳。本工作提出了一个适用于issue-commit链接恢复的高效、准确的预训练模型框架EALink。为了减少模型参数,该工作从已有的代码预训练模型通过蒸馏获得学生模型。此外,为了解决现有工作中存在的忽视commit间关系及忽略更改文件与issue相关性这两个问题,本工作在EALink中引入对比学习组件,并设计了issue-code链接预测辅助任务。本工作也对于训练中生成的假链接数据不合理的问题,提出了新的负样本生成方法。本工作在收集的六个Apache 项目上进行了大量实验,结果表明EALink可以更高效、准确地恢复issue-commit链接。
该论文第一作者是信息学院计算机科学与技术系2021级硕士生张辰元,并由实验室李辉副教授(通讯作者)和纪荣嵘教授、腾讯工蜂合作者共同指导完成。