Erlo

"Leveraging Context-Aware Prompting for Commit Message Generation" 论文笔记

2025-09-22 18:30:30 发布   6 浏览  
页面报错/反馈
收藏 点赞

介绍

(1) 发表:EMNLP'24

(2) 背景

现有方法通常存在一些缺点,例如只关注变化的行是不够的,或者在变化周围包含不相关的行会带来噪声。如图 1 所示,添加和删除的代码实际上是相同的,只是位置不同,导致代码更改定义不明确。此外,由于缺乏程序依赖关系分析,更改的行和程序的未更改部分之间的关联尚不清楚

(3) 贡献

基于代码属性图(CPG)理论的许多静态分析工具,本文提出了一个上下文感知的 Prompt。同时构建了一个上下文增强的的代码数据集 CODEC 用于提交信息生成

工作

(1) CODEC 数据集

由于现有数据集缺乏对代码更改上下文的监督信号,因此我们为本文所研究的任务构建了自己的数据集

  • 收集:使用 PyDriller 在 Github 上手机至少 1000 Star 的 Java 存储库,除了源代码更改外,还记录了更改部分的上下文

  • 过滤:使用了四种过滤规则

    ① 当更改的行数较多时,大多数自动生成的注释都是不可靠的,因此超过 20 行的更改将被忽略
    ② 提交信息应有长度限制,少于 5 个单词的消息没有信息,而大于 150 个单词的消息可能会令人困惑
    ③ 仅更改 Java 文件
    ④ 删除不相关的信息,例如 issueID、commitID 和 URL

  • 优化:根据之前的研究,仅考虑提交信息的第一句话。本文还给构建了一个 Bi-LSTM 模型以进保留 Why/What 的信息

(2) COMMIT 模型

image-20250921105822773

  • 构建 Added-Deleted Context Graph:使用静态代码分析工具 Joern3 为更改前后的代码构建两个 CPG,分别用于删除的行和添加的行,保留删除或添加部分的依赖节点。通过组合两个 CPG 得到 ADCG,然后可以通过程序切片从 Diffs 中提取 ADCG 节点指示的有用上下文语句

  • 依赖提取算法:考虑到过度平滑和平衡模型复杂性和效率之间的负面影响,我们将依赖关系的范围限制在一定深度。构建的算法可以在特定深度内从 ADCG 访问更改的语句

    ADCG 中每个节点对应一条语句(或行),边表示语句之间的数据依赖或控制依赖。算法首先将变化的代码行作为初始节点集合,并基于它们构建初始的切片,然后以代码切片为工作队列,迭代地取出依赖关系:如果某个依赖片段的深度未超过预设的依赖深度,就检查其源节点或目标节点;一旦发现新的相关节点(即在依赖映射中能连接到尚未加入的节点),就将其加入依赖节点集合,并把新的依赖边加入切片中,等待后续处理。这样,依赖图会像“向外扩散”一样逐步更新。最后,算法收集所有相关节点的代码行作为结果,并将最初的变化行去除,只保留通过依赖传播得到的受影响行

(3) Prompt 设计

将每个提示扩展成四个特定的模版,每个模板都由任务提示、代码差异和基本事实提交消息组成,在实验阶段分别对 T1~T4 进行实验来验证对于提示变化方面的鲁棒性

最终的优化函数如下:

[P(S|X,f_{prompt})=sum_{xin x,zin [Z]}(maxprod_{j=1}^zP_theta(z_j|x,f_{prompt},z

实验

总而言之就是取得了 SOTA,然后验证了 Context-Rich 信息的正面提升

总结

解决了现有提交信息生成未考虑上下文依赖关系变化的问题,并且基于此提出了一个方法和数据集

登录查看全部

参与评论

评论留言

还没有评论留言,赶紧来抢楼吧~~

手机查看

返回顶部

给这篇文章打个标签吧~

棒极了 糟糕透顶 好文章 PHP JAVA JS 小程序 Python SEO MySql 确认