Erlo

GSPO

2025-10-13 15:30:28 发布   10 浏览  
页面报错/反馈
收藏 点赞

暂时无法在飞书文档外展示此内容

Toy实验现象

问题引出

  • Grpo的loss函数中token-level的重要性采样的ratio会导致较大的训练梯度noise

  • 在长序列的情况下,clip的机制会加一步累积noise的方差

token-level的IS ratio方差大,不稳定

方法设计

  1. Sequence-Level IS Ratio

仅计算一个sequence的IS ratio,这里使用的是seqeunce ratio在长度上的逆次方,主要是normalize的作用。

进而将sequence ratio的量级->token ratio的量级

  1. Token-Level GSPO

是sequence-level的一般式,针对token-advantage不同的场景(PPO)

token-level IS ratio:sequence IS ratio数值* token IS ratio的方向(反向的梯度)

前向传播:每个token的IS ratio的数值是一样的,都是sequence-level ratio

反向传播:当token的A都相同时,与sequence-level GSPO相同,

实验结果

GSPO裁剪token的数量更多(因为是一整个sequence的clip),但acc更高

节省flops计算资源,效果更好

得出结论

GSPO解决了GRPO中重要性采样粒度与Advantage粒度不对齐的问题

通过clip更多的token,减少反向传播的计算量,并提高了acc

疑问

Q:如何选取gspo的clip的上下界,sequence IS ratio 可以看作是token IS ratio的正则化,那么偏差确实会小一些,论文给出的是【3e-4,4e-4】,原始的grpo是【0.2,0.27】。

为什么一个right clip大,一个right clip小呢。。。

A: grpo中Right clip大是为了更好的探索小概率token的,但是gspo却抑制小概率sequence的探索。可能是因为sequence的normalize后稳定性很好,那么小概率的sequence大概率是不可取的,也就没有探索的必要。

登录查看全部

参与评论

评论留言

还没有评论留言,赶紧来抢楼吧~~

手机查看

返回顶部

给这篇文章打个标签吧~

棒极了 糟糕透顶 好文章 PHP JAVA JS 小程序 Python SEO MySql 确认