GSPO-博客园

2025-10-13 15:30:28 发布 84 浏览

页面报错/反馈

已收藏点赞

暂时无法在飞书文档外展示此内容

Toy实验现象

token-level的IS ratio方差大，不稳定

仅计算一个sequence的IS ratio，这里使用的是seqeunce ratio在长度上的逆次方，主要是normalize的作用。

进而将sequence ratio的量级->token ratio的量级

是sequence-level的一般式，针对token-advantage不同的场景（PPO）

token-level IS ratio：sequence IS ratio数值* token IS ratio的方向（反向的梯度）

前向传播：每个token的IS ratio的数值是一样的，都是sequence-level ratio

反向传播：当token的A都相同时，与sequence-level GSPO相同，

GSPO裁剪token的数量更多（因为是一整个sequence的clip），但acc更高

节省flops计算资源，效果更好

GSPO解决了GRPO中重要性采样粒度与Advantage粒度不对齐的问题

通过clip更多的token，减少反向传播的计算量，并提高了acc

Q：如何选取gspo的clip的上下界，sequence IS ratio 可以看作是token IS ratio的正则化，那么偏差确实会小一些，论文给出的是【3e-4，4e-4】，原始的grpo是【0.2,0.27】。

为什么一个right clip大，一个right clip小呢。。。

A： grpo中Right clip大是为了更好的探索小概率token的，但是gspo却抑制小概率sequence的探索。可能是因为sequence的normalize后稳定性很好，那么小概率的sequence大概率是不可取的，也就没有探索的必要。

登录查看全部

参与评论