virat举了个例子来方便理解DeepSeek的GRPO:组相对策略优化算法:

又仁看科技 2025-02-01 10:17:37

virat举了个例子来方便理解DeepSeek的GRPO: 组相对策略优化算法:

问题:“2 + 3等于多少?”

🌟步骤1:大语言模型生成三个答案。

1. “5”

2. “6”

3. “2 + 3 = 5”

🌟步骤2:为每个答案打分。

“5” → 1分(正确,但没有推理过程)

“6” → 0分(错误)

“2 + 3 = 5” → 2分(正确,并且有推理过程)

🌟步骤3:计算整个组的平均分数。

平均分数 = (1 + 0 + 2) / 3 = 1

🌟步骤4:将每个答案的分数与平均分数进行比较。

“5” → 0 (等于平均分)

“6” → -1 (低于平均分)

“2 + 3 = 5” → 1 (高于平均分)

🌟步骤5:强化大语言模型以偏好更高的分数。

偏好像 3这样的回答(积极)

保持像 1这样的回答(中性)

避免像 2这样的回答(消极)

这个过程会重复进行,使模型能够随着时间推移不断学习和改进。

0 阅读:19
又仁看科技

又仁看科技

感谢大家的关注