virat举了个例子来方便理解DeepSeek的GRPO:组相对策略优化算法：

又仁看科技 2025-02-01 10:17:37

virat举了个例子来方便理解DeepSeek的GRPO: 组相对策略优化算法：

问题：“2 + 3等于多少？”

🌟步骤1：大语言模型生成三个答案。

1. “5”

2. “6”

3. “2 + 3 = 5”

🌟步骤2：为每个答案打分。

“5” → 1分（正确，但没有推理过程）

“6” → 0分（错误）

“2 + 3 = 5” → 2分（正确，并且有推理过程）

🌟步骤3：计算整个组的平均分数。

平均分数 = (1 + 0 + 2) / 3 = 1

🌟步骤4：将每个答案的分数与平均分数进行比较。

“5” → 0 （等于平均分）

“6” → -1 （低于平均分）

“2 + 3 = 5” → 1 （高于平均分）

🌟步骤5：强化大语言模型以偏好更高的分数。

偏好像 3这样的回答（积极）

保持像 1这样的回答（中性）

避免像 2这样的回答（消极）

这个过程会重复进行，使模型能够随着时间推移不断学习和改进。

0 阅读：19

又仁看科技

感谢大家的关注

作者最新文章

尊界S800上春晚虽然买不起豪车，不过看豪车评测还挺有意思，各种小细节，有时

一张图看linux启动过程。制图:bytebytego步骤 1 - 开机后，BI

前OpenAI大神Andrej Karpathy 对DeepSeek R1的推文

卡内基梅隆大学（CMU）在2025年春季开设的一门公开课——“Machine L

虚假的AI炒股：收集各种股市数据，训练模型，预测股市走向，然后赔本真实的AI炒股

发几本经典的项目供大家打发时间。之前其实都发过，这里做个汇总，从基础到往AI方向

开源硬件 OpenHaystack，创建自己的 AirTag 并接入苹果的 F

Linux内核教程linux-kernel-labs.github.io内容涵盖

[笑cry]deepseek在推上是被越传越离谱了..

第一次见deepseek这个提示。看来用户增长的速度还是超出他们预期了……

热门分类

推荐热榜军事 NBA 体育社会明星八卦娱乐财经科技汽车历史国际游戏动漫公益搞笑商业互联网数码国际足球房产家居时尚科学探索职场育儿股票教育影视情感热点中国军情武器中国南海中国足球亚洲杯科比综合体育 CBA 投资楼市大咖秀外汇创业风口 SUV 豪车概念车优惠新能源美国欧洲朝日韩俄罗斯孕期街拍恋爱攻略婚姻正能量

科技TOP

荣耀和华为放一起对比，看看硬件配置。

这是什么手机，这么圆？？

二选一的话，必须小米，一秒钟都不用犹豫

有点想换手机的冲动了

据网友爆料，广东湛江deepseek创始人梁文峰，除夕回乡过年，家乡人拉横幅

我要有刘强东那实力，我也娶个这样的……

马斯克前女友当年的颜值真的是顶级啊！难怪连马斯克都被她拒绝了好几次！

我裸奔iPhone16ProMax了几天，发现屏幕好像变得越来越滑了，

荣耀总裁赵明离职果然无风不起浪，辟谣了半天今天实锤了！赵明离职正式官宣，主要

曾经熟悉的手机品牌

【#英特尔对DeepSeek进行深度优化#】美国科技巨头正积极拥抱DeepSee

曾经熟悉的手机品牌

估计华为公关放假了，这绝对是余承东自己上号发的微博[doge]

真的是打不过就加入！昨天还在质疑DeepSeek的硅谷大厂，如微软、英伟达、亚

买手机，‮纠不‬结，记住这10个‬口诀：1.第一、想要信号强，华为是优选。2

中国DeepSeek遭83小时暴击！国产AI圈炸锅了！一支杭州小团队用600

如果不是国补以后手机销量排名出来！多少人都蒙在鼓里，说句实话没有这个榜单，你永远

据网友爆料，广东湛江deepseek创始人梁文峰，除夕回乡过年，家乡人拉横幅

刚刚，星链迷你（StarlinkMini）在墨西哥上市，几分钟即可连接高速互联