豆包1.5Pro发布,强调数据标注重要性

细看甲子光年 2025-01-23 15:55:14
今天,豆包全新基础模型Doubao-1.5-pro正式发布。 比较有意思的是,它能读懂“宫廷玉液酒,ebay bar ebay”的意思,并能解释其思考过程。(图2) 说几个信息: 1.模型使用MoE架构 2.Doubao-1.5-pro 仅用较小激活参数,即可比肩一流超大稠密预训练模型的性能 3.将MoE模型的性能杠杆提升至7倍,此前,业界的普遍水平为不到3倍。 还有一个信息值得关注,就是训练数据,而且豆包特别强调了数据标注的重要性,以及坚持不走捷径,不使用任何其他模型的数据,确保数据来源的独立性和可靠性。 1.PostTraining 阶段:数据生产体系 构建高度自主的数据生产体系,融合高效标注团队和模型自提升技术。 严格遵守内部标准,确保数据来源独立、可靠,不使用其他模型数据。 2.SFT 阶段:训练数据优化 开发算法驱动的训练数据优化系统,包含数据多样性优化和精准人题匹配功能。 结合模型自演进技术,提升标注数据的多样性和难度,促进性能良性循环。 3.Reward Model 阶段:完整数据生产管线 通过 prompt 分布优化、response 筛选、多轮迭代和 active learning,形成高效数据生产管线。 提出生成式 RM 方法,在 OOD 泛化性能和 reward hacking 防御上取得显著提升。 深度融合 Verifier 和 Reward Model,提升多维度能力的均衡性。 4.RL 阶段:高效训练与建模 基于 veRL 打造高并行化的多角色训练推理框架,解决多任务训练冲突。 提升 token-wise 稳定建模效率(收敛速度提升 4 倍),显著改善高难度任务性能。 使用对比学习提升 LLM 表现,同时缓解 reward hacking 问题。

0 阅读:0

评论列表

半夜饿了怎么办

半夜饿了怎么办

3
2025-01-23 17:50

宫廷玉液酒,ebay bar ebay

浮尘

浮尘

1
2025-01-23 19:28

r1解了这道题:谐音或替换梗

极品棒棒

极品棒棒

1
2025-01-23 18:14

字节家大业大,标注数据都是专门招人标,其它人基本没这实力吧

细看甲子光年

细看甲子光年

感谢大家的关注