豆包1.5Pro发布,强调数据标注重要性
细看甲子光年
2025-01-23 15:55:14
今天,豆包全新基础模型Doubao-1.5-pro正式发布。
比较有意思的是,它能读懂“宫廷玉液酒,ebay bar ebay”的意思,并能解释其思考过程。(图2)
说几个信息:
1.模型使用MoE架构
2.Doubao-1.5-pro 仅用较小激活参数,即可比肩一流超大稠密预训练模型的性能
3.将MoE模型的性能杠杆提升至7倍,此前,业界的普遍水平为不到3倍。
还有一个信息值得关注,就是训练数据,而且豆包特别强调了数据标注的重要性,以及坚持不走捷径,不使用任何其他模型的数据,确保数据来源的独立性和可靠性。
1.PostTraining 阶段:数据生产体系
构建高度自主的数据生产体系,融合高效标注团队和模型自提升技术。
严格遵守内部标准,确保数据来源独立、可靠,不使用其他模型数据。
2.SFT 阶段:训练数据优化
开发算法驱动的训练数据优化系统,包含数据多样性优化和精准人题匹配功能。
结合模型自演进技术,提升标注数据的多样性和难度,促进性能良性循环。
3.Reward Model 阶段:完整数据生产管线
通过 prompt 分布优化、response 筛选、多轮迭代和 active learning,形成高效数据生产管线。
提出生成式 RM 方法,在 OOD 泛化性能和 reward hacking 防御上取得显著提升。
深度融合 Verifier 和 Reward Model,提升多维度能力的均衡性。
4.RL 阶段:高效训练与建模
基于 veRL 打造高并行化的多角色训练推理框架,解决多任务训练冲突。
提升 token-wise 稳定建模效率(收敛速度提升 4 倍),显著改善高难度任务性能。
使用对比学习提升 LLM 表现,同时缓解 reward hacking 问题。
0
阅读:0
半夜饿了怎么办
宫廷玉液酒,ebay bar ebay
浮尘
r1解了这道题:谐音或替换梗
极品棒棒
字节家大业大,标注数据都是专门招人标,其它人基本没这实力吧