DeepSeek受到其他大模型和专业模型加油 知识蒸馏和专家模型业界很成熟,用于降低训练数据,提高效率。 DeepSeek向通用大模型和专业大模型提问,AB对照测试,自己内部生成对抗来建模。 通用大模型是美国和中国都有列前几位,例如阿里的仅次于美国三大,数据千亿级。 专业大模型中国更有优势,有千家之多,10亿级数据,例如阿里支持巴黎奥运会建立大模型。 训练数据时序列批输入数据,按照专业输入数据等策略。 DeepSeek是实验室,人不多139人,研究前沿问题,后面支持得是拥有量化交易系统的幻方公司。
DeepSeek受到其他大模型和专业模型加油 知识蒸馏和专家模型业界很成熟,用于
糖果杠历史
2025-01-30 09:34:49
0
阅读:0