DeepSeek受到其他大模型和专业模型加油 知识蒸馏和专家模型业界很成熟,用于

糖果杠历史 2025-01-30 09:34:49

DeepSeek受到其他大模型和专业模型加油 知识蒸馏和专家模型业界很成熟,用于降低训练数据,提高效率。 DeepSeek向通用大模型和专业大模型提问,AB对照测试,自己内部生成对抗来建模。 通用大模型是美国和中国都有列前几位,例如阿里的仅次于美国三大,数据千亿级。 专业大模型中国更有优势,有千家之多,10亿级数据,例如阿里支持巴黎奥运会建立大模型。 训练数据时序列批输入数据,按照专业输入数据等策略。 DeepSeek是实验室,人不多139人,研究前沿问题,后面支持得是拥有量化交易系统的幻方公司。

0 阅读:0
糖果杠历史

糖果杠历史

感谢大家的关注