详解 DeepSeek V4:Infra 巨鲸 “四连击”,百万上下文走进现实网页链接这是晚点的一个访谈节目,请了 UCLA 在读博士刘益枫(参与过Kimi K1.5 研发)和 SGLang 核心开发者赵晨阳来聊DeepSeek V4里用到的技术。
“关于从字节 Seed 提出的 HC 到 DeepSeek 的 mHC,再到 Kimi 的 Attention Residuals 的讨论,还有 Kimi 和 DeepSeek 围绕 Muon 优化器的改进,又或者是 DeepSeek 对北大团队开源的 TileLang 的深度使用……这些成果相互联系、彼此激发,鲜活地刻画了,一定的人才密度和竞争烈度后,开源模型社区在正迸发怎样的进步与质变。
而一批中国公司,是开源大模型生态最活跃和坚定的投入者。
从 R1 的一鸣惊人到如今的百花齐放,这一年多发生了太多迭代和变化。V4 的技术报告是了解这些细致且艰辛努力的一个切片。”AI创造营
