众力资讯网

Realmbird正在写Deepseek 新架构mHC的系列文章,目前完成了一篇

Realmbird正在写Deepseek 新架构mHC的系列文章,目前完成了一篇。网页链接

流形约束超连接(Manifold-Constrained Hyper-Connections,mHC)是 Deepseek 新增的一种架构,并已在 Deepseek v4 中实现。

mHC 是对 HC(超连接)的一种修复,它解决了 HC 导致的梯度消失或爆炸问题,同时仍保持性能提升。因为在 HC 上添加权重和偏置会使来自较早层的信号更难更新,从而使残差流的“残差性”降低。

HC 是一种诅咒般的方法,通过在残差流上添加权重和偏置来模拟更宽的残差流。

mHC 是对 HC 的改进,其中使用 Sinkhorn-Knopp 方法使残差流上的权重和偏置变为双随机矩阵。双随机矩阵的行和列之和都为 1,就像同时沿行和列应用 softmax。MHC-lite 与 mHC 论文类似,但使用了 Birkhoff-von Neumann 方法来实现双随机矩阵。 AI创造营