OpenMythos 是一个开源项目，基于第一性原理对 Claude Mytho

OpenMythos 是一个开源项目，基于第一性原理对 Claude Mythos 进行理论重构，并使用 PyTorch 实现。地址：github.com/kyegomez/OpenMythos

以下为项目开发者Kye Gomez的介绍：

该架构实现了一个循环式 Transformer，并引入 Mixture-of-Experts（MoE，专家混合）路由机制。通过权重共享和跨专家的条件计算，它能够在迭代过程中获得更深的有效计算深度。

我的实现探索这样一个假设：递归应用一个固定参数化模块，并结合稀疏专家激活，可以带来更优的效率—性能权衡，并涌现出多步推理能力。

我假设 Mythos 是一种 Recurrent-Depth Transformer（RDT，递归深度 Transformer）：这是一类循环式 Transformer，在一次前向传播中，会在 T 个循环步骤内反复应用同一组固定权重。

关键在于，推理完全发生在连续潜在空间中。各步骤之间没有中间 token 输出。这种结构与 chain-of-thought（思维链）不同，并已在相关研究中得到形式化分析（Saunshi 等，2025；COCONUT，2024）。

递归模块最多执行 T=16 次循环迭代，每次迭代都运行同一个共享的 TransformerBlock。在每一步中，冻结的编码输入 e 会通过稳定的 LTI 更新规则重新注入：

h_{t+1} = A·h_t + B·e + Transformer(h_t, e)

该模块中的 FFN 是一个 Mixture-of-Experts 层，遵循 DeepSeekMoE 的设计：一个由细粒度路由专家构成的大型专家池，每个 token 只激活稀疏的 top-K 专家子集；同时还包含一小组始终激活的共享专家，用于吸收常见的跨领域模式。

关键点在于，路由器会在每一层循环深度选择不同的专家子集。因此，每次迭代都是一次计算路径不同的前向处理。MoE 提供领域广度，循环提供推理深度。

完整架构如下：

Prelude → Recurrent Block → Coda

Prelude 和 Coda 是标准 Transformer 层，各自只运行一次。Recurrent Block 是计算核心。注意力机制默认采用 Multi-Latent Attention（DeepSeek-V2），缓存的是压缩后的低秩 KV 潜变量，而非完整 K/V 张量，从而在生产规模下实现 10–20 倍的 KV 内存降低。

还有三项机制用于稳定循环过程：

1. LTI 约束注入，构造上满足 ρ(A) < 12. 按位置自适应计算时间终止机制3. Depth-Wise LoRA 适配器，用于增强每次迭代的表达能力

在参数效率方面，一个包含 k 层并循环运行 L 次的模型，可以用 k 层参数达到 kL 层标准 Transformer 的质量水平。

实证结果显示（Parcae，Prairie 等，2026）：在 7.7 亿参数规模下，RDT 在相同训练数据上可以匹配 13 亿参数标准模型的表现。推理深度由推理时计算量决定，而由存储参数量决定的程度较低。

这重新定义了扩展问题中的关键轴线：重点是推理时的循环深度，而非训练时的模型规模。

OpenMythos 的贡献包括：

1. 一个完全开放、可配置的 PyTorch 实现，用于验证带有 MoE FFN 和 Multi-Latent Attention 的 RDT 假设2. 将 LTI 稳定递归注入（Parcae）集成为一等训练原语3. Depth-wise LoRA 适配器，在几乎不增加额外参数开销的情况下，实现每次迭代的行为差异化4. 一个可复现的研究基线，用于研究循环式 Transformer 动力学、扩展行为和推理时深度

这是一个开放研究项目。我们欢迎围绕训练稳定性、扩展实验、循环深度分析和替代注意力机制的贡献。

AI创造营

众力资讯网

OpenMythos 是一个开源项目，基于第一性原理对 Claude Mytho

热门分类