《训练 Transformer 让它每层组合一步，并证明它做到了》作者：Bren

《训练 Transformer 让它每层组合一步，并证明它做到了》作者：Brendan Long“我正在做一个实验，比较两种架构在求解顺序算法时的内部表征，但训练模型使用顺序算法出人意料地困难。优化景观使模型更容易学到并行算法，或者记住查找表，所以我需要做出一些特定的架构和训练决策，才能让模型真正学到顺序算法。即使用上所有这些技巧，结果仍然依赖随机种子，而且我需要检查训练出来的模型，证明它们是否学到了预期的算法。

在这篇文章中，我会记录哪些方法有效、哪些方法无效，以及我用来证明模型是否学到顺序算法的技术。

注：我在这里尝试的所有方法都对任务选择和架构非常敏感，所以我认为这篇文章的主要价值是“这里有一些看起来有帮助的方法”，而较少是“这一定适用于你的问题或架构”。不过，希望它能帮助其他想解释 toy model 的人，更快地训练出能做一些有趣事情的模型。”AI创造营

众力资讯网

《训练 Transformer 让它每层组合一步，并证明它做到了》作者：Bren

热门分类