《训练 Transformer 让它每层组合一步,并证明它做到了》作者:Brendan Long“我正在做一个实验,比较两种架构在求解顺序算法时的内部表征,但训练模型使用顺序算法出人意料地困难。优化景观使模型更容易学到并行算法,或者记住查找表,所以我需要做出一些特定的架构和训练决策,才能让模型真正学到顺序算法。即使用上所有这些技巧,结果仍然依赖随机种子,而且我需要检查训练出来的模型,证明它们是否学到了预期的算法。
在这篇文章中,我会记录哪些方法有效、哪些方法无效,以及我用来证明模型是否学到顺序算法的技术。
注:我在这里尝试的所有方法都对任务选择和架构非常敏感,所以我认为这篇文章的主要价值是“这里有一些看起来有帮助的方法”,而较少是“这一定适用于你的问题或架构”。不过,希望它能帮助其他想解释 toy model 的人,更快地训练出能做一些有趣事情的模型。”AI创造营
