众力资讯网

罗福莉讲述小米MiMo团队组织方式准确的原话小米MiMo在大语言模型上完全上牌桌

罗福莉讲述小米MiMo团队组织方式准确的原话小米MiMo在大语言模型上完全上牌桌了,真的可以讨论哪些地方做得比Kimi/MiniMax做的好或差。可以明确认为局限于大语言模型上小米进展显著得比理想好。

原话版: (去掉了不少“然后”“对”和部分语气助词) 罗福莉: QK的某些logiys非常大的时候,它实在影响模型的训练稳定。你没办法,只能把它clip掉,这样至少能让训练更好进行下去,进行到一个稳态的时候,你再给它放开。有太多的这种临时的,你要去发现问题,解决问题,甚至去倒推,很多可能会产生、导致这个问题的一个分析的路径。这些路径其实是非常考验一个团队的。

跨团队其实如果是在一个很大的公司,它就是跨团队协作,但这个协作效率是极低的。如果是在一个很小的团队,一个创业型的团队,那么它就是考验这个环节上的关键几个人的配合程度,那么它就会更高效一些。以及如果这个环节上的每个人都足够地追求极致,就是追求极致,他就不能容忍你这突然这么干,那我们就必须停下实验来找问题。

张小珺: 你们属于哪一个点?罗福莉: 我们肯定是属于小团队非常极致的类型,所以就会导致这样训练周期会被拉长,因为训练周期它肯定不会一两个月就把它训完。那么训练周期拉长的情况下,如果说有一个非常明确的 deadline、目标什么的,那你肯定就承受不了这样的。

因为比如说大集群显卡,你停一天肯定就是一两百万、两三百万的事儿。那么你怎么去承担这样的一个损失?如果是在一个目标驱动的一个团队,可能会觉得停个两三周去排一个问题,这个问题还不知道是不是个问题、会不会对模型这种训练产生影响,可能是一个不太能接受的事情。但是在我们这儿,我们认为它就是一个问题,我们就应该去解决它。因为我们没有那么清晰的一个说我要发布的一个目标,

张小珺: 你们没有 deadline?罗福莉: 我们没有 deadline。我们觉得模型训好了我们再发。

张小珺: 没有公司来的压力吗?罗福莉: 没有。

张小珺: 你们确实不是一个创业公司,对吧?也不是一个创业团队。罗福莉: 但实际上它就是个创业团队。我觉得MiMo还有包括MiClaw能做成,其实都是以创业的方式在运作的,所以它才能做成。

张小珺: 选一个1T的模型对你的管理难度是不是指数型的上升?罗福莉: 没有。管理团队的难度是一样的。应该说不太存在管理,因为大家一块去解决问题就好了。你不需要去管理这几个人,就是大家我们一起来解决这个问题。然后每个人都有自己不同解决问题的思路,一起来解决问题。反而是这种解决问题的这种以身作则的能力,是一个非常好的文化和导向。

张小珺: 训1T模型是多大团队?罗福莉: 很小的。我只是说训练这个事儿本身,但是你做数据还需要那么几个人。

张小珺: 也是几个人。罗福莉: 对

张小珺: 还需要什么吗?罗福莉: 可能你还需要一个非常好的基建的团队,你可以理解为把卡、把集群给搭起来。

张小珺: infra团队吗?罗福莉: 这不是 infra团队,这就是基础设施团队。这个团队可能需要有那么一点、需要有经验的人。因为没有经验的人他老会出一些低级的问题。是一些基础的运维设施的经验。

张小珺: 那你们的诀窍是啥?罗福莉: 本身我也没有觉得它是需要一个非常大的团队协作的事情。我觉得团队协作当然有优势。就比如说大家在卡资源巨量的情况下,可以并行地去探索,这对做研究来说是有优势的。但是我并不认为它对我刚刚说的那种场景,发现一个可能是问题的问题,然后去深入排查原因去解决它。我并不认为它对这种模型训练进程中遇到的问题是很大的团队是优势,反而很大团队有可能是劣势。

张小珺: 训这个模型过程中,你们团队状态是什么样的?罗福莉: 团队状态是原来做 预训练数据的那一群人就去做后训练了。然后做 infra、做训练框架、做推理 infra 的人一块来去解决训练过程当中的问题。

张小珺: 那这是为什么?罗福莉: 这是为什么?

张小珺: 为什么有这个变化?就是为什么预训练的人要去做后训练?罗福莉: 很多样的原因。首先后训练的一大部分的原因是你需要有很好的数据支持,这还是蛮重要的。其次它是基于个人爱好兴趣产生的。它不太是基于

张小珺: 基于你说我们这里需要人,你转一下。罗福莉: 不是,大部分是大家自然而然发生的。但是我确实能够预料到哪些人会做这样的一种迁移,因为有很多能力特征其实是很共性的。就比如说对数据的直觉,比如说会从模型效果去倒推一些算法的设计。其实做数据好多时候也是在干这个事儿。所以可能我觉得主要原因是我们对人的界定没有那么清晰。所以大部分人他会自然随着训练阶段的变化,自由地去选择下一个阶段更有想象空间的事情。

张小珺: 你们现在是 100 人吗?我记得上次聊。罗福莉: 现在已经到 100 人,但是这 100 人是包含所有链路上的人,就所有链路,包含比如说数据采集、数据质量、pre-train、infra,post-train然后包含甚至我们的开发,我们需要有一些开发,还有包含我们的产品,,还有包含三个方向上的算法工程师。大致你可以分为语言、多模态和语音。这里边 100 个人里边实习生的比例是很高的。有部分实习生可能是在做一些更当下不会立马反映到这一代模型结构上的事、模型能力上的事情。所以其实真正投入到一代模型里边去迭代的人我觉得是很少的。可能所有链路上加起来也就二三十个人、三四十个人。最多也就这么多人,二三十个人比较均匀。

张小珺: 这里没有不同的组的划分吗?罗福莉: 没有

张小珺: 没有组。所以你一对一百罗福莉: 差不多是。

张小珺: 为什么没有组的划分,比如说为什么不分预训练组,不分后训练组?罗福莉: 因为很多人他会对两个方向都感兴趣。如果你组划分得非常的清晰和固定的话,那么其实是在扼杀一部分人的创造力,或者说扼杀他未来的成长空间。第二个就是,我确实也不认为做后训练的人。如果说做后训练的一个很重要的一个范式变化是它需要具备 diversity这个视野。很多做后训练的人他是怼着一个场景去做,他没有这种多样性的视野。但是做预训练的人,第一应该关注的事情是多样性。

因为他不能往这个模型里边只塞一小部分数据,他要塞多样性更好的数据。所以其实做预训练的人去做后训练有非常大的优势,就是他会天然更在乎多样性。他就是个很好的补充,当然也有人他一直做后训练,就比如说他只研究强化学习,所以他一直做后训练,或者说叫Mid Train吧。Anyway,至少我们不要在组织结构上去给某些、按场景来把某些人的创造力给他扼杀在这个场景里边。那就很奇怪,在我来看。

张小珺: 没有组也就没有 leader。罗福莉: 有实际推动这个项目往前运作的人。但是他都是很模糊的。就比如说可能这个项目要往前走,比如说我们要训MiMo V2 Pro的预训练,或者说后训练,可能有实际往前去推动的人,但这个人他并不对参与这个项目的人有绝对的控制权。

张小珺: 就是没有职级对吗?罗福莉: 对,你可以这么认为。

张小珺: 但是小米本身是有职级的罗福莉: 本来我们这个团队的整个的组织结构就是完全解耦的。

张小珺: 没有职级。你觉得对于做 AI 很重要是吧?做大模型,没有职级没有组,这个对于智能涌现本身的意义是什么?罗福莉: 我觉得平权本身是有价值的,平权本身是有利于所有人去平等地贡献自己的创造力和智慧,我觉得是有价值的。任何层级应该一定程度上都是在规范和约束。规范和约束本身我自己认为是压制创造力的。以及有层级过后,它就默认这个层级上的人应该有更强的、超越所有人的一个智能。这个很奇怪,这个界定非常奇怪,我觉得不太会存在。所以反而更扁平。尤其是对于最重要的leader的那个人,他不要有特别强的这种掌控感,以及这种觉得没了我就不行。我觉得如果一旦有这样的一个想法,反而不是很有利于一个创新团队的发生。

张小珺: 那人虽然你说没有管理,但实际上怎么管理呢?罗福莉: 靠热爱驱动管理,我觉得这个很重要的。我自己发现是最行之有效的方式。就去选择激发大家的热情,让大家围绕着自己愿意信仰的事情去自驱做事儿。我觉得这是我一直比较坚信的最有效的管理方式。

张小珺: 你有什么驱动热情的方法?罗福莉: 让大家认识到一个新的事情,让大家去体验,其实是驱动他热情非常重要的方式。

张小珺: 比如说 OpenClaw,这是一种体验方式。你看起来用了一个非常极端的说你没有 100 轮的对话,你明天就辞职,这是一个非常极端的方式。但是你的目的是体验是吗?罗福莉: 对,我也不会最终去考核,我第二天也不会去考核大家说 OK 你真的有没有用?因为我觉得它不关键。然后我只在乎你有没有真的去用,这个动作是不是真的达到 100轮,那只是一个量词而已。

张小珺: 所以你还有什么用热爱驱动大家的方法?体验?罗福莉: 其实筛选人的时候也很关键,很多人你可以从他过往的经历看出来,他到底是在围绕着什么样的目标在做事情。对,就靠热爱去驱动做事情的人的特质会非常的 special。就你跟他聊天过程中应该就能感受出来。有的人他会为了很多奇怪目标做事情,但为了 AGI 驱动做事情的人是非常明显的。

张小珺: 怎么明显?罗福莉: 我没有办法,就是有很多量化指标,但是我去跟他聊天,我能直接感受到。

后面聊其他话题了

理想汽车