众力资讯网

世界首个原生多模态架构视觉和语言彻底被焊死 当Ilya Sutskever最近公

世界首个原生多模态架构视觉和语言彻底被焊死 当Ilya Sutskever最近公开宣称“纯靠Scaling Law的时代已经结束”,并断言“大模型的未来不在于单纯的规模更大,而是要架构变得更聪明”时,整个AI界都意识到了一场范式转移正在发生。因为过去几年,行业似乎沉迷于用更多数据、更大参数、更强算力堆出更强的模型,但这条路正逼近收益递减的临界点。Ilya和LeCun等顶尖AI大佬不约而同地指出:真正的突破,必须来自架构层面的根本性创新,而非对现有Transformer流水线的修修补补。就在如此关键节点,一个来自中国研究团队的新物种横空出世:全球首个可大规模落地的开源原生多模态架构(Native VLM),名曰NEO。要知道,此前主流的多模态大模型,例如我们熟悉的GPT-4V、Claude 3.5等,它们的底层逻辑本质上其实玩的就是拼接。什么意思呢?就是将一个预训练好的视觉编码器(比如 ViT)通过一个小小的投影层,嫁接到一个强大的大语言模型上。这种模块化的方式虽说是实现了多模态,但视觉和语言始终是两条平行线,只是在数据层面被粗暴地拉到了一起。而这项来自商汤科技与南洋理工大学等高校的联合研究,要做的就是从根上颠覆这一切。在NEO这里,大模型不仅能看、会说,而且天生就懂视觉和语言是一体两面的道理。更惊人的一组数据是,凭借这种原生多模态架构,NEO仅用十分之一的训练数据,就在多项关键评测中追平甚至超越了那些依赖海量数据和复杂模块堆砌的旗舰级对手!那么NEO到底是怎么如何做到的,我们继续往下看。网页链接