NEO 刚刚证明,每个主要的人工智能实验室建立的视觉模型都是错误的💀
OpenAI、谷歌、Anthropic……
他们都使用相同的方法:训练视觉编码器,将其固定在 LLM 上,祈祷对齐有效。
NEO 说“如果我们只是......不这样做呢?”
并从第一原理构建了原生视觉语言模型。
这就是为什么这实际上是疯狂的:
传统的 VLM 是弗兰肯斯坦架构。你采用预训练的视觉编码器(CLIP,等等)。添加一个投影层。将其附加到冻结的语言模型。希望他们学会互相交谈。
它确实有效,但从根本上来说却是碎片化的。
视觉和语言竞争模型容量。对齐的成本很高。训练是分阶段进行的。你强迫两个为不同事物设计的系统进行合作。
NEO 彻底抛弃了这一点。
它通过相同的自回归架构处理图像和文本——一种统一的视觉语言原语,可以从头开始学习这两种模式。
无需单独的视觉编码器。无需投影操作。无需对齐税。
实现这一目标的技术突破:
1)具有混合掩蔽的本机多模态注意力 - 文本标记使用因果注意力(正常的 LLM 行为),图像标记使用完全双向注意力(详尽的视觉交互)。每种模态都在同一模型中同时以其自然的方式处理信息。
2)Native-RoPE 为时间、高度和宽度维度分配不同的基本频率——解决文本序列(时间)和视觉数据(空间)之间的关键不匹配问题。不再通过仅限时间的位置嵌入强制空间信息。
3)自适应架构在预训练期间使用预缓冲层,然后在微调期间将所有内容合并到整体主干中 - 自动分配编码、对齐和推理的容量。
效率?3.9亿个图文示例。不是数十亿。3.9亿。
它可以与 GPT-4V 和 LLaVA 相媲美。
每个大型实验室都采用模块化架构,因为这是最早奏效的方法。NEO 则表明,我们一直以来都在采用昂贵而复杂的方法。ai创造营ai生活指南
