大模型国产之光+1,MiniMax宣布开源其最新的基础语言模型MiniMax-Text-01和视觉多模态模型MiniMax-VL-01,这一举措在人工智能领域引起了广泛关注。
新模型的最大亮点在于首次大规模实现了新的线性注意力机制,使得输入的上下文窗口大幅延长,一次可处理400万token,远超其他模型的20-32倍。这为AI Agent相关应用的爆发提供了有力支持,因为在Agent应用场景中,无论是单个Agent产生的记忆还是多个Agent协作产生的context,都对模型的长上下文窗口提出了更高要求。
基于新型线性注意力机制——Lightning
Attention、混合专家(MoE)架构等一系列创新,MiniMax得到了拥有32个专家共4560亿参数的LLM——MiniMax-Text-01,每个token会激活其中459亿个参数。在执行推理时,其上下文长度最高可达400万token,展现出卓越的长上下文能力。
在学术测试集上,MiniMax-Text-01基本能媲美甚至超越GPT-4o、Claude 3.5 Sonnet等闭源模型以及Qwen2.5、DeepSeek v3、Llama 3.1等SOTA开源模型。例如,在HumanEval上,MiniMax-Text-01与Instruct Qwen2.5-72B相比表现出色;在GPQA Diamond问答数据集上取得54.4的成绩,超过大多数开源指令微调的LLM及最新版本的GPT-4o;在MMLU、IFEval和Arena-Hard等测试中也取得了前三名的成绩。
MiniMax-Text-01的长上下文能力尤为突出。在Ruler和LongBench v2这两个常见基准测试中,当上下文长度超过128k时,MiniMax-Text-01的优势明显显现。此外,在MTOB基准上,MiniMax-Text-01的长上下文学习能力也达到了SOTA水平。实际表现方面,MiniMax-Text-01在创作歌曲、翻译小众语言Kalamang以及长对话记忆任务中均有出色表现。 ai创造营 [彩虹屁]