DeepSeek V4 终于来了， V4-Pro 和 V4-Flash 两个版本

DeepSeek V4 终于来了，
V4-Pro 和 V4-Flash 两个版本，MoE 架构，全面适配华为昇腾 950PR，主打百万 token 超长上下文与Agent 能力，继续保持开源！
· V4-Pro：1.6T 参数、49B 激活，完整能力版，适合复杂任务
· V4-Flash：284B 参数，13B 激活，轻量版，兼顾速度与成本

核心能力
1. 长上下文：标准支持 1M tokens，通过全新的 DSA 稀疏注意力机制在 token 级别压缩数据，实现长上下文下的计算与内存效率双优化
2. Agent 能力：在 Agentic Coding 评测中达到当前开源模型最佳水平。内部评测反馈：使用体验优于 Claude Sonnet 4.5，交付质量接近 Claude Opus 4.6（非思考模式），已作为 DeepSeek 内部员工的主力 Agentic Coding 模型
3. 世界知识：大幅领先其他开源模型，仅稍逊于顶尖闭源模型 Gemini-Pro-3.1
4. 推理性能：数学、STEM、竞赛型代码测评中超越所有已公开评测的开源模型，成绩比肩世界顶级闭源模型

架构与技术亮点
· MoE 架构：延续混合专家路线，总参数量级或达万亿级，激活参数控制在约 32B–37B，保持推理成本可控
· 稀疏注意力：DSA 机制使长上下文扩展的算力与内存开销显著低于传统方法
· 硬件适配：全面适配华为昇腾 950PR，并推出自研统一推理中间件 DSI，支持异构混合推理（NVIDIA / 昇腾 / 寒武纪），据称推理成本较上一代降低约 40%–55%
· Engram 记忆系统：条件式记忆架构，将静态知识检索与动态推理分离，有望支撑超长上下文记忆

众力资讯网

DeepSeek V4 终于来了， V4-Pro 和 V4-Flash 两个版本

热门分类