DeepSeek 热度依旧不减,2月18日,DeepSeek官方在海外社交平台X上发布了一篇纯技术论文报告,论文主要内容是关于NSA(Natively Sparse Attention,原生稀疏注意力),官方介绍这是一种用于超快速长文本训练与推理的、硬件对齐且可原生训练的稀疏注意力机制。
DeepSeek热度依旧不减,2月18日,DeepSeek官方在海外社交平台X
火耀看科技
2025-02-19 13:30:34
0
阅读:1