看了一下DeepSeek的最新论文”NativeSparseAtten

墨者在此 2025-02-19 09:18:26

看了一下 DeepSeek 的最新论文” Native Sparse Attention"，核心思想就是对训练的数据通过空间序列块的方式进行压缩

因为他们发现其具有非常明显的稀疏特性(图二)

诸位，其实这些原理在1992年的历史压缩的论文里就提到了，而且采用其方法可以降低训练样本规模200倍，逻辑推理从少于五步达到快速完成20步

这些其实就是压缩感知，即找到一种算法，能够对大规模的数据进行高效压缩，历史压缩的方法也是动态自适应层级的

所以，其实搞大语言模型的应该要调整思路了，提升算法性能的重要方向就是压缩感知理论

.

0 阅读：41

感谢大家的关注

作者最新文章

1

今天才知道，中国一国承担了超过 20% 的联合国会费建议联合国总部其实可以搬到中

2

一直有一个误区，即认为「天下」的概念是从周朝开始的，但是如果我们结合古三坟和尚书

3

阿根廷总统米莱学美国总统特朗普，也发行了自己的加密货币 Libra ，短短一个小

4

结合一些信息来看，中央汇金很可能会成为中国的财富主权基金管理机构昨天(2月14日

5

最近多次看到一则信息，伦敦黄金交易市场的黄金在一月份被大量的转移到了纽约转移的数

6

古人定义一个概念其实都是取象比类的，基本是一字一义，这就是象形文字的优势，如果存

7

最近应该是美军水逆，不然无法合理解释了不到两个月里，能把自己的 F18 击落，让

8

我们专题探讨一下哪吒的精神象征其实哪吒的精神比孙悟空还要高绝孙悟空，天书奇谭中的

9

怎么讲呢？现在很多人还是处于被人卖了还帮人数钱的水平不要以为弘扬你的文化就是认同

10

有网友提供信息，所谓新中国考古圈的开山祖师夏鼐，看起来很可能参与了古埃及文明的造

热门分类

推荐热榜军事 NBA 体育社会明星八卦娱乐财经科技汽车历史国际游戏动漫公益搞笑商业互联网数码国际足球房产家居时尚科学探索职场育儿股票教育影视情感热点中国军情武器中国南海中国足球亚洲杯科比综合体育 CBA 投资楼市大咖秀外汇创业风口 SUV 豪车概念车优惠新能源美国欧洲朝日韩俄罗斯孕期街拍恋爱攻略婚姻正能量

历史TOP

1

乾隆下江南也没吃这么好吧

2

孟子义这肚兜有点顶不住啊

3

朱棣靖难造反，在历史上绝对是个奇迹。带着北平那点家底，跟坐拥天下的朱允炆死磕四年

4

古代皇帝妻妾成群：1，康熙：62个妻妾2，乾隆：41个妻妾3，雍正：28个

5

1969年8月20日，苏联驻美大使通知美方，苏联将向中国投放原子弹，毛主席听后，

6

这是西安事变47天前，张学良陪蒋介石爬华山的照片。照片中可以看到张学良满腹忧虑

7

韩先楚其实是志愿军副司令中最不适合当副司令的人选。因为在抗美援朝的五次战役中，韩先楚大多都不在志愿军

8

第一条：改命，靠选妻[汗][汗][汗]

9

1964年，毛主席在自己的生日宴上，递给钱学森一支烟，而就当他要伸手接烟时，主席

10

1948年，国民党团长楼将亮的夫人陈愉，在武汉一家医院内被6人轮番侵犯。虽然说这

历史最新文章

1

1949年，蒋介石带着60万大军败逃台湾，其中大部分都是没成婚的年轻人，为了解决

2

1956年8月，一个解放军少尉副连长脱下军装，按18级干部标准转业到福建地方，在

3

1989年邓小平谈第一代领导集体，有毛主席、周总理、刘少奇、朱老总，陈云，然后还

4

1958年，毛主席下令炮击金门，不小心炸死两个美国顾问，美国得知后率大军压境，指

5

上联：年年老舍迎秋雨，求下联羌人对：岁岁东坡赏悲鸿。

6

古代皇帝妻妾成群：1，康熙：62个妻妾2，乾隆：41个妻妾3，雍正：28个

7

941年，鬼子抓来20多个姑娘，就在姑娘们要被糟蹋时，一个汉奸突然说：“太君，要

8

韩先楚其实是志愿军副司令中最不适合当副司令的人选。因为在抗美援朝的五次战役中，韩先楚大多都不在志愿军

9

1960年元旦，周总理任命韩先楚为福州军区司令，这份命令是不是下错了？福州军区是

10

1901年，慈禧为了取悦洋人，命令军机处大臣赵舒翘自杀，上午八点，赵舒翘接连吃了