OriolVinyals提到的另外一篇可能是1992年发表的论文Lear

墨者在此 2025-02-08 07:44:30

Oriol Vinyals提到的 另外一篇可能是 1992年发表的论文 Learning Complex, Extended Sequences Using the Principle of History Compression 也很有意思

1. 从此文来看,作者同样在认为做的是数据无损的压缩方法,只是通过预测的方式,而且需要能够预测一些非期望的事件(图一)

这和现在的神经网络从业人员都认为自己在做人工智能,甚至没人认为自己在做数据压缩形成了显明对比...

2. 他构建的是一种层级架构,即低层级本身会做预测,但是预测出现偏差的时候,就把这些偏差信号作为高层级的输入,如果预测没有偏差,那么低层级不会向高层级输入(图二)

3. 作者说,这种方法使得高层级可以更好的预测全局时域结构(图三)

The higher level predictor should have less difficulties in learning to predict the critical input than the lower level prediction

This will happen if the incoming inputs carry globle temporal structure.....

诸位,这个方法其实就是压缩感知方法哦,比如快速傅里叶变换就是把时域的数据变换成频率域,小波变换更为明显,他就是多层累积的,高层级保存的是全局信息,越低层级的信息越局部化....

所以,其实这里的历史压缩法 history compression 本质与图像压缩无异啊,而且实际上 1992 年,无论是音频,视频还是图像领域这些技术都非常成熟了,但是此作者似乎完全不知道音频,图像压缩领域的工作? 令人费解...

4. 最后作者提到,使用此方法,可以显著的降低训练所需要的样本数量,从原来 100万序列下降到只需要 5000 个,减少了 99.5%,提升了 200倍的效率

而且其计算更为长链的速度也更快,可以计算20步任务,而传统算法只能算 5 步,还非常吃力... as fewer as 5 steps

有意思吧?

而且作者其实给出的是一个可以把多层架构坍塌为单层网络的方法,是自组织的 self-organized,也就是可能神经网络的层级其实也不需要几百层,几千层,可能几十层就能做到了 ? 至少可能是可以做到层级自己增加的,可能初始时候二十层,之后会自己变成30层,而非一开始就有 30层

5. 作者甚至提到了 Attention 注意力和意识,无意识 !

.

0 阅读:18
墨者在此

墨者在此

感谢大家的关注