今天a股中位数涨1%,4100只股票上涨,成交额接近2万亿,连续三天环比放量,增量资金入场,市场活跃度up,不看过程只看结果,今天行情还是很OK的,对得起任何人。
deepseek概念依然是市场里最靓的崽,如果把它当行业去看,5.49%的涨幅在申万130多个二级行业里是NO.1。
昨天盘后有一个新闻,称国外李飞飞团队不到50美元训练出一个叫s1的大模型,该模型在数学和编码能力测试中,表现和openAI的o1、deepseek的r1等尖端推理模型相当。
不过后来被人扒出这个模型是先在阿里的通义千问上进行的监督微调,然后又通过蒸馏法从谷歌的Gemini2.0提炼出来1000个样本数据,进行训练得来的。
所谓的监督微调,是指使用标注数据对模型进行针对性训练,使其在特定任务上表现更好。原本的通义千问是通用模型,李飞飞团队改成了在数学、编码方面的专用模型。
说直白点,s1看上去很吊,但里面真正起大作用、节省了大量费用和时间的是通义千问,但凡把通义千问换成其他模型,s1都够呛能达到新闻里的效果。
至于那1000个从谷歌大模型里蒸馏出来的数据样本,也只是起到一个锦上添花的作用,那么点数据量并不足以从零训练出一个具备推理能力的模型。
...
浪潮信息盘中涨停逼近历史高点,还有中科曙光、中国长城、紫光股份等其他服务器股收盘后仍然剩下不小涨幅。
它们的催化剂是大量新用户涌入,导致deepseek服务器资源紧缺。公司也因为这个暂停了API服务充值,相当于限流。
AI去年炒的主要是算力硬件,但deepseek通过创新性算法实现了算力成本的断崖式下降,这加速了应用的爆发。
但这不是说算力就不重要了,这不deepseek就因为使用量爆炸时不时就要宕个机嘛。
数据、算力和算法,三者之间并不冲突,只不过以前大家衡量AI公司价值时更看重前两者,例如有没有足够的算力卡or有没有足够的数据进行训练,但以后可能要放一些权重在公司的算法效率上。
除了利好应用,云服务这波也很受益,虽然模型训练成本降了,但仍然不是所有企业都有部署模型需要的算力和技术。
而deepseek官方系统的卡顿,也变相利好已经接入模型但运行却比较流畅的云服务平台,包括国资云,比如联通云,以及互联网大厂云,比如阿里云、华为云、腾讯云等。