跟你们分享一个我之前玩LLM和通用大模型的一些经历和经验吧[允悲]
我最早接触大模型的时间是21年,没错,2021年,年底我在银行的朋友和我聊到有个叫chatgpt的东西,老牛逼了,大模型,openai,投资标的,我搜老半天发现没法用啊.....技术上好理解,但是对于他能做到的东西我觉得好复杂,随之放弃。
接着就到2022年年底,chatgpt开放注册,那时候还是gpt 3.5,我用我海外的邮箱挂梯子注册了一个,玩了大概三天,和朋友非常震惊的开始一些天马行空的测试,包括各种语言和他对话,让他分析一个现象,判断大量数据,甚至写代码改论文等等。
因为那时候我毕业还不多久,还有点点论文脑,有几次抽象的让gpt3.5给出一些参考文献,我一查才发现,这家伙喜欢编文献,编来源,杜撰信息,可把我吓坏了,那时候还跟朋友开玩笑,说这玩意应该是天网觉醒了,要逐步用错误信息渗透人类世界毁灭人类。
但是那段时间的实验让我觉得大模型有一种人类小孩的感觉,他的架构和参数量等于他学习了足够多的知识,但是他并没有像人类一样“提纯知识”的能力,遇到一些特殊问题,他会去迎合训练的奖励表现的自己知道一样,这很类似于小孩子考试的时候不会也瞎写一点,希望碰到点死耗子分数,也就是那时候我在深刻审视利用chatgpt做生产力和工具的价值,当时的文章估计找不到了但内容我还大致记得,主要说了三个点:
1,你知识必然不如他多,但是你必须比chatgpt掌握更深的知识结构和层次关系,面对未知大信息,你需要用知识的结构和层次关系来验证他给的答案,你才能利用好这个答案,而不是被答案利用(来源于当时开玩笑的AI开始编过程骗人类了)
2,你的逻辑推演能力比他强,他可以线性的回答一些问题并且给出线性的回答,你要做的是利用他的知识深度和线性捅到底的能力快速建立知识和学科认知,然后用自己的思考来解决问题,这是上策。
3,这个东西未来潜力是几乎无限的,一定要好好用,多用。
我当时的很多写作,其实是依靠知识结构和认知范式推导,然后利用搜索引擎和大模型,前者我可以一眼扫过去关键词判断关联性(等于我脑子里跑的transformer) ,后者帮我建立A观点和B现实之间的线性连接,我来逐级拓展验证,这种方法其实和之前去图书馆打草稿做题查书是一模一样的,只是工具变得更先进,那段时间你们也能看到我高强度输出,被人喊百度懂王
因为那时候他们的智力不可能理解一个人怎么可能如此快速的建立多学科认知并且把他们脸打烂的,而这个能力放在投行和私募太正常不过了[允悲]我只是在他们基础上还小小的用大模型开了个挂。
23年底我在考虑做自己独立的媒体,就是全职做自媒体,找了几个知名顶级媒体的老大聊了下,但是这里面聊的最深的,最有意义的还是和老ren,虽然现在想来彼时我确实应该去一个更大的平台历练一下,但是当时最让我兴奋的是和老ren在自媒体未来,大模型和测评逻辑上的认知和预判达成了惊人的一致,大模型时代媒体在慢性死亡,只是这个过程是两年三年,还是五年七年。如果我没记错,我和老ren聊的时间是2-3年,没想到1年多,就1年多,这个趋势就开始了[允悲]
后面到2024年年底,deepseek的新论文出来,GRPO,自我演化出灵光乍现,顺便还有非常有趣的降低推理成本的MoE和蒸馏,我看完觉得老有意思了,别人力大砖飞是国运,这边另辟蹊径也是国运啊,但是那时候我用的是gpt o1,deepseek这个好像结果没啥特别显著的优势,而且按照open ai说法o3 soon了.....
可是没多久,ds把R1放出来还开源了,试了下我觉得在中文和推理领域已经能对o1取得一定优势,而o3还没给我玩上呢[怒]当时很长一段时间我都在折腾问R1一些问题,之前设计过的问题,一些我认为存在陷阱的问题,一些我觉得相对比较复杂的问题,验证完以后我意识到这东西水平确实不低,大概25%的问题他给出了超过我预期很多的答案,剩下75%里估计有一半给出了一些些超过我预期的答案,剩下一半就是错误的或者理解有问题的答案。
写prompt很重要,但是我没想到MoE能把R1搞的这么会“察言观色”,现在不仅仅需要提问时讲清自己的身份,最好你还得有完善的,有组织能力的中文表达能力,要不然他也会闹笑话,最后,还是要时刻记住,这个AI并没有超越人类。
我在它不联网状态下问了下小米汽车的预测,发现他的语料确实不算新,但是我很明显的看出他给出的结论和分析过程有至少是模仿人类思考的痕迹:他会综合互联网上的判断,并且迎合这些判断来修正自己的判断,自我演化和学习能力很强。所以他判断出小米汽车的优势是手车互联,智能化,AI,劣势是驾驶体验,结构设计,智驾。
我们虽然可以马后炮的说他错了,但是我看见的是AI现在还缺乏自身蒸馏的能力,他还是没有被设计一套对已有知识主动精炼的逻辑,会很容易被外界信息和prompt输入带到一个自我奖励的循环,输出比较抽象的内容。
所以现在我搞出来一套比较有趣的用法,做价值判断的时候主动向R1 表达自己立场和自己立场的反面,你就会看到R1给出的结论左右互搏,然后你再利用你自己的大脑,对这些左右互搏结论进行筛选和分析,而且R1 牛逼之处在于他主动提供了思考过程,你可以用思考过程来规避一些prompt的倾向和情绪识别,因为思考本身是不带来奖励的,所以它不会为了得到奖励而给出垃圾思考,相反这个思考过程的正确性会在答案的正确性上得到奖励,他的思考变得非常有趣,也更容易得到一套辩证唯物主义并且还很全面的结论。
这套结论裁一半好听的给甲方和老板,裁一半不好听的给自己做最坏预案,主动的尝试给大模型输入各种提示的,对比前后的内容变化,把提示词和内容变化的关系用你人类的脑子学习一下,把提示词变成一种类似做菜调味品的东西,你就是一个不错的微波炉厨师了[亲亲]