众力资讯网

今天我们所谈论的大模型是怎么诞生的?是怎么一步步走到今天这副模样的?是哪些公司(

今天我们所谈论的大模型是怎么诞生的?是怎么一步步走到今天这副模样的?是哪些公司(或人物)在其中发挥了关键作用?

在大模型之前,语言处理经历了漫长的摸索:

N-gram 模型(1990s-2000s):用统计方法预测下一个词,简单粗暴但有效,长期统治工业界。2013年,Google 的 Tomas Mikolov 提出 Word2Vec,把词映射成向量,让"国王-男人+女人≈女王"这种语义运算成为可能。这是"让机器理解语言"的第一步。2014年,Seq2Seq 模型(Sutskever 等人)和 注意力机制的雏形(Bahdanau 等人)出现,为后来的 Transformer 埋下伏笔。

Transformer:一切的起点(2017)2017年,Google Brain 团队发表《Attention Is All You Need》。

这篇论文的作者是 Ashish Vaswani、Noam Shazeer、Niki Parmar、Jakob Uszkoreit、Llion Jones、Aidan Gomez、Łukasz Kaiser、Illia Polosukhin。他们提出了 Transformer 架构——完全基于注意力机制,抛弃了循环和卷积。

这篇论文的影响怎么估计都不过分:它让模型可以并行处理整个序列(而不是像 RNN 那样一个词一个词地读),训练效率暴增;它让模型能够捕捉长距离依赖关系;它成为了后来所有大模型(GPT、BERT、PaLM、LLaMA……)的统一架构基础讽刺的是,Google 发明了 Transformer,但后来在大模型商业化上被 OpenAI 和微软反超。这大概是科技史上最昂贵的"为他人做嫁衣"之一。

OpenAI 是把大模型推到公众视野的核心推手。

2018年,OpenAI 发布 GPT-1(1.17亿参数),证明了"用大量文本预训练一个大模型,再微调到具体任务"这条路是通的。核心人物:Ilya Sutskever(从 Google 跳槽到 OpenAI)、Alec Radford。

2019年,GPT-2(15亿参数)发布。OpenAI 最初以"太危险,怕被滥用"为由拒绝公开完整模型——这在当时引发了巨大争议,现在回头看更像是营销天才。GPT-2 展示了一个关键现象:模型大到一定程度,会涌现出训练时没有明确教过的能力。

2020年,GPT-3(1750亿参数)发布。这是真正的"大力出奇迹"时刻。GPT-3 证明了规模定律(Scaling Laws)——模型越大、数据越多、算力越强,性能就越好,而且这种提升是可预测的。OpenAI 的 Jared Kaplan 等人在 2020 年发表的论文《Scaling Laws for Neural Language Models》为这一规律提供了理论基础。

2022年11月30日,ChatGPT 上线。5天用户破百万,两个月破亿。这是 AI 历史上增长最快的消费级产品。ChatGPT 本身不是技术突破,而是 GPT-3.5 + RLHF(人类反馈强化学习)+ 极致的产品化。RLHF 的关键人物是 OpenAI 的 Jan Leike 和 John Schulman。

2023年3月,GPT-4 发布,多模态能力首次亮相。具体参数未公开,但业界普遍认为是一个 MoE(混合专家)架构。

随后就是我们熟知的一连串AI大模型