今天我们所谈论的大模型是怎么诞生的？是怎么一步步走到今天这副模样的？是哪些公司（

今天我们所谈论的大模型是怎么诞生的？是怎么一步步走到今天这副模样的？是哪些公司（或人物）在其中发挥了关键作用？

在大模型之前，语言处理经历了漫长的摸索：

N-gram 模型（1990s-2000s）：用统计方法预测下一个词，简单粗暴但有效，长期统治工业界。2013年，Google 的 Tomas Mikolov 提出 Word2Vec，把词映射成向量，让"国王-男人+女人≈女王"这种语义运算成为可能。这是"让机器理解语言"的第一步。2014年，Seq2Seq 模型（Sutskever 等人）和注意力机制的雏形（Bahdanau 等人）出现，为后来的 Transformer 埋下伏笔。

Transformer：一切的起点（2017）2017年，Google Brain 团队发表《Attention Is All You Need》。

这篇论文的作者是 Ashish Vaswani、Noam Shazeer、Niki Parmar、Jakob Uszkoreit、Llion Jones、Aidan Gomez、Łukasz Kaiser、Illia Polosukhin。他们提出了 Transformer 架构——完全基于注意力机制，抛弃了循环和卷积。

这篇论文的影响怎么估计都不过分：它让模型可以并行处理整个序列（而不是像 RNN 那样一个词一个词地读），训练效率暴增；它让模型能够捕捉长距离依赖关系；它成为了后来所有大模型（GPT、BERT、PaLM、LLaMA……）的统一架构基础讽刺的是，Google 发明了 Transformer，但后来在大模型商业化上被 OpenAI 和微软反超。这大概是科技史上最昂贵的"为他人做嫁衣"之一。

OpenAI 是把大模型推到公众视野的核心推手。

2018年，OpenAI 发布 GPT-1（1.17亿参数），证明了"用大量文本预训练一个大模型，再微调到具体任务"这条路是通的。核心人物：Ilya Sutskever（从 Google 跳槽到 OpenAI）、Alec Radford。

2019年，GPT-2（15亿参数）发布。OpenAI 最初以"太危险，怕被滥用"为由拒绝公开完整模型——这在当时引发了巨大争议，现在回头看更像是营销天才。GPT-2 展示了一个关键现象：模型大到一定程度，会涌现出训练时没有明确教过的能力。

2020年，GPT-3（1750亿参数）发布。这是真正的"大力出奇迹"时刻。GPT-3 证明了规模定律（Scaling Laws）——模型越大、数据越多、算力越强，性能就越好，而且这种提升是可预测的。OpenAI 的 Jared Kaplan 等人在 2020 年发表的论文《Scaling Laws for Neural Language Models》为这一规律提供了理论基础。

2022年11月30日，ChatGPT 上线。5天用户破百万，两个月破亿。这是 AI 历史上增长最快的消费级产品。ChatGPT 本身不是技术突破，而是 GPT-3.5 + RLHF（人类反馈强化学习）+ 极致的产品化。RLHF 的关键人物是 OpenAI 的 Jan Leike 和 John Schulman。

2023年3月，GPT-4 发布，多模态能力首次亮相。具体参数未公开，但业界普遍认为是一个 MoE（混合专家）架构。

随后就是我们熟知的一连串AI大模型

众力资讯网

今天我们所谈论的大模型是怎么诞生的？是怎么一步步走到今天这副模样的？是哪些公司（

热门分类