众力资讯网

纯手写实现 Transformer 论文《Attention Is All Yo

纯手写实现 Transformer 论文《Attention Is All You Need》,用于中英机器翻译。在 4070 Ti 上训练 11 epoch,100 万句对,BLEU 达 36.87。地址:github.com/philexohf/transformer-zh-en

项目特性 纯手写 Transformer — 多头注意力、位置编码、掩码机制全部手写,不依赖 nn.Transformer 统一 BPE 分词 — 中英文共享 32K 词表,SentencePiece 训练(100 万句对) AMP 混合精度 — 自动混合精度训练,4070 Ti 上约 28 it/s 余弦退火 + Warmup — 稳定收敛,11 epoch 达到 BLEU 36.87 DDP 多卡支持 — 多卡并行训练 完整流水线 — CSV 清洗 → 数据采样 → 分词器训练 → 模型训练 → BLEU 评估AI创造营