众力资讯网

谷歌发布Gemma 4量化感知训练版,手机跑大模型再也不用牺牲性能了 大模型本

谷歌发布Gemma 4量化感知训练版,手机跑大模型再也不用牺牲性能了

大模型本地部署的“终极形态”可能真的来了!(Ultimate form / 终极形态) 谷歌刚刚正式推出了支持QAT(Quantization-Aware Training / 量化感知训练)的 Gemma 4 官方模型。这绝对是端侧 AI 领域的一次重大技术突破。

简单来说,以前为了让手机跑得动大模型,大家普遍用“事后量化”(PTQ)强行给模型瘦身,但这会导致模型变笨、答非所问。而这次谷歌直接把“量化”放进了训练阶段,让模型在出生时就适应低比特环境。

这次更新有几个核心亮点:

🔥 无损性能:实测显示,经过QAT训练的低比特模型,其质量和精度远超普通的压缩版本,真正做到了“体积减小,智商不减”。

📉 内存暴降:针对移动端硬件进行了极限优化,直接把运行内存(VRAM / 显存)需求砍到了 1GB 以下。这意味着普通的千元机,也能流畅运行本地大模型。

🔌 生态打通:官方直接支持 GGUF 格式,我们可以无缝用 Ollama、llama.cpp 在本地电脑一键运行,微调党也能直接用 Unsloth 进行后续开发。

以前总觉得在设备本地跑大模型是个“尝鲜”的玩具,但谷歌这次把QAT技术工程化落地,意味着“低功耗、高智能”的手机本地AI离我们每个人都不远了。