【本地LLM真好用了?这是一场硬件与量化妥协的博弈】
最近“本地大模型已经好用”的说法很火。支持者用Mac或RTX 5090跑Gemma 4或Qwen 3.6,觉得能平替七成云端体验,还能摆脱Claude那种好为人师的碎嘴说教。但对大多数人来说,本地运行依然充满妥协。
痛点在于硬件限制与量化(Quantization)的冲突。很多人为了在有限显存里塞下20B以上的模型,强行用4-bit量化,代价就是模型被“切外置前额叶”,工具调用(Tool calling)和复杂推理能力严重降级。想让本地Agent真正干活,起码得5-bit或6-bit量化,而这需要极大的显存(VRAM)和带宽支持。
这不是简单的“开箱即用”,而是一项高昂的系统工程。你需要前期投入显卡或大内存Mac的资本支出(CapEx),还要肉身去调校harness和提示词。对多数人而言,租用云端API依然是性价比最高的解法,本地LLM目前更像是一场关于隐私和控制权的极客实验。
vickiboykis.com/2026/06/15/running-local-models-is-good-now/
