谷歌:解决人工智能推理瓶颈! 谷歌TurboQuant技术旨在缓解GPU内存限制,这些限制了企业扩展人工智能推理和长上下文应用程序的方式。 谷歌表示,其新的TurboQuant方法可以通过压缩LLM推理中使用的键值缓存和支持更高效的向量搜索来提高AI模型的运行效率。在Gemma和Mistral模型的测试中,该公司报告称,在Nvidia H100硬件上,内存使用量减少了6倍,注意力逻辑计算速度提高了8倍,从而显著节省了内存,运行时间更快,且没有可测量的精度损失。 对于开发人员和企业人工智能团队来说,该技术提供了一条减少内存需求和提高硬件利用率的途径,以及在不增加基础设施成本的情况下扩展推理工作负载的可能性。根据谷歌的说法,TurboQuant针对的是现代人工智能系统中两个更昂贵的组件,特别是LLM推理过程中使用的键值(KV)缓存和支撑许多基于检索的应用程序的向量搜索操作。通过在不影响输出质量的情况下更积极地压缩这些工作负载,TurboQuant可以允许开发人员在现有硬件上运行更多的推理作业,并缓解部署大型模型的一些成本压力。谷歌AI革命 谷歌开发工具
