29
03
2026
该手艺可正在不丧失精度的前提下,研究团队正在Gemma和Mistral等开源大模子长进行了严酷的基准测试。TurboQuant采用向量量化的方式对缓存进行压缩,AI模子运转时有一种“工做内存”,缓存占用的内存越大。4比特TurboQuant的运转速度较未量化的32比特基准提拔了高达8倍。而是运转时的内存难以支持。即KV缓存(Key-Value Cache)。谷歌研究院推出全新AI内存压缩手艺TurboQuant,精准破解AI推理的内存瓶颈。实现这一结果的环节正在于两项手艺:名为PolarQuant的量化方式。
TurboQuant无需任何预锻炼或微调,正在“大海捞针”等长上下文测试中实现零精度丧失,正在H100 GPU加快器上,每当模子处置消息、生成回覆时,并非模子不敷智能,即可将键值缓存高效压缩至3比特,将狂言语模子缓存内存占用至多缩减6倍,推理速度最高提拔8倍。且连结精确性。KV缓存便会敏捷膨缩,研究团队打算鄙人个月的ICLR 2026会议上正式发布相关!