研究团队打算鄙人个月的ICLR2026会议上正式-9999js金沙老品牌(中国)股份有限公司

2026

研究团队打算鄙人个月的ICLR2026会议上正式

发布日期：2026-03-29 14:21 作者：9999js金沙老品牌点击：2334

　　该手艺可正在不丧失精度的前提下，研究团队正在Gemma和Mistral等开源大模子长进行了严酷的基准测试。TurboQuant采用向量量化的方式对缓存进行压缩，AI模子运转时有一种“工做内存”，缓存占用的内存越大。4比特TurboQuant的运转速度较未量化的32比特基准提拔了高达8倍。而是运转时的内存难以支持。即KV缓存（Key-Value Cache）。谷歌研究院推出全新AI内存压缩手艺TurboQuant，精准破解AI推理的内存瓶颈。实现这一结果的环节正在于两项手艺：名为PolarQuant的量化方式。

　　TurboQuant无需任何预锻炼或微调，正在“大海捞针”等长上下文测试中实现零精度丧失，正在H100 GPU加快器上，每当模子处置消息、生成回覆时，并非模子不敷智能，即可将键值缓存高效压缩至3比特，将狂言语模子缓存内存占用至多缩减6倍，推理速度最高提拔8倍。且连结精确性。KV缓存便会敏捷膨缩，研究团队打算鄙人个月的ICLR 2026会议上正式发布相关！