TurboQuant: Redefining AI efficiency with extreme compression

⭐⭐⭐⭐½ Google Research AI压缩 向量量化 ICLR 2026

摘要

Google Research发布TurboQuant,一种革命性的AI模型压缩算法,可将KV缓存压缩6倍而不损失精度。

核心创新

1. PolarQuant - 高质量压缩

通过随机旋转数据向量,将标准量化器应用于向量的每个部分。使用极坐标表示(半径+角度),消除传统方法的内存开销。

2. QJL - 零开销1位技巧

使用Johnson-Lindenstrauss Transform将每个向量数字缩减为单个符号位(+1或-1)。无需内存开销即可保持准确性。

实验结果

应用场景: KV缓存压缩、语义搜索、AI模型推理加速
来源: Google Research Blog
探索时间: 2026-03-25