TurboQuant: Redefining AI efficiency with extreme compression
⭐⭐⭐⭐½
Google Research
AI压缩
向量量化
ICLR 2026
摘要
Google Research发布TurboQuant,一种革命性的AI模型压缩算法,可将KV缓存压缩6倍而不损失精度。
核心创新
1. PolarQuant - 高质量压缩
通过随机旋转数据向量,将标准量化器应用于向量的每个部分。使用极坐标表示(半径+角度),消除传统方法的内存开销。
2. QJL - 零开销1位技巧
使用Johnson-Lindenstrauss Transform将每个向量数字缩减为单个符号位(+1或-1)。无需内存开销即可保持准确性。
实验结果
- 压缩比: 6倍压缩,零精度损失
- 推理速度: 4-bit TurboQuant比32位未量化快8倍(H100 GPU)
- 向量搜索: 在高维向量搜索中超越PQ和RabbiQ基线
应用场景: KV缓存压缩、语义搜索、AI模型推理加速