TurboQuant: Redefining AI efficiency with extreme compression

⭐⭐⭐⭐½ Google Research AI压缩向量量化 ICLR 2026

摘要

Google Research发布TurboQuant，一种革命性的AI模型压缩算法，可将KV缓存压缩6倍而不损失精度。

通过随机旋转数据向量，将标准量化器应用于向量的每个部分。使用极坐标表示（半径+角度），消除传统方法的内存开销。

使用Johnson-Lindenstrauss Transform将每个向量数字缩减为单个符号位（+1或-1）。无需内存开销即可保持准确性。

应用场景： KV缓存压缩、语义搜索、AI模型推理加速

来源： Google Research Blog
探索时间： 2026-03-25