4月1日,在沉默了近一周后,谷歌引发争议的压缩算法TurboQuant论文团队终于回应了。然而,这一最新的“技术澄清”看起来仍未平息争议,针对“核心技术相似性”的指控,谷歌辩称随机旋转是标准技术,并认为实验基准中的错误对事实“并不重要”。
在3月最后一周,这篇被谷歌官方博客高调宣传的论文,曾以一己之力砸崩全球存储芯片股,美光、SK海力士、三星电子等市值蒸发超900亿美元。论文指出,TurboQuant
这种压缩算法能够将大语言模型的 KV 缓存内存占用减少至少 6 倍,速度提升高达 8 倍,且精度零损失。
华尔街的恐慌在于:如果软件能把AI内存需求压缩6倍,芯片硬件的增长逻辑就要重写。
然而,反转来得很快。3月27日,RaBitQ作者、苏黎世联邦理工学院博士后高健扬在知乎发布万字长文,指控谷歌团队存在系统性学术问题,舆论迅速转向对谷歌学术不端的拷问。
业界普遍认为,RaBitQ率先提出了原创方法,TurboQuant在其基础上进行了优化,却未给予应有的引用与尊重,甚至作出了不公正的贬低。
4月1日,面对外界的指控,论文第二作者Majid
Daliri终于出来,代表团队在OpenReview平台上发布了一份共四个点的“技术澄清”。

在核心技术新颖性方面,谷歌辩称,TurboQuant的核心方法并非源自RaBitQ。因为“随机旋转是量化文献中一种标准的、无处不在的技术”,早在RaBitQ出现前就被广泛使用。TurboQuant的真正创新在于推导出了旋转后的坐标分布。
但学术圈的规则是:如果某人是第一个把“轮子”用在“汽车”上,并造出了完整的车,后来的造车者引用并致谢是基本的学术礼仪。谷歌将前人成果轻描淡写为行业常识,等于把先行者贡献降级了。
其次,关于贬低RaBitQ理论为“次优”的指控,论文作者承认,是因为自己没仔细看对方的附录,漏了一个常数因子,才得出了草率的结论,“导致我们最初诚实地将该方法描述为次优”。现在仔细研究了,发现RaBitQ确实是最优的,团队正在更新TurboQuant手稿。
不过,一篇顶会论文,对同行核心理论的负面评价建立在“没看清附录”的基础上,这一解释的力度难免受到质疑。
在第三点,针对“把对手绑住手脚再赛跑”的指控,Majid
Daliri直接指出,即使完全省略了与RaBitQ的运行时比较,该论文的科学影响和有效性也基本保持不变。因为TurboQuant的主要贡献在于压缩质量的权衡,而不是特定的加速。
此前高健扬在公开信中披露,谷歌团队测试RaBitQ时使用单核CPU并关闭多线程,测试TurboQuant时则采用英伟达A100
GPU。尽管团队宣称速度对比并非核心,论文中却仍将速度作为关键卖点之一。
最后,谷歌在回应中暗示对方“别有用心”,指出论文自2025年4月就在arXiv发布,对方有将近一年时间通过学术渠道提问题,却等到论文获得广泛关注后才闹大。
根据高健扬此前的回应,早在2025年5月双方就通过邮件私下沟通,2025年11月还曾联系ICLR组委会,但均未得到有效回应。直到谷歌通过官方渠道将论文推上千万级曝光量的神坛,学术纠正才变得迫在眉睫。
在OpenReview上,有研究者评论,这是一个值得更多关注的严重问题。“看到从事实际基础工作的人被忽视,而大型、有影响力的组织却大肆宣传自己的成果,这令人沮丧。”在这一点上,感觉不像是科学,更像是一场与大厂的公关竞赛。

同时,TurboQuant论文的审稿人也站出来表达态度,称由于其理论分析和实验结果,对这篇论文曾给予了很高的评价。
“然而我也明确指出,RaBitQ和TurboQuant都使用随机旋转,并要求TurboQuant的作者比较TurboQuant和RaBitQ之间的设计差异如何影响性能。”这位审稿人表示,正确的学术实践是在论文中深入讨论RaBitQ和TurboQuant之间的差异,但审稿时“惊讶地发现RaBitQ在主论文的实验部分只提到过一次”。
不可否认,TurboQuant在技术层面具备商业潜力。一位人工智能硕士在知乎上分析称,在大模型推理场景中,KV缓存内存占用直接决定单卡可同时处理的请求数量,是推理服务商最核心的经济指标。同样一张卡,并发量若提升6倍,每个请求的推理成本理论上可降至原来的六分之一。对于那些每天处理数十亿次API调用的AI厂商而言,这将是一项巨大的降本利器,这也是此次股市震荡的原因。
谷歌这一论文即将在4月底的机器学习顶级会议ICLR
2026上发表,但看起来团队要先迈过这场学术争议的门槛。风波最终会如何收场,仍有待观察。
