最近,谷歌論文 TurboQuant 引發(fā)全球內(nèi)存股震蕩,之后論文原作者也出來(lái)澄清,稱谷歌 TurboQuant 歪曲了他們的算法成果(見文末相關(guān)閱讀鏈接)。那么這篇論文中提到的“性能奇跡”是怎么來(lái)的?
此前,谷歌Research官方賬號(hào)發(fā)布過(guò)一則宣傳帖。谷歌在帖子里說(shuō),他們的新壓縮算法TurboQuant能把LLM的key-value cache內(nèi)存至少減少6倍,同時(shí)帶來(lái)最高8倍的速度提升,而且精度完全不損失。
![]()
谷歌這篇文章里面詳細(xì)介紹了這個(gè)算法,還鏈接了arXiv論文2504.19874。博客和論文里反復(fù)強(qiáng)調(diào),TurboQuant在LongBench、Needle-in-a-Haystack等基準(zhǔn)測(cè)試中表現(xiàn)完美,內(nèi)存壓縮到3-3.5比特每通道,速度比32位全精度快很多,實(shí)驗(yàn)硬件是NVIDIA A100 GPU(論文明確說(shuō)所有實(shí)驗(yàn)都在單張A100上跑)。
對(duì)此,有博主就指出,谷歌把對(duì)照組從之前的C++實(shí)現(xiàn)改成了Python單線程、單核CPU跑,而自己的TurboQuant算法卻在A100 GPU上跑。這樣一對(duì)比,內(nèi)存減少倍數(shù)和性能提升倍數(shù)當(dāng)然顯得特別大。原來(lái)大家用C++做基準(zhǔn)的時(shí)候,對(duì)照組本身就很快,現(xiàn)在換成最慢的Python單線程單核CPU,對(duì)照組自然慢得一塌糊涂,自己的GPU實(shí)現(xiàn)一比就“8倍加速”了。論文里雖然沒(méi)把這句話寫在標(biāo)題上,但實(shí)驗(yàn)描述和實(shí)現(xiàn)細(xì)節(jié)里能看出,基線方法(比如Product Quantization和RabitQ)是CPU上的非向量化實(shí)現(xiàn),而TurboQuant直接用GPU加速,量化時(shí)間從幾百秒直接降到0.001秒左右,這種硬件和實(shí)現(xiàn)方式的差異直接放大了性能差距。
![]()
谷歌這次宣傳的重點(diǎn)是“零精度損失、6倍內(nèi)存節(jié)省、8倍加速”,聽起來(lái)確實(shí)能解決LLM推理里的KV cache瓶頸,讓長(zhǎng)上下文模型跑得更省資源。論文也確實(shí)證明了在Llama-3.1-8B-Instruct等模型上,TurboQuant在壓縮后和全精度模型得分幾乎一樣,針在干草堆測(cè)試?yán)镎倩芈室餐昝馈?/p>
但如果把對(duì)照組也換成同樣硬件、同樣的優(yōu)化級(jí)別,所謂的“倍數(shù)提升”會(huì)不會(huì)就沒(méi)那么驚人了?以前論文常用C++做高性能基線,這次突然改成Python單線程單核CPU,宣傳效果直接拉滿,卻讓讀者誤以為任何人都能輕松拿到8倍加速。
谷歌這個(gè)事情的惡劣之處在于,一開始讓大眾覺得太厲害了,這玩意兒能提高六倍、八倍!后來(lái)看全是假的,搞得業(yè)內(nèi)花了很大時(shí)間去驗(yàn)證這東西是真是假,造成極大的浪費(fèi)。
這件事不是說(shuō)TurboQuant算法本身沒(méi)價(jià)值。谷歌在向量量化上確實(shí)做了理論工作,用PolarQuant和QJL結(jié)合的方式解決了傳統(tǒng)量化里的內(nèi)存開銷問(wèn)題,數(shù)據(jù)無(wú)關(guān)、在線量化這些特點(diǎn)也確實(shí)實(shí)用。但宣傳的時(shí)候,如果基準(zhǔn)設(shè)置得不夠公平,就容易讓人覺得論文在“優(yōu)化”結(jié)果而不是客觀報(bào)告結(jié)果。普通開發(fā)者看到博客標(biāo)題,可能會(huì)以為只要用上TurboQuant,內(nèi)存和速度問(wèn)題就一勞永逸了,可實(shí)際落地時(shí)還得自己確認(rèn)基線條件、硬件環(huán)境和代碼實(shí)現(xiàn),才能知道真實(shí)收益到底有多大。
科技圈里類似情況其實(shí)不少,論文里硬件不對(duì)齊、實(shí)現(xiàn)語(yǔ)言不對(duì)齊,最后宣傳出來(lái)的倍數(shù)就成了最吸睛的部分。TurboQuant的論文和代碼如果公開,大家可以自己復(fù)現(xiàn)對(duì)照組,看看把Python單線程單核CPU換回C++或者同樣GPU優(yōu)化后的JAX基線,實(shí)際加速倍數(shù)會(huì)變成多少。
總之,谷歌這次TurboQuant在技術(shù)上往前走了一步,但宣傳里對(duì)照組的切換,讓“6倍內(nèi)存減少、8倍性能提升”這個(gè)結(jié)論需要打個(gè)折扣。想真正用到生產(chǎn)環(huán)境,還是得自己拿相同條件跑一遍數(shù)據(jù),才知道對(duì)自己的模型到底有多大幫助。
【相關(guān)閱讀】
一論文引發(fā)全球內(nèi)存股震蕩!原作者澄清:Google TurboQuant 歪曲我們的算法成果
谷歌歪曲他人算法成果!華人學(xué)者實(shí)名控訴三大問(wèn)題,抄襲+造假實(shí)錘
一篇論文砸崩存儲(chǔ)芯片巨頭股價(jià),谷歌干了什么?
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.