2024 年,一位前 FAANG 工程師決定辭職,成為獨(dú)立 AI 研究者。要做研究就需要算力,于是他花 4.8 萬美元親手組裝了一臺(tái)搭載 6 張 RTX 6000 Ada GPU 的服務(wù)器——取名"grumbl"(他自嘲不會(huì)拼寫"GPUs")。
![]()
最近他公開發(fā)布了這臺(tái)服務(wù)器的完整使用數(shù)據(jù),回答了那個(gè)所有自建算力的開發(fā)者都會(huì)問的問題:自己買 GPU 到底值不值?
算力即保險(xiǎn):4.8 萬美元貴不貴?
4.8 萬美元聽起來是一筆巨款,但作者的邏輯是:這遠(yuǎn)低于他辭職帶來的收入損失。如果更強(qiáng)大的 GPU 能幫助他的工作提前哪怕兩個(gè)月完成,這筆投入就是值得的。因此他選擇購買公寓能容納的最大功率服務(wù)器。
選卡階段,他參考了 Tim Dettmers 的 GPU 選購指南,在 A100、H100 和 RTX 6000 Ada 之間比較。由于 A100 不支持 FP8 且推理性能落后于新型號(hào),而他的主要工作是強(qiáng)化學(xué)習(xí)推理,最終在 RTX 6000 Ada 和 H100 之間選擇了前者——以 Lambda Labs 的價(jià)格/吞吐量比來看,6000 Ada 的性價(jià)比最優(yōu)。
功率約束:公寓電路帶不動(dòng) 6 張顯卡服務(wù)器
最大的工程挑戰(zhàn)來自電力。6 張 GPU 需要大量供電,單獨(dú)一個(gè)公寓電路無法承受。他不得不配置雙電源,并將兩個(gè)電源插口接在不同回路的插座上——這也是他聘請(qǐng)專業(yè) PC Builder 而非自行組裝的原因:"自己動(dòng)手一旦出錯(cuò),燒掉的是整棟公寓。"諷刺的是,最終他把這臺(tái)服務(wù)器搬到了父母家的地下室,那里有條件升級(jí)電路。
![]()
自己買還是租云?
核心問題:自購 GPU 和租用云端算力,哪個(gè)更劃算?
他的衡量方法是:記錄每張 GPU 每分鐘的使用情況,同時(shí)記錄功耗以計(jì)算電費(fèi)。2024 年他估算,按當(dāng)時(shí)的云端 GPU 租賃價(jià)格,如果 GPU 利用率接近 85% 以上滿負(fù)荷運(yùn)行,大約一年就能和租賃成本打平。
![]()
從實(shí)際數(shù)據(jù)看,2025 年 1 月后的平均利用率達(dá)到 85%,但整體平均利用率為 76%。這個(gè)數(shù)字讓他略感失望——他 24/7 不間斷運(yùn)行實(shí)驗(yàn),任務(wù)隊(duì)列始終排得很滿,本以為輕松能達(dá)到 95% 以上。實(shí)際使用中有多次服務(wù)器停機(jī)維護(hù)的經(jīng)歷,每次停機(jī)他都焦慮萬分:不知道是單個(gè) PCIe Riser 卡故障,還是災(zāi)難性的硬件燒毀。
電費(fèi)約為 3000 美元,約每月 125 美元
截至 2026 年 3 月 13 日,他計(jì)算出等效云租賃費(fèi)用約 6.8 萬美元,自建服務(wù)器(含電費(fèi))總成本約 5.1 萬美元,已節(jié)省約 1.7 萬美元。GPU 已完全回本,目前每天節(jié)省 90-105 美元。
真正的答案:買服務(wù)器的目的不是為了省錢
作者坦言,這臺(tái)服務(wù)器給他帶來的真正價(jià)值并不是省了多少錢。他花了很長時(shí)間嘗試高風(fēng)險(xiǎn)/高回報(bào)的實(shí)驗(yàn),經(jīng)歷過大量失敗。最終他在 2025 年 5 月解決了 LLM 的一個(gè)重大問題,并于當(dāng)周產(chǎn)品上線——400K+ 瀏覽量,多家公司聯(lián)系希望使用他的 IP。這才是他購買服務(wù)器的真正原因。
![]()
幾條忠告
作者強(qiáng)調(diào),自建高端 GPU 服務(wù)器要非常謹(jǐn)慎,犯錯(cuò)的代價(jià)很昂貴。他有幾個(gè)具體建議:主板選擇很重要,他因?yàn)楣㈦娏ο拗七x擇了慢速 GPU 互聯(lián)的主板,雖然適合跑大量小規(guī)模并行實(shí)驗(yàn),但對(duì)需要多卡分布訓(xùn)練的模型來說簡(jiǎn)直是噩夢(mèng);PCIe riser 故障是主要故障來源,建議參考 Nathan Odle 的 riser 排查文章;保險(xiǎn)是個(gè)問題,租房保險(xiǎn)不覆蓋這類設(shè)備,最終他不得不購買商業(yè)保險(xiǎn)。
心態(tài)上,"擁有"和"租用"的差異巨大。租云端時(shí)每個(gè)實(shí)驗(yàn)都花錢,他會(huì)反復(fù)問自己"這個(gè)實(shí)驗(yàn)值不值";擁有服務(wù)器后,反而覺得"不跑實(shí)驗(yàn)就是在燒錢"。另外,他的時(shí)間成本并沒有計(jì)入這個(gè)分析——服務(wù)器的搭建和維護(hù)本身耗費(fèi)了大量精力。如果重新選擇,他不會(huì)做這種定制組裝,而是直接買標(biāo)準(zhǔn)數(shù)據(jù)中心服務(wù)器然后托管到共置中心。
對(duì)于預(yù)算有限的開發(fā)者,他的建議是:Google Colab 或便宜的云端 GPU 照樣能做出出色的工作,不一定非要花 4.8 萬美元。
參考來源 https://rosmine.ai/2026/05/13/was-my-48k-gpu-worth-it/
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.