![]()
當越來越多 AI 開發(fā)者開始抱怨“云 GPU 太貴”時,有人干脆選擇了自建服務器。但自己搭服務器,到底比租云 GPU 便宜多少?本文作者算了一筆賬,并分享切身體驗。
作者 | Rosmine 編譯 | 蘇宓
出品 | CSDN(ID:CSDNnews)
2024 年,Rosmine 選擇辭去了在 FAANG 的工作,開始成為一名獨立研究員。
為了開展研究,他自己搭建了一臺名為 “grumbl” 的服務器,配備了 6 張 6000 Ada GPU。
![]()
這篇文章記錄了這臺服務器的搭建過程、遇到的問題,同時解答一個核心問題:自己搭建服務器,還是租用云 GPU 更劃算?
Rosmine 解釋稱,這個服務器之所以叫“grumbl”,是因為他總是拼不對“GPUs”這個單詞。
![]()
![]()
把 GPU 當作一種投資
Rosmine 透露,這臺設備總共花費他 4.8 萬美元,聽起來價格不菲,但遠低于辭職帶來的收入損失。
對他而言,只要更強大的 GPU 能讓他的研究工作比使用小型機器時提前兩個月取得成果,那么購買更強的服務器就是值得的。
因此,他最終決定:在自己公寓供電和環(huán)境條件允許的范圍內(nèi),直接買一臺性能最強的服務器。
「CSDN 讀者專屬福利」,免費領100小時云算力
支持主流 AI 框架與模型部署
![]()
咖啡領取鏈接:https://s.csdn.cn/4nPsOp
![]()
GPU 的選擇
Rosmine 參考了另一位研究員 Tim Dettmers 的 GPU 選型指南,綜合考量之下,把 GPU 候選范圍縮小到了 A100、H100 和 RTX 6000 Ada。
不過,由于 A100 不支持 FP8,而且推理性能也比新一代 GPU 更慢,而 Rosmine 表示,自己接下來會進行大量推理任務(強化學習 / RL),所以最終只剩下 RTX 6000 Ada 和 H100 兩個選擇。
在比較了 6000 Ada、H100 和 A100 的價格 / 吞吐比之后,他最終選擇了 RTX 6000 Ada。
![]()
電力限制
因為 Rosmine 住在公寓里,沒有條件升級電路去支持標準的數(shù)據(jù)中心服務器。
6 張 GPU 的功耗,已經(jīng)超出了普通公寓單路電路所能承受的范圍,所以他不得不使用兩臺電源,并且把它們分別接到兩個不同回路的插座上。
然而,如果你去 Google 搜索“把一臺 PC 接到多個插座”,你會看到大量警告,仿佛只要考慮這種方案,人立刻就會原地爆炸。
因此,為了規(guī)避潛在風險,Rosmine 專門聘請了一位專業(yè)的 PC 裝機工程師,以確保整套系統(tǒng)在電力與硬件層面都是安全可靠的。雖然這比完全自行組裝的成本更高,但相比因操作失誤而引發(fā)嚴重事故(例如損壞設備甚至危及居住環(huán)境),這一投入顯然更為穩(wěn)妥。
頗具諷刺意味的是,盡管整套設計最初都是圍繞公寓的供電限制來完成的,但最終,這臺名為 “grumbl” 的 GPU 服務器還是被遷移到了他父母家的地下室——在那里,他實際上可以直接對電路進行升級,最初的諸多限制也隨之不再成立。
![]()
![]()
自建 GPU 服務器 vs 租云服務?
那么,到底是自己購買 GPU 更劃算,還是直接租用云廠商的 GPU 更合適?
對此,Rosmine 采用了一個相對直接的方法進行評估:統(tǒng)計自己實際使用 GPU 的情況,并與租用同等算力的云服務成本進行對比。
在 2024 年,按照當時的 GPU 租賃價格計算,他大約需要讓這些 GPU 保持接近 85% 以上的利用率,并持續(xù)運行約一年時間,才能與云端租賃成本基本持平。
這一結果看起來并不難達到,但如果進行更完整的分析,還必須將電費納入計算,同時還要考慮一個現(xiàn)實因素:隨著更高性能 GPU 不斷推出,同等算力在云端的租賃價格也會逐步下降。
為了更精確地統(tǒng)計,他專門編寫了一個腳本,每分鐘記錄一次每張 GPU 的使用情況。同時也記錄了整機功耗(瓦數(shù)),以便進一步計算實際電力成本。
在這份對比分析中,他僅采用了云服務的按需(on-demand)計費價格作為參考。
當然,云廠商也提供 6 至 12 個月的預留實例方案,但在他看來,這類方案的意義有限——因為其折扣幅度并不顯著,與直接購買整臺服務器相比差距不大,而后者的優(yōu)勢在于 GPU 最終仍然完全歸自己所有。
![]()
如果不為 “grumbl” 配備顯示器,從某種意義上說也是一種浪費——畢竟這臺服務器最多支持同時連接 24 臺顯示器。甚至理論上,他還可以將其改造成一個迷你版的 “Las Vegas Sphere(拉斯維加斯球幕)”。
![]()
GPU 使用率時間圖
為衡量 GPU 的實際使用情況,Rosmine 對每一張 GPU 進行了統(tǒng)計:記錄其每天“至少被使用一次”的小時數(shù)。
他認為,這種統(tǒng)計方式與云 GPU 的計費邏輯較為接近——在云端場景中,如果一臺服務器空閑時間不足一小時,通常也不會選擇停止并重新啟動實例。
從對比角度來看,這種方法對云租賃模型甚至是相對“寬松”的,因為它默認用戶可以獨立啟停每一張 GPU。但在實際使用中,Rosmine 表示:“我很多空閑時間都發(fā)生在‘并行跑多個實驗’的時候:其中某個實驗提前結束或失敗了,但其他實驗還在繼續(xù)運行。如果我真的在租云服務器,我也不會因此就把整臺機器停掉。”
需要說明的是,這里的統(tǒng)計指標是 GPU 的“使用情況”,而非訓練效率。即使某張 GPU 的利用率僅為 10%,只要在該小時內(nèi)有被使用過,也仍然會被計為活躍狀態(tài)。(即便在云端,這類代碼效率水平也不會發(fā)生變化。)
下方為 GPU 使用率隨時間變化的統(tǒng)計圖表:
![]()
從圖中可以看到,期間共有 3 次服務器因維護而停機。
每一次停機都帶來較高的不確定性壓力,因為無法判斷問題來源:是單個 PCIe 轉接卡(riser)故障,還是更嚴重的系統(tǒng)性問題,例如 GPU 損壞。
Rosmine 稱,從 2025 年 6 月起,GPU 使用率出現(xiàn)明顯上升趨勢。在此之前,他主要運行的是小規(guī)模實驗,開發(fā)周期與實驗周期接近,因此實驗間存在較多空閑時間。
而在 2025 年 6 月之后,Rosmine 開始推進一個需要大量算力的項目,大部分 GPU 持續(xù)用于實驗運行,僅保留 1–2 張用于開發(fā)調(diào)試。
從整體統(tǒng)計來看,GPU 平均利用率為 76%。若僅統(tǒng)計 2025 年 1 月 1 日之后的數(shù)據(jù),則利用率為 85%。
對此結果,他本人表示略感失望,因為實際情況是實驗幾乎 24/7 持續(xù)運行,并且始終存在待執(zhí)行的任務隊列,原本預期利用率應輕松超過 95%。
![]()
最終計算
在成本測算中,Rosmine 采用的方法是:先按每天的云端租賃價格計算單價,再乘以當日實際使用的 GPU 小時數(shù),逐日累加得出總成本。
由于缺乏云服務商的歷史 API 價格記錄,他只能根據(jù)帶時間戳的公開資料,對歷史價格進行反向估算。
基于已記錄的功耗數(shù)據(jù),他進一步計算出整體電費成本約為 3000 美元,折合每月約 125 美元。
綜合上述所有因素,截至 2026 年 3 月 13 日,如果使用等效算力的云 GPU,其租賃總成本將約為 6.8 萬美元。因此,相較之下,他目前累計節(jié)省約 1.7 萬美元。
在這一計算結果下,這套 GPU 系統(tǒng)已經(jīng)實現(xiàn)回本。按照當前市場價格估算,從此之后,每天仍可節(jié)省約 90–105 美元的計算成本。
![]()
真正的“最終結論”
Rosmine 表示,購買這臺服務器的出發(fā)點從來不是為了節(jié)省成本,而是為了構建一些“有意思的東西”。
在這個過程中,他投入了大量時間去嘗試高風險、高回報的實驗,并經(jīng)歷了多次失敗。
但最終,他確實取得了一些成果,并聲稱自己解決了大語言模型中的一個關鍵問題。
他計劃在下周正式發(fā)布相關成果,以驗證這究竟是一次真正的技術突破,還是又一次“LLM 精神錯亂(LLM psychosis)”式的誤判。
![]()
建議
Rosmine 在分享中提醒,對于自建高端 GPU 服務器這一類方案,需要非常謹慎,因為其中很容易出現(xiàn)成本高昂的錯誤。他原本認為,由于公寓無法升級電路,因此無法使用標準數(shù)據(jù)中心服務器,只能采用“雙電源分別接入不同電路”的方式。正是基于這一限制,他選擇了一塊 GPU 互聯(lián)速度較慢的主板。這種配置非常適合并行運行大量小型實驗(也是他的主要使用場景),但在需要跨 GPU 切分模型的任務中表現(xiàn)較差。
在多次故障中,相當一部分問題來自 PCIe riser 相關組件,而 Nathan Odle 關于 riser 的調(diào)查與分析在排查過程中提供了重要幫助。
他也提到,自己的消費習慣更接近“預算緊張的研究生”,這套設備實際上是多年積攢后的投入。盡管自己處于可以承擔這類高風險支出的相對幸運位置,但他并不建議所有人都復制同樣的方案。
在他看來,即使只是使用 Google 的 Google Colab 訂閱、較便宜的云 GPU,或小型本地設備,同樣可以完成高質(zhì)量的研究工作。
從“租用 GPU”到“擁有 GPU”,心理層面的變化非常明顯。在租用模式下,每一次實驗都會產(chǎn)生直接成本,因此需要不斷權衡是否值得運行;而在擁有設備之后,不運行實驗反而會產(chǎn)生“資源閑置的損失感”。同時,也避免了頻繁啟動和停止云實例帶來的麻煩。
此外,這份分析并未計入時間成本,而搭建與維護整套服務器本身就消耗了大量精力。
在保險方面,他曾嘗試將該設備納入租房保險,但保險公司并不接受這一方案,最終只能改為商業(yè)保險覆蓋。
最后他表示,如果重新選擇一次,他可能不會再進行這種高度定制化的組裝,而是直接購買標準數(shù)據(jù)中心服務器并將其托管在機房。不過,這樣也意味著會失去偶爾與 “grumbl” 打招呼的那種個人化體驗。
來源:https://rosmine.ai/2026/05/13/was-my-48k-gpu-worth-it/
免費領取 100 小時 AI 算力|CSDN 讀者專屬
加入 AI 開發(fā)者計劃獲取:
? AI 算力資源? 官方技術社群? Workshop 與 AI Academy? 開發(fā)者專屬福利
立即掃碼,前 50 名額外領取「瑞幸咖啡」
咖啡領取鏈接:https://s.csdn.cn/4nPsOp
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.