網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

辭掉大廠工作，他砸4.8萬美元在家自建服務器：一年后，日均省下105美元！

2026-05-25 11:59:05　來源: CSDN

北京舉報

分享至

當越來越多 AI 開發(fā)者開始抱怨“云 GPU 太貴”時，有人干脆選擇了自建服務器。但自己搭服務器，到底比租云 GPU 便宜多少？本文作者算了一筆賬，并分享切身體驗。

作者 | Rosmine 編譯 | 蘇宓

出品 | CSDN（ID：CSDNnews）

2024 年，Rosmine 選擇辭去了在 FAANG 的工作，開始成為一名獨立研究員。

為了開展研究，他自己搭建了一臺名為 “grumbl” 的服務器，配備了 6 張 6000 Ada GPU。

這篇文章記錄了這臺服務器的搭建過程、遇到的問題，同時解答一個核心問題：自己搭建服務器，還是租用云 GPU 更劃算？

Rosmine 解釋稱，這個服務器之所以叫“grumbl”，是因為他總是拼不對“GPUs”這個單詞。

把 GPU 當作一種投資

Rosmine 透露，這臺設備總共花費他 4.8 萬美元，聽起來價格不菲，但遠低于辭職帶來的收入損失。

對他而言，只要更強大的 GPU 能讓他的研究工作比使用小型機器時提前兩個月取得成果，那么購買更強的服務器就是值得的。

因此，他最終決定：在自己公寓供電和環(huán)境條件允許的范圍內(nèi)，直接買一臺性能最強的服務器。

「CSDN 讀者專屬福利」，免費領100小時云算力

支持主流 AI 框架與模型部署

咖啡領取鏈接：https://s.csdn.cn/4nPsOp

GPU 的選擇

Rosmine 參考了另一位研究員 Tim Dettmers 的 GPU 選型指南，綜合考量之下，把 GPU 候選范圍縮小到了 A100、H100 和 RTX 6000 Ada。

不過，由于 A100 不支持 FP8，而且推理性能也比新一代 GPU 更慢，而 Rosmine 表示，自己接下來會進行大量推理任務（強化學習 / RL），所以最終只剩下 RTX 6000 Ada 和 H100 兩個選擇。

在比較了 6000 Ada、H100 和 A100 的價格 / 吞吐比之后，他最終選擇了 RTX 6000 Ada。

電力限制

因為 Rosmine 住在公寓里，沒有條件升級電路去支持標準的數(shù)據(jù)中心服務器。

6 張 GPU 的功耗，已經(jīng)超出了普通公寓單路電路所能承受的范圍，所以他不得不使用兩臺電源，并且把它們分別接到兩個不同回路的插座上。

然而，如果你去 Google 搜索“把一臺 PC 接到多個插座”，你會看到大量警告，仿佛只要考慮這種方案，人立刻就會原地爆炸。

因此，為了規(guī)避潛在風險，Rosmine 專門聘請了一位專業(yè)的 PC 裝機工程師，以確保整套系統(tǒng)在電力與硬件層面都是安全可靠的。雖然這比完全自行組裝的成本更高，但相比因操作失誤而引發(fā)嚴重事故（例如損壞設備甚至危及居住環(huán)境），這一投入顯然更為穩(wěn)妥。

頗具諷刺意味的是，盡管整套設計最初都是圍繞公寓的供電限制來完成的，但最終，這臺名為 “grumbl” 的 GPU 服務器還是被遷移到了他父母家的地下室——在那里，他實際上可以直接對電路進行升級，最初的諸多限制也隨之不再成立。

自建 GPU 服務器 vs 租云服務？

那么，到底是自己購買 GPU 更劃算，還是直接租用云廠商的 GPU 更合適？

對此，Rosmine 采用了一個相對直接的方法進行評估：統(tǒng)計自己實際使用 GPU 的情況，并與租用同等算力的云服務成本進行對比。

在 2024 年，按照當時的 GPU 租賃價格計算，他大約需要讓這些 GPU 保持接近 85% 以上的利用率，并持續(xù)運行約一年時間，才能與云端租賃成本基本持平。

這一結果看起來并不難達到，但如果進行更完整的分析，還必須將電費納入計算，同時還要考慮一個現(xiàn)實因素：隨著更高性能 GPU 不斷推出，同等算力在云端的租賃價格也會逐步下降。

為了更精確地統(tǒng)計，他專門編寫了一個腳本，每分鐘記錄一次每張 GPU 的使用情況。同時也記錄了整機功耗（瓦數(shù)），以便進一步計算實際電力成本。

在這份對比分析中，他僅采用了云服務的按需（on-demand）計費價格作為參考。

當然，云廠商也提供 6 至 12 個月的預留實例方案，但在他看來，這類方案的意義有限——因為其折扣幅度并不顯著，與直接購買整臺服務器相比差距不大，而后者的優(yōu)勢在于 GPU 最終仍然完全歸自己所有。

如果不為 “grumbl” 配備顯示器，從某種意義上說也是一種浪費——畢竟這臺服務器最多支持同時連接 24 臺顯示器。甚至理論上，他還可以將其改造成一個迷你版的 “Las Vegas Sphere（拉斯維加斯球幕）”。

GPU 使用率時間圖

為衡量 GPU 的實際使用情況，Rosmine 對每一張 GPU 進行了統(tǒng)計：記錄其每天“至少被使用一次”的小時數(shù)。

他認為，這種統(tǒng)計方式與云 GPU 的計費邏輯較為接近——在云端場景中，如果一臺服務器空閑時間不足一小時，通常也不會選擇停止并重新啟動實例。

從對比角度來看，這種方法對云租賃模型甚至是相對“寬松”的，因為它默認用戶可以獨立啟停每一張 GPU。但在實際使用中，Rosmine 表示：“我很多空閑時間都發(fā)生在‘并行跑多個實驗’的時候：其中某個實驗提前結束或失敗了，但其他實驗還在繼續(xù)運行。如果我真的在租云服務器，我也不會因此就把整臺機器停掉。”

需要說明的是，這里的統(tǒng)計指標是 GPU 的“使用情況”，而非訓練效率。即使某張 GPU 的利用率僅為 10%，只要在該小時內(nèi)有被使用過，也仍然會被計為活躍狀態(tài)。（即便在云端，這類代碼效率水平也不會發(fā)生變化。）

下方為 GPU 使用率隨時間變化的統(tǒng)計圖表：

從圖中可以看到，期間共有 3 次服務器因維護而停機。

每一次停機都帶來較高的不確定性壓力，因為無法判斷問題來源：是單個 PCIe 轉接卡（riser）故障，還是更嚴重的系統(tǒng)性問題，例如 GPU 損壞。

Rosmine 稱，從 2025 年 6 月起，GPU 使用率出現(xiàn)明顯上升趨勢。在此之前，他主要運行的是小規(guī)模實驗，開發(fā)周期與實驗周期接近，因此實驗間存在較多空閑時間。

而在 2025 年 6 月之后，Rosmine 開始推進一個需要大量算力的項目，大部分 GPU 持續(xù)用于實驗運行，僅保留 1–2 張用于開發(fā)調(diào)試。

從整體統(tǒng)計來看，GPU 平均利用率為 76%。若僅統(tǒng)計 2025 年 1 月 1 日之后的數(shù)據(jù)，則利用率為 85%。

對此結果，他本人表示略感失望，因為實際情況是實驗幾乎 24/7 持續(xù)運行，并且始終存在待執(zhí)行的任務隊列，原本預期利用率應輕松超過 95%。

最終計算

在成本測算中，Rosmine 采用的方法是：先按每天的云端租賃價格計算單價，再乘以當日實際使用的 GPU 小時數(shù)，逐日累加得出總成本。

由于缺乏云服務商的歷史 API 價格記錄，他只能根據(jù)帶時間戳的公開資料，對歷史價格進行反向估算。

基于已記錄的功耗數(shù)據(jù)，他進一步計算出整體電費成本約為 3000 美元，折合每月約 125 美元。

綜合上述所有因素，截至 2026 年 3 月 13 日，如果使用等效算力的云 GPU，其租賃總成本將約為 6.8 萬美元。因此，相較之下，他目前累計節(jié)省約 1.7 萬美元。

在這一計算結果下，這套 GPU 系統(tǒng)已經(jīng)實現(xiàn)回本。按照當前市場價格估算，從此之后，每天仍可節(jié)省約 90–105 美元的計算成本。

真正的“最終結論”

Rosmine 表示，購買這臺服務器的出發(fā)點從來不是為了節(jié)省成本，而是為了構建一些“有意思的東西”。

在這個過程中，他投入了大量時間去嘗試高風險、高回報的實驗，并經(jīng)歷了多次失敗。

但最終，他確實取得了一些成果，并聲稱自己解決了大語言模型中的一個關鍵問題。

他計劃在下周正式發(fā)布相關成果，以驗證這究竟是一次真正的技術突破，還是又一次“LLM 精神錯亂（LLM psychosis）”式的誤判。

建議

Rosmine 在分享中提醒，對于自建高端 GPU 服務器這一類方案，需要非常謹慎，因為其中很容易出現(xiàn)成本高昂的錯誤。他原本認為，由于公寓無法升級電路，因此無法使用標準數(shù)據(jù)中心服務器，只能采用“雙電源分別接入不同電路”的方式。正是基于這一限制，他選擇了一塊 GPU 互聯(lián)速度較慢的主板。這種配置非常適合并行運行大量小型實驗（也是他的主要使用場景），但在需要跨 GPU 切分模型的任務中表現(xiàn)較差。
在多次故障中，相當一部分問題來自 PCIe riser 相關組件，而 Nathan Odle 關于 riser 的調(diào)查與分析在排查過程中提供了重要幫助。
他也提到，自己的消費習慣更接近“預算緊張的研究生”，這套設備實際上是多年積攢后的投入。盡管自己處于可以承擔這類高風險支出的相對幸運位置，但他并不建議所有人都復制同樣的方案。
在他看來，即使只是使用 Google 的 Google Colab 訂閱、較便宜的云 GPU，或小型本地設備，同樣可以完成高質(zhì)量的研究工作。
從“租用 GPU”到“擁有 GPU”，心理層面的變化非常明顯。在租用模式下，每一次實驗都會產(chǎn)生直接成本，因此需要不斷權衡是否值得運行；而在擁有設備之后，不運行實驗反而會產(chǎn)生“資源閑置的損失感”。同時，也避免了頻繁啟動和停止云實例帶來的麻煩。
此外，這份分析并未計入時間成本，而搭建與維護整套服務器本身就消耗了大量精力。
在保險方面，他曾嘗試將該設備納入租房保險，但保險公司并不接受這一方案，最終只能改為商業(yè)保險覆蓋。

最后他表示，如果重新選擇一次，他可能不會再進行這種高度定制化的組裝，而是直接購買標準數(shù)據(jù)中心服務器并將其托管在機房。不過，這樣也意味著會失去偶爾與 “grumbl” 打招呼的那種個人化體驗。

來源：https://rosmine.ai/2026/05/13/was-my-48k-gpu-worth-it/

免費領取 100 小時 AI 算力｜CSDN 讀者專屬

加入 AI 開發(fā)者計劃獲取：

? AI 算力資源? 官方技術社群? Workshop 與 AI Academy? 開發(fā)者專屬福利

立即掃碼，前 50 名額外領取「瑞幸咖啡」

咖啡領取鏈接：https://s.csdn.cn/4nPsOp

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.