一位自建大模型服務(wù)器的開(kāi)發(fā)者坦言,他之所以逐漸遠(yuǎn)離云端大型語(yǔ)言模型,最根本的理由是不想讓外部服務(wù)器碰觸自己的數(shù)據(jù),也更不愿承擔(dān)付費(fèi)API帶來(lái)的額外開(kāi)銷。在先后遷移多套方案后,他將目光鎖定在一套跑在舊Proxmox工作站上的本地大模型服務(wù)器上,從簡(jiǎn)單對(duì)話到OCR分析、語(yǔ)音助手推理后端,再到自動(dòng)化流水線,效果意外地好用。
云端的便利性幾乎無(wú)可辯駁。無(wú)論是Perplexity在回答中呈現(xiàn)出的可靠與透明,還是Claude Code的編程能力,都在證明一件事:不需要自己動(dòng)手,就能快速獲得生產(chǎn)力飛躍。多數(shù)云服務(wù)配套的界面對(duì)新手相當(dāng)友好,不用額外折騰就能立即用起來(lái),這種零門檻體驗(yàn)對(duì)一般用戶而言確實(shí)省心。可是,當(dāng)你開(kāi)始把日常任務(wù)交給別人家的服務(wù)器時(shí),兩個(gè)問(wèn)題也跟著浮現(xiàn):數(shù)據(jù)流向哪里?花出去的API費(fèi)用會(huì)堆積成多高?
![]()
作者最初和許多自托管玩家一樣,選擇了Ollama上手。前幾周運(yùn)行相當(dāng)順利,拉取模型、啟動(dòng)服務(wù)順手就能完成,加上不少開(kāi)源應(yīng)用都原生支持這個(gè)推理引擎,體驗(yàn)幾乎無(wú)縫。然而,一旦想往更大規(guī)模的模型上走,Ollama額外消耗的性能開(kāi)銷和缺少精細(xì)控制工具的問(wèn)題就變得明顯。當(dāng)他試圖運(yùn)行體積更大的模型時(shí),情況到了無(wú)法忽視的地步,最終促使他轉(zhuǎn)投llama.cpp。
這套新方案的核心,是利用llama-server的功能搭起一個(gè)全天候運(yùn)行的大模型服務(wù)器,再借助其提供的與OpenAI兼容的API,和作者那一整套自由與開(kāi)源軟件工具鏈連接起來(lái)。為了盡可能榨干老舊硬件的價(jià)值,他選擇將這套服務(wù)放進(jìn)Proxmox的LXC容器之中。這樣一來(lái),當(dāng)大模型推理不使用時(shí),那塊舊顯卡還可以繼續(xù)被Immich、Frigate這類需要計(jì)算能力的應(yīng)用共享。
GPU直通成了讓舊硬件持續(xù)發(fā)光的關(guān)鍵一步。作者在自己的老機(jī)器上運(yùn)行l(wèi)s -l /dev/nvidia*命令,得到顯卡的設(shè)備號(hào)195、235和237,隨后將以下配置寫入LXC的設(shè)定檔,并在容器內(nèi)安裝對(duì)應(yīng)顯卡驅(qū)動(dòng),最后編譯出llama.cpp的Vulkan版本:
lxc.cgroup2.devices.allow: c 195:* rwm
lxc.cgroup2.devices.allow: c 235:* rwm
lxc.cgroup2.devices.allow: c 237:* rwm
lxc.mount.entry: /dev/nvidia0 dev/nvidia0 none bind,optional,create=file
lxc.mount.entry: /dev/nvidiactl dev/nvidiactl none bind,optional,create=file
lxc.mount.entry: /dev/nvidia-uvm dev/nvidia-uvm none bind,optional,create=file
如此一來(lái),這個(gè)llama-server容器獲得了接近原生的性能表現(xiàn)。作者還將內(nèi)存資源拉高到24GB(總內(nèi)存32GB),目的很明確——確保能夠容納MoE(混合專家)模型。這套從Ollama到llama.cpp、再結(jié)合Proxmox LXC與GPU直通的組合,讓他那臺(tái)已經(jīng)有些年頭的設(shè)備繼續(xù)扮演起多種智能任務(wù)的推理核心,而此前擔(dān)心的云端數(shù)據(jù)泄露和持續(xù)費(fèi)用,自然也就不再是困擾。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.