在四月份英特爾專業工作站發布會上,英特爾將旗下最新一代單路極致性能平臺至強600系列CPU和英特爾銳炫Pro B70(Intel Arc Pro B70)放在了一起,不僅構成了這個時間內旗下最強AI與創作的工作站平臺,也明示了英特爾銳炫Pro B70在AI工作站,乃至整個平臺中的重要性。
![]()
更重要的是,Arc Pro B70標志著英特爾首次將大顯存AI推理作為旗艦獨立GPU的絕對優先級,32GB GDDR6,367 TOPS INT8,吃滿x16的PCIe 5.0組合,在工作站中打出了一套基于本地化、開放化和高性價比的組合拳。
![]()
那么Arc Pro B70在AI領域究竟會有什么樣的表現,它是否能幫助英特爾在這場逆勢反擊的戰場中再增添一注砝碼?接著此次機會,我們深度探討了這款GPU的實戰細節,也希望能給關注AI工作站的用戶們提供一些有用的分享。
![]()
向專業領域進發
Arc Pro B70可以理解為Intel Battlemage B-Series的專業系列GPU,基于Xe2架構的 BMG-G31 GPU打造,并且硬件設計目標非常明確,即為現代 AI 推理與專業圖形工作站提供大顯存、高算力、開放生態的加速平臺。
![]()
這套硬件設計哲學可以概括為三點:
大幀緩存(Large Framebuffers):32GB GDDR6顯存,面向大模型推理、高分辨率紋理、復雜光追場景;
AI 原生加速:通過第二代XMX(Xe Matrix Extension)矩陣引擎,在本地提供高達 367 TOPS INT8的推理算力;
開放與擴展性:基于PCIe 5.0 x16接口,支持多卡擴展,官方驗證平臺支持最多8 卡,從發布會現場的OEM溝通來看,擴展到16卡,即單一平臺工作站最高做到16x32GB=512GB的顯存。
![]()
構建出這套硬件哲學的底層源自英特爾Xe2 GPU架構。Xe2并非簡單的IP迭代,而是一次面向利用率、負載均衡與軟硬件協同的系統性重構。包括更高利用率,通過執行寬度升級與緩存重構,減少計算單元在等待數據時的空閑周期。改進工作負載分布,在圖形與 AI 計算兩條并行的負載路徑上,優化任務在核心間的分配邏輯。以及無縫軟硬件握手,指令調度、內存管理與驅動層之間降低延遲,提升從 API 調用到硅片執行的轉化效率。
Xe2同時服務于內置Built-in與獨立Discrete兩種實現形態,這意味著其ISA與微架構設計必須具備足夠的靈活性,既能適配筆記本集成GPU的功耗約束,也能在桌面、工作站獨立顯卡上釋放完整性能。Arc Pro B70作為滿血獨立版本,正是這一架構在TGP 160W到290W的功耗下完整展開。
![]()
Xe2的基礎是第二代Xe-Core,即基礎計算構建塊(Foundational Compute Building Block),它直接實現Xe ISA,并針對圖形與AI計算兩類負載進行市場級優化。具備SIMD16的向量執行寬度,每核心8個Xe Vector Engines(XVE)單元,能夠更好的增強并行線程處理能力。同時第二代Xe-Core共享緩存(L1/SLM)增加到了256KB,進一步降低顯存訪問頻次,服務重負載工作站場景。
其中,從第一代Xe-Core的SIMD8升級到第二代Xe-Core的SIMD16,意味著每個 XVE 在單一時鐘周期內可以處理更寬的向量寄存器。對于AI推理中常見的矩陣-向量乘法與圖形著色器中的批量數據操作,SIMD16能顯著減少指令發射次數,降低前端調度壓力,同時提升后端執行單元的占用率。這也是英特爾宣傳每個Xe-Core性能最高提升70%的重要原因之一。
![]()
XMX(Xe Matrix Extension)是Xe2在AI負載上實現數量級加速的專用硬件單元,其設計體現了異構計算在GPU內部的微觀化。Xe2中,每個Xe Vector Engine均配對一顆XMX引擎,形成向量、矩陣雙發管線。這種緊耦合設計意味著在AI工作負載中,激活函數、歸一化等向量運算與線性層、注意力投影等矩陣運算可以在同一執行端口內交替或并行完成,減少跨單元數據搬運。
![]()
全面進軍專業市場
一直以來工作站都是 Intel 的傳統優勢領域,不過在過去 Intel 在這個領域的主要優勢是 CPU 和系統平臺,但是隨著今年進軍獨立 GPU 市場,Intel 的專業卡也開始漸露頭角,例如去年推出的 B60 系列,憑借每 GPU 24 GB 顯存的配置、穩定的性能表現以及專業多媒體處理能力,在這個領域收獲了不少好評。
如今,英特爾在這個基礎上再接再厲,推出了基于代號 BMG-31 GPU 的全新 Arc Pro B70 專業卡,不僅單 GPU 浮點性能顯著提升,而且顯存容量也比之前提升了50%,能滿足對性能、顯存容量更苛刻的專業應用場景。
![]()
在工藝層面,BMG-31 GPU采用TSMC N5制程,擁有277億個晶體管,Die Size 368mm2,公版TBP 230W,AIB可以根據實際需求定制功耗范圍,通常在160W到290W之間。
按Arc Pro B70的滿配規模推算32 Xe-Cores × 8 XVE/XMX = 256個XMX引擎,整顆GPU的峰值矩陣算力達到367 TOPS INT8 Dense。相比傳統GPU中依賴通用乘加單元MAC進行矩陣運算的方式,XMX在INT8推理場景下可提供最高16倍的計算能力。
![]()
XMX不僅服務于INT8,還支持TF32、BF16、FP16、INT4、INT2。這種梯度化的精度覆蓋使Arc Pro B70能夠適配從高精度微調BF16到極限量化壓縮INT4、INT2的全譜系AI模型部署需求,而無需回退到軟件模擬。
![]()
除此之外,Xe2集成了改進版的第二代RTU(Ray Tracing Unit),官方標稱吞吐量最高可達前代的2倍。雖然Arc Pro B70的核心定位是AI推理,但英特爾選擇保留并強化光追單元,使其在專業可視化,如復雜 CAD 模型的實時光追渲染、路徑追蹤預覽中仍具備完整的圖形管線能力,而非一張純粹的AI計算卡。
回到構建Arc Pro B70的BMG-G31 GPU本身。BMG-G31采用Render Slice作為中層組織單元,滿配包含8個Render Slices,每個Slice針對 DirectX 12 Ultimate特性集優化。按32個Xe-Cores與8 Slices的配比推算,每個Slice內部集成4個Xe-Core,形成“Slice → Xe-core → XVE/XMX”的三級計算層級。
![]()
這樣設計好處在于,可以方便英特爾在不同SKU間靈活屏蔽Slice,衍生出不同核心數的產品。同時Slice內部可共享局部資源,如光柵化、圖元裝配單元,減少跨Slice通信。另外在輕負載圖形場景下,可關閉部分Slice實現精細化的功耗門控。
這里給出一張BMG-G31在Arc Pro B70滿配硬件表格作為參考:
![]()
可以看到,XVE、XMX、TMU的數量均為256,呈現1:1:1的配比關系,這意味著在紋理密集的AI生成任務,如擴散模型的VAE解碼階段中,采樣與計算不會形成明顯的資源瓶頸。另外128個ROPs保證了在高分辨率圖形輸出時的像素填充率,使Arc Pro B70在作為專業顯示卡驅動4K/8K顯示器時仍具備完整性能。
緩存部分,BMG-G31緩存系統采用兩級顯性架構,每個Xe-Core配備256KB統一緩存,承擔L1數據緩存與線程間共享內存的雙重角色。對于32核心的滿配芯片,片上 L1/SLM總容量達到8MB。同時全局擁有18MB L2緩存,作為所有Render Slice與顯存控制器之間的中央緩沖池。18MB的容量在同類工作站GPU中屬于較大配置,對于 AI 推理中重復訪問的模型權重與中間激活值具有顯著的命中增益。
大L2緩存家寬L1/SLM設計,本質上使用晶體管預算換取對顯存帶寬的依賴降低,進而緩解608GB/s顯存帶寬在極端并發負載下的壓力。實際上,608GB/s顯存帶寬已經比試下熱議的統一內存實際運行帶寬高很多。
![]()
608GB/s顯存帶寬=256-bit位寬 × 19 Gbps速率,BMG-G31使用了全新的GDDR6顯存控制器,并配備32GB容量,遠超同級別的游戲和專業顯卡,直接服務于大語言模型權重駐留與高精度3D場景紋理。同時顯卡還在硬件層面對Resizable BAR(基址寄存器重調)提供支持,CPU可通過PCIe地址空間一次性映射GPU的全部32GB顯存,而非傳統的256MB窗口。并且多卡并聯時,Resizable BAR是顯存聚合與統一尋址的基礎硬件前提。
大顯存帶寬在 vLLM、PyTorch 等AI推理框架下,大模型權重可直接通過 DMA 高效進出顯存,減少拷貝分段與驅動層地址轉換開銷。多卡并聯時,Resizable BAR 是顯存聚合與統一尋址的基礎硬件前提。
![]()
最后,Intel Arc Pro B70具備完整的圖形與多媒體輸出能力,包括HDMI 2.1和DisplayPort 2.1,支持UHBR 13.5和UHBR 10,最高4屏輸出,支持8K@60Hz與 4K@360Hz。以及2 組多格式編解碼引擎(MFX),支持H.264、H.265、AV1、VP9的硬件編解碼,以及XAVC-H解碼。雙引擎設計允許并行處理多路視頻流,在AI視頻生成與專業剪輯工作流中提供硬件級加速。
![]()
銘瑄Arc Pro B70:單渦輪釋放拉滿
這里我們先展示一下測試平臺:
主機:聯想ThinkStation P7
操作系統:Ubuntu 25.04
Kernel:6.14.0-1011-intel
CPU:Intel Xeon w5-3435X (32) @ 4.600GHz
(物理 16 核,32 線程)L1D-48KB; LII-32KB; L2-2048KB; L3-45MB)。
GPU:銘瑄 Intel Arc Pro B70 32GB *2 TBP 230W
內存:256GB DDR5;四通道 4800MT/s
![]()
這次的 LLM 模型測試主要在 Ubuntu 25.04 下進行,因為目前能比較開箱即用的 Intel推理引擎就是 Intel 維護的 llm-scaler 項目(intel/llm-scaler)里的 vLLM 容器,目前測試運行版本為 0.14.0-b8.3,新增支持 Qwen3.5-27B, Qwen3.5-35B-A3B and Qwen3.5-122B-A10B(FP8/INT4 在線量化以及 GPTQ)。
![]()
這里著重介紹一下銘瑄Intel Arc Pro B70 32GB,參與測試的兩塊顯卡屬于Turbo版本,規格為267×111×38.65 mm,雙槽厚度。電源安排在了尾部,接口12V-2×6。顯示輸出接口包括3×DP 2.1(1×UHBR20 + 2×UHBR10)+ 1×HDMI 2.1a,整卡功耗TBP 290W。
![]()
12V-2×6接口是服務器/機架友好設計,避免了頂部供電線在多卡密堆時彎折頂到相鄰顯卡的問題,給后續的多卡互聯提供了理想的物理空間,雙卡配置對于聯想ThinkStation P7而言是輕而易舉的。
![]()
![]()
![]()
散熱上,銘瑄表示使用了三重散熱設計。僅使用單個渦輪風扇實現離心式鼓風設計,從側面吸入冷風,直接將熱風經擋板排出機箱外部,這種風道的核心優勢是多卡并聯時不會把熱量甩給相鄰顯卡或機箱內部,對于四卡以上集群尤為重要。
![]()
銘瑄Intel Arc Pro B70 32GB還是用了更大面積的VC均熱板,能將GPU核心的熱量更均勻地擴散到整個散熱鰭片陣列,避免渦輪風扇常見的核心熱點問題。同時全尺寸金屬背板可以防止PCB在長期豎插和高負載下形變,并輔助背部顯存和供電模塊的散熱。
![]()
![]()
![]()
![]()
現在讓我們進入測試環節。
![]()
LLM-Scaler 使用教程
我這里假設大家已經安裝好 Ubuntu 25.04 以及 Docker,搞定后我們首先要搭建“Bare Metal Environment(BME)”的組件,下載鏈接在 LLM-Scaler 的官方教程頁面就能找到:
llm-scaler/vllm/README.md at main · intel/llm-scaler
![]()
點擊上圖中紅色框框就能下載 Bare Metal Environment,它里面含有運行所需的 Linux Kernel、GPU 驅動、工具、系統配置更新。
這個東西是操作系統相依的,例如目前的提供的版本里就只含有 Ubuntu 25.04 和 25.10。
我曾經嘗試過在 Ubuntu 26.04 正式版上安裝 BME,會提示找不到對應的文件夾,因此目前在 Ubuntu 26.04 上暫時只能使用 Mesa 驅動提供的 Vulkan 和 OpenCL 支持(需要再安裝 Intel Neo 驅動),不具備 PyTorch 硬件加速支持所需的套件,需要后續新版套件發布后才行。
當然,我也的確看到過有人成功在 Ubuntu 26.04 使用,應該是手動能力比較強解決了,感興趣的大家可以關注這里:Getting Started on Intel GPU — PyTorch 2.11 documentation。
下載好 BME 后,執行以下命令展開安裝包:
tar xf multi-arc-bmg-offline-installer-26.5.6.1.tar.xzcd multi-arc-bmg-offline-installer-26.5.6.1sudo ./installer.sh
完成安裝后,退出 Ubuntu 然后重新登錄或者是直接重啟,然后執行以下命令:
xpu-smi discovery
![]()
如果看到上面這樣的提示,就表示 BME 已經安裝就緒。
完成 BME 安裝后,就要部署 AI 推理服務,我們這里使用 LLM-Scaler 提供 Docker 容器,因為容器內都是搭建好的環境,這樣可以節省構建會遇到的大量相依性麻煩。
我們執行下面的命令下載容器鏡像:
docker pull intel/llm-scaler-vllm:0.14.0-b8.1
0.14.0-b8.1 是版本號,具體的大家可以到這里查找:
llm-scaler/Releases.md at main · intel/llm-scaler
題外話。上面的 dockers 命令默認是需要加上 sudo 的,但是如果只是個人使用的話,可以用下面的命令跳過 sudo:
sudo usermod -aG docker $USER && newgrp dockersudo usermod -aG render $USERsudo usermod -aG video $USER
接下來我們就可以構建容器:
docker run -td \--privileged \--net=host \--device=/dev/dri \--name=lsv-container \-v /home/intel/LLM:/llm/models/ \-e no_proxy=localhost,127.0.0.1 \-e http_proxy=$http_proxy \-e https_proxy=$https_proxy \--shm-size="32g" \--entrypoint /bin/bash \intel/llm-scaler-vllm:0.14.0-b8.1
如果一切正常的話,我們就可以用下面的命令進入容器:
Docker exec -it lsv-container bash
然后在里面執行:
xpu-smi discovery
正常的話應該能看到 Intel GPU 能用了:
![]()
xpu-smi 類似于 nvidia 的 nvidia-smi,也能提供狀態監控等功能,不過使用上有點麻煩,如果想簡單一點的話,可以試試看 nvtop,也能支持 Intel GPU,此外還有 btop、hw-smi 等。
例如 hw-smi:
![]()
btop(目前可能需要專門的 Intel GPU 分支版):
![]()
xpu-smi 內置了若干個測試項目,可以讓我們快速了解 GPU 的性能特性:
xpu-smi benchmark
Intel Arc Pro B60:
![]()
Intel Arc Pro B70:
![]()
從 xpu-smi 的測試可以看到,B70 的實測單精度性能為 22.6 TFLOPS(快 87%),4K h.265 轉碼速度高達每秒 165 幀(快 5 幀),PCIE 總線速度為 55.6 GiB/s,壓測功耗為 210 瓦(增加 63%)。
Deepseek-R1-Distill-Qwen-7B
單卡vLLM 啟動命令:
VLLM_ALLOW_LONG_MAX_MODEL_LEN=1 VLLM_WORKER_MULTIPROC_METHOD=spawn vllm serve /llm/models/DeepSeek-R1-Distill-Qwen-7B \--served-model-name DeepSeek-R1-Distill-Qwen-7B \--dtype=float16 \--enforce-eager \--port 8000 \--host 0.0.0.0 \--trust-remote-code \--disable-sliding-window \--gpu-memory-util=0.9 \--no-enable-prefix-caching \--max-num-batched-tokens=8192 \--disable-log-requests \--max-model-len=16384 \--enable-auto-tool-choice \--tool-call-parser deepseek_v32 \--block-size 64 \--quantization fp8
我這里使用了 tool-eval-bench 來測試。
tool-eval-bench 用來測試模型在智能體場景下調用“工具”(即外部 API 或功能接口)的能力,這些測試場景可以視作不同的工作流,模型需要在其中完成正確的工具選擇、參數傳遞、鏈式調用和錯誤處理,最終通過評分來評估其運行質量。
![]()
評分的維度包括了是否調用了正確的工具、傳入的傳輸是否完整準確、在涉及多步工具的時候是否能正確銜接、在出現異常或者雜噪的時候能否穩健處理并避免越界。
tool-eval-bench 不僅能評估工具調用的效果,它還自帶了一個性能基準測試并且支持調用外部的 llama-benchy 性能測試工具,內置的性能測試支持 MTP(多 Token 預測)性能測試,不過目前 vLLM 下的 Intel MTP 功能還在完善中,得留待以后體驗了。
透過 tool-eval-bench 我們可以了解測試模型在智能體場景下的效果和速度性能表現。
完整的 tool-eval-bench 包含了 69 和工具調用測試,我們在這里選擇 –short 模式,只測試其中的 15 項。
![]()
從測試結果來看,在單卡模式下,Intel Arc Pro B70 能在無上下文、單請求的時候實現 62.8 Tokens/s,上下文達到 8192 Tokens 的時候,依然能提供 60.2 Tokens/s,在四用戶請求的時候提供了 180 Toksens/s(無上下文)和 86.4 Tokens/s(8192 Tokens 上下文)。
DeepSeek-R1-Distill-Qwen-7B 的智能體應用場景表現比較一般在 TC-15(十五項工具調用)測試中,100 分滿分只拿下了 23 分。
接下來看看啟用 -tp=2 后雙卡并行加速的情況:
![]()
啟用 -tp=2 后,無上下文、單請求的時候實現 94 Tokens/s,上下文達到 8192 Tokens 的時候,性能達到 98.4 Tokens/s,在四用戶請求的時候提供了 256.3 Toksens/s(無上下文)和 110.8 Tokens/s(8192 Tokens 上下文),雙卡加速性能提升分廠明顯。
不過 DeepSeek-R1-Distill-Qwen-7B 的智能體應用場景表現較之前單卡的時候略有下降,跌到了 20 分。主要是 TC-03 跑不通了。
接下來看看其他模型上的表現。
Qwen3.5-9B
Qwen 3.5 是千問 3.5 系列小尺寸系列(0.8B、2.5B、4B、9B)里的最大的,支持文本和視頻,特性方面要比一年前的 Deepseek Dstill Qwen 7B 好很多。
測試的時候我使用了 fp8 在線量化,在 48K 上下文的時候內存開銷是 13.13 GB,余下的空間還能作為 KV Cache 存放 9 倍設定的上下文長度。
![]()
單卡模式
![]()
在單卡模式下,Intel Arc Pro B70 錄得了 31.3 Tokens/s 的單請求/無上下文性能,在四請求下性能為 95.1 Tokens/s,在上下文 8192 的是,則分別是 30.8 Tokens/s 和 39 token/s。
在工具調用能力方面,TC15(15 項)取得了 97 分的結果,遠優于 Deepseek Dstill Qwen 7B 的情況,雖然速度要慢些,但是配合智能體時的實際使用體驗要好上許多。
雙卡模式(TP2)
vllm serve /llm/models/Qwen3.5-9B \--served-model-name Qwen3.5-9B \--enforce-eager \--port 8000 \--host 0.0.0.0 \--trust-remote-code \--disable-sliding-window \--gpu-memory-util=0.90 \--block-size 32 \--max-model-len=16384 \--max-num-batched-tokens=8192 \--reasoning-parser qwen3 \--enable-auto-tool-choice \--tool-call-parser qwen3_xml \--language-model-only \--quantization fp8 \-tp 2
-tp 2 能將模型拆開放在不同的顯卡上,單卡的顯存開銷要比單卡的時候低不少:
![]()
可以看到,每張卡的顯存開銷也就是 7.6 GB,可分配存放上下文的 KV Cache 可以達到 25.6 倍設定的 48K 上下文。
![]()
雙卡模式的時候,TC15 工具調用錄得了 100 分滿分,比單卡的時候 97 分表現更好一點。
在性能方面,由于我們這里使用的并行方式 -tp 2,也就是將模型張量拆開放到兩片上,存在 PCIE 總線交換約束,所以單事務請求的性能為 27 Tokens/s,比單卡 31 Tokens/s低,但是在 8129 上下文四路請求的時候,性能達到了 53 Tokens/s,比單卡時候快了 38%。
另一種雙卡模式是 -dp 2,也就是兩張卡都加載完整的模型,這樣的好處是 PCIE 數據交換壓力降低了不少,性能也會更進一步:
![]()
無上下文時單路請求的時候和單卡差不多,而在 8192 上下文+4路并發的時候,性能達到了 66.7 Token/s,比單卡快了 71%。
-dp 2 是的 TC15 測試結果和單卡類似,都是 97 分。
Qwen3.6-35B-A3B-Q4_K_XL
所以我嘗試了一下 llama.cpp SYCL 來跑相關的量化模型,像 Qwen3.6-35B-A3B-Q4_K_XL 這種 4-bit 量化模型就能輕松跑了起來:
build/bin/llama-server -m ~/LLM/gguf/Qwen3.6-35B-A3B-UD-Q4_K_XL.gguf -c 49152 -ngl 99 --host 0.0.0.0 -sm layer --port 8000
llama.cpp 目前有多種 GPU 并行加速方式,例如 -sm layer、-sm row 以及和 vLLM -tp 類似的 -sm tensor,就目前而言最快的還是 -sm layer,而且這個模式的模型加載速度也遠遠快于 -sm tensor。
![]()
![]()
![]()
模型在代表智能體使用效果的 TC15 工具調用測試滿分,具有很高的使用價值。
性能方面,Intel Arc Pro B70 在這里錄得了每秒 69 Tokens 的無上下文性能,在啟用 8192 Tokens 上下文的時候能達到每秒 66 tokens 的性能。
Llama.cpp 的多并發性能一直表現一般,這也使得它目前主要適合于單用戶場景。
Qwen3.6-27B-Q4_K_M
![]()
Qwen3.6-27B 是稠密模型,內存帶寬壓力是 Qwen 3.6-35B-A3B 9倍,不過就坊間的反映來說,27B 的效果要明顯優于 35B,從 TC15 工具調用測試來看,也是輕松滿分。
從性能測試結果來看,Intel Arc Pro B70*2 能在這個測試中實現每秒 20 Tokens/s 的速度,速度方面應該還有提升空間。
我也有嘗試啟用 llama.cpp 的預測推理(--spec-type ngram-mod --spec-ngram-mod-n-match 24 --spec-ngram-mod-n-min 12 --spec-ngram-mod-n-max 48),結果如下:
![]()
這里的 filler 就是日常的對話、code 是編程、structured 就是處理諸如 xml、json 等結構化文件。
測試的數據并不是很穩定,一般來說一開始的時候性能較低、丟棄率也相對高些(最高丟棄率為 56.%,發生在 filler 類居多),之后越跑表現會越好的樣子。
我們這里給出的是第四次運行后的結果,此時的數據個第三次運行的情況一樣,每秒有效生成 在 40-53 Tokens,只在 filler發生兩次 17% 的拋棄。
跑 Qwen 3.6 27B 能有這個速度表現非常讓人滿意了。
當然,MTP 的成功率其實受到很多因素影響,例如前面的 Qwen 3.6 35B A3B 的采納率相對更低一些。
ComfyUI
export DOCKER_IMAGE=intel/llm-scaler-omni:0.1.0-b7export CONTAINER_NAME=comfyuiexport MODEL_DIR=/home/intel/Downloads/ComfyUI/modelsexport COMFYUI_MODEL_DIR=/home/intel/Downloads/ComfyUI/modelsdocker run -itd \--privileged \--net=host \--device=/dev/dri \-e no_proxy=localhost,127.0.0.1 \--name=$CONTAINER_NAME \-v $MODEL_DIR:/llm/models/ \-v $COMFYUI_MODEL_DIR:/llm/ComfyUI/models \--shm-size="64g" \--entrypoint=/bin/bash \$DOCKER_IMAGE
目前 LLM-Scaler-Omni 鏡像里的 ComfyUI 版本比較舊(例如不支持 Flux.2 Klein 9B KV 模型所需要的 KV Cache 節點),不過優點是預裝好了多 GPU 節點并且速度可能更快(以 SeedVR2 為例大約快 5%–),但是如果你是單卡用戶或者是希望自己掌控,可以參考一下我下面針對 Intel XE GPU 的本機安裝 ComfyUI 步驟。
本機安裝 ComfyUI 步驟:
安裝 python 配置環境工具 pyenv:
git clone https://github.com/pyenv/pyenv-virtualenv.git ~/.pyenv/plugins/pyenv-virtualenvecho 'eval "$(pyenv virtualenv-init -)"' >> ~/.bashrcsource ~/.bashrc
構建獨立配置環境
pyenv virtualenv 3.12.13 python-312
這會在 ~/.pyenv/versions/python-312 下創建一個對應 Python 3.12 的配置環境。
然后我們安裝 ComfyUI 并將 Python 3.12 環境套給它:
git clonehttps://github.com/comfyanonymous/ComfyUIcd ~/Downloads/ComfyUIpyenv local python-312
此時 ComfyUI 目錄下會生成 .python-version 文件,內容是 python-312。
驗證:
python --version
輸出應該是:
Python 3.12.13
同時提示符會顯示:
(python-312) intel@intel:~/Downloads/py312$
在該目錄里安裝 torch for intel GPU
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/xpu
安裝依賴組件
pip install -r requirements.txt
安裝 Comfy 管理器:
pip install-r manager_requirements.txt
安裝 triton(download.pytorch.org/whl/cu80/triton-xpu/):
pip install https://download-r2.pytorch.org/whl/triton_xpu-3.6.0-cp312-cp312-manylinux_2_27_x86_64.manylinux_2_28_x86_64.whl
啟動命令:
python3 main.py --listen 0.0.0.0 --enable-manager
其中的 --listen 0.0.0.0 是允許網絡訪問
啟動成功后,按 ctrl-c 退出,然后修改ComfyUI/user/__manager/ config.ini 文件,使其允許局域網其他電腦訪問的時候安裝插件:
security_level = weaknetwork_mode = personal_cloud
之后再次啟動 comfyui 就能正常使用了。
啟動后應該能看到正確識別到 Intel xpu。
![]()
如果識別到是 Intel(R) Graphics [0xe223] 其實也是可以跑的,你也可以在主機和容器內到 Releases · intel/compute-runtime 下載、安裝最新的 Intel Compute-runtime,然后就能實現識別為 Intel Arc Pro B70 Graphics。
Flux.2 Kelin 9B KV 圖像編輯(換衣服)
我們先試試看
![]()
提示詞:
Use the original image as the base.
Replace the clothing with the outfit shown in the reference image.
Preserve the model’s original face, identity, and facial features exactly as in the source image.
Keep her body proportions, pose, shoes, accessories, and all other elements unchanged.
Maintain the surrounding environment, background, and lighting exactly as in the original image.
Do not alter or reinterpret any non-clothing details.
第一次運行(冷啟動):17.82 秒
第二次運行:6.75 秒
Qwen 3.6 27B 圖片轉文本提示詞反推
這里我們需要安裝能支持 Intel XPU 硬件加速 Qwen 3.6 的 llama-cpp-python 模塊:
安裝 llama.cpp sycl for intel gpu:# 啟動 Intel OpenAPI 環境(你需要先安裝 OneAPI 套件)source ~/intel/oneapi/setvars.sh# 安裝(構建) llama-cpp-pythonCMAKE_ARGS="-DGGML_SYCL=on -DCMAKE_C_COMPILER=icx -DCMAKE_CXX_COMPILER=icpx" pip install "llama-cpp-python @ git+https://github.com/JamePeng/llama-cpp-python.git"
下載 Qwen 3.6 27B 模型:
在 ComfyUI/models/llm/GGUF/Qwen/Qwen3.6-27B-GGUF 目錄(如果沒有的話,可自己先新建該目錄層次,也可以在你自己喜歡的其他位置,仿真后面的文件名位置輸入都是要有完整文件路徑的)里執行:
aria2c -x 16 -s 16 -o Qwen3.6-27B-Uncensored-HauhauCS-Balanced-Q4_K_P.gguf https://huggingface.co/HauhauCS/Qwen3.6-27B-Uncensored-HauhauCS-Balanced/resolve/main/Qwen3.6-27B-Uncensored-HauhauCS-Balanced-Q4_K_P.gguf
aria2c -x 16 -s 16 -o mmproj-Qwen3.6-27B-Uncensored-HauhauCS-Balanced-f16.gguf https://huggingface.co/HauhauCS/Qwen3.6-27B-Uncensored-HauhauCS-Balanced/resolve/main/mmproj-Qwen3.6-27B-Uncensored-HauhauCS-Balanced-f16.gguf
其中 mmproj 模型是多模態投影模型 (multimodal projector),作用是讓大語言模型(比如 Qwen3.6?27B)能夠處理非文本輸入,比如圖片或視頻。
安裝 ComfyUI 下支持 Qwen 3.6 多模態反推節點:
在 ComfyUI/custom_nodes 里執行:
git clone https://github.com/KLL535/ComfyUI_Simple_Qwen3-VL-gguf
啟動 ComfyUI 后,在模板瀏覽中找到 ComfyUI_Simple_Qwen3-VL-gguf 的工作流樣例,這里面有若干個圖片、視頻、音頻工作流,我選擇其中的 test2 工作流,它是一個對輸入的兩張圖片找出差別工作流:
![]()
我屏蔽掉該工作流中的第二個圖相關的節點,將其改為簡化的圖片轉 Z-Image-Turbo 提示詞反推工作流:
![]()
上圖中的紅框里有模型文件路徑、模型參數的設置,我設定如下:
"model_path": "/home/intel/Downloads/ComfyUI/models/llm/GGUF/Qwen/Qwen3.6-27B-GGUF/Qwen3.6-27B-Uncensored-HauhauCS-Balanced-Q4_K_P.gguf""mmproj_path": "/home/intel/Downloads/ComfyUI/models/llm/GGUF/Qwen/Qwen3.6-27B-GGUF/mmproj-Qwen3.6-27B-Uncensored-HauhauCS-Balanced-f16.gguf""ctx": 8192"n_batch": 2048"n_ubatch": 512"output_max_tokens": 8192"image_min_tokens": 1024,"image_max_tokens": 2048,"gpu_layers": -1"temperature": 0.7"top_p": 0.80"top_k": 20"min_p": 0.0"presence_penalty": 1.5"repeat_penalty": 1.0"pool_size": 16777216"chat_handler": "qwen35""enable_thinking": false"script": "qwen3vl_run.py""silent": false"verbose": false"debug": true
在這里也可以設置為支持多卡模式,即添加 "split_mode": 1,此時可以觀察到兩片 B70 的確都在跑了,但是兩片卡負載狀態一直在彼此起伏,最終速度變化不大。
我這里使用的是 Qwen 3.6B 27B,這是一個稠密模型,沒有 MOE。
如果是Qwen 3.6 35B A3B 這類 MOE 模型,此時大家可以添加 "n_cpu_moe": 18,應該能把顯存壓力降低一些。
藍色框里選擇 Z-Image-Turbo Prompt(v3)。
在工作流運行的時候,能看到 GPU 全速運作,顯存開銷是 24 GB:
![]()
在模型已經加載過(模型冷加載需要額外的 6.5 秒左右)的情況下進行測試:
![]()
測試的圖片大小是 936x1660,從輸出來看,我們的圖片反推的推理速度為每秒 13.52 Token。
Wan 2.2 文生圖雙 GPU 并行加速
![]()
Llm-scalar-omni 的 ComfyUI 內置了 raylight 節點,可以支持多卡并行運行,包括 Wan 2.2 等模型都可以實現多卡并行加速:
![]()
實測條件如下:
832*480,33 幀,4 步,提示詞:
a fox moving quickly in a beautiful winter scenery nature trees mountains daytime tracking camera
首次運行:
單卡:69.03
雙卡:78.15
第二次運行:
單卡:35.22
雙卡:41.55
從測試結果來看,雙卡的速度的確不如單卡快,這其中的原因是節點需要使用 CPU 來拆分、遞交任務給 GPU 跑,比單卡需要額外的耗時。
類似的情況在之前跑 Intel Arc Pro B60 的時候也出現過,不過在 4 卡后,速度就能提上來了。
SeedVR2 圖片高清放大
SeedVR2 目前需要打補丁后才能啟用 Intel GPU 硬件加速:
來源:以后,會有支持interA770顯卡的,seedvr2嗎? · Issue #429 · numz/ComfyUI-SeedVR2_VideoUpscalerhttps://github.com/user-attachments/files/24390096/seedvr2_videoupscaler-interA770.zip
打補丁步驟(假設當前目錄為 ComfyUI 安裝目錄):
cd custom_nodeswget https://github.com/user-attachments/files/24390096/seedvr2_videoupscaler-interA770.zipsudo apt updateunzip seedvr2_videoupscaler-interA770.zipcd seedvr2_videoupscalerpip install -r requirements.txt
輸入圖片大小 1024x1024,參數設置為:
啟用 xpu
encode_tiled: truedecode_tiled: falseattention_mode: spda
輸出分辨率: 2048x2048
![]()
測試結果是:
第一次運行:20.12 秒
第二次運行:15.67 秒
SeedVR2 視頻高清放大
![]()
打好補丁后就能讓 ComfyUI 正常加載 seedvr2 節點,之后我們打開 seedvr2 視頻放大工作流(llm-scaler-omni 容器內的 ComfyUI 內置了該工作流),由于我們的 Intel Arc Pro B70 擁有高達 32GB 顯存,所以節點內原本的一些設置可以調整優化,例如關閉掉各種 offload 設置,減少數據交換的耗時,你們按照下圖中的紅色框框設置就行:
![]()
![]()
點擊運行,工作流就會運行,上圖就是運行時 hw-smi 顯示的 GPU 狀態,可以看到其中一個 Intel Arco Pro B70 已經全速運行中。
測試的視頻源是 llm-scaler-omni 內置 ComfyUI 資產庫里的阿三頭像視頻,視頻分辨率是 640x360px,45 幀,目標分辨率是 1920x1080px。
使用的放大模型是 seedvr2_ema_3b_fp8_e4m3fn.safetensors。
第一次運行測試耗時是 127.92 秒,每秒 0.35 幀,第二次運行的耗時是 125.11,0.36 幀/s。
Intel Arc Pro B70 在這個SeedVR2 視頻放大的主要優勢是 32GB 大顯存,減少了數據交換,實現了更快的速度以及更大分辨率的支持。
SGL Diffusion + ComfyUI Z-Image Turbo 文生圖
Intel Llm-Scaler 項目里的 LLM-Omni 除了內置 ComfyUI 外,還內置了 SGL Diffusion for Intel XE GPU 支持,原理是使用 SGLang 提供 diffusion 模型服務,ComfyUI 透過 SGL Diffusion 節點調用 SGLang 提供的 Diffusion 推理服務,這個技術的好處是能充分利用 SGL Diffusion 的多卡并行推理優勢,讓 ComfyUI 實現高效圖片、視頻生成支持,效果比前面提到的 Ray 好很多。
SGL Diiffusion 啟動腳本,箭頭所指就是設置多少卡:
![]()
單卡:
![]()
雙卡:
![]()
測試設置:
提示詞:
A young Chinese pretty model with short, wavy black hair and a neutral facial expression stands centered in the frame, holding an assault rifle horizontally across her torso; she wears a fitted red-orange tactical jumpsuit with black harness straps over it, beige fingerless gloves marked “14B,” and has small earpieces clipped to her right sleeve. Her pose is direct and assertive as she gazes forward at the camera while slightly angled toward its left side. The background consists of an unadorned red-orange studio backdrop that blends with her uniform’s hue, eliminating any environmental context or time cues beyond a controlled indoor setting. Lighting originates from front-left, casting soft shadows on her right shoulder and creating even illumination across her face without harsh contrasts; the color temperature is warm yet balanced to highlight skin tones against the monochromatic background. The camera maintains an eye-level viewpoint at medium distance, framing her in a full-body shot that emphasizes both her stance and attire while keeping focus sharply centered on her upper body and weapon grip.
步數:5
分辨率:1024*1024
單卡,Z-image-Turbo 5 的生成速度為:
第一輪: 8.51 秒
第二輪:4.21
雙卡:
第一輪: 7.88 秒
第二輪:2.97
可以看到,透過 SGL Diffusion,B70 雙卡的速度提升了 30%,效果還是挺明顯的。
SGL Diffusion + ComfyUI Kelin-9B-KV 文生圖
SGLang 加載 Kelin-9B-KV 模型:
![]()
單卡:
![]()
雙卡:
![]()
文生圖,測試設置與前面 Z-image-Turbo 一樣。
單卡,Kelin-9B-KV 的生成速度為:
第一輪:9.57 秒
第二輪:4.48
雙卡,Kelin-9B-KV 的生成速度為:
第一輪:8.51 秒
第二輪:4.14
可以看到,透過 SGL Diffusion,B70 雙卡的速度提升了 7.5%,效果是有但是相對 Z-Image-Turbo 沒那么明顯。
經過深度實測,基于全新Xe2 架構(Battlemage)的 Intel Arc Pro B70 展現出了超越量級的進化。它不僅是 Arc Pro 系列的性能旗艦,更是目前主流AI創作與推理應用中極具競爭力的選擇。
![]()
1. 32GB 超大顯存:徹底解決 AI “顯存焦慮”
顯存容量的提升是 B70 最核心的優勢。相比前代 B60 的 24GB,B70 提升了50% 的顯存容量。
長文本支持:在實測中,32GB 顯存配合優化后的 llm-scaler 棧,支持高達93K tokens的上下文窗口(以 Llama-3.1-8B 為例)。這在處理超長文檔總結或復雜 RAG 任務時,能有效避免“AI 失憶”現象,大幅提升任務連續性。
![]()
高壓負載:在進行SeedVR2 視頻高清放大或Flux.2 圖像生成時,大顯存允許關閉 Offload 設置,減少數據頻繁在內存與顯存間的交換,從而實現了更穩定的生成速度和更大分辨率的支持。
2. Xe2 架構與 XMX 引擎:能效與算力的雙重飛躍
B70 不僅僅是硬件堆料,其架構效率的提升同樣顯著。
計算效能:實測單精度性能(FP32)達到22.6 TFLOPS,比前代提升了約87%。得益于第二代 Xe-core 的重新設計,其單核性能提升達 70%,能效比提升 50%。
AI 加速:內置的XMX 引擎在進行 INT8 推理時,吞吐量可達傳統 MAC 運算的 16 倍,峰值 AI 算力高達367 TOPS。這在 vLLM 推理測試中得到了體現,單卡 DeepSeek-R1-Distill-Qwen-7B 在無上下文時可輕松突破62 Tokens/s。
3. 智能體(Agent)場景:極佳的工具調用穩定性
在反映實際工作流能力的tool-eval-bench (TC15)測試中,B70 配合 Qwen3.5/3.6 系列模型表現驚艷。
高分表現:在多項測試中錄得97 分乃至 100 分滿分,證明了 B70 在智能體任務(如選擇工具、參數傳遞、鏈式調用)中具備極高的可靠性。
并行加速:通過-tp 2(張量并行)或-dp 2(數據并行)部署,B70 雙卡系統在處理多用戶并發請求時表現出色,-dp 2 模式下性能比單卡提升高達71%,非常適合構建中小型企業內部的 AI 推理服務器。
![]()
4. 軟件生態與性價比:開放且高效
開箱即用:依托 Intel 維護的llm-scaler項目和vLLM 容器化部署,開發者可以在 Ubuntu 環境下快速搭建高效的推理環境。
世界級性價比:官方資料顯示,Arc B70在工作站級別中實現了卓越的性價比,每單位成本帶來的性能表現位居前列。它能讓用戶在本地運行復雜的生成式 AI 模型,既降低了云端訂閱成本,又確保了核心數據的隱私安全。
![]()
![]()
正如英特爾所強調的,Intel Arc Pro B70 正在展示出主流工作站中高性價比選擇,它可以很好的成為單卡解決方案,依靠充足的PCIe 5.0帶寬滿足多卡互聯,成為中小型企業、開發者與個人工作室立項選擇。
![]()
強悍的本地算力也意味著AI工作站可以不依靠專有AI平臺訂閱費、無需封閉生態的授權成本,通過Linux + Docker的維護體系,降低了長期運維開銷。配合多卡互聯變得輕而易舉,也進而挑戰原本需要使用高端服務器GPU才能使用的場景。
![]()
以目前的情況看,Intel Arc Pro B70 憑借32GB 顯存與 Xe2 架構的強強聯手,成功跨越了“夠用”到“好用”的門檻。其單卡性能基本可以匹敵雙卡 B60,且在顯存天花板上更具優勢。對于追求高效 AI 推理、復雜視頻渲染以及高性價比工作站方案的用戶而言,Intel Arc Pro B70 無疑是當前最值得投資的專業級顯卡之一。
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.