![]()
春季如約而至,谷歌、微軟、阿里巴巴和英偉達(dá)等科技巨頭再度掀起開源權(quán)重AI模型的新浪潮。但這一次,感覺有些不同尋常。
過去,這些模型更像是"玩具":雖然在規(guī)模或創(chuàng)新性上令人印象深刻,但本質(zhì)上仍是研究項(xiàng)目或概念驗(yàn)證,與OpenAI、Anthropic或谷歌的頂級(jí)模型相比仍有相當(dāng)大的差距。
然而,Qwen 3.5、谷歌的Gemma 4,以及微軟的MAI語音與圖像模型,卻呈現(xiàn)出截然不同的面貌。這些模型不再只是概念驗(yàn)證,而更像是真正面向企業(yè)的產(chǎn)品。
IDC高級(jí)研究總監(jiān)安德魯·巴斯(Andrew Buss)向媒體表示:"我們已經(jīng)從'令人感興趣'邁入了'真正嚴(yán)肅的企業(yè)級(jí)平臺(tái)'階段。"
這批模型揭示了一個(gè)清晰的現(xiàn)實(shí):企業(yè)級(jí)AI與前沿AI之間的鴻溝在過去幾年中愈發(fā)明顯,而那些功能最強(qiáng)大的前沿模型,已經(jīng)超出了許多企業(yè)的承受能力。
巴斯說:"我認(rèn)為我們正在目睹一種分化趨勢(shì)。一方面,出現(xiàn)了那些體量龐大、追求全能的綜合性模型;另一方面,針對(duì)特定場(chǎng)景或查詢類型的小型專用模型也在快速崛起。"
前沿模型的主權(quán)AI盲區(qū)
使用OpenAI或Anthropic的頂級(jí)模型,意味著企業(yè)需要將潛在的敏感客戶數(shù)據(jù)或知識(shí)產(chǎn)權(quán)暴露給API接口或聊天機(jī)器人。
盡管兩家公司均聲稱不會(huì)將企業(yè)或API數(shù)據(jù)用于模型訓(xùn)練,但這些公司此前已多次因版權(quán)問題被訴諸法庭。
企業(yè)或許愿意借助Gemini或Copilot來起草郵件或銷售提案,但絕不會(huì)輕易將核心專有數(shù)據(jù)交由其處理。
另一條路也并非坦途。來自DeepSeek、阿里巴巴、Moonshot AI和MiniMax等中國(guó)廠商的大型模型,在性能上已能接近OpenAI或Anthropic,但這些模型仍需要相當(dāng)規(guī)模的基礎(chǔ)設(shè)施投入。即便是英偉達(dá)和AMD面向企業(yè)的系統(tǒng),單臺(tái)售價(jià)也在25萬至50萬美元之間。
不過,巴斯指出,根據(jù)具體應(yīng)用場(chǎng)景,企業(yè)未必需要前沿級(jí)別的模型——真正重要的是模型能否足夠出色地完成預(yù)期任務(wù)。
就規(guī)模而言,谷歌、阿里巴巴、微軟和英偉達(dá)最新推出的開源模型不僅競(jìng)爭(zhēng)力相當(dāng)出色,運(yùn)行成本也相對(duì)低廉。
在Arena AI的文本排行榜上(該榜單允許公眾投票評(píng)選最佳輸出模型),谷歌的Gemma 4 31B(31B指其包含310億個(gè)參數(shù))目前排名第四,僅次于Z.AI的GLM-5和Moonshot AI的Kimi 2.5 Thinking——后兩者參數(shù)量分別高達(dá)7440億和1萬億,體量要大出數(shù)個(gè)數(shù)量級(jí)。
巴斯表示:"各類規(guī)模的企業(yè)對(duì)AI都有著強(qiáng)烈的需求,我們認(rèn)為中端市場(chǎng)同樣存在巨大機(jī)遇。為此,我們需要多樣化的基礎(chǔ)設(shè)施硬件,以及能夠在其上運(yùn)行的各類模型。"
谷歌最新發(fā)布的310億參數(shù)模型可輕松在單張RTX Pro 6000 Blackwell顯卡上以完整的16位精度運(yùn)行,同時(shí)仍有充裕的資源支撐合理數(shù)量的并發(fā)請(qǐng)求和交互操作。
這款顯卡的市場(chǎng)售價(jià)通常在8000至10000美元之間。Qwen 3.5的情況與此類似——除兩個(gè)最大規(guī)格的版本外,其余模型均可在單張GPU上輕松運(yùn)行。
巴斯還指出,在許多場(chǎng)景下,這些小型企業(yè)級(jí)模型甚至無需大量算力支持。他表示:"很多時(shí)候我們并不需要GPU加速,相當(dāng)一部分AI工作負(fù)載完全可以在一臺(tái)配置較新的CPU服務(wù)器上加載并運(yùn)行。"
這些更小巧、更專注的模型意味著,使用QLoRA微調(diào)或強(qiáng)化學(xué)習(xí)等技術(shù)對(duì)其進(jìn)行定制時(shí),幾乎不需要額外的資源投入。
究竟發(fā)生了什么變化?
是什么讓這些模型的能力實(shí)現(xiàn)了如此大幅的提升?其實(shí),背后發(fā)生的變化相當(dāng)深遠(yuǎn)。
過去一年間,不僅模型訓(xùn)練技術(shù)取得了一系列突破,驅(qū)動(dòng)這些模型實(shí)際落地應(yīng)用的框架也得到了顯著完善。
不少人還記得DeepSeek R1引發(fā)的市場(chǎng)轟動(dòng)——這是最早采用強(qiáng)化學(xué)習(xí)(RL)復(fù)現(xiàn)GPT-o1思維鏈推理能力的開源權(quán)重前沿模型之一,通過以時(shí)間換質(zhì)量的方式提升輸出水平。
這種如今被稱為"測(cè)試時(shí)擴(kuò)展"(test-time scaling)的方法,讓小型模型得以通過"更長(zhǎng)時(shí)間的思考"來彌補(bǔ)參數(shù)量不足的局限。
與此同時(shí),過去一年中越來越多的模型開始支持視覺和音頻處理,具備了分析圖像數(shù)據(jù)的能力;更智能的架構(gòu)設(shè)計(jì)和更先進(jìn)的壓縮技術(shù),則進(jìn)一步降低了運(yùn)行這些模型所需的算力和內(nèi)存資源。
但最為關(guān)鍵的變化,或許在于用于驅(qū)動(dòng)這些模型完成實(shí)際任務(wù)的軟件框架已經(jīng)走向成熟。
這些框架使模型不再局限于訓(xùn)練數(shù)據(jù)——它們能夠從互聯(lián)網(wǎng)、數(shù)據(jù)庫和API中檢索信息,并通過工具調(diào)用基于檢索結(jié)果采取行動(dòng)。
谷歌和英偉達(dá)的模型在訓(xùn)練之初便將函數(shù)調(diào)用(function calling)納入核心考量。換言之,這些模型并非設(shè)計(jì)為獨(dú)立運(yùn)行的系統(tǒng)。部分模型(如微軟的MAI)更進(jìn)一步,針對(duì)語音識(shí)別和圖像生成等特定領(lǐng)域進(jìn)行了深度優(yōu)化。
巴斯指出,如何為具體任務(wù)選擇合適的模型,隨之成為一大挑戰(zhàn),并認(rèn)為某種形式的推薦系統(tǒng)可能不可或缺。
模型開發(fā)者能從中獲得什么?
在本地運(yùn)行可訪問專有數(shù)據(jù)的智能體,本身具備獨(dú)特的商業(yè)價(jià)值。一方面,盡管這些模型是開源的,但其中仍存在一定程度的生態(tài)綁定——基于這些模型構(gòu)建的智能體,其系統(tǒng)提示詞和工具配置都是針對(duì)特定架構(gòu)深度調(diào)優(yōu)的。
巴斯解釋道,這背后的邏輯是觸達(dá)那些大型模型無法覆蓋的市場(chǎng)。
"如果有人選擇基于你的技術(shù)、方法和知識(shí)產(chǎn)權(quán)進(jìn)行開發(fā),他們就更有可能向上遷移并留在你的生態(tài)系統(tǒng)中。這本質(zhì)上是在入口處布局產(chǎn)品……從早期就吸引用戶,隨著他們的成長(zhǎng),他們往往會(huì)持續(xù)留在你的陣營(yíng)。"
除了生態(tài)布局層面的考量,這些本地化模型還有助于降低數(shù)據(jù)中心的能耗。這一思路與OpenAI的GPT-5有異曲同工之處——后者并非單一模型,而是由多個(gè)子模型組成,系統(tǒng)會(huì)根據(jù)請(qǐng)求的復(fù)雜程度和不同策略動(dòng)態(tài)進(jìn)行路由分發(fā)。
類似的邏輯同樣可以以分布式方式落地:本地運(yùn)行的路由模型將涉及專有數(shù)據(jù)的請(qǐng)求定向至本地大語言模型處理,而對(duì)敏感度要求較低的請(qǐng)求則卸載至外部API提供商。
巴斯表示:"我認(rèn)為可選方案是一個(gè)完整的譜系,涵蓋從完全私有的本地部署、托管在同址數(shù)據(jù)中心的專用節(jié)點(diǎn)、公有云中的專屬實(shí)例,到針對(duì)非敏感負(fù)載的共享環(huán)境以節(jié)省成本——各種選擇應(yīng)有盡有。"
Q&A
Q1:開源權(quán)重AI模型和前沿AI模型有什么區(qū)別?
A:前沿AI模型(如OpenAI、Anthropic的頂級(jí)模型)參數(shù)規(guī)模更大、能力更強(qiáng),但使用成本高昂,且需要將企業(yè)數(shù)據(jù)暴露給外部API,存在數(shù)據(jù)安全隱患。開源權(quán)重模型(如谷歌Gemma 4、阿里巴巴Qwen 3.5)參數(shù)量相對(duì)較小,可在企業(yè)本地部署,運(yùn)行成本低,數(shù)據(jù)不必外傳,且隨著技術(shù)進(jìn)步,性能已大幅提升,足以滿足多數(shù)企業(yè)實(shí)際需求。
Q2:Gemma 4 31B模型需要什么硬件才能運(yùn)行?
A:谷歌Gemma 4 31B模型可在單張RTX Pro 6000 Blackwell顯卡上以完整16位精度運(yùn)行,該顯卡市場(chǎng)售價(jià)通常在8000至10000美元之間。對(duì)于部分AI工作負(fù)載,甚至不需要GPU加速,使用配置較新的CPU服務(wù)器即可加載并運(yùn)行,大幅降低了企業(yè)的硬件投入門檻。
Q3:企業(yè)部署本地大語言模型有哪些優(yōu)勢(shì)?
A:企業(yè)在本地部署開源權(quán)重大語言模型,主要有以下幾點(diǎn)優(yōu)勢(shì):第一,數(shù)據(jù)安全,專有數(shù)據(jù)無需上傳至外部服務(wù);第二,成本可控,小型模型對(duì)算力要求低,運(yùn)行成本遠(yuǎn)低于前沿模型;第三,靈活定制,可使用QLoRA微調(diào)或強(qiáng)化學(xué)習(xí)等技術(shù)進(jìn)行低成本定制;第四,支持智能體,可結(jié)合工具調(diào)用框架訪問數(shù)據(jù)庫和API,完成實(shí)際業(yè)務(wù)任務(wù)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.