无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

大模型解剖圖火了,30多個開源模型架構差異一目了然,還可接入AI

0
分享至

2026 年的前兩個月,開源大模型的發布節奏已快至令人應接不暇。Arcee AI 的 Trinity Large、月之暗面的 Kimi K2.5、阿里的 Qwen3.5、智譜 AI 的 GLM-5、Cohere 的 Tiny Aya……它們的名稱如流水般接踵而至,參數量從 3B 至 1T 不等,每一款都宣稱是“SOTA”或者“最強開源”。

然而,如此快的更新速度,對于普通開發者而言,莫說深入研究,僅僅是分辨區別就已經耗費大量精力。更不用提許多技術報告的表述含糊,架構圖繪制風格各異,想要進行橫向對比十分困難。

為了解決這些問題,一個名為“LLM Architecture Gallery”(大語言模型架構畫廊)的項目上線了。顧名思義,就是讓你像逛“畫廊”一樣,瀏覽不同模型的架構圖。


(來源:X)

這個項目的作者是 Sebastian Raschka,是機器學習領域的知名研究者,寫過《Python Machine Learning》和《Build a Large Language Model (From Scratch)》這兩本深受歡迎的專業書籍。


(來源:Sebastian Raschka.com)

他把過去幾個月撰寫的兩篇長文《The Big LLM Architecture Comparison》和《A Dream of Spring for Open-Weight LLMs》中繪制的所有架構圖抽取出來,用統一的視覺語言重新呈現,集中放在一個頁面上。點擊任意一張圖可以放大,每張圖下方附帶一份“規格表”,列出模型的參數量、發布時間、注意力機制類型等關鍵信息。想深入某個模型,可以點開“view in article”頁面會直接跳轉到原文對應章節。


(來源:LLM Architecture Gallery)

項目上線幾小時后,Andrej Karpathy 在 X 上回復了 Raschka 的推文:“太好了!我的自動研究功能很需要這個內容的 Markdown 版本——一個創意池。”他最近發布的 autoresearch 項目:一個讓 AI 自主跑實驗的開源工具,正需要這類結構化的架構信息作為創意來源。

Raschka 也很快作出回復,并提供了 YAML 格式的元數據 GitHub 鏈接。Karpathy 隨后表示他已經用 Obsidian 把博客文章導出成 markdown,并且“輸入到了 autoresearch 循環中”。一個本意是方便人類閱讀的架構圖集,就這樣被接入了 AI 自動化研究的工作流。


(來源;X)

就在今天,這個項目也沖上了 Hacker News 首頁。一位用戶評論說:“這讓我想起了當年的 Neural Network Zoo,也是用可視化的方式展示不同架構。”也有人繼續幫忙優化細節:“能不能按時間排序,畫出架構演化的家譜樹?能不能加一個比例視圖,讓參數量的差異在視覺上直觀可感?”對于這些建議,Sebastian 表示他后續會持續完善。

回到項目本身,目前,這份圖集收錄了三十多個模型架構,從 Llama 38B 到最新的 Qwen3.5、Sarvam 105B、Ling 2.5 1T。所有圖都按同一套視覺規范繪制:配色、圖例、字體統一,DeepSeek V3 和 Qwen3 235B-A22B 被放在一起時,你一眼就能看出前者用了 MLA(Multi-Head Latent Attention,多頭潛在注意力),后者用的是 GQA(Grouped-Query Attention,分組查詢注意力);DeepSeek V3 有一個“共享專家”模塊,Qwen3 沒有。

這類信息原本散落在幾十頁技術報告的不同角落,現在被壓縮成一張對比圖。

MoE(Mixture-of-Experts,混合專家模型)是 2025 年開源 LLM 的主旋律。所有主流的前沿開放權重模型都采用了這種架構。傳統的“稠密”Transformer 會在每次生成 token 時激活全部參數,參數越多,算力成本越高。而 MoE 把參數分成若干“專家”,每次只激活其中一部分。DeepSeek V3 名義上有 6,710 億參數,但實際運行時只激活 370 億;Llama 4 Maverick 號稱 4,000 億參數,激活的只有 170 億。

Raschka 在圖集中把各模型的專家數量、激活比例、專家隱藏層尺寸都標注出來,讓稀疏程度一目了然。Hacker News 上有人感慨:“我很驚訝這些模型在結構上有多相似,主要差異就是層的大小。”

另一位用戶則看出了一些端倪,辣評“過去七年,LLM 架構有很多改進,但沒有根本性的創新。今天最好的開放權重模型,如果你縮遠了看,仍然很像 GPT-2,就是一堆注意力層和前饋層堆起來。”

這可以說是一個重要的觀察。LLM 能力的驚人提升,更多來自訓練方法的革新。比如 RLVR(Reinforcement Learning with Verifiable Rewards,可驗證獎勵的強化學習),而不是架構本身的突破。架構層面的優化,更多是為了讓訓練和推理更高效、成本更低,而不是讓模型根本上更聰明。理解這一點,對選型和預期管理都有幫助。

最后總結一下,這個大模型架構的圖集的實際用法很簡單。

首先,你可以把它當作速查手冊:想知道 Qwen3 和 DeepSeek V3 在注意力機制上有什么區別?打開頁面,找到兩張圖,直接對比。規格表里會告訴你 Qwen3 用 GQA,DeepSeek V3 用 MLA;前者沒有共享專家,后者有。

其次,每張架構圖都鏈接到 Raschka 原文中的對應章節,如果你想深入了解某個技術細節:比如 QK-Norm(一種應用于查詢和鍵向量的歸一化技術)是什么、為什么能穩定訓練,點進去就能讀到解釋。

第三,圖集附帶一份“概念速查”,解釋 GQA、MLA、SWA(Sliding Window Attention,滑動窗口注意力)、NoPE(No Positional Encoding,無位置編碼)、Gated DeltaNet 等術語,適合快速補課。

并且,正如 Karpathy 的用法所示,這份圖集的價值不僅在于人類可讀,還在于它的結構化程度足以被機器解析。Raschka 在 GitHub 上提供了 YAML 格式的元數據,包含每個模型的參數量、發布日期、技術報告鏈接、注意力類型等字段。如果你想寫腳本批量分析這些模型的共性和差異,或者像 Karpathy 那樣把它們喂給 AI 做自動化研究,這份元數據是現成的起點。

Raschka 還把整套架構圖打包成一個超高分辨率的 PNG 文件(56M,182 百萬像素,上傳到 Zazzle,可以直接下單打印成實體海報。他自己也訂了一張,但“還沒收到貨,暫時不能保證印刷質量”。頁面底部留了一個 Issue Tracker 鏈接,歡迎任何人提交糾錯或建議。

對于正在選型的工程師來說,這份圖集的價值在于節省時間。你不用再翻幾十頁技術報告去找一個數字,也不用自己畫對比表格。對于想搞懂“這些模型到底在結構上有什么區別”的研究者來說,統一的視覺語言讓跨模型對比成為可能。

1.項目地址:https://sebastianraschka.com/llm-architecture-gallery/#card-qwen3-5-397b

2.開發者主頁:https://x.com/rasbt/status/2033167146302210058

運營/排版:何晨龍

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
4年1.785億頂薪,好幾支球隊瘋搶,詹姆斯這下高興了

4年1.785億頂薪,好幾支球隊瘋搶,詹姆斯這下高興了

從零到一研究所
2026-06-13 12:54:31
齊達內力挺C羅:他說世界杯只有7場比賽,因為他就瞄準了決賽!

齊達內力挺C羅:他說世界杯只有7場比賽,因為他就瞄準了決賽!

體育閑話說
2026-06-13 11:53:49
炸了!2026高考作文竟出自四年級課本!說回歸課本,沒說回小學啊

炸了!2026高考作文竟出自四年級課本!說回歸課本,沒說回小學啊

娛樂的宅急便
2026-06-13 14:00:00
張鎮麟:上海和遼寧球迷都拼了命保護我,想建立屬于上海的王朝

張鎮麟:上海和遼寧球迷都拼了命保護我,想建立屬于上海的王朝

懂球帝
2026-06-13 20:04:34
史上最大金融危機將至?中國學者預警,征兆出現,中方已備好底牌

史上最大金融危機將至?中國學者預警,征兆出現,中方已備好底牌

破鏡難圓
2026-06-13 12:04:54
NBA出手了!總決賽G5裁判!果然又是福斯特

NBA出手了!總決賽G5裁判!果然又是福斯特

籃球教學論壇
2026-06-13 22:24:45
2026事業編迎來大調整,五類崗位必須轉企,編制從此退出歷史舞臺

2026事業編迎來大調整,五類崗位必須轉企,編制從此退出歷史舞臺

芳姐侃社會
2026-06-12 23:43:24
李嘉誠又放話了?未來5年,把房子存款換成這3種資產,生活會越好

李嘉誠又放話了?未來5年,把房子存款換成這3種資產,生活會越好

巢客HOME
2026-06-12 10:15:04
中紀委2026年“放大招”!嚴查四類人!伸過手的一個都跑不了!

中紀委2026年“放大招”!嚴查四類人!伸過手的一個都跑不了!

職場資深秘書
2026-06-13 16:09:20
珠峰向導遭客戶遺棄,7500米絕壁上演極限自救,家人以為他死了

珠峰向導遭客戶遺棄,7500米絕壁上演極限自救,家人以為他死了

探謎未知世界
2026-06-12 16:10:17
中國體育彩票官方App沖至蘋果App Store免費App第4名

中國體育彩票官方App沖至蘋果App Store免費App第4名

懂球帝
2026-06-12 22:38:25
仍未放下?世界杯定妝照巴爾韋德額頭疤痕未遮擋,遭皇馬球迷批評

仍未放下?世界杯定妝照巴爾韋德額頭疤痕未遮擋,遭皇馬球迷批評

衣衫襤褸的文人
2026-06-13 20:41:06
世界杯剛開始2天,中國裁判馬寧意外火出圈,原因讓人哭笑不得

世界杯剛開始2天,中國裁判馬寧意外火出圈,原因讓人哭笑不得

娛說瑜悅
2026-06-13 20:06:03
有高潮、有快感,卻沒有精液?90%男人完全不知情!

有高潮、有快感,卻沒有精液?90%男人完全不知情!

太極本草
2026-06-12 13:29:07
三年前發現鵝腿阿姨賣鴨腿的第一位網友終于找到了

三年前發現鵝腿阿姨賣鴨腿的第一位網友終于找到了

大張的自留地
2026-06-12 19:26:49
別羨慕網紅賺得多!網紅“猴哥”自以為豪的體面,被前妻撕得稀碎

別羨慕網紅賺得多!網紅“猴哥”自以為豪的體面,被前妻撕得稀碎

君笙的拂兮
2026-06-13 06:55:43
一納米小孔,為何能耗“狙擊”工業凈水?

一納米小孔,為何能耗“狙擊”工業凈水?

宇宙來信2
2026-06-12 21:53:58
轉告父母:服用“他汀藥”期間,不要碰這4物,建議放心上

轉告父母:服用“他汀藥”期間,不要碰這4物,建議放心上

39健康網
2026-06-13 18:05:36
強強對決!巴西VS摩洛哥深度解析:27場不敗鐵軍阻擊五星巴西?

強強對決!巴西VS摩洛哥深度解析:27場不敗鐵軍阻擊五星巴西?

大羽體壇
2026-06-13 11:15:16
張碧晨和楊超越這倆人同框,沒開美顏竟然長這樣!

張碧晨和楊超越這倆人同框,沒開美顏竟然長這樣!

可樂談情感
2026-06-13 18:53:06
2026-06-13 23:36:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
16828文章數 515013關注度
往期回顧 全部

科技要聞

SpaceX上市首日破2萬億美元,馬斯克再封神

頭條要聞

深圳福田站現"幽靈9號口":人走著走著導向標識就沒了

頭條要聞

深圳福田站現"幽靈9號口":人走著走著導向標識就沒了

體育要聞

美國4比1巴拉圭:這統治力真是美國隊?!

娛樂要聞

鄧超曬孫儷親手織的帽子,笑瘋全網!

財經要聞

梁文鋒向左,楊植麟向右

汽車要聞

深藍S07華為乾崑激光版增程車型上市 限時15.49萬元起

態度原創

家居
親子
旅游
本地
公開課

家居要聞

空間微調 移形換境

親子要聞

肌醇哪款適合女性備孕吃?10款肌醇精選測評榜,全面滋養卵巢適配備孕調理

旅游要聞

夏天就該這樣過!大別山的夏天,從霍山大峽谷漂流的第一聲尖叫開始。

本地新聞

AK劉彰邂逅河北南大港濕地

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版