近日,SemiAnalysis創始人Dylan Patel接受紅杉資本播客《Training Data》采訪,從推理市場規模、算力效率、硬件架構競爭到英偉達的戰略布局,多方位地闡述了他對AI基礎設施走向的判斷。
Dylan Patel預測,AI推理將成為全球最大市場之一,占GDP多個百分點;到2030年,僅OpenAI和Anthropic合計算力需求將超100吉瓦。他判斷,未來3-5年太空算力可忽略不計,但到2040年太空將承載全球超半數新增算力。而英偉達支持新云廠商,本質是黃仁勛在下一盤防止被壟斷的大棋。
![]()
推理市場將超越石油:算力可能永遠不夠用
Patel認為:"AI推理——無論是開源模型還是閉源模型——將是全球最大的市場之一,比石油還大。AI推理將占到GDP的若干個百分點。"
他的邏輯鏈條是:模型每次迭代升級,能完成的有效任務數量和價值都在擴大,而這個擴張速度持續快于算力的增長速度。以Anthropic的Claude Opus為例,他指出,"Meetos 5(即Claude 4/Opus級別)能做的任務量,根本不是Opus的2倍,而是遠不止",但與此同時,全球算力并沒有在同一時間段翻倍。
結果就是:供給追不上需求擴張,算力永遠是稀缺的。他直言:"算力短缺會一直持續,因為模型擴大可用任務的速度,永遠快過算力的增長。
2040年,超過一半的增量算力將在太空
對于太空數據中心,Patel表示,"未來三到五年,太空數據中心不會有太大意義。但在二十年后,我認為絕大多數算力將進入太空。"
具體節點上,他預測2030年僅OpenAI和Anthropic兩家合計將擁有超過100吉瓦的算力,再加上Meta、Google等,屆時用于推理的算力體量將極為龐大。到2040年,甚至可能達到太瓦(terawatt)級別。"
如果你看2040年,超過一半的增量算力將進入太空。但如果你看2030年,我認為不到1%。
核心制約是地面能源成本——地面土地建電能力有限,一旦太空部署的經濟性超過地面,算力向太空遷移將成必然。
硬件軟件協同設計:真正的100倍增益從哪里來
這是Patel最核心的技術判斷。他直接反駁了訪談主持人關于“過去三年算力提升主要來自硬件”的觀點:“我完全不同意你這個說法。”
他的分析是:從Hopper到Blackwell,最優化部署下性能提升約30倍,這主要是硬件。但過去三年,整體智能效率提升遠超30倍,大部分增益來自模型層。關鍵在于協同設計的乘數效應
當你把這里的2倍和那里的2倍疊加,如果只是各層獨立優化,可能得到8倍。但如果你跨三層協同優化,實際上可以得到100倍。
DeepSeek是最典型的公開案例——其專家模型(MoE)的形狀專門為英偉達Hopper架構優化,因此在Hopper上運行出色,但在TPU上卻表現不佳。反過來,Anthropic的模型更"稠密",更適合TPU架構;OpenAI的模型更"稀疏",更偏向GPU路線。
Patel強調:"TPU客觀上是一款出色的芯片,承擔了DeepMind所有推理和Anthropic幾乎所有預訓練。但它就是跑不好DeepSeek。"
他進一步指出,所謂"CUDA護城河",本質上不是CUDA本身,而是開源生態的模型形狀問題:DeepSeek、Kimi、阿里、騰訊等公司的開源模型都是為GPU協同優化的,要在TPU上跑,效果就差。Google需要建立自己的開源模型生態(即Gemma系列)才能對抗這一效應。
黃仁勛:主動打造多極算力格局
對于英偉達CEO黃仁勛為何大力扶持新興云計算商(Neo Clouds),Patel說道:
Jensen非常厭惡一種世界格局:超大規模云廠商壟斷一切。這就是為什么他會向一些看起來不那么有把握的AI實驗室砸錢——他在全世界各地游說,說"你應該投這家公司",因為他想創造一個多極化的世界。這也是他為什么喜歡中國AI實驗室——他想要多極化。如果只有OpenAI、Anthropic和谷歌的模型主導市場,他就完了。
邏輯很簡單:如果全球只有OpenAI、Anthropic和Google的模型,如果算力只由超大規模云商建設,英偉達就會陷入被動。而今天賣給Crusoe或CoreWeave的GPU,五年后將削弱Google TPU和Amazon Trainium的市場地位,對英偉達而言是更好的長期格局。
他需要把分配的'槍口'對準新興云商,幫助他們支撐集群,不惜一切。InferenceX:每年成本降60倍的活體基準
Patel團隊搭建了名為InferenceX的實時推理基準測試系統,目前已獲得CoreWeave、Oracle、微軟、亞馬遜、谷歌、OpenAI等機構捐贈的超過5000萬美元硬件,每天在最新模型上持續運行,涵蓋超過15種不同芯片類型。
其核心發現是:等效質量下,推理成本每年下降約60倍。“這是令人難以置信的。”他同時指出,每瓦智能(intelligence per watt)的改善約為40倍,略低于成本降幅,部分效率來自非功耗環節。
InferenceX的核心輸出是"帕累托最優曲線"——在響應延遲(interactivity)與批處理吞吐量(throughput)之間,找到每個場景下的最優配置點,并將配置開源,任何人都可以直接下載使用。
"這條曲線是硬件、基礎設施、模型、應用層所有事情的上游。"他舉例:Anthropic的Claude Code快速模式比普通模式貴得多,OpenAI也有優先隊列,本質都是這條曲線的商業化體現。
從汽車旅館到半導體智庫:一個自學者的逆襲
談及Dylan Patel的個人經歷時,他分享的成長軌跡與傳統分析師截然不同。他從小在父母經營的汽車旅館長大,對面是自家加油站——他開玩笑說,自己訓練的第一個神經網絡,是根據顧客外貌預判他們要買哪種煙。
八歲時,Xbox 360的“紅圈死亡”故障迫使他拆機維修,從此打開了硬件世界的大門。12歲起,他活躍于各類技術論壇。大學畢業后,他在量化風險公司工作,因不滿成果被搶功而離開。
2020年,他更頻繁地在網上發表深度分析,被人肉搜索后索性改用真名,在24歲生日那天創立了SemiAnalysis網站。此后他開著皮卡、睡在車頂帳篷里,在美國國家公園間流浪了六個月,邊旅行邊寫博客;隨后又去拉丁美洲旅居近一年,每年參加超過40場全球供應鏈會議。
如今,SemiAnalysis已成為半導體與AI基礎設施領域最具影響力的研究機構之一,團隊近90人,年營收據傳已接近1億美元。
![]()
訪談全文如下:
節目簡介
Dylan Patel談硬件軟件協同設計:AI真正的百倍提升
Sequoia Capital · Training Data · 2026年6月30日
主持人:Shaun Maguire 與 Sonya Huang(紅杉資本合伙人)
SemiAnalysis創始人Dylan Patel認為,AI領域最大的收益并非來自更快的芯片,而是來自軟件與硬件的協同設計——將模型、內核與芯片進行整體優化,能將這里2倍、那里2倍的提升,最終轉化為100倍的躍升。
他解釋了為何DeepSeek的專家模型是專為英偉達Hopper架構設計的(以及TPU為何難以運行它),為何OpenAI更稀疏的模型與Anthropic更密集的模型將二者引向了不同的硬件路徑,以及所謂的"CUDA護城河"從來都與CUDA本身無關。
Dylan還詳細介紹了InferenceX——這是他打造的一個"動態基準測試"項目,每天在價值超過5000萬美元的捐贈硬件上運行最新模型,追蹤每單位質量成本每年約下降60倍的趨勢。他提出,推理市場將比石油市場更大;算力短缺持續存在,是因為模型擴展有價值工作的速度快于算力增長的速度;此外,他也解釋了為何黃仁勛正在大力扶持新興云服務商,以構建一個多極化的算力世界。
說話人1(Dylan Patel) 說話人2(Shaun Maguire) 說話人3(Sonya Huang)
說話人2 00:28
我們現在在SemiAnalysis的辦公室,嘉賓是Dylan Patel。我是紅杉資本的合伙人Shaun Maguire,這位是Sonya Huang。你所做的事情真的令人嘆為觀止。五年前,半導體在西方并不算性感,在東方倒是很受重視,但西方人似乎早已淡忘了這個領域——你沒有。你非常看好它,并打造出了這個領域可能是最頂尖的研究公司,從非常技術性的細節到供應鏈,再到更宏觀的圖景,一直在為整個世界提供教育。有傳言說SemiAnalysis近期年收入已突破1億美元,不知道是否準確,但不管數字是多少,你們表現都極為出色。
說話人1 01:31
消息的準確性嘛,和信息本身一樣。
說話人2 01:32
你懂的。另外還有傳言說你可能會創立一只風險投資基金,我在業內也經常聽到大家希望能與SemiAnalysis建立合作關系。你已經建立了非常值得信賴的品牌,無論你下一步做什么,目前的一切都很成功,這顯然只是你旅程的開始。恭喜你取得這些成就!但這一切是怎么發生的?你能先介紹一下自己的背景,是怎么走到今天這一步的嗎?
汽車旅館里長大的孩子
說話人1 01:59
我從小在一個小型家族企業里長大,我父母經營一家汽車旅館,我們就住在里面,對面是我們家的加油站。我開玩笑說,我訓練的第一個神經網絡就是根據顧客進門時的外貌特征來預測他們要買哪種煙——因為煙都擺在貨架頂端,我個子太小夠不到,每次都得把踏腳凳挪過去。從技術上說,以我那個年齡賣煙也不合法,但管它呢。
比如,如果走進來的是一位卷頭發的白人老太太,我就把踏腳凳挪到駱駝牌那邊;如果是不同年齡、職業或種族的顧客,我就挪到對應的位置。我說這是我訓練的第一個神經網絡,因為如果等顧客開口再去挪,效率太低——提前預判效率更高,薄荷味還是百支裝,全都不一樣。
修Xbox的契機
說話人1 03:09
我覺得這是我訓練的第一個神經網絡,但更重要的是,我在家族企業里、在汽車旅館里長大。真正讓我進入硬件世界的,是我八歲生日前后的一件事。
Xbox 360在我生日前的四月份發布了,我向父母要求把它作為圣誕禮物——我雖然心里覺得他們不太可能買,但還是開口了。結果圣誕節他們真的給了我。沒過幾個月,我住在阿拉巴馬州、同樣住在汽車旅館的表弟要來我家過春假,我們打算一起玩。他介于我和哥哥之間,但對游戲機興趣不大,而我之前一直跟他吹噓有Xbox。結果,Xbox壞了。
說話人1 04:07
那個硬件故障叫"紅圈死亡",長話短說,我不得不把它拆開,短接溫度傳感器,才把它修好。在那之前我試過很多其他辦法,折騰了很久。這就是我走進硬件世界的方式——像打開了潘多拉的盒子。
從網絡論壇到半導體說話人1 04:23
到我12歲的時候,我大量泡在各種論壇上——閱讀、發帖,那是Reddit和其他各類論壇興起的時期。我成了Android、Apple、Google,以及硬件、手表、英特爾、英偉達、AMD等各類論壇的版主。我密切關注智能手機如何從簡單的產品演變為在架構層面甚至超越PC的設備,同樣也追蹤著GPU的演進。
我始終帶著經濟視角來看待這些,因為家族生意的背景讓我從小就關注經濟效益。當時互聯網上很多"極客"喜歡AMD的GPU,我自己也買過一塊,因為性價比確實高。但從純技術層面講,我始終認為英偉達更強——他們用更小的芯片實現了更好的性能和能效,利潤率也更高。所以我那時候經常討論英偉達的利潤率比AMD好這件事。
說話人2 05:32
那時你才12歲?
說話人1 05:33
我12歲開始擔任版主,但這一切貫穿了我整個青少年和高中時期。
說話人3 05:39
你還有什么別的奇特愛好,還是說只專注于半導體?
說話人1 05:42
我玩了大量星際爭霸,一度在北美天梯打到了宗師級別。
說話人3 05:48
就是那種對很多事情都能癡迷到極致的人。
說話人1 05:50
對,就是癡迷。
說話人2 05:53
那你的學習成績怎么樣?
說話人1 05:54
還行,大多數科目都是A,但有些我覺得無聊的課——比如西班牙語——成績就不太好。順便說一句,我現在西班牙語說得很流利,所以當時不好好學真的挺蠢的。
說話人2 06:16
也許正因為你已經會說,才不用心學。
說話人1 06:18
不,我西班牙語是后來才學會的。總體來說,成績還可以,對亞裔父母而言算是合格,比同學里大多數人強,但也沒有死命拼到滿分那種程度。
從量化分析師到創業者
說話人3 06:33
好的,所以你基本上是在互聯網上自學成才,建立了這方面的專業知識。那你什么時候決定創立SemiAnalysis的?創業過程中最大的意外是什么?
說話人1 06:42
我上了大學,拿了幾個和半導體無關的學位,然后在一家小型量化風險公司做了兩年量化分析師。之后,幾件事同時發生了。
一方面,我被公司薄待了——我通過挖掘市場中的風險漏洞為公司創造了超過一千萬美元的無風險收益,但成果被別人搶了功。雖然最終得到了一定補償,但我對那家公司的信任感已經蕩然無存。
另一方面,我的外祖父母一直和我們住在一起,住在汽車旅館里。我和他們感情很深。那時外祖母患上了老年癡呆癥,忘記了我是誰,后來從樓梯上摔落,遭遇了悲劇,離開了我們。這些都發生在2020年初。此外還有一些感情上的變故。種種事情交織在一起,讓我陷入了很低落的狀態。
接著新冠疫情暴發,我哥哥讓我去納什維爾和他一起住,說隔離就幾周,過完就能回來——這話說得太早了。隔離持續了很長時間。住在哥哥家幾個月,一切都是他和他當時的未婚妻(現在的妻子)說了算,我只能小心翼翼地生活。
說話人1 08:09
我對工作已經沒什么牽掛了,所以比平時發了更多帖子。我一直都在大量發帖、大量炒股,也在疫情里做空做多賺了不少,半導體短缺那段時間也參與其中。
就在這個時候,網上有人在爭論中人肉搜索了我,把我的真實身份和匿名賬號掛鉤并公開了。當時我嚇壞了,停止發帖大概停了三周。然后我想通了:有什么好怕的?于是我開始用真名寫博客,正式建立了"Semi Analysis"這個網站。在我24歲生日那天,我發布了兩篇文章。
因為是實名、并且投入了比平時更多的心血,這兩篇文章獲得了大量關注。不是通訊簡報,但確實引起了很大反響。你現在回頭去看的話,文章本身算不上出色,但在當時已經是網上能找到的關于這個領域最好的內容了。我就這樣持續寫下去,咨詢業務也隨之涌來,從2020年下半年開始不斷增長。
無固定居所的調研公路之旅
說話人1 09:16
那段時間我的狀態也很迷茫,不知道自己真正想做什么。于是我把東西都收拾起來——開著我的皮卡,買了一頂可以安裝在車廂上的帳篷,還買了一個充氣床墊,就這樣上路了。
我每周有兩三四天住在某個隨機的旅館里,每晚把價格砍到大概30美元,白天處理工作上的事情。周末就去讀書,經常坐在某個國家公園里讀教科書,或者邊徒步邊聽半導體、AI相關的有聲書。就這樣在路上漂了六個月,跑遍了美國各大國家公園,自我教育的深度大幅提升。整段旅程中,我一直在發博客,當時所有人都在問我:"Dylan,你到底在干什么?"
說話人2 10:03
那時候Starlink還在非常早期的階段。
說話人1 10:05
就是那么早。大家都覺得我在做一件莫名其妙的事。后來我先和朋友,再和前女友去了拉丁美洲旅行,差不多待了一年。從2021年底到2024年,我依然完全沒有固定住所,每年參加超過40場全球各地的會議——只要是供應鏈上某個環節的會議,我覺得有意思就去。
去了第一場會議之后,我就上癮了——你能直接和專家對話,而且在半導體領域,大多數人都是老一輩,很少見到對這個領域真正充滿熱情的年輕人,所以他們特別愿意跟你分享。
說話人2 10:52
想多問一句,供應鏈上有沒有哪個環節或者哪場會議,特別顛覆了你對半導體世界的認知,或者你覺得現在依然被嚴重低估的?
說話人1 11:06
行業展會和會議的層次差別很大。我個人最享受的是NeurIPS這類活動——兩萬名AI研究員聚在一起,年齡層和我接近,既能認識一線研究者,學到很多東西,還有很多聚會,非常有意思。
另一個極端,比如日本某個化學領域的小型會議,只有300位日本男性,其中來自ASML、臺積電、英特爾的大約各二十人,只有這些人說英語,其他人全程講日語。雖然如此,這類會議仍然很有意思。
說話人1 11:30
我有一個能力,就是不管對方背景如何,我都能和他們建立聯系,找到共同感興趣的話題,通常是技術方面的內容。我認為最有意思的會議,既有像NeurIPS這樣的大型活動,因為那里有最前沿的進展;也有SPIE這樣的深度小眾會議——IEEE是國際電氣工程師協會,SPIE則是另一個體系,它的會議技術細節極其深入。
說話人1 12:16
我參加的每一場SPIE會議,比如先進光刻會議或光罩會議,第一次去的時候有90%的內容聽不懂,讀了大量資料、建立了一些認知框架之后,第二次能聽懂大約一半,第三次能聽懂大約75%。直到現在,我去了還是有很多內容不能完全理解。
相比之下,去NeurIPS這類會議參加幾次之后,你大致能理清神經符號推理等各類概念的脈絡,可以比較快地建立整體認知框架。但供應鏈的某些領域極其深奧和技術性,需要大量時間才能真正理解其中發生的事情。
參加會議的目的不只是理解論文本身,更重要的是理解那些研究如何與現實技術相交叉,它們與當前狀態有何不同。這些都是研究論文本身不會告訴你的。
說話人1 13:13
但你可以直接問人、建立聯系,逐漸了解供應鏈——哪家公司供貨給哪家公司,雖然這在任何公開信息里都查不到。你會了解到某種化學品大概的價格區間,某種設備要用多少,諸如此類的細節,就是這樣慢慢積累起來的。
說話人2 13:28
對,還有那種讓人印象深刻的故事——某種化學品突然斷貨,完全打亂了供應鏈的某個環節,然后你才發現全世界只有三家公司生產那種化學品。
說話人1 13:41
我印象最深的一個故事,是在那場幾乎只有日語的日本會議上,一位日本人用非常蹩腳的英語告訴我:他父親曾在20世紀80年代從事這個行業,當時全球唯一生產某種化學品的工廠發生了火災,直接導致內存價格翻了兩三倍。我當時就想:這和今天的世界沒什么兩樣。
說話人2 14:03
確實,歷史總是驚人地相似。
InferenceX與基準測試
說話人3 14:04
推理市場會成為地球上最大的市場嗎?你同意還是不同意?
說話人1 14:11
Token的使用顯然將是最大的市場,由Token創造的價值也將是最大的。Tokenomics、AI的廣泛采用,是當下最重要的確定性趨勢。無論是開放模型還是封閉模型,AI推理都將成為世界上規模最大的細分市場之一,遠比石油市場更大。我認為AI推理將占到GDP的相當比重。
說話人3 14:35
你在InferenceX上所做的工作已經成為業內標準。能介紹一下你為什么創立它、它具體做什么,以及大家對推理性能基準測試最常見的誤解是什么嗎?
說話人1 14:47
SemiAnalysis的工作有兩類:一類是為機構客戶和訂閱用戶提供研究,另一類純粹是出于好奇——覺得某件事有意思,就去搞清楚,然后公開發布。我們在GPU基準測試、訓練性能和推理性能方面都做了大量這樣的工作。
我們看到的問題是,推理基準測試是靜態的、時間點性的——你做了測試,花時間發布出來,但很快就過時了,因為模型一直在變。感覺每周都有新模型發布,無論是中國的模型還是其他,就在今天,Opus 5和Fable也剛剛發布。與此同時,軟件層也在不斷更新——PyTorch、vLLM、SGLang、新驅動,這些庫的更新頻率基本上是每周兩次。軟件在持續迭代,推理性能也在隨之變化,各種推理優化也層出不窮。
這種不斷突破的勢頭一直在推動效率提升、成本下降,這就是為什么同等質量的模型成本每年下降約60倍——這是個驚人的數字。要跟上這種節奏,靜態的時間點基準測試是遠遠不夠的,你需要的是動態運行的、持續更新的基準測試,即在最新硬件上持續運行最新模型。
于是我們啟動了InferenceX這個項目,并從整個生態系統中獲得了廣泛支持——CoreWeave、Crusoe、Nebius、Oracle、微軟、亞馬遜、谷歌、OpenAI都向我們捐贈了算力。
說話人1 16:25
同時我們也與SGLang、vLLM,以及現在的Radix Arc、Interact等推動開源工作的私人公司展開合作。英偉達、AMD、谷歌、亞馬遜也正在加入,我們還將測試TPU和Trainium。目前已有超過5000萬美元的硬件捐贈給我們,等TPU和訓練測試上線后,捐贈總額實際上會超過1億美元,約15種不同芯片類型每天都在最新模型上運行這些基準測試——Moonshot最好的模型、阿里巴巴最好的模型、約五家不同中國實驗室的最好模型,以及最好的美國開源模型,如GPT、Nematron等。這些基準測試每天以自動化方式運行,在專門分配給我們用于推理基準測試的服務器上跑,橫跨大量不同的配置和優化類型,所有結果和配置均公開。
說話人1 17:28
這樣一來,我們就有了帕累托最優曲線。很多時候,人們在比較推理性能時,會拿別人的次優點與自己的最優點進行比較——就好比讓我開保時捷,和職業賽車手開同一輛車,我肯定開得更慢,這道理是一樣的。所以我們做的是:為"響應速度"(latency,即系統響應我的速度)和"批處理規模"(batch size,即同時服務用戶數量)這條曲線上的每一個點,都創建了開源容器,對應的是最優配置。
現在,任何想要最優性能點的人,都可以直接去InferenceX下載并運行,甚至可以設置自動更新,始終保持接近峰值的推理性能。
說話人3 18:13
在你看來,吞吐量與響應速度之間的這條曲線是最重要的曲線嗎?
說話人1 18:19
我認為是的。硬件基礎設施、模型、應用層的幾乎所有決策,都是由這條曲線決定的。
如果某個場景需要極低延遲,不在乎成本,就把批處理規模設得很小,并大量使用推測性解碼或多Token預測等技術。而如果是批量處理大量文檔,根本不在乎響應速度,就把用戶盡量打包,不需要那些以犧牲成本為代價來提升個人用戶速度的技術,因為你根本不在乎一個文檔跑了一整夜才處理完。
現在我們對待AI基礎設施的方式是"一刀切",但隨著時間推移,會越來越細化——有些是批處理工作,有些需要即時響應,整條曲線對用戶都是有意義的。我們在Anthropic那里就能看到這一點:Claude的快速模式比普通模式貴得多,OpenAI的優先隊列也是同樣邏輯。
說話人3 19:17
簡單問一下,成本是怎么體現在這里的?
說話人1 19:20
舉個假設的例子:我有100個用戶同時請求,每個用戶每秒可以處理10個Token,總計每秒1000個Token——這是曲線的一端,速度很慢,每用戶10 Token/秒。另一端是只有1個用戶,速度達到250 Token/秒。中間有一些帕累托最優點:普通用戶可能需要50到100 Token/秒,我能同時服務一定數量的用戶。
曲線兩端分別是"總計每秒1000 Token(多用戶低速)"和"總計每秒250 Token(單用戶高速)",中間有一條曲線。有些工作場景會選擇低速模式,因為同樣的硬件可以處理1000 Token而不是250 Token,成本低4倍。而有些用戶愿意多付4倍的錢,因為他們在乎的是時間而不是價格——使用Token的人本身成本很高,或者反饋循環的速度對他們而言很關鍵。
說話人2 20:20
如果讓你預測,時間框架自己定——10年或15年——你認為屆時有多少比例的推理算力會部署在太空中?可以是0%、50%,或者99%、90%?
說話人1 20:33
這個問題很難回答。
說話人2 20:34
時間框架隨你定。
說話人1 20:38
我非常喜歡SpaceX,如果能買股票,我會毫不猶豫地認購IPO——不是投資建議。我認為在未來三到五年內,太空數據中心不會有實質性的影響。但從20年的視角來看,我認為絕大多數算力將部署在太空。關鍵變量是在地面上建設電力的成本,以及地面上能承載多少電力。
說話人3 21:25
你的預測是多少吉瓦?
說話人1 21:27
我認為到2030年,僅OpenAI和Anthropic兩家合計就會有超過100吉瓦的算力,再加上Meta、谷歌等等,用于推理的算力總量將是天文數字。到2040年,可能會達到太瓦級別,屆時帶來的生產力提升將是驚人的。到2040年,我認為超過一半的新增算力會部署在太空;但到2030年,這個比例還不到1%。
說話人3 21:56
你認為每瓦算力所對應的智能水平一直在提升嗎?現在似乎和人類大腦之間仍然存在巨大差距。你覺得我們能彌合這個差距嗎?如果能,增益將從何而來?
說話人1 22:09
這在很大程度上取決于你在做什么任務。比如用于做數學的TI-84計算器,在每瓦算力的"智能"方面遠超人類,而那已經是30年前的產品了——當然那是特定領域的智能,不是通用智能。
InferenceX的一個功能,就是測量所有硬件的功耗和成本。我們不只提供"吞吐量 vs. 響應速度",也提供"成本 vs. 響應速度"和"功耗 vs. 響應速度"。
說到每瓦智能的提升:我前面提到每年成本下降約60倍,功耗方面的提升大約是40倍左右——部分效率來自非功耗維度,但在每瓦智能上確實有巨大進步,今年、去年、前年都是如此,我預計這一趨勢會持續下去。
至于距離人類大腦有多遠,我們還差好幾個數量級。但好在這不太重要——我們可以給計算機投入大量電力,比維持人類大腦運轉要容易得多,畢竟不需要應對疾病、挑食、睡眠等問題。
說話人2 23:18
我想在這個話題上再多問一個問題。在我看來,提升每瓦智能或每美元智能,大概有三個層次的輸入:硬件改進(硬件本身效率提升)、底層系統優化(內核級改進、矩陣乘法庫優化等),以及高層的模型層算法改進。
在過去三年里,我的直覺是大多數收益來自硬件層,另有一些來自模型層。你認同這個判斷嗎?你覺得未來會呈現出什么樣的格局?內核級別還有多少潛力可以挖掘?
說話人1 24:17
Shaun,我完全不同意你的觀點。
說話人2 24:20
太好了,這正是我們請你來的原因。
說話人1 24:22
我認為可以從這三個層次來分析。從Hopper到Blackwell,大約是過去三年的跨度,在DeepSeek最優化部署下,性能提升約為30倍——在InferenceX上可以看到。但從三年前到現在,每瓦智能的整體提升遠超30倍,其中很大一部分來自模型層。
三年前的水平是GPT-4,現在即便是一個270億參數、僅有20億活躍參數的小型Qwen模型,表現都遠超當時。模型層有巨大的提升,硬件層也有相當可觀的進步,但真正的關鍵在于協同設計層——這才是最重要的。
以DeepSeek為例,它是目前最廣為人知的公開案例,可以清楚地看到:DeepSeek V3中所有專家的矩陣形狀都專門為Hopper架構優化,V4則為Blackwell芯片優化。有趣的是,TPU客觀上是非常優秀的芯片,承擔著DeepMind全部的運算,也是Anthropic預訓練階段的主力——但TPU在運行DeepSeek時表現很差,反而在其他類型的模型上有著Nvidia無法比擬的優勢。
這種深度優化涵蓋了矩陣形狀、網絡IO模式、collective通信方式、注意力機制的算術強度等諸多方面,模型、硬件和中間的基礎軟件已經緊密地協同優化,你很難把各層的貢獻單獨剝離出來分析。
說話人2 26:16
我的理解是,這方面中國做得比西方好很多。DeepSeek似乎是第一個真正做到這一點的模型。
說話人1 26:28
我不一定這么認為。更可能的情況是西方沒有公開他們在做什么。OpenAI從未透露GPT-4o有多稀疏、矩陣形狀是什么,但實際上GPT-4o的規模和DeepSeek V3大體相當,甚至還略小一些,而且發布時間還早一點。
說話人2 26:48
你的看法是,這三個層次的進步一直在同步發生,大致處于相似的量級,而最大的收益來自同時對三個層次進行協同優化?
說話人1 26:58
我會說模型層的收益多于軟件基礎設施層和硬件層,但每一層都有創新在發生。真正最大的收益,以及頂尖實驗室的核心競爭力,在于同時協同優化三個層次。
Anthropic雖然使用多種硬件,但推理主要在GPU上完成,訓練則主要用TPU——GPU更通用,但他們優化了硬件、模型和所有相關環節。OpenAI之前的模型更針對Hopper優化,現在更多針對Blackwell。谷歌同樣如此:Gemini 2深度優化了TPU v6e,下一代Gemini則專門針對下一代TPU架構。
說話人1 27:56
很多模型都是在特定硬件上協同優化的,一旦移植到舊硬件上運行,效果往往大打折扣。軟硬件協同設計是這其中最重要的事情,這也正是我日常工作中最令我興奮的部分。
說話人1 28:17
每一層都有創新在發生,而真正的突破性進展,是當你跨越幾個層次進行協同設計時——原本可能只是這里2倍、那里2倍的改進,疊加之后不是簡單相乘的8倍,而是100倍。這就是實驗室層面和英偉達這樣的公司令人興奮的地方。英偉達并不直接在模型層做協同設計,但從模型層一路延伸到芯片層,他們都在優化。臺積電也是如此,不只優化制造工藝,而是從耗材、工具,一直到客戶告訴他們的芯片設計需求,整個抽象棧都在協同優化。
說話人2 29:00
在這條優化鏈上,某個環節總會出現瓶頸,成為拖累整體進展的短板,需要被拉起來。
說話人1 29:08
對,然后就是各種臨時補丁。
說話人2 29:09
正是。如果讓你預測,在整個技術棧的任意層面——可以包括供應鏈——你最密切關注的、未來一年內最關鍵的瓶頸是什么?不一定局限于供應鏈或規模層面,而是實際技術層面。
說話人1 29:37
內存是一個顯而易見的答案,大家都在談,但我想從技術角度來說,而非供應鏈角度。內存容量和帶寬的提升一直非常緩慢——NAND存儲單元大約是25年前發明的,DRAM單元大約是40年前發明的,在存儲單元本身層面一直沒有重大突破。
未來幾年將有一個重要創新:不再把HBM單獨堆疊在芯片旁邊,而是直接把內存堆疊在芯片上,這將使帶寬大幅提升。這個方向上有一些有趣的公司和概念驗證項目正在推進。
另一個瓶頸是功率密度。過去二十多年,數據中心和桌面芯片有一個幾乎不變的規律:每平方毫米約1瓦。一塊100平方毫米的芯片,功耗通常接近100瓦。最新的英偉達和TPU芯片仍然大致在這個區間。芯片正在走向1400瓦,英偉達Rubin下一代可能達到2000瓦,Rubin Ultra甚至可能達到4000瓦,但本質上是靠增加硅面積來實現的。
真正令人興奮的是,目前正在研發的技術能讓每平方毫米泵入遠超1瓦的功率。這意味著同等性能所需的硅面積更小,雖然運行功耗更高、在某些情況下效率更低,但減少了所需的硅面積,有助于突破現有的上限。
說話人1 31:29
隨之而來的是散熱挑戰、電磁干擾等各種工程難題,這正是為什么我們在每平方毫米1瓦這個門檻上卡了這么久——它是一個極其困難的工程問題。
說話人1 31:42
但令人振奮的是,全世界都在努力突破這些限制。在供應鏈的另一個維度,人們談論能源瓶頸,認為難以解決。其實也有一些相對直接的方案可以考慮:比如美國有大量用于卡車的柴油發動機,可以在生產線上相對容易地改造為燃氣發動機,然后連接到電動馬達上反向驅動——讓電動馬達發電而不是驅動車輪,這樣就能通過美國本就可以大規模生產的引擎來發電。
說話人1 32:24
這樣做的維護似乎很麻煩,因為一個數據中心可能需要數百臺這樣的設備。但其實可以直接從汽車修理店招募技工來負責維護。我并不是說這很簡單——我自己肯定做不到——但這是一個工程上可行的路徑。
說話人2 32:41
你說出了一個很重要的觀點:正因為西方過去二三十年沒有真正重視半導體乃至更廣泛的硬件領域,所以缺乏持續的創新投入,最優秀的人才也沒有被吸引到這里。
說話人1 32:57
為什么要去做硬件,當你可以去做廣告呢?
說話人2 33:00
沒錯。
英偉達GPU與TPU之爭
說話人3 33:03
好,換個話題。英偉達GPU vs. TPU,你怎么看?
說話人1 33:08
大家都想從中選一個,但這其實是一個關于市場格局的問題。往后看兩年,谷歌通過供應鏈會生產超過一千萬顆TPU,英偉達會生產數以千萬計的GPU,兩者都將成為規模超過一千億美元的生態系統,谷歌每年通過TPU創造的價值超過千億美元,英偉達更是遠超這個數字——我不做具體預測。
說話人2 33:34
這是思想實驗,不是收入預測。
說話人1 33:42
兩者各有絕對優勢。英偉達會說:我們有交換機、我們是通用硬件;TPU會說:我們更優化、能效更高、網絡拓撲對某些架構的適配性更好。雙方都有站得住腳的理由。
我可以一本正經地和你爭論GPU遠優于TPU,也可以反過來論證TPU遠優于GPU。但這一切都取決于軟硬件協同設計。OpenAI目前的模型演進方向,可能讓他們使用TPU成為一個糟糕的決策;而Anthropic和谷歌的模型演進方向,可能讓使用GPU訓練也同樣是個糟糕的決策——當然作為矩陣計算本身是沒問題的。
稀疏模型與密集模型
說話人3 34:36
根本的區別是什么?
說話人1 34:37
有很多方面。最簡單的一個就是矩陣乘法單元的大小不同,進而影響矩陣運算的形狀、注意力機制的結構方式、專家模塊的組織方式等。
說話人3 34:52
所以你認為OpenAI和Anthropic在模型架構上正在走向截然不同的路徑?
說話人1 34:56
我認為他們的模型架構差異相當大。OpenAI的模型更加稀疏,這有其獨特的優勢;Anthropic的模型雖然也是稀疏的,但整體上更密集,這帶來了不同的優勢。
此外還有網絡拓撲的差異。英偉達的芯片都通過NVLink交換機連接,最多可以互連72個GPU;谷歌的ICI則沒有交換機,但可以在超高帶寬下連接8000個芯片——代價是必須經過中間芯片來路由,因為沒有直接交換機。這些架構上的權衡,反過來影響了模型設計的選擇。所以并不能簡單地說誰優誰劣,因為你無法孤立地評估硬件,它天然延伸到了模型層。
CUDA護城河正在轉移說話人3 35:49
我記得很長一段時間,大家都認為英偉達的可編程性和CUDA生態是巨大的護城河。但在我看來,過去大約六個月,這個敘事似乎已經開始改變了。模型公司不再在意要不要為其他芯片編寫自定義內核——愿意的話,就支持四五種芯片。Codex這類工具在做大量優化工作方面已經相當出色。而且模型公司的數量并不多,大概就幾十家,每家都需要高度可編程性的假設本來就站不住腳。因此,"數以萬計的大客戶都需要良好兼容性"這個前提本身似乎正在動搖。
說話人1 36:34
確實如此。CUDA的軟件護城河至少部分已經被拆解,因為模型本來就很擅長寫代碼,所有軟件終究都會被商品化。但我認為,人們所說的"CUDA護城河",其實與CUDA本身關系不大。
真正的護城河在于:DeepSeek、Kimi、智譜AI、阿里、騰訊、小米——這些公司的模型都是專門針對GPU協同設計的。因此,如果你想在TPU上運行這些模型,在某些情況下效果相當差。谷歌只能建立自己的開源模型生態,這就是Gemma模型的意義所在。
最終結果是:護城河并不在于CUDA這門編程語言,而在于下游產品對英偉達硬件的深度優化。這些公司只是選擇了開源,Nematron也是如此。而那些使用這些模型的下游用戶——推理API提供商、RLHF公司、為企業定制開源模型的公司——都因此被迫使用英偉達,不是因為他們需要自己寫CUDA內核,而是因為專家模塊的維度、隱藏層的大小等形狀參數,都更適合在英偉達GPU而非TPU上運行。
反之亦然——如果谷歌真正開源了質量很高的模型,人們拿來用了之后,發現在英偉達GPU上跑得不好,就會去買TPU或租TPU來跑。
對小團隊來說,他們會想用vLLM、SGLang、PyTorch這些開源工具。但大型實驗室不一定要用這些——OpenAI很早就從PyTorch上fork出去了,Anthropic和其他大型實驗室也不依賴開源實現,而是基于自己fork的版本獨立構建。
說話人1 38:32
因此,大型實驗室的邏輯越來越變成:選擇最好、最具成本效益的硬件,然后圍繞那個硬件協同設計模型和基礎設施軟件,并用AI來輔助編寫所有這些軟件。
Cerebras的速度與局限說話人3 38:46
你怎么看Cerebras?
說話人1 38:46
我認為Cerebras是一家非常有創新性的公司。在某些細分市場,他們做得很好——超低延遲推理。我認為這是一個很大的市場,我們在SemiAnalysis基本上只用快速模式。
說話人3 39:02
順便說一下,我很欣賞你對投入產出的精細核算——不知道是某一期特別做了這個,還是你們一直如此。
說話人1 39:13
我們做得相當仔細,謝謝。那是我們發布的"Dark GDP"報告里體現的。我們每周五也會追蹤每個人的Token消費,如果有人突然飆升,就去問他做了什么。
說話人1 39:25
如果解釋合理,那就沒問題。我認為快速模式對于高端任務明顯是值得的,我能想到很多場景,超快的Token速度確實有價值。但反過來說,也有很多場景根本不需要這么快,用戶不愿意為此付費,就會選用GPU或TPU。
Cerebras面臨的一個主要風險是:能發揮快速模式價值的,往往是最好的模型,而小模型未必需要快速推理。金融市場、高頻交易或中頻交易等場景或許是例外,但在基于SRAM的芯片(比如Cerebras和Groq)上運行非常大的模型、超長上下文,在技術上非常困難。
如果未來模型變得更大——不是千億級別參數,而是10萬億以上參數級別,再加上百萬級別的上下文長度——那在Cerebras上可能就跑不下來了。從目前的使用數據來看,用戶始終偏好實驗室最好的旗艦模型,即便它們更貴。就在今天發布的Fable,就已經有大量用戶從此前的版本切換過來,盡管價格更高。
說話人3 40:53
是按照美元收入來衡量,而不是Token數量?
說話人1 40:57
誰會在乎Token數量呢?看的當然是美元。就好比我不在乎賣出了多少輛Mini Cooper或者豐田凱美瑞——如果單價是5倍但銷量只有一半,那也沒關系。美國最賺錢的市場是皮卡,這道理是相通的,我說的是類比關系。
說話人2 41:19
你始終把經濟學和技術結合起來分析,這是你最突出的差異化優勢之一,也是你做得最好的地方之一。這兩件事能同時關注的人極少。
說話人1 41:32
謝謝。我覺得SemiAnalysis內部有一個很有意思的現象:我們90個人里,很大一部分是整個供應鏈的技術專家和工程師,另一大部分曾在對沖基金工作。于是你經常看到這樣的爭論:工程師說"這個技術太厲害了",前對沖基金的人說"但是成本呢",就這樣有機地吵起來。我們內部文化很隨意,你能想象,考慮到我當年是論壇版主,這種氛圍很自然。
說話人2 42:02
看來你挺享受這種狀態的。
說話人1 42:04
俗話說,不要和豬摔跤,因為豬本來就喜歡在泥地里打滾。
ROI爭論與犀利觀點說話人2 42:08
在進入下一個問題之前,我想問一下:在半導體領域,有沒有什么話題特別讓你抓狂?比如有人說了什么,讓你覺得"這人根本不懂"?
說話人1 42:26
最讓我抓狂的是"AI沒有ROI"這句話。其次是否認模型進步——那些說"模型沒有變好、沒有真正的推理能力、不會思考、快到頂了"的人。問題是,從能力曲線來看,一直都是向右上方延伸的。他們說"看,這個基準測試沒有提升",那是因為已經飽和了,達到了90%以上。去看新的基準測試,那些正在快速突破的。這才是關鍵所在。
說到底,半導體非常復雜,我不責怪任何人有所欠缺——我自己每天都在向行業里的人學習。我研究這個領域大概有18年了,但即便如此,昨天我還剛了解到一種年銷售額約1億美元的化學品的存在,完全不知道它的存在和用途。在數千億美元規模的行業里,1億美元的小品類多了去了,但每一種芯片的制造都離不開它。半導體有大約1000道工序,沒有人能掌握全部細節。
最讓我覺得好笑的,是當一個人手握所有事實,卻得出了完全錯誤的結論。
說話人2 44:01
這在我們的工作里也是常態。
說話人1 44:04
這種時候,我的態度不是生氣,而是盡量快速更新認知。
未來十年的技術押注說話人2 44:10
因為AI是目前世界上最重要的事情,近期瓶頸是我們日常談論的重心。但有沒有更長遠的事情讓你感到興奮,比如十年維度的?我們提到了軌道數據中心,還有硅光子——在十年時間跨度上,你認為它是被高估了還是被低估了?還有其他方向嗎?
說話人1 44:33
從太空角度來看,太空數據中心在十年維度上令我非常興奮——太空數據中心、小行星采礦等等,我對SpaceX的愿景充滿期待。
說話人1 44:47
在半導體層面,市場的重大變化往往取決于某件事提前或推遲一年發生。比如共封裝光學(co-package optics),大家都知道它在這個十年內一定會實現,爭論只是在2027年、2028年、2029年還是2030年。但總會到來。
更有趣的是,有些公司同時在芯片層、軟件抽象層和模型層進行創新。你們投資了Divyansh Rao(Divyansh)的公司嗎?
說話人2 45:12
是的,我們投了。
說話人1 45:12
他嘗試同時在硅層、軟件抽象層和模型層上進行創新。他完全清楚這不是兩三年內就能見效的事,而是一個長期賭注。這類想法——比如模擬計算與基于能量的模型一同出現——是非常令人興奮的事情,雖然大概率不會成功,但充滿想象力。
說話人2 45:40
確切地說,不會在短期內成功。
說話人1 45:42
對,肯定不會在短期內成功。我非常相信他。我最早認識他是在2020年,我當時還是匿名賬戶,在網上懟了他,他開始回復,我就把對話搬到私信,再約了一個通話,他是我在整個半導體行業認識的第一個真正重要的人。
說話人2 45:56
他的一個特質讓我印象深刻——他總在努力幫助年輕一代,識別人才。
說話人3 46:08
在MosaicML方面,他也超前于時代太多了。我記得那時候還是2019年。
說話人1 46:11
當時我還是匿名賬戶,就在網上懟了他,他回復了,我就把對話引到私信,然后約了通話。那是我在整個半導體行業里真正認識的第一個重要的人。
生態系統的終局說話人3 46:27
你認為生態系統的最終形態是什么?每家實驗室、每家超大規模云服務商都有自己的芯片嗎?訓練用自家芯片似乎現在已經開始成立了。你認為最終每家超大規模云都有自己的芯片,至少用于推理,訓練則可能仍然去找英偉達?
說話人1 46:44
我認為每個人都會去嘗試,也不會停止嘗試。但最終,供應鏈的能力和可引入的技術決定了你能走多遠,行業越大,供應鏈多元化的趨勢就越明顯。
說話人1 47:00
現在,幾乎所有人的芯片結構都大同小異:中間是大型邏輯計算芯片,左右兩側是HBM,上方是網絡接口,下方是PCIe及其他IO。這個結構對訓練芯片、TPU和英偉達GPU基本一致,大多數初創公司也是如此——除了Groq和一些做特殊架構的公司。
說話人1 47:22
隨著時間推移,我們會看到硬件架構和模型架構越來越分化,人們會進行協同優化。有些人會陷入局部最優——就好比梯度下降,大家都在尋找最優解,但有些人會收斂到局部極小值。
問題在于,英偉達由于擁有海量客戶,每個客戶都在設計階段給予反饋,他們的通用計算平臺能兼顧更多需求,其"全局最優"雖然可能比不上專用芯片的"局部最優",但專用芯片的局部最優可能恰恰是錯誤的方向——今天看起來很完美,但隨著AI的發展,實際上需要的是另一條路。
說話人1 48:22
所以我認為通用AI計算會有一個很大的市場。和實驗室的人聊天,他們甚至不知道一年后自己會用什么架構,他們有很多研究押注,但不知道最終會走哪條路。一般情況下,他們了解自己手上有什么硬件,并在此基礎上盡量協同優化。
說話人1 48:42
但如果某個模型架構出現重大突破——比如用新機制替換注意力機制,誰都無法預測——最好的硬件選擇就會隨之改變。那么,人們會為了一個更專用的資產做五年的硬件投資押注嗎?還是會保留一部分通用算力?這就是為什么谷歌愿意以每GPU每小時11美元的價格從xAI租用GPU——這個價格已經非常驚人了。
說話人1 49:19
而且盡管谷歌自己有TPU,這里面仍然存在一些值得深思的問題:為什么他們要這么做?事實上,谷歌有三個不同的TPU設計項目——與Broadcom合作的一個架構,與聯發科合作的是不同架構,第三個則是公開披露的研究版本。這是完全不同的三種架構,不只是換了代工廠這么簡單。我認為大家都意識到局部最優的風險,所以每家公司都會有自己的ASIC項目,每年投入數十億乃至數百億美元——谷歌可能是數百億美元級別。
說話人1 50:01
但同時,他們也會有不依賴TPU的工作負載。谷歌內部有些非Gemini、非DeepMind的項目主要用GPU而不是TPU。不同的應用場景——藥物研發或Waymo——可能需要不同的架構選擇。針對科學研究的AI和針對通用智能的AGI模型,算法模式可能完全不同。隨著市場越來越大,細分市場會不斷涌現,每家公司都能找到自己的利基,即便大部分市場份額最終仍然歸英偉達和訓練用TPU所有。
算力短缺與新興云服務商說話人 3 50:47
好的,我們來看看數據中心的建設情況。從各方數據來看,如果你看那些圖表,每計算小時的成本來看,我們正處于一場嚴峻的算力緊缺之中。而且這似乎是供需兩側同時承壓——長期運行的智能體需求急劇攀升,與此同時,大量數據中心的建設都在推遲。你認為這種算力緊缺會持續相當長一段時間,還是說在某個節點會得到緩解?
說話人 1 51:09
每個季度,我們部署的算力都遠超上一季度,新建的數據中心也比上一季度更多。今年,即便考慮到各種延誤,也將有20吉瓦的算力上線;明年,扣除延誤因素后,這一數字將超過30吉瓦。當然,任何事情都會有延誤,這是客觀規律。至于算力緊缺會不會伴隨我們余生,這取決于模型的發展走向。
就像Claude 5、Fable 5這些模型的潛在市場規模,并不只是Opus的兩倍。這些模型已經好太多了,能處理的任務數量也遠遠超出,其可尋址市場的規模遠不止兩倍。但在過去六七個月里,全球的算力并沒有翻倍——從Opus發布到現在,4.6、4.7、4.8版本都有所進步,而Fable和Mythos則是一次大幅跨越式的提升,但全球算力并沒有在同期翻倍甚至翻四倍。然而,AI能夠完成的有價值任務的數量和價值,卻確實翻了倍乃至更多。
說話人 1 52:15
現在的問題是接下來會發生什么。Anthropic在第二季度已經實現盈利——不含股權激勵的凈利潤為正;我認為到第三季度,甚至含股權激勵的利潤也可能轉正。他們的盈利能力就有這么強。就API價格而言,Opus 4單個Token的利潤率在80%以上。他們與大客戶簽訂了許多合作協議,通過Bedrock和Vertex等渠道的合作方式會讓整體毛利率有所攤薄,但他們每個Token的利潤率依然極高。
正因如此,即便算力緊張,他們也完全有能力以高于市場價的價格購買GPU。他們之前以高于市場價從SpaceX購買了GPU,價格比谷歌的方案貴,但那是因為合同簽得早。這是一種財務健康、具備正毛利率的公司才能做到的事,融資階段的初創企業或毛利為負的公司未必能如此操作。
從成本收益角度來看:我每租一張GPU,因為我已經沒有富余算力了,可以立刻將上面的token賣出去;無論是推理還是訓練,每一次算力投入都能立刻產生正毛利。如果我當前跑著75%的毛利率,即便算力成本翻倍,我仍然有50%的毛利。而且對他們來說,擴充算力節點這件事,如果是租用模式,也不需要太多人力介入。
說話人 1 53:38
所以歸根結底,凈收入還是在增長的。在這種情況下,我愿意以任何我能承受的價格租用GPU。
說話人 3 53:47
我有個反向的問題:在某個時間點,這波算力建設狂潮會不會突然崩塌?今天早些時候,我看到一條推文,Crusoe公開表示有客戶要求暫停某個數據中心的建設。整個生態系統里每個人現在都像上了杠桿一樣——必須建、加速建、不停建。高杠桿加高增長,作為投資人,我對這種組合感到非常不安。
說話人 1 54:08
等等,高杠桿加高增長意味著少量股權有巨大的上行空間。
說話人 2 54:13
你不是……
說話人 1 54:13
債權投資人,你是股權投資人。
說話人 2 54:16
(表示認同)
說話人 1 54:18
去學學私募股權的杠桿收購吧。
說話人 3 54:24
私募股權,好吧。
說話人 2 54:26
她在股權這條路上走太久,忘了債的那一套。
說話人 3 54:28
好,我主要關注的還是營收端。你有沒有看到任何風險信號?你對這個問題是否感到擔憂?
說話人 1 54:33
我明白你的意思,這其實又回到了模型的核心問題上。如果模型能創造的總經濟價值——就是我們之前提到的"暗GDP"報告——如果這些模型所能完成的工作量,沒有比算力供給增長得更快,那局面就會逆轉。而在過去六個月里,天平一直是倒向另一邊的——模型可處理的工作量,其可尋址市場的擴張速度,超過了算力的增速,所以價格才會上漲。
當然,也完全有可能某天模型進步突然停滯。你去問Anthropic或OpenAI的人,也許他們有些一廂情愿,但幾乎所有人都說:不,模型還會繼續進步。現有方法在某個地方可能會遭遇瓶頸,但目前我們仍然能看到快速改進的清晰路徑。事實上,模型進步的速度比六個月前或一年前還要快,因為存在我所說的"遞歸自我改進"——工程師用模型來輔助編寫基礎設施代碼,從而更快地推出下一代模型。這樣一個類似遞歸自我改進的飛輪正在轉動,模型因此越來越好,而且越來越快。
說話人 1 55:48
但歸根結底,資本是個大問題,這也是谷歌要募資的原因。他們持有大量SpaceX股份,大約占公司5%左右吧?
說話人 2 55:57
可能稍微多一點。
說話人 1 55:58
是的,我記得是——
說話人 2 55:59
大概是10%。谷歌當年以100億美元估值投了10億美元,拿到了10%,后來被稀釋了一些。但那絕對是史上最成功的投資之一,干得漂亮。
說話人 1 56:11
所以,他們賬上有大約1000億美元可以在解禁后九個月內套現,加上日常產生的大量毛利潤,但他們還是在做財務預測之后得出結論——我們需要融資,于是進行了增發。這聽起來不可思議,但這也說明了他們預計需要花多少錢。資本確實是個大問題。Meta也宣布要增發股票,市場不太買賬,但所有這些公司都會去融資,無論是債權還是股權。資本的水龍頭終歸有一天會擰小,但眼下,亞馬遜每增加一張GPU、每增加一個推理或訓練單元,都能帶來更高的營收,每個新增算力單元都能產生毛利潤。
說話人 2 56:53
我想在這里補充一個問題。在我們討論這些的過程中,我腦子里一直有一個想法。我拿石油做個類比:沙特阿拉伯每桶石油的開采成本遠低于許多其他國家,而且沙特石油中的雜質含量極低,提煉更為容易。
那么我的問題是:在即將上線的這20吉瓦算力中,各個吉瓦之間的質量有多大差異?你認為哪個指標最能說明問題?比如,谷歌的每吉瓦算力是否比大多數新興云服務商的價值高出兩倍?因為谷歌有光學交換機,有多年積累的建設經驗,懂得如何做電力平滑處理。
我想提出的另一種假設是:真正擅長建設數據中心的公司,應該全力以赴、盡可能多建,因為需求旺盛,他們的競爭優勢也更大。而我們或許正開始看到一些早期信號,那些相對不擅長的參與者開始遭遇挫折。我不知道實際情況如何,只是好奇大家怎么看。
說話人 1 58:18
在這方面確實有一些衡量指標。Trainium向Anthropic和OpenAI出租的價格,是低于每吉瓦100億美元的;而GPU在過去六個月的市場狂熱之前,通常是在每吉瓦120億到130億美元左右成交的。這是新興云服務商對比亞馬遜的租金差異。現在亞馬遜的GPU也大概是130億美元。
說話人 2 58:42
我的理解是,亞馬遜對這塊業務是有一定補貼的,實際價差可能更大。
說話人 1 58:52
Trainium低于100億美元,但其中涉及一些復雜的機制,本質上是看算下來到底多少錢——
說話人 2 58:56
而且,我的理解是,Anthropic在讓Trainium真正可用于訓練方面發揮了重要作用,比如編寫各種底層庫等。我聽到的反饋是,Trainium是真的很好的硬件,而且在快速進步。Anthropic現在也大量在用,希望我們能看到這反映在價格上漲上。
說話人 1 59:19
那份協議有一個底價機制——如果效果不好,價格會更低,直到合同取消;如果效果很好,價格會相對高一些,但有效價格基本上是低于100億美元每吉瓦的,這就是Trainium的實際情況。而GPU方面,SpaceX那筆交易的價格是每吉瓦約250億美元,即每兆瓦每年2500萬美元,是谷歌的方案——這個差距非常懸殊。
當然,如果亞馬遜今天再賣Trainium,價格肯定會超過100億,因為目前算力供不應求。但數據中心領域已經出現了類似的分化——在托管托管模式下,不含算力只租場地和電力,數據中心通常按每千瓦每月多少美元定價。以前是每千瓦每月60美元。
說話人 1 01:00:12
現在的成交價格大約在120到160美元之間,而且不同質量的數據中心差異顯著。我見過信用評級較差的客戶簽到200美元的案例,也見過質量較好的數據中心低至100美元的情況;在印度,由于電網不穩定、網絡連接質量一般、設施相對普通,價格可以低至80美元,但好歹算是個數據中心。
說話人 1 01:00:37
所以數據中心之間的價差已經非常懸殊。在數據中心建設這件事上,常見的坑就是直接失敗——有很多人夸下海口說要建,比如某四人小團隊,說"我們訂了渦輪機,付了定金,要建一個數據中心",然后就是不斷推遲,最終爛尾。
說話人 1 01:00:57
所以你需要對團隊能力進行加權評估,同時考慮時間滯后因素。我們的數據中心模型就是這么做的——我們追蹤每一個數據中心項目,根據他們采用的設備等各種信息對每個項目逐一評估。
關于谷歌,你提到的一點很有意思:在一個1吉瓦的數據中心里,他們實際上會安裝1.5吉瓦的硬件。由于他們對從工作負載到電力管理的整個鏈路都有深刻理解,所以能夠靈活調配電力分配。
說話人 1 01:01:23
通常情況下,1吉瓦的算力設施在功耗上的實際利用率大約是60%到70%——注意這里說的是功耗利用率,不是硬件利用率,硬件始終有人在租用。但谷歌能把功耗利用率提升上來,也就是說在1吉瓦的額定容量下,他們能用滿整個1吉瓦。
還有一種玩法,包括谷歌在內,是與電力公司簽協議:電網穩定時能供1吉瓦,但一年中有三天可以臨時提升到2吉瓦。他們就會說"那就給我2吉瓦,必要時你告訴我降載"。
說話人 1 01:01:50
要做到這一點,需要對工作負載進行精細化管理,配備備用電源、現場發電機等一系列基礎設施,才能真正穩定運行2吉瓦。能做到這些的運營商,可以收取更高的價格。
說話人 1 01:02:05
比如,雖然額定只有1吉瓦,但借助儲能、燃氣等手段處理掉那三天的超用問題,我實際上可以對外銷售2吉瓦;或者,我在本地建了自備電源,在沒有其他人能供電的地方擁有了1吉瓦的能力,因而能夠快速交付。這未必會帶來更高的單價,但我可以賣出更多的吉瓦。有時候這兩者是交織在一起的——你賣出了更多吉瓦,而每個吉瓦的定價可能各有不同。
說話人 1 01:02:29
在數據中心和能源這一層面,我認為更多是有和沒有的問題,以及項目會不會延誤,更像是一個二元判斷。但在算力側,我覺得確實存在更多有意思的差異化空間。同樣是1吉瓦交給Anthropic,產生的營收客觀上高于交給OpenAI的情況;而這兩家目前似乎都能把手頭所有算力用滿,因為存在限速、Token上限等問題,尤其是Codex 5.5發布后,需求更是大漲。同樣地,如果把1吉瓦交給SpaceX——
說話人 2 01:03:03
一旦他們開動,那產出相當可觀。我的判斷是,他們對硬件的利用效率可能超出大多數人的預期。我認為人們往往低估了他們從Starlink積累的豐富網絡運營經驗,以及從特斯拉延伸過來的電力管理能力。
說話人 1 01:03:25
他們團隊的背景簡直令人嘆服。
說話人 2 01:03:28
對我來說,那可能恰恰是很多分析遺漏的一個維度,我也不確定,但感覺確實如此。
說話人 1 01:03:37
還有一點很重要:當CoreWeave建起1吉瓦的算力時,盡管他們GPU的性能和可靠性客觀上優于亞馬遜、谷歌或微軟——我們做過實際測試——但問題在于,谷歌會在算力交付前六個月就把合同簽出去,然后需要拿著這份有信用背書的合同去融資,再用融到的錢支付已經下的采購訂單。而SpaceX的做法是:這臺機器現在就跑著,買吧。
在擁有強大資產負債表的前提下,這種能力的差距是巨大的。這也會大幅提升你的每兆瓦營收水平。
說話人 3 01:04:15
那么,新興云服務商(Neo Cloud)的機會為什么會存在呢?如果你五年前問我,我會說超大規模云廠商在這方面根本無解。而你剛才也提到CoreWeave的性能比超大規模云廠商更好。這個機會在宏觀層面和執行層面上是怎么產生的?
說話人 1 01:04:29
2023年,我寫了一份報告,讓亞馬遜對我很不爽,標題叫《亞馬遜云危機》。
當時我分析的是:亞馬遜之所以是最好的云平臺,是因為他們有Nitro網卡——它能提供租戶隔離,所有虛擬化層都跑在網卡上,因此可以把所有CPU核心都賣出去。他們還有自研SSD,買的是原始NAND顆粒,自己組裝,成本更低。他們有Graviton自研CPU,攤低了每核心的成本。這些種種優勢讓他們能夠賣出更多核心、提供更好的安全性和網絡性能,存儲方面也更具競爭力——但這一切都是針對傳統CPU云計算場景構建的。
在AI云場景中,這些優勢反而成了性能的拖累。Nitro網卡對AI性能有負面影響,雖然經過幾次迭代已經改進了不少,但仍然不是最優的。此外,很多安全機制在AI場景下也用不上——因為不存在多租戶共享一張GPU或一臺多GPU服務器的情況,沒有人租一個72卡機柜里的單張GPU,都是整柜、整群租用,而且都是長期合同。GPU租賃市場的這些特性,讓超大規模云廠商的很多傳統優勢失去了用武之地,有些甚至變成了負擔。
谷歌和亞馬遜的定制網絡在傳統CPU計算場景下表現優異,但對AI訓練未必適用。微軟的情況則是:自建數據中心本來能節省成本,但他們的數據中心建設團隊能力其實并不突出。需求穩定的時候還好,但當他們要在年內臨時大幅提升交付量時,就力不從心,不得不去購買大量新興云服務商的產能。
另外就是上市速度。在大型組織里,沒有人會因為"數據中心建得更快"而致富。但你看Crusoe,Chase和團隊里其他人,如果他們提前交付算力,是真的可以大賺一筆的,因為他們都是高杠桿的股權持有者。
說話人 2 01:06:47
他們是股權持有人。而且,你懂的,他們很多都是從比特幣圈出來的——雖然這話不太適合公開說。
說話人 1 01:06:52
他們的主要數據中心負責人其實是從微軟過來的,所以也不全是那個路子。
說話人 2 01:06:56
我就是開個玩笑。但有一點是真的:在高度波動的市場里摸爬滾打,確實能學到很多。
說話人 3 01:07:05
那你認為,Jensen(黃仁勛)是在下一盤大棋嗎?
說話人 1 01:07:07
Jensen非常厭惡一種世界格局:超大規模云廠商壟斷一切。這就是為什么他會向一些看起來不那么有把握的AI實驗室砸錢——他在全世界各地游說,說"你應該投這家公司",因為他想創造一個多極化的世界。這也是他為什么喜歡中國AI實驗室——他想要多極化。如果只有OpenAI、Anthropic和谷歌的模型主導市場,他就完了;如果只有超大規模云廠商建算力,他也完了。所以他必須把資源配置的方向引向新興云服務商,幫助他們構建集群,想方設法支持這個生態。
說話人 1 01:07:46
因為今天,賣給Crusoe的一張GPU、賣給CoreWeave的一張GPU、賣給谷歌或亞馬遜的一張GPU,對他來說是同一個價格。但五年后,Crusoe和CoreWeave的存在,意味著谷歌TPU的市場地位會更弱,亞馬遜Trainium的影響力也會更弱。而推理端有更多由非閉源模型實驗室承接,對他也更有利。所以,新興云服務商的生態就是這樣一片野蠻生長的叢林,很多新興AI實驗室同樣獲得了英偉達的投資。這個圈子是一片西部荒野,有很多會倒下,但也會有一些真正優秀的團隊脫穎而出——比如Crusoe,一群最初搞加密貨幣、后來轉型建數據中心、利用廢棄天然氣的人;比如CoreWeave,起家于一群對沖基金——
說話人 2 01:08:30
他們最初也搞過比特幣挖礦,然后才轉型的。
說話人 1 01:08:31
對,但他們最終建起來了,很多同一時期起步的人就是失敗了。
說話人 2 01:08:40
這兩支團隊都非常出色,值得高度肯定。
說話人 1 01:08:45
我想說的是,這就像往水里撒了很多誘餌,最強的魚才能活下來。新興云服務商是這樣,他希望新興AI實驗室也是這樣。我們且看有哪些新興AI實驗室能真正冒出頭來。Thinking Machines已經有了幾億美元的年經常性收入,這相當令人印象深刻——盡管媒體上凈是"他們流失了多少人才"的報道,但這個產品上線不到六個月就做到了幾億美元ARR,相當不錯。我們也期待其他新興AI實驗室能有類似的表現。Jensen想要的就是這樣一個多極化的世界。
說話人 2 01:09:20
衷心祝賀你的成就。最后我想說的是,聽眾從你今天的分享中大概能感受到你有多拼,但我知道你已經埋頭苦干超過十年了,才換來了最近這幾年站在正確的時間節點上。你所取得的成就令人嘆服,而我知道這僅僅是個開始。非常感謝你今天來參加分享。
說話人 1 01:09:42
謝謝大家,太棒了。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.