![]()
新智元報道
![]()
【新智元導讀】AlphaFold 稱霸蛋白質 AI 多年,剛剛被正面戰勝了!扎克伯格旗下 Biohub 發布 ESMFold2,一口氣預測 11 億個蛋白質結構,比 AlphaFold 多 8 億條,完全開源!
AlphaFold 王座告急!
Nature 刊文:扎克伯格旗下 Biohub 放了一記王炸,一口氣發布11 億個蛋白質結構預測,比 AlphaFold 數據庫多出8 億條。
背后的 AI 模型 ESMFold2 號稱性能全面超越 AlphaFold3。
更關鍵的是,完全開源,不限商用。
![]()
https://www.nature.com/articles/d41586-026-01686-3
谷歌 DeepMind 苦心經營多年的蛋白質 AI 霸主地位,正在被一個開源攪局者動搖。
蛋白質 AI 賽道的格局,可能要重寫了。
11 億個蛋白質結構,一把端上桌了
5 月 27 日,扎克伯格夫婦創建的生物醫學機構 Biohub,正式上線了名為 ESM Atlas 的蛋白質結構數據庫。
11 億個預測蛋白質結構,外加 68 億條蛋白質序列信息。
AlphaFold 的數據庫積累了超過 2 億個結構預測,ESM Atlas 一來就多出 8 億條。
生成這些預測的 AI 模型叫 ESMFold2,由 Biohub 科學負責人 Alex Rives 帶隊開發。
![]()
Rives 說:
這個圖譜展示了蛋白質生物學的全貌,尤其是那些最未知的部分。
蛋白質結構預測為什么重要?
蛋白質是生命運轉的核心零件,知道它的形狀就能理解它的功能,進而設計新藥、攻克疾病。
AlphaFold 靠這個拿了諾貝爾化學獎,是 AI 改變科學的標志性案例。
現在一個新模型拿著大 5 倍的數據集站了出來。
作為 AI 模型,ESMFold2 強在哪
ESMFold2 走了一條和 AlphaFold 不同的技術路線。
它基于 2024 年發布的「蛋白質語言模型」構建,核心思路借鑒了 NLP 領域的做法,把蛋白質序列當作「語言」來理解,在數十億條蛋白質數據上訓練,讓模型學會從序列直接預測三維結構。
AlphaFold 的 AI 同行們看到這里應該會覺得熟悉,這和大語言模型學習人類語言的邏輯是一樣的。
訓練數據的覆蓋范圍是關鍵變量。
ESMFold2 納入了大量來自土壤、海洋等環境的微生物蛋白質數據,這部分在 AlphaFold 的數據庫里是空白的。
覆蓋面更廣,模型見過的「蛋白質世界」就更完整。
Biohub 團隊稱,ESMFold2 在預測蛋白質之間相互作用的復合結構方面,表現優于 AlphaFold3。
但最有說服力的不是跑分,而是落地驗證。
團隊用 ESMFold2 設計了全新的蛋白質,拿到實驗室合成測試,高比例的設計按預期起效了。
從「預測」到「設計」再到「驗證」,這條鏈路跑通,價值就從論文延伸到了真實世界。
![]()
全部開源,這才是最大的殺手锏
ESMFold2 最鋒利的競爭武器,是完全開源且不限商用。
這個選擇的戰略意義,放到整個 AI 行業的語境下看更清楚。
AlphaFold 雖然有開放數據庫,但 AlphaFold3 在發布初期對商業使用做了限制。
谷歌 DeepMind 旗下的 Isomorphic Labs 今年推出的蛋白質相互作用預測模型更是完全閉源。
拓展閱讀:谷歌發布「AlphaFold 4」,不再開源!性能碾壓上一代
MIT 的計算生物學家 Ovchinnikov 直接點明了開源的價值,「我預計很多人會很興奮地想試一試 ESMFold2。」
開源 AI 的杠桿效應在大語言模型賽道已經被充分驗證,Meta 的 Llama 系列就是最好的例子。
一個足夠強的開源模型,能撬動全球社區去迭代、應用、發現原始開發者自己都沒想到的用法。
蛋白質 AI 領域的情況更特殊,全球有大量實驗室和研究機構迫切需要一個免費、無限制的結構預測工具,閉源模型再強,能觸達的用戶群就那么大。
Biohub 選擇全面開源,跟 Meta 在大語言模型上的打法一脈相承。
扎克伯格系在 AI 領域的策略越來越清晰——用開源做基礎設施,用生態做護城河。
![]()
同行大牛,買不買賬?
學界反應積極,但保留意見也很明確。
瑞典隆德大學的 Gemma Atkinson 稱 ESM Atlas 「應該成為生物學的非凡資源」。
![]()
倫敦大學學院的 Christine Orengo 認可其價值,但強調預測結果需要獨立驗證。
![]()
更尖銳的問題來自首爾國立大學的 Martin Steinegger。
![]()
他關心的是,ESMFold2 面對那些與已知蛋白質差異很大的「新結構」時,表現到底如何。
他的團隊此前發現,ESMFold 第一版在這方面并不出色。這個問題對 ESMFold2 依然懸而未決。
MIT 的 Ovchinnikov 給出了最冷靜的判斷,他認為 ESM Atlas 更適合定位為 AlphaFold 數據庫的補充。
![]()
他還指出,Isomorphic Labs 的閉源模型以及一些 Biohub 沒有直接拿來對比的開源模型,也取得了類似水平的成果。
ESMFold2 的領先幅度,可能沒有論文暗示的那么大。
這種審慎,恰恰折射出蛋白質 AI 賽道的競爭已經白熱化。
開源、閉源、學術、商業,各路模型都在以極快速度迭代。
今天的「最強」,半年后可能就被刷新。這個節奏,和大語言模型賽道的軍備競賽已經非常像了。
當 AI 開始讀懂生命的源代碼
過去,解析一個蛋白質的三維結構可能需要幾個月到幾年的實驗室工作。
AlphaFold 第一次證明 AI 可以在幾分鐘內做到。
現在 ESMFold2 把預測規模推到了 11 億量級,覆蓋了大量此前從未被解析的蛋白質。
沿著這條路往前推演,當 AI 能精準預測所有蛋白質結構,能設計全新的功能性蛋白質且實驗驗證有效,那距離 AGI 在生命科學領域的落地,可能比大多數人預想的更近。
如果 ASI 真正到來,生物學對它而言不再是需要「研究」的學科,而是可以被「工程化」的系統。
從分子層面設計生命,按需定制蛋白質,重寫進化的規則。
這聽起來像科幻,但 ESMFold2 這類工具正在一步步把「科幻」變成「工程問題」。
今天,11 億個蛋白質結構被攤開在桌上,全球任何有網絡連接的科學家都可以免費取用。
這意味著,AI 理解生命的能力,又上了一個臺階。
參考資料:
https://www.nature.com/articles/d41586-026-01686-3
編輯:馬可
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.