網易首頁 > 網易號 > 正文申請入駐

27個月，被罵騙子的公司成了印度deepseek

2026-03-09 20:38:35　來源: 硬嘮intalk

北京舉報

分享至

2026年3月6日，Sarvam AI把兩個模型的權重文件上傳到了Hugging Face。

文件名是sarvam-30b和sarvam-105b。任何人都可以免費下載，免費修改，免費部署。這是開源協議中最寬松的一種——Apache 2.0，連商業使用都不設障礙。

沒有發布會，沒有倒計時直播。就是兩個文件，掛在網上。

但對于理解這個動作的人來說，這兩個文件意味著一件事：一家印度AI公司，從零開始訓練出了一個在全球基準測試上有競爭力的大模型——然后把它送了出去。

這家公司走到這一步，用了兩年半。中間有一個讓全網嘲笑過的失敗，有一筆讓外界議論至今的政府交易，還有一個在公開羞辱發生后寫下的、只有一句話的回應。

故事從2023年12月開始。

一、頂峰那天

2023年12月7日，Sarvam AI宣布完成融資。

4100萬美元，種子輪加A輪合并計算。領投方是Lightspeed，Peak XV和Khosla Ventures跟投。按照TechCrunch的說法，這是印度AI創業公司在這個階段完成的最大單筆融資。

公司成立剛好五個月。員工總數約18人。

沒有人知道這家公司之前做過什么——它是從隱身模式直接跳出來宣布融資的。但投資人顯然不需要更多時間判斷。Peak XV和Lightspeed在種子輪時不到一周就拍了板。Khosla Ventures創始人Vinod Khosla在聲明里說："我們需要像Sarvam這樣的公司，為印度、在印度構建AI的深度能力。"

讓他們下這么快決定的，是兩個創始人的簡歷放在一起之后產生的化學反應。

Pratyush Kumar，IIT Bombay本科，ETH Zurich博士，之后在IBM Research和Microsoft Research做研究員，再后來回到IIT Madras做教職。他在學術圈發表了89篇論文，但更重要的履歷是另一個身份：AI4Bharat聯合創始人。這是一個專注于印度語言AI的開源研究計劃，背后站著印度數字基礎設施的主要締造者Nandan Nilekani。

Vivek Raghavan，IIT Delhi本科，卡內基梅隆博士。畢業后在EDA行業做了整整二十年，做到Synopsys的副總裁級別。然后他做了一個不太符合職業邏輯的選擇：回印度，去UIDAI——那個負責Aadhaar身份證系統的政府機構——做生物識別基礎設施，一做就是十二年。Aadhaar今天覆蓋了超過十億印度人，是全球最大規模的數字身份系統之一。Raghavan是這套系統底層技術的參與建設者。

兩個人在AI4Bharat相遇，2023年8月一起創辦了Sarvam。

他們看到的機會，和ChatGPT在2022年11月出現有直接關系。不是因為要復制ChatGPT，而是因為ChatGPT的出現讓一件事變得顯而易見：語言模型正在成為新的基礎設施，而這套基礎設施如果只懂英語，對一個有二十二種官方語言、大多數人口不以英語為母語的國家來說，意味著一種結構性的排斥。Raghavan在融資公告里說了一句話："我親眼見證過在基礎層創新、并在人口規模上部署的巨大價值。"他指的不是抽象的愿景，而是Aadhaar。

這就是VC在不到一周內決定投資的原因：這不是兩個在硅谷學了幾年深度學習就回來創業的人，而是兩個真正在印度數字基礎設施最深處工作過的人，在AI范式切換的時間節點上，做了一個在他們背景下極為自然的選擇。

融資公告發出之后，Sarvam承諾的事情很簡單：造一個印度自己的AI。

但"印度自己的"這幾個字，比他們預想的要難兌現得多。

二、第一個滑坡

拿到錢之后，Sarvam的第一步走得相當穩。

2024年2月，微軟CEO納德拉訪印主持AI Tour，宣布將與Sarvam合作開發印度語音AI工具，并將Sarvam的印度語音大模型上線Azure。2024年6月，世界經濟論壇把Sarvam列入Technology Pioneers 2024名單——全球100家，印度10家，Sarvam在列。2024年10月，公司發布了第一個公開模型Sarvam-1：20億參數，支持10種印度語言，在部分印度語言任務上的表現超過了規模更大的全球模型。

媒體的描述越來越順滑：印度AI的國家隊、主權模型的希望、下一個DeepSeek。

但有一件事，在這段時間里悄悄積累了壓力。

2025年4月26日，印度政府在67家申請機構中選中Sarvam，承接IndiaAI Mission的主權大模型項目。這是一筆條件特殊的交易：政府提供算力——4096塊NVIDIA H100，使用期六個月，托管在Yotta數據中心——換取Sarvam的股權。算力的總賬單是2.47億盧比，政府補貼其中的9868萬盧比，剩余部分由Sarvam承擔。

合同的核心要求只有一條：模型必須從零訓練，完成后開源。

這是Sarvam第一次真正拿到足以訓練主權模型的算力。

按理說，接下來的動作應該是埋頭去做那件一直承諾的事。

但2025年5月23日，Sarvam發布了Sarvam-M。

Sarvam-M是一個240億參數的混合模型，支持10種印度語言，針對數學和代碼任務做了強化訓練。發布公告里列了一串基準測試數字，措辭是它在"多項指標上與全球領先模型相當"。

問題不在于這些數字是否屬實。問題在于模型的底座：Sarvam-M建立在法國公司Mistral的開源模型Mistral Small之上。Sarvam的工程師在這個基礎上用印度語言數據做了大規模的后訓練。這是一種在資源受限條件下相當務實的選擇，業界也有不少成功先例。

但它不是從零訓練的主權模型。

名字里的"M"，代表Mistral。這不是外界的解讀，而是媒體報道中普遍流傳的說法，Sarvam沒有公開否認。一家宣稱要造"印度自己的AI"、剛剛拿到政府主權模型合同的公司，交出的第一個成果，用的是法國人的底座。

邏輯上可以解釋：政府的H100算力4月底才到位，Sarvam-M的開發應該在此之前已經進行了相當長時間；發布Sarvam-M，是為了給開發者提供一個可用的工具，同時為從零訓練積累數據管道和后訓練經驗；這是一個過渡性產品，不是最終答案。

這些解釋都站得住腳。但對于外部觀察者來說，一個從零訓練的承諾，和一個建立在Mistral底座上的發布，之間的距離是真實存在的。

而在接下來的二十四小時里，這個距離被放大到了所有人都看得見的程度。

三、23個下載量

2025年5月24日，Sarvam-M上線兩天后，Menlo Ventures投資人Deedy Das在X上發了一條帖子。

內容不長，但足夠精準：印度最大的AI創業公司，估值十億美元的Sarvam，剛剛發布了它的旗艦大模型。上線兩天，Hugging Face下載量：23次。作為對比，他附上了另一組數字——兩名韓國大學生做的開源模型Dia，上個月的下載量：約20萬次。

最后一個詞：「丟人」。

這條帖子的轉發量在幾小時內突破了印度科技圈的日常閾值。不是因為它特別刻薄——它確實刻薄——而是因為它把一個讓很多人隱隱不安的問題用數字說出來了：印度的AI，到底在哪里？

批評很快分成了幾個方向。

技術路線的質疑最直接：基于Mistral微調，在IndicLLM基準上的得分僅比原始Llama高出0.02，這是Sarvam值得驕傲的成績嗎？有開發者在X上貼出了對比數據——Sarvam-M 0.49，Llama原版 0.47，Gemma 0.48——然后問：這是"可感知的提升"嗎？

生態批評則更結構性。有投資人指出，印度沒有了Koo這樣的本土社交平臺，Sarvam-M缺乏一個天然的早期用戶反饋場，下載量低不只是模型的問題，是整個生態的問題。也有人算了另一筆賬：印度H100極度稀缺，出口管制壓力持續存在，在這種資源約束下，Sarvam能交出一個可用的24B印度語言模型，本身就不是一件容易的事——用Hugging Face幾小時的統計數據來定性一個項目，是在刻意誤讀。

支持的聲音里最有分量的，來自Zoho聯合創始人Sridhar Vembu。他在X上寫道："我們做過的每一個產品，沒有一個一開始就是爆款。"

但外界爭議如何，Sarvam的公關部門選擇了沉默。

真正開口的，是Pratyush Kumar本人。

他在X上轉發了批評帖子，寫了一句話：「很高興收到大家對Sarvam-M的反饋，請繼續。等我們開始訓練主權模型的時候，這些都會用上。」

這句話值得細讀。

他沒有辯解Sarvam-M的技術選擇，沒有解釋為什么用了Mistral底座，沒有反駁下載量數字，也沒有指責批評者不懂印度的資源限制。他做的事情是：把一次公開羞辱，原地轉化成了一個公開宣言。"等我們開始訓練主權模型的時候"——不是"如果"，是"等"。不是"我們將來考慮從零開始"，是"我們正在開始"。

這句話發出的時間是2025年5月25日，距離Sarvam-M發布過去了四十八小時。

此后的幾天里，Sarvam-M的Hugging Face下載量從23個反彈到334個，然后繼續緩慢爬升。不是什么了不起的數字，但至少證明最初的統計確實是因為Hugging Face數據延遲造成的偏差，而不是真實的用戶冷漠。

但數字的反彈并不是這個插曲真正的結局。

真正的結局，發生在八個月之后。屆時，曾經在X上寫下「丟人」的那個人，會主動發文說："I was wrong."

但那是后話。

2025年5月，Sarvam需要面對的現實是：政府的4096塊H100已經就位，承諾從零訓練的合同已經簽署，外界的嘲諷已經變成了歷史記錄。接下來沒有別的路，只有一條。

四、4096塊GPU，重新開始

4096塊NVIDIA H100，六個月使用期，托管在孟買郊外的Yotta數據中心。總賬單2.47億盧比，政府補貼其中的9868萬盧比。作為交換，Sarvam讓出了一部分股權，訓練完成的模型必須開源。

這是印度政府在IndiaAI Mission框架下簽下的第一批主權模型合同之一。67家機構參與申請，最終四家入選：Sarvam、Gnani.ai、Gan.ai和Soket AI Labs。Sarvam拿到的算力分配是四家中最大的一塊。

從外部看，這是一筆對Sarvam極為有利的交易：政府出錢補貼算力，Sarvam用政府的GPU訓練模型，訓練完開源，政府拿一點股權。性價比高得有些不真實。

但這筆交易的另一面，是一個約束。

開源意味著Sarvam不能把這個模型變成護城河。股權意味著政府成了Sarvam的股東，這個身份在任何國家都意味著某種隱性的期待和潛在的干預空間。算力是政府補貼的，但賬單的剩余部分——超過1.5億盧比——要Sarvam自己承擔。對一家年收入只有2910萬盧比的公司來說，這個數字意味著巨大的財務壓力。

更深的約束是時間。六個月，4096塊H100，目標是一個從零開始、在全球基準測試上有競爭力、同時精通印度語言的大模型。

在全球AI軍備競賽的背景下，這是一個聽起來有些冒險的賭注。2025年初，OpenAI的融資總額已經超過180億美元。DeepSeek用相對有限的資源訓練出了震驚業界的R1，但它背后是中國成熟的AI基礎設施生態。Sarvam的114名員工，要在一個GPU基礎設施還不完善、訓練數據需要自己從頭整理的國家，完成這件事。

他們的回答，是從基礎設施開始做起。

Sarvam的工程師首先重新設計了tokenizer——這是大模型處理文字的最底層組件。現有的主流tokenizer對印度文字效率極低，處理梵文、泰米爾文、孟加拉文這類非拉丁字母體系時，需要消耗比英文多出數倍的token。Sarvam重新訓練的tokenizer，對印度文字的處理效率提升了三到四倍。這一步沒有任何可見度，不會出現在發布會的PPT上，但它決定了后續所有訓練的成本和效率。

數據管道是另一個自建的基礎設施。Sarvam在內部搭建了一套評估數據質量的工具，從頭整理訓練語料。最終用于預訓練的數據量，30B模型約為16萬億token。這些數據的收集、清洗、標注，全部在印度國內完成。

強化學習基礎設施也是自研的。這個環節決定了模型在推理任務上的最終表現，也是DeepSeek-R1讓業界重新注意到的核心技術路線。Sarvam選擇了同樣的方向，并把整套訓練流程完整地跑了一遍。

2025年下半年，Sarvam幾乎沒有對外發聲。

公司賬面上的年收入是2910萬盧比，折合約350萬美元。這是一個健康的早期創業公司收入，但在大模型訓練的語境下，這個數字說明Sarvam幾乎沒有任何財務緩沖。他們在用一家小公司的資源，做一件通常需要十倍體量才敢啟動的事情。

對外沉默的背后，是一支114人的團隊在訓練一個他們自己也不確定能否成功的模型。

五、14天，14次發布

2026年2月1日，Sarvam開始了一場密集的公開攻勢。

策略是刻意設計的：在India AI Impact Summit召開前的兩周，每天發布一個新產品或新功能，連續十四天不間斷。語音識別模型Saaras V3、文字轉語音模型Bulbul V3、文檔數字化工具Sarvam Akshar、多語言內容創作平臺Sarvam Studio……一個接一個，節奏像節拍器一樣準確。

這個策略有一個明顯的參照對象：OpenAI在2024年末的"12 Days of OpenAI"發布攻勢。Sarvam把它改成了14天，因為峰會日期決定了窗口長度，但邏輯是一樣的——用密集的發布節奏制造輿論動能，讓媒體和開發者在峰會開幕之前就持續關注這家公司。

在峰會開幕前的密集發布期間，有一件事悄悄發生了。2月7日，Sarvam發布Bulbul V3語音合成模型當天，Deedy Das——那個在2025年5月寫下「丟人」的人——主動在X上發了一篇帖子，開頭三個字："I was wrong."他說，他一年前認為訓練小型Indic語言模型的方向是錯的。"但他們做到了轉變。他們有Indic語言最好的語音合成、語音識別和文字識別模型，這是真正有價值的東西。"從「丟人」到"I was wrong"，八個月，觸發轉變的不是大模型，而是一個語音產品。

2月16日，峰會開幕展覽日。

印度Modi總理在Bharat Mandapam的展覽區走了一圈。他在Sarvam的展臺前停下來，試戴了一副黑色眼鏡。這副眼鏡叫Sarvam Kaze，是Sarvam研發的AI智能眼鏡原型，支持十種以上印度語言的實時語音交互，Pratyush Kumar在X上發了一張Modi戴著眼鏡的照片，配文只有一句：「第一個試戴的人？總理。」

這張照片的傳播速度，超過了Sarvam過去兩年所有發布的總和。

2月18日，Research Symposium，Sarvam正式發布Sarvam-30B和Sarvam-105B。

兩個模型，都從零訓練。30B模型預訓練用了約16萬億token，支持32000 token的上下文窗口，MoE架構下每次推理只激活約10億參數，推理成本大幅壓縮。105B模型支持128000 token的超長上下文，在AIME 25數學競賽基準上得分88.3，使用工具后達到96.7；MMLU得分90.6；Math500得分98.6。

Pratyush Kumar在臺上說，105B在多項推理基準上超過了DeepSeek-R1——而DeepSeek-R1的總參數量是6000億，是Sarvam-105B的近六倍。

批評在幾小時內又來了。

有人在X上翻出了Sarvam-105B的架構配置文件，指其為"DeepSeek的山寨縮水版"。有帖子把配置文件扔進ChatGPT，得到的描述是"Mini DeepSeek-V2風格模型"。這個截圖被廣泛轉發。對于剛剛經歷過Sarvam-M事件的人來說，這個指控聽起來似曾相識——上次是法國人的底座，這次是中國人的架構。

Pratyush Kumar的回應比上次更直接。他在X上寫道，團隊欣賞DeepSeek的研究，也從中學習，但Sarvam-105B是用更小的規模做到了這些結果。一名Sarvam工程師補充：公司所有模型都是從零訓練的基礎模型，沒有例外。

這場爭議的實質，是一個在AI領域反復出現的認知誤區：架構和模型是兩件不同的事。架構是藍圖，是發表在學術論文里供所有人使用的設計方案；模型是訓練的產物，是數據、算力和工程決策共同生成的結果。

Sarvam借鑒了DeepSeek在Multi-head Latent Attention和Mixture of Experts上的架構設計，正如DeepSeek借鑒了Transformer，正如Transformer借鑒了注意力機制的早期論文。這是這個領域一直以來的運作方式。

2月20日，Sarvam發布了面向普通用戶的對話產品Indus，登陸App Store和Google Play。這是Sarvam第一次走出開發者和企業市場，直接面對消費者。

峰會結束了。距離3月6日開源，還有兩周。

尾聲

2026年3月6日，Sarvam把模型權重傳到了Hugging Face。

沒有發布會，沒有倒計時直播。文件名sarvamai/sarvam-30b和sarvamai/sarvam-105b，Apache 2.0協議，商業使用不設障礙。同一天，模型也上傳到了印度政府的AIKosh平臺。

Pratyush Kumar在X上寫了一段話：「開源Sarvam 30B和105B。從零訓練，所有數據、模型研究和推理優化全部在內部完成。這些模型在大多數全球基準測試上表現突出，同時在印度語言上表現卓越。」

這句話里有一個詞值得停下來看一眼："all done in-house"，全部在內部完成。不是Mistral的底座，不是借來的架構實現，是一支114人的團隊，在一個GPU基礎設施直到最近才勉強夠用的國家，自己搭建tokenizer、自己整理數據管道、自己寫強化學習基礎設施，從頭到尾跑完了一遍。

從2023年12月那場18人公司的融資發布會，到這兩個文件掛上Hugging Face，中間過去了二十七個月。

這二十七個月里發生的事情，放在任何一個敘事框架里都可以講得通：可以是一家公司如何在公開羞辱中找回初心，可以是印度國家意志如何通過一紙算力合同把一家創業公司綁上主權敘事的戰車，也可以是兩個深度參與印度數字基礎設施的人，在AI范式切換的時間節點上，做了一次代價高昂但方向正確的押注。

這些敘事都是真的，也都是不完整的。

Sarvam現在面對的問題，比兩年前更難回答：開源之后呢？當模型權重免費可得，公司的商業護城河在哪里？當全球大模型開始認真處理印度語言，Sarvam的差異化還能維持多久？政府成為股東之后，商業利益和公共利益之間的張力，遲早會在某一個具體決策上顯現出來。

這些問題，2026年3月6日那天沒有答案。

但那兩個文件已經在網上了。任何人都可以下載，任何人都可以修改，任何人都可以拿去用。

這是Sarvam最初承諾的那件事。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.