網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

抱團(tuán)搞營(yíng)銷、搞模型純刷榜？全被這個(gè)賺到10億美金的AI創(chuàng)業(yè)者狂噴了

2025-12-13 20:13:45　來(lái)源: 四木相對(duì)論

北京舉報(bào)

分享至

在硅谷的 AI 淘金熱中，Surge AI 是一個(gè)特殊的“異類”。

這家成立四年的數(shù)據(jù)服務(wù)公司，很久都沒(méi)拿投資人一分錢，也沒(méi)做過(guò)大量營(yíng)銷。它靠著六七十人的團(tuán)隊(duì)服務(wù) OpenAI、Anthropic 等頂尖 AI 企業(yè)，并在 2024 年收入超過(guò) 10 億美元。

*Surge AI 的業(yè)務(wù)包括標(biāo)注和RL環(huán)境構(gòu)建等。它對(duì)數(shù)據(jù)標(biāo)注專家的要求非常高，有時(shí)會(huì)招募創(chuàng)業(yè)公司CEO、風(fēng)險(xiǎn)投資合伙人標(biāo)注，時(shí)薪報(bào)酬達(dá)500-1000美金。

因?yàn)檫h(yuǎn)離 VC 圈，很多人覺(jué)得這家 AI 公司就像憑空出現(xiàn)在 10 億美金營(yíng)收這一梯隊(duì)。但或許由于競(jìng)爭(zhēng)愈發(fā)激烈，有消息稱 Surge 正在進(jìn)行一輪高達(dá) 10 億美元的融資，估值或超 250 億。

雖然這家公司是否會(huì)接受資本洗禮尚未可知，但它的 CEO Edwin Chen 在最新訪談中，火力全開地批判了硅谷創(chuàng)業(yè)的炒作現(xiàn)狀，還把 AI 領(lǐng)域自己看不慣的“風(fēng)氣”噴了個(gè)遍。

他的部分"金句"如下：

AI 時(shí)代會(huì)出現(xiàn)效率更瘋狂的公司。之前在大公司工作時(shí)，我就覺(jué)得公司裁掉 90% 的人還會(huì)發(fā)展得更快，因?yàn)樽顑?yōu)秀的人不會(huì)受到更多干擾。

更少的員工意味著需要更少的資本，不需要融資的公司也將更高頻地出現(xiàn)。所以在那些擅長(zhǎng)推銷和炒作的創(chuàng)始人之外，人們會(huì)看到那些在技術(shù)和產(chǎn)品方面真正出色的創(chuàng)始人。

因?yàn)槲覀?strong>不玩硅谷那套融資—PR曝光—繼續(xù)融資的套路，這逼著 Surge 只能打磨自己的產(chǎn)品。這樣做的最大好處是，Surge的客戶是那些真正理解數(shù)據(jù)并真正關(guān)心數(shù)據(jù)質(zhì)量的人。這些懂行的客戶給了 Surge 反饋，優(yōu)化產(chǎn)品。

硅谷現(xiàn)在的創(chuàng)業(yè)劇本是：每?jī)芍苻D(zhuǎn)型一次尋找產(chǎn)品市場(chǎng)契合度，追逐增長(zhǎng)、追逐參與度，使用各種“黑暗手段”瘋狂招聘進(jìn)行閃電式擴(kuò)張。但我一直反對(duì)這些。
我的建議是：不要隨意轉(zhuǎn)型，不要盲目擴(kuò)張，不要只為了簡(jiǎn)歷好看就雇傭斯坦福畢業(yè)生。要建立那個(gè)只有你能做的東西，那個(gè)離了你的獨(dú)特洞察和專業(yè)知識(shí)就不復(fù)存在的東西。

關(guān)于模型。現(xiàn)在很多模型都在刷基準(zhǔn)測(cè)試，或者在大模型競(jìng)技場(chǎng)刷分。但大模型競(jìng)技場(chǎng)由路人票選，所以一個(gè)模型甚至可以胡說(shuō)八道甚至產(chǎn)生幻覺(jué)，只要用了瘋狂的表情符號(hào)、加粗字體、Markdown 標(biāo)題這些膚淺的裝飾，就能抓住用戶的注意力，取得好名次。

為提升用戶參與度，AI 公司用了很多套路。比如 ChatGPT 那些令人作嘔的阿諛?lè)畛?/strong>——哦，你是絕對(duì)正確的，多么棒的問(wèn)題啊。吸引用戶最簡(jiǎn)單的方法，就是不斷吹捧他們。

所以，現(xiàn)在人們?cè)诮棠Ｐ腿プ分稹岸喟桶贰保皇亲非蟆罢胬怼薄＿@是一種扭曲的激勵(lì)，甚至現(xiàn)在得分最高的模型往往是最差的，或者根本上是失敗的。

總之，Edwin Chen 認(rèn)為現(xiàn)在的 AI 和創(chuàng)業(yè)，至少在某種程度上走入歧途。

以下是經(jīng)整理的訪談全文：

VC媒體創(chuàng)業(yè)者抱團(tuán)炒作，AI和創(chuàng)業(yè)走入歧途

Lenny：今天的嘉賓是 Edwin Chen，Surge AI 的創(chuàng)始人兼 CEO。他們是領(lǐng)先的 AI 數(shù)據(jù)公司，為每一個(gè)前沿 AI 實(shí)驗(yàn)室的訓(xùn)練提供動(dòng)力。

他們也是有史以來(lái)最快達(dá)到 10 億美元營(yíng)收的公司，從未籌集過(guò)一美元的風(fēng)險(xiǎn)投資，在成立四年內(nèi)用不到 100 人就做到了這個(gè)收入，而且從第一天起就是盈利的。

Edwin，你們團(tuán)隊(duì)不大，能獨(dú)立取得這樣的營(yíng)收非常了不起。你們證明因?yàn)锳I，極小的團(tuán)隊(duì)也能創(chuàng)造大財(cái)富。我很好奇，你認(rèn)為這種情況會(huì)越來(lái)越多地發(fā)生嗎？

Edwin：是的，我們?nèi)ツ暌圆坏?100 人的規(guī)模實(shí)現(xiàn)了超過(guò) 10 億美元的營(yíng)收。而且我認(rèn)為還會(huì)看到比我們效率更瘋狂的公司。比如未來(lái)幾年內(nèi)出現(xiàn)人均營(yíng)收 1 億美元的公司。AI 只會(huì)變得越來(lái)越好，讓事情更有效率。

我以前在很多大型科技公司工作過(guò)，我總是覺(jué)得可以裁掉 90% 的人，還會(huì)發(fā)展得更快，因?yàn)樽顑?yōu)秀的人就不會(huì)有那么多干擾。所以當(dāng)我們創(chuàng)辦 Surge 時(shí)，就想用完全不同的方式來(lái)建立它，用一個(gè)超級(jí)小、超級(jí)精英的團(tuán)隊(duì)。很瘋狂的是，我們竟然成功了。

所以我認(rèn)為有兩件事正在發(fā)生碰撞。第一，人們開始意識(shí)到不需要建立龐大的組織也能贏。第二，確實(shí)是 AI 帶來(lái)了這些效率提升。

讓我興奮的是公司的類型也將發(fā)生變化。不僅僅是規(guī)模變小，我們還將看到根本不同公司出現(xiàn)。你想一想，更少的員工意味著需要更少的資本。更少的資本意味著你不需要融資。

所以，在那些擅長(zhǎng)推銷和炒作的創(chuàng)始人之外，你還會(huì)看到那些在技術(shù)和產(chǎn)品方面真正出色的創(chuàng)始人。

在那些為營(yíng)收和風(fēng)險(xiǎn) VC 想看的東西而優(yōu)化產(chǎn)品之外，你也會(huì)看到由這些小的團(tuán)隊(duì)構(gòu)建的更有趣的產(chǎn)品。人們?cè)跇?gòu)建他們真正關(guān)心的東西，實(shí)現(xiàn)真正的創(chuàng)新。

所以我實(shí)際上真的非常希望硅谷的創(chuàng)業(yè)圈能再次成為黑客（Hackers）的樂(lè)園。

Lenny：你們以一種非常反傳統(tǒng)的方式做了很多事情。其中之一就是不在 LinkedIn 上發(fā)那些病毒式的帖子，不在 Twitter 上不斷推銷 Surge。我想大多數(shù)人在最近之前甚至都沒(méi)聽(tīng)說(shuō)過(guò) Surge，然后你們突然冒出來(lái)。

Edwin：我從來(lái)不想玩硅谷那套游戲。我一直覺(jué)得那很荒謬。

你小時(shí)候的夢(mèng)想是什么？是從零開始建立一家公司，每天沉浸在代碼和產(chǎn)品中？還是向 VC 解釋你的所有決定，然后陷入這個(gè)巨大的公關(guān)和融資的循環(huán)當(dāng)中？

這確實(shí)讓事情變得更困難了，因?yàn)楫?dāng)你融資時(shí)，你自然而然地成為這個(gè)硅谷工業(yè)綜合體的一部分，VC 會(huì)在推特上談?wù)撃悖銜?huì)上 TechCrunch 的頭條，你會(huì)因?yàn)樵谶@個(gè)巨大的估值下融資被所有報(bào)紙報(bào)道。

不走這個(gè)套路，也會(huì)讓事情變得更難，因?yàn)槲覀円氤晒Φ奈ㄒ煌緩骄褪墙⒁粋€(gè)好十倍的產(chǎn)品，依靠研究人員的口碑。但我認(rèn)為這也意味著我們的客戶是那些真正理解數(shù)據(jù)并真正關(guān)心數(shù)據(jù)的人。

早期客戶與我們的理念高度一致非常重要，他們是真正關(guān)心高質(zhì)量的數(shù)據(jù)，真正理解這些數(shù)據(jù)如何讓他們的 AI 模型變得更好的人。是他們?cè)趲椭覀儯o我們反饋，所以彼此的關(guān)系非常緊密。這些人購(gòu)買我們的產(chǎn)品，是因?yàn)樗麄冎浪卸嗝床煌軒椭麄儯皇且驗(yàn)樗麄冊(cè)?TechCrunch 的頭條上看到了我們的產(chǎn)品。

Lenny：你們的創(chuàng)業(yè)故事非常了不起。不過(guò)對(duì)于那些不知道 Surge 是做什么的人，Edwin，你會(huì)怎么快速解釋自己？

Edwin：Surge 本質(zhì)上是一家數(shù)據(jù)公司，在教 AI 模型什么是好的，什么是壞的，我們使用人類數(shù)據(jù)來(lái)訓(xùn)練它們，有很多不同的產(chǎn)品，比如 SFT、RLHF評(píng)分、RL 環(huán)境等等。我們也衡量大模型的進(jìn)步程度。

*Surge AI 的產(chǎn)品

Lenny：你一直強(qiáng)調(diào)數(shù)據(jù)的質(zhì)量。那么，創(chuàng)造更高質(zhì)量的數(shù)據(jù)到底需要什么？你們的做法有什么不同？
Edwin：我認(rèn)為這個(gè)領(lǐng)域的大多數(shù)人根本沒(méi)懂什么是“質(zhì)量”。他們以為只要靠“人海戰(zhàn)術(shù)”就能堆出好數(shù)據(jù)，這完全是大錯(cuò)特錯(cuò)。
舉個(gè)例子。假設(shè)你要訓(xùn)練模型寫一首關(guān)于月亮的八行詩(shī)。什么是“高質(zhì)量”？如果思考得不夠深，標(biāo)準(zhǔn)可能僅僅是：它是詩(shī)嗎？有八行嗎？包含“月亮”這個(gè)詞嗎？只要滿足這些硬性指標(biāo)，就打鉤通過(guò)，認(rèn)為這是好詩(shī)。
但這絕不是我們想要的。我們追求的是諾貝爾獎(jiǎng)級(jí)別的作品。它獨(dú)特嗎？意象是否微妙？是否能讓你驚嘆并觸動(dòng)心弦？能否讓人領(lǐng)悟月光的本質(zhì)？能否引發(fā)情感共鳴和深思？
這才是我們眼中的高質(zhì)量。它可能是一首描繪水上月光的俳句，講究?jī)?nèi)部押韻和格律。描寫月亮有一千種方式，每一種都應(yīng)提供關(guān)于語(yǔ)言、意象和人類表達(dá)的獨(dú)特見(jiàn)解。
定義這種“質(zhì)量”很難，衡量它更難。它是主觀、復(fù)雜且豐富的，門檻極高。因此，我們需要構(gòu)建全套技術(shù)來(lái)量化它。我們會(huì)從每位數(shù)據(jù)標(biāo)注專家、每個(gè)項(xiàng)目、每項(xiàng)任務(wù)中收集成千上萬(wàn)個(gè)信號(hào)。
比如，我們能區(qū)分誰(shuí)更擅長(zhǎng)寫詩(shī)、散文還是技術(shù)文檔。我們不僅收集背景和專長(zhǎng)，還追蹤實(shí)際寫作中的表現(xiàn)。利用這些信號(hào)，我們能判斷這個(gè)人是否適合特定項(xiàng)目，以及他們的工作是否真正提升了模型表現(xiàn)。
Lenny：很有意思。聽(tīng)起來(lái)你們?cè)谔囟ù怪鳖I(lǐng)域?qū)Α百|(zhì)量”有著更深刻的理解。這是否意味著你們的機(jī)制是：雇傭在詩(shī)歌等方面極具天賦的人，再輔以他們編寫的評(píng)估標(biāo)準(zhǔn)？
Edwin：我們的運(yùn)作機(jī)制是這樣的：我們收集標(biāo)注專家們?cè)谄脚_(tái)上所有操作的成千上萬(wàn)個(gè)信號(hào)——從擊鍵特征到答題速度。我們結(jié)合評(píng)論、黃金標(biāo)準(zhǔn)（Golden Standard），并訓(xùn)練自己的模型來(lái)評(píng)估輸出，看他是否提升了最終模型的性能。
我們要找的不是只會(huì)寫高中水平詩(shī)歌的人，也不是機(jī)械地勾選要求、遵循指令的人，而是那些能寫出真正打動(dòng)人心作品的人。

* Surge AI 的專家網(wǎng)絡(luò)

Lenny：難怪你們發(fā)展這么快，這個(gè)領(lǐng)域的市場(chǎng)空間太大，Anthropic 僅僅通過(guò)更好的數(shù)據(jù)就取得了巨大的勝利。AI 雖然看似是二進(jìn)制的計(jì)算機(jī)產(chǎn)物，但“品味”和人類的判斷力依然是成功的關(guān)鍵因素。
Edwin：完全正確。回到剛才的例子，如果你問(wèn)某些公司什么是好詩(shī)，他們只會(huì)機(jī)械地核對(duì)指令清單。但在我看來(lái)，那不叫好詩(shī)。那些更有品味和修養(yǎng)的前沿實(shí)驗(yàn)室意識(shí)到，質(zhì)量不能簡(jiǎn)化為僵硬的復(fù)選框，他們會(huì)考量那些隱含的、微妙的特質(zhì)，這正是他們脫穎而出的原因。
Lenny：你提到了Benchmarks。這是很多人擔(dān)心的問(wèn)題，感覺(jué)現(xiàn)在每個(gè)模型在所有 STEM 領(lǐng)域都超越了人類，但普通用戶并不覺(jué)得它們變聰明了。你怎么看基準(zhǔn)測(cè)試的可信度？它們與 AI 的實(shí)際進(jìn)步有多大相關(guān)性？
Edwin：我完全不信基準(zhǔn)測(cè)試，原因有二。
第一，很多人甚至包括社區(qū)內(nèi)的研究人員，沒(méi)意識(shí)到基準(zhǔn)測(cè)試本身往往就有問(wèn)題。它們可能包含錯(cuò)誤答案，或者充斥著混亂的數(shù)據(jù)。雖然大家對(duì)熱門榜單有所警惕，但絕大多數(shù)基準(zhǔn)測(cè)試的缺陷都被忽視了。
第二，基準(zhǔn)測(cè)試通常有明確的客觀答案，這讓模型很容易針對(duì)性地刷分。但這與現(xiàn)實(shí)世界的混亂和模糊性截然不同。
這就好比模型能拿國(guó)際數(shù)學(xué)奧林匹克金牌，卻解析不好一個(gè) PDF 文件。雖然 IMO 金牌對(duì)人類很難，但它具有客觀標(biāo)準(zhǔn)，而解析 PDF 往往涉及模糊性。
對(duì)于前沿實(shí)驗(yàn)室來(lái)說(shuō)，在客觀標(biāo)準(zhǔn)上“刷分”比解決現(xiàn)實(shí)中混亂、模糊的問(wèn)題要容易得多。所以，我認(rèn)為基準(zhǔn)測(cè)試分?jǐn)?shù)與實(shí)際體驗(yàn)之間缺乏直接的相關(guān)性。
Lenny：你把“達(dá)到基準(zhǔn)測(cè)試分?jǐn)?shù)”描述成一種營(yíng)銷手段，這很有趣。推出 Gemini 3 時(shí)，就像是在說(shuō)：“酷，我們?cè)谒谢鶞?zhǔn)測(cè)試上都是第一名。” 事實(shí)真的是這樣嗎？他們只是在訓(xùn)練模型去擅長(zhǎng)這些特定的考試嗎？
Edwin：是的，原因通常有兩方面。
一方面，確實(shí)存在“作弊”嫌疑。有時(shí)是基準(zhǔn)測(cè)試的數(shù)據(jù)意外泄露進(jìn)了訓(xùn)練集，或者前沿實(shí)驗(yàn)室會(huì)專門調(diào)整評(píng)估方式，比如微調(diào)Prompt，或者多次運(yùn)行模型取最佳值，以此來(lái)利用規(guī)則漏洞。
另一方面，當(dāng)你針對(duì)基準(zhǔn)測(cè)試而非現(xiàn)實(shí)世界進(jìn)行優(yōu)化時(shí)，你自然而然地就在這些測(cè)試上“刷分”了。這本質(zhì)上就是另一種形式的游戲。
Lenny：既然如此，我們?cè)撊绾闻袛嘧约菏欠裾嬖谙?AGI邁進(jìn)？你如何衡量真正的進(jìn)步？
Edwin：我們真正看重的是“人類評(píng)估”。我們會(huì)讓真人去和模型對(duì)話。
舉個(gè)例子，如果你是一位諾貝爾物理學(xué)獎(jiǎng)得主，你會(huì)和模型探討你研究領(lǐng)域的最前沿話題；如果你是一位老師，你會(huì)嘗試用模型制定教案；如果你是大廠程序員，你會(huì)用它解決日常代碼問(wèn)題。我們看重的是它能在多大程度上真正幫助用戶。
我們的標(biāo)注專家（Surgers）都是各自領(lǐng)域的頂尖人才。他們不僅僅給回應(yīng)，還會(huì)深入地審查內(nèi)容。他們會(huì)評(píng)估代碼是否運(yùn)行，反復(fù)核查物理方程。他們關(guān)注的是準(zhǔn)確性、指令遵循能力，以及那些普通用戶在簡(jiǎn)單的“二選一”彈窗中注意不到的細(xì)節(jié)。
普通用戶可能只會(huì)憑感覺(jué)選一個(gè)看起來(lái)更“炫酷”的回答，但我們的專家會(huì)從多個(gè)維度進(jìn)行深度評(píng)估。我認(rèn)為這比那些基準(zhǔn)測(cè)試或隨機(jī)的在線 A/B 測(cè)試要靠譜得多。
Lenny：我很喜歡這種“人類始終處于核心地位”的感覺(jué)。
Edwin：是的。根據(jù)定義，只要我們還沒(méi)達(dá)到 AGI，模型就還有東西需要向人類學(xué)習(xí)。所以我認(rèn)為那個(gè)“不需要人類”的時(shí)刻不會(huì)很快到來(lái)。
Lenny：你有一個(gè)很犀利的觀點(diǎn)：你認(rèn)為很多實(shí)驗(yàn)室正把 AGI 推向錯(cuò)誤的方向。這基于你在 Twitter、Google 和 Facebook 的工作經(jīng)歷，能展開談?wù)剢幔?/p>
Edwin：我擔(dān)心的是，我們本該建立能真正推動(dòng)人類進(jìn)步的 AI，比如治愈癌癥、解決貧困、理解宇宙，但我們現(xiàn)在卻在優(yōu)化“AI 垃圾”。我們基本上是在教模型去追逐“多巴胺”，而不是追求“真理”。
這與我們剛才討論的基準(zhǔn)測(cè)試有關(guān)。舉幾個(gè)例子：
現(xiàn)在的行業(yè)正被一些糟糕的排行榜左右，比如 LM Arena（大模型競(jìng)技場(chǎng)）。這是一個(gè)流行的在線榜單，由世界各地的路人投票選出哪個(gè) AI 回答更好。但問(wèn)題在于，這些用戶不會(huì)仔細(xì)閱讀或核查事實(shí)。他們只瀏覽兩秒鐘，然后選那個(gè)看起來(lái)最“炫酷”的。
所以，一個(gè)模型可以完全在胡說(shuō)八道，甚至產(chǎn)生幻覺(jué)，但只要它用了瘋狂的表情符號(hào)、加粗字體、Markdown 標(biāo)題這些膚淺的裝飾，它看起來(lái)就很厲害，能以此抓住你的注意力。
LM Arena 的用戶吃這一套。這實(shí)際上是在迫使你優(yōu)化模型，去迎合那些愛(ài)看“八卦小報(bào)”的人的口味。
我們?cè)谧约旱臄?shù)據(jù)中也證實(shí)了這一點(diǎn)：在 LM Arena 上“刷分”的最簡(jiǎn)單方法就是濫用加粗字體、把表情符號(hào)數(shù)量翻倍、把回復(fù)長(zhǎng)度拉長(zhǎng)兩倍——哪怕模型在胡說(shuō)八道。
問(wèn)題在于，前沿實(shí)驗(yàn)室不得不關(guān)注這些公關(guān)指標(biāo)。當(dāng)銷售團(tuán)隊(duì)去談企業(yè)大單時(shí)，客戶會(huì)說(shuō)：“哦，可是你們?cè)?LM Arena 上只排第五，我為什么要買？”
這導(dǎo)致了一種扭曲的激勵(lì)。
研究人員告訴我們：“我今年想升職，唯一的途徑就是把榜單排名刷上去，哪怕我知道這會(huì)讓模型在準(zhǔn)確性和指令遵循上變差。”所以我認(rèn)為這些負(fù)面激勵(lì)正在把 AGI 引向歧途。
我也很擔(dān)心這種為了“參與度”（Engagement）而優(yōu)化 AI 的趨勢(shì)。我在社交媒體公司工作過(guò)，每次我們針對(duì)參與度進(jìn)行優(yōu)化，結(jié)果都很糟糕：信息流里充斥著點(diǎn)擊誘餌、比基尼照片、大腳怪傳聞和可怕的皮膚病圖片。
我擔(dān)心同樣的邏輯正在 AI 領(lǐng)域重演。想想 ChatGPT那些令人作嘔的阿諛?lè)畛邪伞芭叮憬^對(duì)是正確的，多么棒的問(wèn)題啊！”吸引用戶最簡(jiǎn)單的方法，就是不斷吹捧他們。

現(xiàn)在的模型不斷告訴你“你是個(gè)天才”，它們會(huì)迎合你的妄想，甚至順著你的陰謀論說(shuō)下去。它們會(huì)把你拉進(jìn)信息的“兔子洞”里，因?yàn)楣韫鹊倪壿嬀褪?strong>最大化用戶的停留時(shí)間，增加對(duì)話輪次。

所以，公司花費(fèi)大量時(shí)間來(lái)“黑”這些排行榜和基準(zhǔn)測(cè)試，分?jǐn)?shù)確實(shí)上去了，但這掩蓋了一個(gè)事實(shí)：得分最高的模型往往是最差的，甚至是根本上失敗的。我真的非常擔(dān)心，這些負(fù)面激勵(lì)正在將 AGI 推向完全錯(cuò)誤的方向。

Lenny：所以 AGI 的發(fā)展正在被這些實(shí)驗(yàn)室拖慢，因?yàn)樗麄冴P(guān)注了錯(cuò)誤的目標(biāo)函數(shù)、錯(cuò)誤的基準(zhǔn)測(cè)試和評(píng)估指標(biāo)。

Edwin：沒(méi)錯(cuò)，正是如此。

Lenny：我知道你可能不便偏袒誰(shuí)，畢竟你們和所有實(shí)驗(yàn)室都有合作。但有沒(méi)有哪家做得更好，或者可能意識(shí)到了這是錯(cuò)誤的方向？

Edwin：我必須說(shuō)，我對(duì) Anthropic 印象非常深刻。我覺(jué)得 Anthropic 采取了一種非常有原則的立場(chǎng)。關(guān)于他們關(guān)心什么、不關(guān)心什么，以及希望模型如何表現(xiàn)，他們的方式讓我感覺(jué)更有原則性。

Lenny：除了追逐基準(zhǔn)測(cè)試和過(guò)度關(guān)注參與度之外，你還看到實(shí)驗(yàn)室在犯哪些可能拖慢進(jìn)度或?qū)е路较蝈e(cuò)誤的大錯(cuò)誤嗎？

Edwin：我覺(jué)得確實(shí)存在一個(gè)問(wèn)題：他們究竟在構(gòu)建什么產(chǎn)品？這些產(chǎn)品本身是對(duì)人類有益還是有害？我經(jīng)常思考 Sora，以及它會(huì)帶來(lái)什么后果。

我們可以觀察哪些公司會(huì)開發(fā)像 Sora 這樣的產(chǎn)品，哪些不會(huì)。這也許揭示了這些公司到底想建立什么樣的 AI 模型，以及他們想要實(shí)現(xiàn)什么樣的未來(lái)。

Lenny：這里的“最強(qiáng)反駁”（Steel man argument）可能是：“嘿，這很有趣，人們喜歡它。它能產(chǎn)生收入來(lái)支持研發(fā)，建立更好的模型。而且它以一種有趣的方式訓(xùn)練數(shù)據(jù)，這也是有價(jià)值的……”

Edwin：是的，如果你完全不在乎路徑，只在乎結(jié)果，那確實(shí)可以這么說(shuō)。就像我之前那個(gè)小報(bào)的比喻：你會(huì)為了資助一家正經(jīng)報(bào)社而去賣八卦小報(bào)嗎？

當(dāng)然，如果你不在乎手段，只要能達(dá)成目標(biāo)就行。但如果在這個(gè)過(guò)程中產(chǎn)生了負(fù)面后果，損害了你想實(shí)現(xiàn)的長(zhǎng)期愿景，或者讓你從更重要的事情上分心，那就得不償失了。所以，我認(rèn)為你選擇的路徑同樣重要。

Lenny：你身處硅谷提到如果不走拿投資這條路，其實(shí)可能更容易建立偉大的公司。

Edwin：是的，我一直很討厭硅谷的很多陳詞濫調(diào)。

標(biāo)準(zhǔn)的劇本是：每?jī)芍苻D(zhuǎn)型（Pivot）一次尋找產(chǎn)品市場(chǎng)契合度；追逐增長(zhǎng)、追逐參與度，使用各種“黑暗模式”；通過(guò)瘋狂招聘來(lái)進(jìn)行閃電式擴(kuò)張。但我一直反對(duì)這些。

我的建議是：不要隨意轉(zhuǎn)型，不要盲目擴(kuò)張，不要只為了簡(jiǎn)歷好看就雇傭斯坦福畢業(yè)生。只去建立那個(gè)只有你能建立的東西，那個(gè)離了你的獨(dú)特洞察和專業(yè)知識(shí)就不復(fù)存在的東西。

你現(xiàn)在到處都能看到這種“照本宣科”的公司。有些創(chuàng)始人在 2020 年做加密貨幣，2022 年轉(zhuǎn)做 NFT，現(xiàn)在搖身一變又成了 AI 公司。這里沒(méi)有連貫性，沒(méi)有使命感，他們只是在追逐估值。

我一直很討厭這點(diǎn)。硅谷喜歡嘲笑華爾街只認(rèn)錢，但老實(shí)說(shuō)，大多數(shù)硅谷人也在追逐同樣的東西。

所以我們從第一天起就專注于我們的使命：推動(dòng)高質(zhì)量、復(fù)雜數(shù)據(jù)的前沿。

我一直對(duì)此很執(zhí)著，因?yàn)槲覍?duì)初創(chuàng)公司有一種浪漫的理想。創(chuàng)業(yè)應(yīng)該是關(guān)于承擔(dān)巨大風(fēng)險(xiǎn)去建立你真正相信的東西。如果你不斷轉(zhuǎn)型，你其實(shí)不是在承擔(dān)風(fēng)險(xiǎn)，你只是想賺快錢。

如果你因?yàn)槭袌?chǎng)還沒(méi)準(zhǔn)備好而失敗，我覺(jué)得這甚至更好。至少你嘗試了一些深刻、新穎和困難的事情，而不是淪為另一家“大模型套殼”公司。

硅谷現(xiàn)在業(yè)有很多人厭倦了這些投機(jī)取巧，他們想和真正在乎的人一起做真正重要的事情。

Lenny：我正在和 Terence Rohan（一位我很喜歡的 VC）合寫一篇文章。我們采訪了五位在那些代際公司早期加入的員工——比如在 OpenAI 還沒(méi)紅之前加入，在 Stripe 還沒(méi)出名之前加入。我們?cè)趯ふ乙环N模式：這些人是如何先于其他人發(fā)現(xiàn)這些偉大公司的？

你的描述與我們的發(fā)現(xiàn)完全一致，那就是野心。他們擁有想要實(shí)現(xiàn)的狂野野心，而不只是像你說(shuō)的，四處張望尋找所謂的“產(chǎn)品市場(chǎng)契合度”。

Edwin：對(duì)，絕對(duì)是這樣。

你必須擁有巨大的野心，必須堅(jiān)信你的想法能改變世界，并且愿意加倍下注，不惜一切代價(jià)去實(shí)現(xiàn)它。

關(guān)于AGI：選正確的目標(biāo)函數(shù)并為它做優(yōu)化

Lenny：稍微換個(gè)話題。Richard Sutton 提出了“苦澀的教訓(xùn)”（The Bitter Lesson）。他在一次對(duì)話中提到，大語(yǔ)言模型幾乎是一條死胡同，認(rèn)為我們會(huì)在 LLM 上停滯不前，因?yàn)槟鞘撬鼈儗W(xué)習(xí)的局限。你怎么看？你認(rèn)為 LLM 能帶我們通向 AGI 甚至更遠(yuǎn)嗎？還是你認(rèn)為需要有新的東西或重大突破才能到達(dá)那里嗎？

Edwin：我屬于后者，我確實(shí)相信需要一些新東西。

我的思考方式或許更偏“生物學(xué)”。我相信，就像人類有一百萬(wàn)種不同的學(xué)習(xí)方式一樣，我們需要建立能夠模仿所有這些方式的模型。

也許分布會(huì)有所不同，因?yàn)槿祟惖膫?cè)重點(diǎn)不同，但我們希望能夠模仿人類的學(xué)習(xí)能力，確保有算法和數(shù)據(jù)讓模型以同樣的方式學(xué)習(xí)。

僅就 LLM 這種單一的學(xué)習(xí)方式而言，我認(rèn)為要想復(fù)刻人類多樣的學(xué)習(xí)能力，還需要新的突破。

Lenny：這與強(qiáng)化學(xué)習(xí)密切相關(guān)，也是你非常熱衷的領(lǐng)域。在“后訓(xùn)練”階段，強(qiáng)化學(xué)習(xí)似乎正變得越來(lái)越重要。能否給大家解釋一下什么是強(qiáng)化學(xué)習(xí)和“強(qiáng)化學(xué)習(xí)環(huán)境”？為什么它們?cè)谖磥?lái)會(huì)如此關(guān)鍵？

Edwin：簡(jiǎn)單來(lái)說(shuō)，強(qiáng)化學(xué)習(xí)就是訓(xùn)練模型去達(dá)成某種獎(jiǎng)勵(lì)目標(biāo)。讓我解釋一下什么是“RL 環(huán)境”。

RL 環(huán)境本質(zhì)上是對(duì)現(xiàn)實(shí)世界的模擬。你可以把它想象成構(gòu)建一個(gè)細(xì)節(jié)豐滿的視頻游戲宇宙，每個(gè)角色都有背景故事，每個(gè)企業(yè)都有可調(diào)用的工具和數(shù)據(jù)，各種實(shí)體在其中相互作用。

例如，我們可能會(huì)構(gòu)建一個(gè)初創(chuàng)公司的虛擬世界，里面有真實(shí)的 Gmail 郵件、Slack 對(duì)話線程、Jira 工單、GitHub 的 PR 請(qǐng)求，甚至還有完整的代碼庫(kù)。

然后，突發(fā)狀況發(fā)生了：AWS 掛了，Slack 也崩了。這時(shí)候，模型該怎么做？它需要自己想辦法解決。我們會(huì)給模型在這個(gè)環(huán)境中布置任務(wù)，設(shè)計(jì)挑戰(zhàn)，觀察它的表現(xiàn)。根據(jù)它做得好壞，我們會(huì)給予相應(yīng)的獎(jiǎng)勵(lì)或懲罰。

有趣的是，這些環(huán)境揭示了一個(gè)事實(shí)：模型在處理現(xiàn)實(shí)世界的端到端任務(wù)時(shí)，表現(xiàn)往往很弱。

雖然它們?cè)诠铝⒌幕鶞?zhǔn)測(cè)試上看起來(lái)很聰明，比如擅長(zhǎng)單步調(diào)用工具、遵循簡(jiǎn)單指令，但一旦被扔進(jìn)這些混亂的模擬世界，面對(duì)令人困惑的 Slack 消息、陌生的工具，需要執(zhí)行一系列正確的操作、修改數(shù)據(jù)庫(kù)，并在長(zhǎng)達(dá) 50 步的交互中保持邏輯連貫時(shí)，它們就會(huì)以各種離譜的方式崩潰。

這與它們之前所處的那些學(xué)術(shù)性的、單步任務(wù)環(huán)境截然不同。我認(rèn)為這些 RL 環(huán)境將成為模型進(jìn)化的真正游樂(lè)場(chǎng)。因?yàn)檫@是對(duì)現(xiàn)實(shí)世界的模擬，相比那些人為設(shè)計(jì)的簡(jiǎn)單環(huán)境，模型有望在這里學(xué)會(huì)處理真正的任務(wù)。

Lenny：我試圖想象這個(gè)場(chǎng)景：本質(zhì)上它就像一個(gè)虛擬機(jī)，里面有瀏覽器、電子表格，或者網(wǎng)頁(yè)，如果你是 Agent，你的工作就是確保網(wǎng)站在線。突然網(wǎng)站掛了，目標(biāo)函數(shù)就是“找出原因”。是這個(gè)意思嗎？

Edwin：對(duì)，目標(biāo)函數(shù)可能是“找出原因并修復(fù)它”。具體來(lái)說(shuō)，可能是通過(guò)一系列單元測(cè)試，或者是寫一份復(fù)盤文檔，內(nèi)容必須準(zhǔn)確描述發(fā)生的事情。我們會(huì)根據(jù)它的完成情況給予獎(jiǎng)勵(lì)。這就是我們教導(dǎo)模型去實(shí)現(xiàn)目標(biāo)的方式。

就像以前有過(guò) SFT 和 RLHF，后來(lái)有了評(píng)分標(biāo)準(zhǔn)（Rubrics）和驗(yàn)證器（Verifiers）。RL 是下一個(gè)階段，并不是說(shuō)舊方法過(guò)時(shí)了，而是這是一種新的學(xué)習(xí)形式，補(bǔ)充了模型需要掌握的新技能。

Lenny：所以在這種情況下，不再是物理學(xué)博士坐在那兒跟模型對(duì)話、糾正它、寫評(píng)分標(biāo)準(zhǔn)，而是現(xiàn)在的專家在設(shè)計(jì)這個(gè) RL 環(huán)境。

這讓我想起另一個(gè)例子，比如金融分析師。以前可能是寫評(píng)估標(biāo)準(zhǔn)，現(xiàn)在則是：“這是 Excel 表格，你的目標(biāo)是算出我們的損益表。” 專家變成了環(huán)境的設(shè)計(jì)者。

Edwin：完全正確。那位金融分析師可能會(huì)創(chuàng)建一個(gè)電子表格，并設(shè)計(jì)模型需要調(diào)用的工具來(lái)輔助填表。

比如，模型可能需要訪問(wèn)彭博終端，它得學(xué)會(huì)如何使用；它需要用計(jì)算器，得學(xué)會(huì)怎么算。它擁有這些工具的使用權(quán)。然后獎(jiǎng)勵(lì)機(jī)制可能是：會(huì)下載那個(gè)表格，檢查 B22 單元格里的損益數(shù)字對(duì)不對(duì)，或者第二個(gè)標(biāo)簽頁(yè)的信息是否準(zhǔn)確。

Lenny：有趣的是，這最終變得越來(lái)越像人類的學(xué)習(xí)方式。這也說(shuō)得通，畢竟神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí)本身就是在模仿人類大腦的運(yùn)作，讓它們變聰明就是讓它們的學(xué)習(xí)方式越來(lái)越接近人類。

Edwin：是的。也許最終目標(biāo)就是把你扔進(jìn)環(huán)境里，看你如何進(jìn)化。但在這個(gè)進(jìn)化過(guò)程中，包含了很多不同的子學(xué)習(xí)機(jī)制。

Lenny：這也是我們?cè)?RL 環(huán)境中做的事情。你提到設(shè)計(jì)這些環(huán)境時(shí)，“軌跡”（Trajectories）非常重要，不僅僅是關(guān)注“這是目標(biāo)，這是終點(diǎn)”，而是過(guò)程中的每一步。能談?wù)勈裁词擒壽E，以及為什么它這么重要嗎？

Edwin：人們往往忽略一點(diǎn)：有時(shí)即使模型得出了正確答案，它的過(guò)程也可能是完全錯(cuò)誤的。

它可能有各種中間軌跡——也許它嘗試了 50 次都失敗了，最后只是隨機(jī)蒙對(duì)了數(shù)字；或者它用了一種極低效的方式；甚至它可能是在 Reward-hack 來(lái)騙取獎(jiǎng)勵(lì)。

所以關(guān)注軌跡非常重要。而且有些軌跡可能非常長(zhǎng)。如果你只檢查最終答案，就會(huì)丟失大量關(guān)于模型中間思考過(guò)程的信息。比如，有時(shí)你希望模型通過(guò)反思來(lái)得出答案，有時(shí)你希望它能一次搞定。如果你忽略了這些過(guò)程，就等于錯(cuò)失了教導(dǎo)模型正確思考的機(jī)會(huì)。

Lenny：從“后訓(xùn)練”（Post-training）開始回顧，你認(rèn)為模型進(jìn)步最大的幾個(gè)關(guān)鍵節(jié)點(diǎn)是什么？比如 Evals（評(píng)估）處于什么位置？RL 環(huán)境又處于什么位置？這僅僅是目前的最新進(jìn)展嗎？

Edwin：最初，模型進(jìn)行后訓(xùn)練的方式純粹是依賴SFT監(jiān)督微調(diào)。我又得用人類做類比了：SFT 就像是徒弟模仿大師，照著葫蘆畫瓢。后來(lái)，RLHF成了主流。這好比你寫了 5 篇文章，有人告訴你哪篇寫得最好。而最近，評(píng)分標(biāo)準(zhǔn)（Rubrics）和驗(yàn)證器（Verifiers）變得非常重要。這就不僅僅是打分了，而是獲得詳細(xì)的反饋，告訴你具體哪里做錯(cuò)了，以此來(lái)學(xué)習(xí)。

Lenny：這些其實(shí)就是評(píng)估（Evals），換了個(gè)說(shuō)法而已。

Edwin：對(duì)。我認(rèn)為“評(píng)估”通常包含兩層含義。一種用于訓(xùn)練：你評(píng)估模型做得好不好，做好了就給獎(jiǎng)勵(lì)。另一種用于衡量進(jìn)展：比如我有 5 個(gè)候選模型版本，想挑最好的發(fā)布。我就需要在這 5 個(gè)版本上運(yùn)行所有評(píng)估測(cè)試，來(lái)決定哪個(gè)勝出。現(xiàn)在，RL 環(huán)境成了新的熱點(diǎn)。

Lenny：懂了。這就像是一場(chǎng)商業(yè)模式的進(jìn)化之旅，總有新東西出現(xiàn)。一開始大家說(shuō)“好吧，這個(gè)我們已經(jīng)玩得很溜了，但這只是入場(chǎng)券”。現(xiàn)在我們需要全新的東西，比如建立虛擬機(jī)和各種不同的用例。

Edwin：沒(méi)錯(cuò)。就像過(guò)去有不同的學(xué)習(xí)方式一樣，新方法的出現(xiàn)并不意味著舊方法過(guò)時(shí)了。它是另一種形式的學(xué)習(xí)，補(bǔ)充了之前的手段。這是模型需要掌握的新技能。

Lenny：除了這些，你還聽(tīng)到了什么新趨勢(shì)嗎？比如，“搞定這個(gè)之后，下一個(gè)大事件是什么？”

Edwin：我覺(jué)得確實(shí)存在一個(gè)核心問(wèn)題：他們究竟在構(gòu)建什么產(chǎn)品？這些產(chǎn)品本身對(duì)人類是有益還是有害的？比如我經(jīng)常思考 Sora，以及它會(huì)帶來(lái)什么。觀察哪些公司會(huì)去建立 Sora，哪些不會(huì)，這本身就很有意思。

Lenny：我們已經(jīng)聊了很多領(lǐng)域。在結(jié)束前，關(guān)于硅谷、融資或 AI，你還有什么想分享的嗎？

Edwin：我想用這個(gè)來(lái)結(jié)束：我骨子里是個(gè)科學(xué)家。我一直以為我會(huì)成為一名數(shù)學(xué)或計(jì)算機(jī)教授，去致力于理解宇宙、語(yǔ)言和交流的本質(zhì)。我曾有個(gè)瘋狂的夢(mèng)想：如果外星人造訪地球，人類需要破譯溝通方式，我希望成為被政府召集的那個(gè)人，用數(shù)學(xué)、計(jì)算機(jī)和語(yǔ)言學(xué)來(lái)破解難題。

即使在今天，我最喜歡做的事依然是每當(dāng)新模型發(fā)布時(shí)，深入研究它。我會(huì)去搗鼓它，運(yùn)行評(píng)估，對(duì)比它的進(jìn)步和退步，然后給客戶寫一份深度分析。大家常以為那是數(shù)據(jù)科學(xué)團(tuán)隊(duì)做的，但其實(shí)就是我寫的。

我可以整天做這個(gè)，但開一整天會(huì)很難受。我不擅長(zhǎng)銷售，也不擅長(zhǎng)做人們期望 CEO 做的那種典型工作。我喜歡寫分析，喜歡和研究團(tuán)隊(duì)探討發(fā)現(xiàn)。有時(shí)我會(huì)和團(tuán)隊(duì)打電話聊到凌晨三點(diǎn)，討論如何調(diào)整模型。我很高興自己還沒(méi)脫離數(shù)據(jù)和科學(xué)的一線。

這也正是我想讓 Surge 在 AI 未來(lái)中扮演的角色。我們擁有關(guān)于數(shù)據(jù)、語(yǔ)言和質(zhì)量的獨(dú)特視角，知道如何衡量它們，并確保一切在正確的軌道上。

相比典型初創(chuàng)公司，Surge 更像是一個(gè)研究實(shí)驗(yàn)室。我們受到的負(fù)面干擾很少，關(guān)注好奇心、長(zhǎng)期價(jià)值和嚴(yán)謹(jǐn)性，而不是季度財(cái)報(bào)或董事會(huì) PPT 上好不好看。

我的目標(biāo)是利用這種獨(dú)特性，確保我們塑造 AI 的方式長(zhǎng)期對(duì)人類這個(gè)物種真正有益。

Lenny：我現(xiàn)在意識(shí)到，像你們這樣的公司對(duì) AI 的走向有著巨大的影響力。大家通常盯著 OpenAI、Anthropic 這些公司，以為只有他們?cè)诙x AI，但實(shí)際上在幫助實(shí)驗(yàn)室發(fā)現(xiàn)差距、指引方向上，你們的影響力巨大。順著這個(gè)話題，我知道你對(duì)于“這對(duì)人類為什么重要”有很強(qiáng)的想法，能談?wù)剢幔?/p>

Edwin：這可能會(huì)有點(diǎn)哲學(xué)，請(qǐng)耐心聽(tīng)我說(shuō)。

最直接的層面是：我們訓(xùn)練和評(píng)估 AI。但更深層的使命是幫助客戶思考他們夢(mèng)想中的“目標(biāo)函數(shù)”。也就是，你到底希望你的模型成為什么樣？

一旦確定了目標(biāo)，我們會(huì)幫助訓(xùn)練模型去接近那顆“北極星”，并幫助衡量它。但這很難，因?yàn)槟繕?biāo)函數(shù)通常極其豐富且復(fù)雜。

打個(gè)比方，這就好比問(wèn)一個(gè)孩子：“你想通過(guò)什么測(cè)試？”簡(jiǎn)單的版本是：通過(guò)高中考試，或者 SAT 考高分，寫篇漂亮的論文。

但復(fù)雜的版本是：“你想成長(zhǎng)為什么樣的人？” 你希望無(wú)論做什么都快樂(lè)嗎？還是只想去名校、在經(jīng)濟(jì)上成功？

如果你選前者，你怎么衡量“快樂(lè)”？怎么衡量“經(jīng)濟(jì)成功”？這比衡量 SAT 分?jǐn)?shù)難多了。而我們正在做的，就是幫助客戶找到并衡量他們夢(mèng)想中的“北極星”。

回到剛才的例子，如果你讓模型寫 50 封郵件，是僅僅讓它機(jī)械地寫完，還是希望它能意識(shí)到“不，寫到這里已經(jīng)足夠完美了，去忙別的吧”？

更宏大的問(wèn)題是：我們是否在構(gòu)建真正能讓人類進(jìn)步的系統(tǒng)？

所以，選擇正確的目標(biāo)函數(shù)，并確保我們是在為此優(yōu)化，而不是為了那些簡(jiǎn)單的替代指標(biāo)優(yōu)化，這對(duì)我們的未來(lái)至關(guān)重要。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.