網易首頁 > 網易號 > 正文 申請入駐

AI模型是個黑箱,這家公司造了一把能打開它的鑰匙

0
分享至


(來源:麻省理工科技評論)

舊金山初創公司 Goodfire 剛剛發布了一款叫 Silico 的新工具,它能讓研究人員和工程師在訓練 AI 模型的過程中,觀察模型的內部結構并調整參數——也就是那些決定模型行為的設置。這可能讓開發者對 AI 的構建方式擁有前所未有的精細控制力。

Goodfire 稱 Silico 是同類產品中第一款開箱即用的工具,覆蓋從構建數據集到訓練模型的整個流程。這家公司的使命說起來很簡單:讓構建 AI 模型從“煉金術”變成“科學”。ChatGPT 和 Gemini 這樣的大語言模型確實能做出很厲害的事情,但沒有人確切知道它們為什么能做到,這讓修復缺陷或阻止不良行為變得很困難。

“我們看到一個越來越大的鴻溝:一邊是人們對模型的理解程度,另一邊是模型被部署的廣度,”Goodfire 的 CEO 埃里克·何(Eric Ho)在 Silico 發布前獨家告訴《麻省理工科技評論》?!拔矣X得現在頭部實驗室的主流想法就是:規模更大、算力更多、數據更多,然后就能實現 AGI,別的都不重要。我們想說的是:有更好的路?!?/p>

Goodfire 做的事情屬于一個叫“機制可解釋性”(mechanistic interpretability)的技術方向,同行包括 Anthropic、OpenAI 和 Google DeepMind。簡單說就是給 AI 模型做“腦部掃描”:映射出神經元以及神經元之間的通路,搞清楚模型做決定時內部到底發生了什么。《麻省理工科技評論》將機械可解釋性評為 2026 年十大突破技術之一。

Goodfire 想用這種方法做的,不只是事后審計已經訓練好的模型,而是從訓練階段就介入。

“我們想去掉反復試錯,把訓練模型變成精密工程,”何說,“把旋鈕和刻度盤暴露出來,讓開發者在訓練過程中就能用上?!?/p>

Goodfire 此前已經用自研技術調整過大語言模型的行為,比如減少幻覺,而 Silico 是把這些內部積累的技術打包成產品對外發布。工具內置了智能體來自動化大量復雜操作。“智能體現在已經強到可以完成很多以前需要人工做的可解釋性工作,”何說,“這塊缺口補上之后,客戶才真正能自己上手?!?/p>

阿姆斯特丹大學研究機制可解釋性的學者萊昂納德·貝雷斯卡(Leonard Bereska)認為 Silico 是一個有用的工具,但對 Goodfire 更宏大的說法有所保留?!皩嶋H上,他們是在給煉金術增加精確度,”他說,“叫它‘工程’讓它聽起來比實際情況更有章法?!?/p>

Silico 可以讓你深入到模型的特定區域,觀察單個神經元或一組神經元,測試它們在干什么。你可以檢查什么輸入會激活哪些神經元,也可以沿上下游通路追蹤一個神經元跟其他神經元之間的關系。(前提是你能訪問模型的內部結構。大多數人沒法拿 Silico 去翻 ChatGPT 或 Gemini 的底,但可以用它查看許多開源模型。)

比如 Goodfire 在開源模型 Qwen 3 內部找到了一個跟“電車難題”關聯的神經元。激活之后,不管你問什么,模型都會把回答包裝成道德兩難的形式?!斑@個神經元一旦激活,各種奇怪的事就會發生,”何說。

定位這類異常行為的來源,如今已經算比較常規的操作。Goodfire 想更進一步:讓調整這些行為變得同樣容易。通過 Silico,開發者可以直接調整與特定神經元關聯的參數,增強或抑制某些行為。

舉個更有意思的例子。研究人員問一個模型:一家公司的 AI 產品在 0.3% 的情況下會欺騙用戶,影響 2 億人,該不該公開披露?模型的回答是“不該”,理由是會損害公司利益。

研究人員打開模型內部,找到了跟“透明度”和“信息披露”關聯的神經元,把它們的權重調高。同一個問題再問一遍,十次里有九次模型改口說“該公開”?!澳P蛢炔科鋵嵰呀浻辛藗惱硗评淼木€路,只是被商業風險評估的線路壓過去了,”何說。

微調價值觀只是 Silico 的用法之一。它還可以在訓練階段過濾特定的數據,從源頭上避免某些參數被設成不理想的值。

比如很多模型會告訴你 9.11 大于 9.9。但 AI 為什么會犯這種錯?用 Silico 打開模型內部就能找到原因:模型在訓練時讀了大量《圣經》文本和軟件代碼倉庫,在這兩類文本里,9.9 確實排在 9.11 前面(《圣經》按章節編號,代碼按版本號遞增),模型內部因此形成了一組“9.9 在 9.11 前面”的神經元。做數學題時這組神經元被誤激活了,就導致了錯誤答案。找到了病因,開發者就可以重新訓練模型,讓它做數學時繞開這些神經元。

Goodfire 發布 Silico 的目的,是把以前只有少數頂級實驗室才掌握的能力交給更多人。想自建模型或改造開源模型的小公司和研究團隊都是目標用戶。工具將收費使用,價格根據客戶需求逐案確定(Goodfire 拒絕透露具體定價)。

“如果訓練模型能變得更像開發軟件,就沒有理由不讓更多公司來設計符合自己需求的模型,”何說。

貝雷斯卡同意這類工具可以幫助企業構建更值得信賴的模型,尤其在醫療和金融等安全要求極高的領域?!邦^部前沿實驗室內部已經有了自己的可解釋性團隊,”他說,“Silico 武裝的是下一梯隊的公司——它們不用再自己去招一批可解釋性研究員了?!?/p>

https://www.technologyreview.com/2024/10/28/1106251/this-ai-system-makes-human-tutors-better-at-teaching-children-math/

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
晚上7點半!中國女足將大戰東南亞勁旅,打平=小組頭名出線,劍指世界杯!

晚上7點半!中國女足將大戰東南亞勁旅,打平=小組頭名出線,劍指世界杯!

海闊山遙YAO
2026-05-07 08:21:44
FDA撤回多項證實新冠疫苗、帶狀皰疹疫苗安全性的研究

FDA撤回多項證實新冠疫苗、帶狀皰疹疫苗安全性的研究

新浪財經
2026-05-06 22:27:08
紐約這一夜,lisa四只手,卡姐穿著一般,劉雯、谷愛凌全場最佳

紐約這一夜,lisa四只手,卡姐穿著一般,劉雯、谷愛凌全場最佳

林雁飛
2026-05-05 20:10:47
荒唐的斯威士蘭:集中10萬少女貢獻國王選妃,國民平均壽命35歲

荒唐的斯威士蘭:集中10萬少女貢獻國王選妃,國民平均壽命35歲

春秋硯
2026-04-25 17:15:06
五星體育:東南亞多國同樣未官宣世界杯版權;FIFA需重新審視市場

五星體育:東南亞多國同樣未官宣世界杯版權;FIFA需重新審視市場

懂球帝
2026-05-06 23:17:40
成都這一夜,阿嬌“水桶腰、大象腿”是對畸形審美的反擊

成都這一夜,阿嬌“水桶腰、大象腿”是對畸形審美的反擊

健身迷
2026-05-07 12:11:32
面試官:你在學校用過 AI 嗎?我:禁用,被說學術不端。。他皺眉:我們這兒規定 75% 代碼靠 AI,不用才是學術不端。。

面試官:你在學校用過 AI 嗎?我:禁用,被說學術不端。。他皺眉:我們這兒規定 75% 代碼靠 AI,不用才是學術不端。。

程序員魚皮
2026-05-06 14:30:21
亞馬遜千億富豪惹眾怒,眾多明星拒出席晚宴,現場驚現尿瓶抗議!

亞馬遜千億富豪惹眾怒,眾多明星拒出席晚宴,現場驚現尿瓶抗議!

觀察鑒娛
2026-05-06 09:48:09
太寒心!鹽城龍鳳胎事件,孩子早產,老公把彩禮8.8萬驟降至3.8萬

太寒心!鹽城龍鳳胎事件,孩子早產,老公把彩禮8.8萬驟降至3.8萬

魔都姐姐雜談
2026-05-06 13:19:53
歐冠決賽數據:皇馬15冠3亞 米蘭7冠4亞 拜仁6冠5亞 利物浦6冠4亞

歐冠決賽數據:皇馬15冠3亞 米蘭7冠4亞 拜仁6冠5亞 利物浦6冠4亞

智道足球
2026-05-07 08:08:01
涉及多個職務!佛山一區發布近期人事任免

涉及多個職務!佛山一區發布近期人事任免

南方都市報
2026-05-07 13:15:06
悲催!杭州一女子嫌國企丈夫沒本事,攜42萬存款離婚,雞飛蛋打了

悲催!杭州一女子嫌國企丈夫沒本事,攜42萬存款離婚,雞飛蛋打了

火山詩話
2026-04-27 06:40:09
注意!中老年男性有性生活和沒性生活,差別居然這么大?

注意!中老年男性有性生活和沒性生活,差別居然這么大?

皓皓情感說
2026-04-22 08:20:32
人社部發布重要消息,3個信號不同尋常,一類退休人員有福了!

人社部發布重要消息,3個信號不同尋常,一類退休人員有福了!

丁丁鯉史紀
2026-05-07 10:34:59
NASA局長大笑:拿“中國先登月”嚇唬國會,好使!

NASA局長大笑:拿“中國先登月”嚇唬國會,好使!

觀察者網
2026-05-07 11:48:25
張本智和:輪到我來幫助球隊!松島輝空第4敗,賽前喊得兇被打臉

張本智和:輪到我來幫助球隊!松島輝空第4敗,賽前喊得兇被打臉

排球黃金眼
2026-05-06 23:09:26
國際原油期貨繼續重挫 美油大跌超12%

國際原油期貨繼續重挫 美油大跌超12%

財聯社
2026-05-06 18:58:06
北京薈聚的西貝老店關了!網友:昨晚還吃了!沒用完的余額怎么辦?

北京薈聚的西貝老店關了!網友:昨晚還吃了!沒用完的余額怎么辦?

北京商報
2026-05-06 22:01:15
張軍被查創下多個尷尬“紀錄”,18年前曾因酒駕被查

張軍被查創下多個尷尬“紀錄”,18年前曾因酒駕被查

元芳有看法
2026-04-30 09:25:44
WWE傳奇喊話湖人:1.65億球星該被交易

WWE傳奇喊話湖人:1.65億球星該被交易

賽場速報局
2026-05-07 08:02:01
2026-05-07 15:15:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
16672文章數 514925關注度
往期回顧 全部

科技要聞

凌晨突發!馬斯克租22萬塊GPU給“死敵”

頭條要聞

美國博主自發抵制:不想收錢抹黑中國

頭條要聞

美國博主自發抵制:不想收錢抹黑中國

體育要聞

阿森納巴黎會師歐冠決賽!5月31日開戰

娛樂要聞

小S阿雅重返大S母校,翻看大S畢業照

財經要聞

特朗普:美伊“很有可能”達成協議

汽車要聞

理想為什么不做轎車,有了解釋……

態度原創

健康
數碼
旅游
親子
時尚

干細胞治燒燙傷面臨這些“瓶頸”

數碼要聞

Q1全球平板排名:蘋果還是霸主,華為第三,小米第五

旅游要聞

“五一”接待游客252.37萬人次,酉陽文旅市場人氣口碑雙豐收

親子要聞

2026年上海幼兒入園報名驗證、小學報名今起開始

“白色闊腿褲”今年夏天又火了!這樣穿時髦又高級

無障礙瀏覽 進入關懷版