无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

開源!阿里甩出首個語言世界模型,能造智能體環境

0
分享至


智東西
作者 程茜
編輯 心緣

智東西6月24日消息,剛剛,阿里千問大模型上新,發布首個原生語言世界模型(LWM)Qwen-AgentWorld,該模型有35B-A3B與397B-A17B兩種參數規模。

該模型專門為各類AI智能體研發與訓練而生。在博客中,研究人員提到,該語言世界模型的核心目的不是降成本、替代智能體的真實交互環境,而是為了增強通用智能體的能力。其可以讓智能體在做動作前,先在內部模擬環境反饋再決策

Qwen-AgentWorld兩大核心亮點為:

  • 從預訓練階段就將環境建模作為訓練目標,貫穿CPT→SFT→RL全流程。此前完整訓練通用基礎大模型,往往會在訓練結束后,才開始教AI理解環境、預判操作結果。
  • 單一模型同時覆蓋7類環境,包括文本類環境(MCP、Search、Terminal、SWE)與GUI類環境(Web、OS、Android),實現跨領域知識遷移。

例如下圖,Qwen-AgentWorld可以模擬手機系統,左側為手機界面的初始狀態,右側為讓Agent點擊工具欄中的刪除圖標的操作預測。


研究人員在博客中提到,LWM并不是為了取代真實環境,真實環境交互始終是確保智能體行為可靠性的黃金標準,LWM提供的是一條互補路徑,其具備超越真實環境的可擴展性與可控性,還有內化的世界預測能力。

此外,阿里還發布了配套的覆蓋七大領域的語言世界模型評測基準AgentWorldBench


▲AgentWorldBench概覽

阿里開源了Qwen-AgentWorld-35B-A3B(模型權重)和AgentWorldBench(評估基準)。


▲AgentWorld開源主頁

GitHub開源地址:https://github.com/QwenLM/Qwen-AgentWorld

ModelScope開源地址:https://modelscope.cn/collections/Qwen/qwen-agentworld

Hugging Face:https://huggingface.co/collections/Qwen/qwen-agentworld

一、覆蓋7類環境,支持跨領域知識遷移

Qwen-AgentWorld單一模型同時覆蓋7類環境,包括文本類環境(MCP、Search、Terminal、SWE)與GUI類環境(Web、OS、Android),能實現跨領域知識遷移。

對于三個GUI領域,環境觀測以可渲染代碼(無障礙樹XML、HTML、UI層級標記)而非像素幀的形式呈現,使得僅憑純文本世界建模即可覆蓋視覺環境。


▲Qwen-AgentWorld可模擬的7類交互環境

Qwen-AgentWorld可以模擬電腦系統,例如下面左側就是電腦初始界面,右側為Agent從菜單欄中單擊“文件”>“打印”的操作預測。


該模型還能模擬網站交互,下圖左側就是某網站的儀表盤界面,右側為Agent點擊“添加用戶”按鈕的操作預測。


在博客中,阿里研究人員提到,他們希望探索基于語言模型的世界建模,能否進一步拓展通用智能體能力的邊界。

第一個方向是構建智能體環境模擬的基礎模型:Qwen-AgentWorld是首個在單一模型中覆蓋七大智能體交互領域的語言世界模型,基于超過1000萬條真實環境交互軌跡,經由CPT→SFT→RL三階段訓練而成。


▲三階段訓練流程

第二個方向是探討世界建模在智能體訓練中的作用,并通過兩種互補范式加以驗證:作為解耦的環境模擬器,它為智能體強化學習提供了更優的可擴展性與可控性,可控的模擬RL能夠以真實環境無法實現的方式塑造智能體行為,且顯著優于僅在真實環境中訓練的RL。

作為統一的智能體基礎模型,LWM的預訓練可有效遷移至涵蓋七個基準(其中三個完全未出現在訓練集中)的多輪智能體任務,且無需針對智能體任務進行任何RL微調,初步驗證了語言世界模型能夠作為構建更強智能體模型的基礎。


▲Qwen-AgentWorld架構圖

二、整體模擬質量超Claude Opus 4.8、Gemini 3.1 Pro

為系統評估語言世界模型,研究人員推出綜合性評測基準AgentWorldBench

該基準基于5個前沿模型在9個成熟評測集上的真實環境交互觀測構建而成。AgentWorldBench采用開放式評分準則(rubric),從格式、事實性、一致性、真實性和質量五個維度全面評估世界建模能力,深入考察模型的推理能力、領域知識以及長上下文處理水平。

在AgentWorldBench評測中,Qwen-AgentWorld-397B-A17B的整體模擬質量超越GPT-5.4、Claude Opus 4.8與Gemini 3.1 Pro。

Qwen-AgentWorld-397B-A17B在AgentWorldBench上取得最高的整體均分(58.71),超越GPT-5.4(58.25)及所有其他前沿模型。這一優勢在Terminal和SWE兩個領域最為顯著,研究人員認為這是因為這兩個領域的預測需要準確模擬代碼執行狀態和工具API行為。

在35B-A3B規模上,三階段訓練流水線將整體均分提升了8.66分,使Qwen-AgentWorld-35B-A3B的表現超過Claude Sonnet 4.6。這一提升在文本類和GUI類領域中均保持一致。


▲AgentWorldBench評測結果

三、涌現3種推理模式:自糾錯、防信息泄露、多步因果推理

在整體分數的分析之外,研究人員還分析了4個文本類領域的129條思維鏈,發現3種涌現的推理模式。

自我修正:模型使用「Wait!」作為自我糾錯的觸發信號,以修正中間預測。在129個輪次中有1347次此類中斷(平均每turn 10.4次),包括事實錯誤、知識邊界或視角轉換等情況。

信息泄漏防護:在搜索領域,模型已知智能體正在搜索的參考答案,當查詢與答案無關時,模型通過確保摘要不會意外透露目標來防止泄漏。

多步因果推理:預測curl -s localhost:3000 python3 -m json.tool的輸出需要一條6步推理鏈:Node.js缺失→服務器未啟動→端口3000無監聽→curl靜默失敗→空管道→json.tool拋出JSONDecodeError。


▲Qwen-AgentWorld的推理模式

結語:單一模型統一七大交互環境,語言世界建模或打開通用智能體新路徑

Qwen-AgentWorld是一個原生語言世界模型,在單一模型中覆蓋七大智能體交互領域,基于此研究人員探索了世界模型加強通用智能體的兩種互補范式。

作為統一智能體基礎模型,語言世界模型(LWM)的預訓練可遷移至涵蓋七個基準的多輪智能體任務,初步驗證了語言世界模型能夠作為構建更強智能體模型的基礎。語言世界建模或開辟了一條互補的擴展路徑,推動通用智能體超越真實環境交互的能力上限。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
字母哥交易最大犧牲品!26歲當打之年,老大位置沒了,大合同沒了

字母哥交易最大犧牲品!26歲當打之年,老大位置沒了,大合同沒了

球毛鬼胎
2026-06-23 15:47:38
武則天跟李世民12年都沒懷孕,為何剛嫁給李治就有了?原因很簡單

武則天跟李世民12年都沒懷孕,為何剛嫁給李治就有了?原因很簡單

青史卷中人
2026-06-20 20:22:44
畜生不如!這個男護工,手太臟了!

畜生不如!這個男護工,手太臟了!

皮蛋兒電影
2026-06-23 12:18:24
今日油價調整信息:6月24日調整后,全國92、95汽油價格最新售價表

今日油價調整信息:6月24日調整后,全國92、95汽油價格最新售價表

侃故事的阿慶
2026-06-24 12:19:51
C羅放棄射門助葡萄牙打出精彩戰術完成破門,神之操作登頂熱搜榜首

C羅放棄射門助葡萄牙打出精彩戰術完成破門,神之操作登頂熱搜榜首

菊哥品球
2026-06-24 06:08:24
張藝謀4月身體出狀況,陳婷摘掉妻子認證

張藝謀4月身體出狀況,陳婷摘掉妻子認證

青杉依舊啊啊
2026-05-16 23:41:41
我生的我說了算!霸占女兒15年,妻子阻攔被打殘,江西惡父霸女案

我生的我說了算!霸占女兒15年,妻子阻攔被打殘,江西惡父霸女案

易玄
2026-06-24 00:20:26
新華社:不要讓機關事業單位中的“官油子”得勢得利!

新華社:不要讓機關事業單位中的“官油子”得勢得利!

細說職場
2026-06-24 13:25:54
王鶴棣給王彥霖女兒寄了60多件衣服,平鋪在地上滿滿的一客廳

王鶴棣給王彥霖女兒寄了60多件衣服,平鋪在地上滿滿的一客廳

喜歡歷史的阿繁
2026-06-24 00:15:39
哈爾科夫戰火重開了!

哈爾科夫戰火重開了!

星火聊天下
2026-06-24 14:41:18
油價調整:注意,預計下調650元/噸,油價跌幅加劇!

油價調整:注意,預計下調650元/噸,油價跌幅加劇!

金投網
2026-06-24 11:12:28
廣州公交減線背后:客流降六成,新型巴士車費無優惠引爭議

廣州公交減線背后:客流降六成,新型巴士車費無優惠引爭議

南方都市報
2026-06-23 23:03:51
陌生男子凌晨狂試獨居女子密碼鎖!持續5分鐘后密碼被解開,女子一個舉動逃過一劫

陌生男子凌晨狂試獨居女子密碼鎖!持續5分鐘后密碼被解開,女子一個舉動逃過一劫

環球網資訊
2026-06-23 08:46:10
揭秘《首爾之春》主角結局:為何失敗者成叛國,贏家是英雄?

揭秘《首爾之春》主角結局:為何失敗者成叛國,贏家是英雄?

擦菠蘿的海綿寶寶
2026-06-23 07:15:12
54歲大媽用艾葉當枕芯,4個月后體檢,醫生觀察:氣色大不一樣!

54歲大媽用艾葉當枕芯,4個月后體檢,醫生觀察:氣色大不一樣!

健康科普365
2026-06-23 18:40:10
深成指、創業板指雙雙漲1%

深成指、創業板指雙雙漲1%

每日經濟新聞
2026-06-24 13:32:06
世界杯歷史性梅羅對決,阿根廷vs葡萄牙,C羅首次表態

世界杯歷史性梅羅對決,阿根廷vs葡萄牙,C羅首次表態

余飩搞笑段子
2026-06-24 10:40:34
2換1交易達成,湖人秀神操作!撿漏小綠屋3D側翼兩大能力完美適配

2換1交易達成,湖人秀神操作!撿漏小綠屋3D側翼兩大能力完美適配

鍋子籃球
2026-06-24 13:07:06
馮小剛執導影片《抓特務》上映四天票房不足7000萬元 影視板塊走弱 中國電影接近跌停

馮小剛執導影片《抓特務》上映四天票房不足7000萬元 影視板塊走弱 中國電影接近跌停

財聞
2026-06-24 10:20:55
離譜!錄綜藝被纏12年,逼婚索賠鬧劇終于落幕

離譜!錄綜藝被纏12年,逼婚索賠鬧劇終于落幕

美芽
2026-06-24 13:11:06
2026-06-24 15:24:49
智東西 incentive-icons
智東西
智東西,AI產業新媒體,專注報道人工智能的前沿技術發展,和技術應用帶來的千行百業產業變革。
12107文章數 117111關注度
往期回顧 全部

科技要聞

豆包專業版上線:定價68-500元每月

頭條要聞

鄭麗文稱國民黨追求和平但不放棄自我防衛 國臺辦回應

頭條要聞

鄭麗文稱國民黨追求和平但不放棄自我防衛 國臺辦回應

體育要聞

字母哥,會把凱爾特人拆了嗎?

娛樂要聞

向佐向佑兄弟合體直播!母子終于和解

財經要聞

爆料人:如果我錯了,賠償坐牢都接受

汽車要聞

施鵬澤:為什么奧迪E7X強調座艙氣味安全?

態度原創

家居
房產
本地
藝術
公開課

家居要聞

綠意盎然 自然之境

房產要聞

這個海南地王,可能是今年豪宅的分水嶺!

本地新聞

吃一次廣東龍舟飯,才懂什么是豪華盛宴

藝術要聞

Ui?ART|新展首發|第二次抵抗:跨世紀以來的另一種藝術

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版