網易首頁 > 網易號 > 正文申請入駐

聽完PromptPilot的發布會，發現他們想Pilot的竟然不止是Prompts

2025-09-15 17:46:31　來源: 硅星GenAI

上海舉報

分享至

作者｜郭海惟
郵箱｜ guohaiwei@pingwest.com

9月13日，火山云的PromptPilot終于“正式”發布了。

這款產品最早在6月12日的火山引擎 FORCE 原動力大會上亮相，當時火山引擎智能算法負責人吳迪花了十分鐘介紹了PromptPilot的特點和工作流程。

吳迪當時對PromptPilot推出的戰略背景有三點總結：

模型越強，提出好問題的正向價值越大；

有很多高價值問題，沒有標準答案；

提示詞工程本質是一個搜索問題，一切搜索問題都長期都將由算法來解決。

這三個論斷，或許可以被理解為當時火山引擎對PromptPilot業務戰略邏輯的核心論述：

提示詞是值錢的，而PromptPilot的價值，某種程度來自于個性化的場景需求與對prompt需求的個性化理解。正是因為場景是個性化的，所以prompt有被調整的需要；正是因為prompt本質是搜索，所以需要構建對用戶的理解。

其實很多巨頭都在做類似的事情。

比如，最近阿里巴巴財報會上，吳永銘將記憶能力稱為整個agent應用突破的重要節點；Notion、飛書、IMA等應用，都在致力于構建一個服務于用戶的知識庫生態。

Prompt天然有以上的屬性。

借用最近挺火的“十字路口”的比喻，Prompt既是人與智能的十字路口，也是當下以大模型為主的智能基礎與未來以agent為主的智能生態的十字路口。

而在9月14日PromptPilot正式發布的溝通會上，面對臺下的開發者和媒體，技術負責人許偉則對PrompPilot的戰略價值給出了更多的論述角度，他在會議上給了幾個很有意思的斷，也是我印象比較深幾點。

第一，他說，在垂直場景的打造過程中，場景定制化與基礎模型能力的GAP會“永遠存在”。

如果要解決好垂直場景的落地問題，最好的方式就是“將一些關鍵能力交到廣大客戶和行業專家手中”，從而“共同推動智能的進一步廣泛和深度提升，實現大規模的落地應用”。

第二，其實也與第一中的解決方案相呼應。許偉稱，如果AI上半場是互聯網數據引領智能增長，那么“下半場的數據則源自行業和專家的腦袋”，而這會是“重要的區別”。

第三，與大模型訓練類似，大量開發者在開發agent的時候，依然像是在煉金，將數據扔進黑箱里祈求獲得黃金。這已經成為了agent開發中的痛點，同時也造成了一定的算力浪費。許偉認為，工程化的prompt能力，將不同的模塊聯動訓練，可以一定程度上讓agent的訓練“可執行、可驗證”。

從這個角度來說，PromptPilot對自己角色的定位算是很明確的。它應該就是一個輔助行業從AI上半場走向下半場的工具。

而作為工具，它自己要迭代、要scaling、要積累數據，同時要考慮一些“代碼素人”的行業專家也可以使用。

而如果落腳到現實問題上，PromptPilot其實要解決許偉提出的三個“悖論”。

一個是用戶“如何清楚表達需求”：

許偉認為，用戶的意圖從人腦，再到具象化的目標、結構化的表達，中間是存在鴻溝的。尤其是當場景越垂直、越專業，那就越難以用自然語言一次性說清楚，也越需要更精細、更結構化的prompt。

其次是如何摸清楚“模型的能力邊界”：

而對于agent開發者來說，大模型能力的邊界也是模糊的。（許偉沒有展開講，但我想這個觀點其實也無需多言，因為大模型其實是一個黑箱，所以才會有各種各樣對大模型的能力測評榜單，對榜單的評測結果才會有各種各樣的爭議）。

許偉說，“大模型應用本質是尋找定制場景的模型能力邊界”。他指出，作為大模型開發者的工作，其實是在表達不清的需求和能力莫測的模型之間，試圖搭建人與模型之間的橋梁。

第一和第二個“悖論”，其實呼應了之前的觀點，即場景定制化與基礎模型能力的GAP會“永遠存在”。

而第三個悖論則是長上下文的動態適應過程。

許偉認為這是目前最難的挑戰。一方面大模型本身是人類高級思考的替代品，本身是很開放式的（硅星人注：注意力不集中且容易有幻覺）；另一方面，上下文越來越長，越來越多樣。這導致在開發過程中，很多問題是開發者想象之外的。

你很難想象PromptPilot能解決以上所有的問題，但他們給出了一個自己的工作流程，我也拍了一張照可以給大家參考——PromptPilot建立了一個與用戶行為流程相匹配的SDK數據閉環回流，來試圖形成一個不斷改進系統能力的飛輪。

而在整個發布會中，最高頻出現的詞語大概是圖中所示的評估標準和badcase。

在模型深入場景的過程中，可能最珍貴的就是如何評價的標準。與prompt一樣，標準其實藏在專家的腦子里，它甚至不是一條條理論性的可以清楚描述的語言，而是存在相當程度“灰度”的。而后者則是很難用語言直接描述的。

許偉舉例說，比如圖片審核中，一些元素以不同的方式不同的程度出現，可能得出的合規與否的判斷會完全不同。而PromptPilot能做的就是讓模型在與用戶不斷交互的過程中個，把評估標準背后的意圖給抽取出來。

在這個過程中，大量的case就顯得非常重要。

火山引擎大模型算法工程師王鐵飛，介紹了PromptPilot的四個模塊，分別是：

數據智擎工坊（Data Engineering）、Prompt 臻化聯動艙（Prompt優化和聯動精調）、Badecase洞察站（Badecase檢測）和 AI方案生成器（Solution）

這四個模塊可以理解為SDK數據閉環回流圖的細化。

從實操來看，整體的流程與8月份對外披露的升級版變化不大。整套系統給人的感覺是，在批量測試之前，人基本能改的地方，都開放給了人手動修改和評分；當然，相應的自動化能力也沒落下。

測試下來的感覺有點像一輛汽車，既有手動擋又有自動擋。

比如一些媒體老師，拿官方的案例，閉著眼睛一直讓自動化流程走到底，總體也能跑通，拿一個還不錯的測試分數；開發者則喜歡一邊讓自動流程跑，每跑一步，就上手優化一下，再接著跑，編prompt甚至能玩出一點vibe coding的感覺。

如許偉所說，PrompPilot希望把能力“交給專家”，所以產品方面能明顯看到給用戶留了很多能力植入和交互的地方。

首先，用戶在一鍵生成Prompt的時候可以提前加入知識庫的文檔。

用戶可以導入簡單的任務描述，也可以直接把領導給你的任務說明一股腦扔進去。

因為即便生成效果不佳，也是可以支持劃線局部提修改意見，當然直接上手改也是可以的。

跳測試。

這里給數據集輸入一個case（填寫變量）

變量可以從數據集里隨機抓，也可以AI生成以后自己改。

模型會跑回答。

跑完回答后，可以直接在模型回答里改，改到滿意為止。

如果太復雜的問題，可以在下方添加到評測集里，多輸出幾個標準答案，可以幫助模型表現更好。

當然也可以批量上傳評測集，評測完成后給所有的結果手動打分和輸入評測標準。同理，評測標準可以自動生成，也可以手動改寫輸入。

然后AI會自動生成打分的分數，打完分以后可以讓PromptPilot進行自動優化.

然后這個時候你才進入到PromptPilot核心能力的大門，也就是剛才提到的Prompt臻化聯動倉（Prompt優化和聯動精調）

如果不滿意的話，可以重新再來一遍，然后模型會不斷微調，把分數拉上去，表現不好的BadCase會被收錄到“錯題本”里，并導出一個智能優化的報告。

不要小看這個流程，它其實解決了獨立開發者的幾個頭疼的問題：

上下文能力和模型評估能力。

案圖示例里只有幾十個case，但如果像agent創業者，動輒數千個case涌入進來，這套流程的威力就會顯現出來了。這不是一個簡單的prompt編寫能力，而是幫助開發者直抵agent的核心。

我想甚至可以這么說：大模型+PromptPilot，其實就已經可以成為一個簡單版的DIY生產力agent了。

所以在交流環節，有開發者站起來的第一個問題就是，這玩意兒能不能接到非火山云的場景里，比如他自己玩的端側模型（其實我猜他可能想說阿里云、騰訊云之類的友商，但不太好意思）。

王鐵飛立刻說是可以的，他們已經開了API接口，能力是完全開放的，開發者直接自己接就可以了。

PromptPilot 團隊至少在發布會上展現了很包容性的姿態，他們甚至可以支持所謂的“Repurpose”的功能——就是如果你使用了一個較大較強的模型，但因為各種原因需要降級模型能力，PromptPilot可以幫你在執行這個特定的任務能力方面，盡量拉齊到原先的水平上。

我個人粗淺的理解是：相當于你原本開奔馳大G跑高速，但120邁勻速有很多車，換飛度的性價比其實更高。但在上高速，駕駛員對路況不熟悉，寧愿先用大奔把成功率跑上去，然后慢慢再去探尋成本的邊界，而PromptPilot在這個時候可以成為你換車的工具箱之一。

所以從這個角度來說，PromptPilot不是一個簡單的prompt工具，而是大模型落地的橋梁。它既能通過對話和評分，把人的需求溝通明白，也能以此為抓手，再對模型能力進行規劃和精調。

在所有的AI云廠都在布局agent服務能力的今天，PromptPilot未來會長成什么樣，是一件值得期待的事情。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

“手搓”應用全民化，大廠打響新一輪卡位戰

鈦媒體APP 2026-04-24 17:23:25
8 跟貼 8
用“活人感”做科技社區，小紅書能成嗎？

36氪 2026-04-24 10:22:07
0 跟貼 0

DeepSeek-V4報告亮了！V4發布延遲的秘密，終于曝光了

新智元 2026-04-25 13:42:06
33 跟貼 33

對話 Momenta CEO曹旭東：自動駕駛是物理AI的序章

鈦媒體APP 2026-04-26 10:16:13
0 跟貼 0
Epoch AI萬人調研：老板不訂閱，AI就是擺設！

新智元 2026-04-26 09:04:03
0 跟貼 0

巴鐵工匠制作巨型飛輪，工藝堪稱完美

蝦仁狂徒 2026-04-24 08:07:40
0 跟貼 0

百型智能創始人韓美：Agent成了“銷冠”，人類才能更專注策略

鈦媒體APP 2026-04-25 14:15:12
0 跟貼 0
大模型的下半場，屬于擁有云+AI全棧引擎的玩家

量子位 2026-01-30 03:29:45
0 跟貼 0

一人公司火了，企業開始把命交給AI

虎嗅APP 2026-04-25 21:59:04
0 跟貼 0
Momenta宣布已交付超70款量產車型累計定點車型數超200款

TechWeb 2026-04-26 09:44:21
0 跟貼 0
尚界Z7、Z7T、問界M6三車齊發！鴻蒙智行春季新品發布會總結

趣評測 2026-04-23 20:08:37
1 跟貼 1
問界舉辦魔方技術平臺創新發布會，賽力斯何利揚：向整車L4級具身智能演進

新浪財經 2026-04-26 09:23:14
0 跟貼 0
單Agent時代正式結束：一個干不過，就上300個-3

機器之心Pro 2026-04-22 00:08:00
0 跟貼 0
福田汽車重磅發布行業首個 AI 大模型的智能品牌——"蒼穹"

齊魯壹點 2026-04-26 10:38:19
0 跟貼 0
【你的AI靠不靠譜？】大模型項目落地評測標準：5 大類 30項指標，從技術到商業全覆蓋！AI大模型

盧菁老師 2026-04-22 09:25:00
0 跟貼 0
每次華為開發布會，我的錢包都要抖三抖

未來圖靈 2026-04-25 22:36:58
0 跟貼 0
烏克蘭前線士兵骨瘦如柴照片披露被指最長斷糧17天

澎湃新聞 2026-04-25 14:48:31
29589 跟貼 29589
鴻蒙智行春季發布會發布多款新車全棧技術賦能智能出行

車扯 2026-04-26 10:46:53
0 跟貼 0
DeepSeek過于樸素了

虎嗅APP 2026-04-25 17:32:05
110 跟貼 110
蘇超最新積分榜出爐！

無錫博報 2026-04-25 21:51:59
146 跟貼 146
全球最快速度，充滿只需6分鐘

貝殼財經 2026-04-22 11:32:13
0 跟貼 0
半掛模型玩具車買菜，要是超重了怎么辦，雷軍都不敢這么設計！

宇宙搞笑生活 2026-04-23 14:10:00
4 跟貼 4
2分鐘看懂地平線發布會：智能汽車正式迎來“龍蝦時刻”

車載娛樂 2026-04-25 11:20:04
3 跟貼 3
長城高管稱產品參數要去美顏，歐拉5以求實精神重構行業標準

封面新聞 2026-04-26 04:21:42
0 跟貼 0
國家知識產權局：將積極完善新興領域知識產權保護制度

界面新聞 2026-04-23 17:24:12
0 跟貼 0
“數字一大·偉大征程”VR沉浸式體驗項目在滬發布

新華社 2026-04-24 20:39:04
0 跟貼 0
四大核心發展引擎煥新品牌，廣汽開啟價值躍遷新篇章

汽勢傳媒 2026-04-26 00:14:51
0 跟貼 0
林允發布會現場直拍，穿搭盡顯女神范兒

太正經搞笑 2026-04-23 14:19:09
114 跟貼 114
未來從此領程｜廣汽領程2026北京車展全球發布會圓滿舉行

澎湃汽車圈 2026-04-25 22:40:28
0 跟貼 0
字節養的“蝦”與1500億賬本背后

鈦媒體APP 2026-04-25 16:44:18
0 跟貼 0
美國富豪非洲打獵被5頭大象踩死

看看新聞Knews 2026-04-25 19:38:18
3905 跟貼 3905
太狠了！OpenClaw之父一夜屠光5000 Issue，GitHub服務器先跪了

新智元 2026-04-26 11:29:22
0 跟貼 0
美能源出口創新高二戰以來首次接近成為原油凈出口國

紅星新聞 2026-04-25 12:32:20
8776 跟貼 8776
救人的哥走了50余輛出租車自發送行

極目新聞 2026-04-25 15:18:34
2559 跟貼 2559
內地旅客買6000港元蟲草磨粉后結賬竟變成7.1萬

看看新聞Knews 2026-04-25 19:24:12
4540 跟貼 4540
賴清德竄訪斯威士蘭失敗背后的三重邏輯

井芹仁小菜 2026-04-26 02:57:51
0 跟貼 0
花唄、白條、月付等面臨重大調整

第一財經資訊 2026-04-25 12:45:38
229 跟貼 229
8家車企扎堆開發布會，為啥只有尚界Z7斷層出圈肖戰轉化力太狠

娛樂在一起668 2026-04-23 19:18:28
0 跟貼 0
制作直升機遙控模型，阿帕奇AH-64

制造科技 2026-04-22 16:29:03
0 跟貼 0
騰訊28歲首席AI科學家交卷

財天COVER 2026-04-26 11:22:35
1 跟貼 1

硅星GenAI

比一部分人更先進入GenAl。

274文章數 38關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

親子

游戲

教育

時尚

房產

手機 / 數碼

房產 / 家居

聽完PromptPilot的發布會，發現他們想Pilot的竟然不止是Prompts

漲價浪潮下，DeepSeek推動AI“價格戰”

白宮突發槍擊案 250名記者聯名要求將晚宴變維權現場

白宮突發槍擊案 250名記者聯名要求將晚宴變維權現場

那一刻開始，兩支球隊的命運悄然改變了

《八千里路云和月》大結局意難平

DeepSeek V4背后，梁文鋒的轉身

預售19.38萬元起 哈弗猛龍PLUS七座版亮相

態度原創

媽媽記錄下寶寶的第一次擁抱，最幸福的瞬間

PS5獨占新作外媒打滿分！直言媲美《艾爾登法環》

壓軸出場的題目，很多小朋友都失分了

伊姐周六熱推：電視劇《方圓八百米》；電視劇《金關》......

新一輪教育大爆發來了！海口，開始瘋狂建學校！

預售19.38萬元起哈弗猛龍PLUS七座版亮相