網易首頁 > 網易號 > 正文 申請入駐

聽完PromptPilot的發布會,發現他們想Pilot的竟然不止是Prompts

0
分享至

作者 | 郭海惟
郵箱 | guohaiwei@pingwest.com

9月13日,火山云的PromptPilot終于“正式”發布了。

這款產品最早在6月12日的火山引擎 FORCE 原動力大會上亮相,當時火山引擎智能算法負責人吳迪花了十分鐘介紹了PromptPilot的特點和工作流程。

吳迪當時對PromptPilot推出的戰略背景有三點總結:

  • 模型越強,提出好問題的正向價值越大;

  • 有很多高價值問題,沒有標準答案;

  • 提示詞工程本質是一個搜索問題,一切搜索問題都長期都將由算法來解決。

這三個論斷,或許可以被理解為當時火山引擎對PromptPilot業務戰略邏輯的核心論述:

提示詞是值錢的,而PromptPilot的價值,某種程度來自于個性化的場景需求與對prompt需求的個性化理解。正是因為場景是個性化的,所以prompt有被調整的需要;正是因為prompt本質是搜索,所以需要構建對用戶的理解。

其實很多巨頭都在做類似的事情。

比如,最近阿里巴巴財報會上,吳永銘將記憶能力稱為整個agent應用突破的重要節點;Notion、飛書、IMA等應用,都在致力于構建一個服務于用戶的知識庫生態。

Prompt天然有以上的屬性。

借用最近挺火的“十字路口”的比喻,Prompt既是人與智能的十字路口,也是當下以大模型為主的智能基礎與未來以agent為主的智能生態的十字路口。

而在9月14日PromptPilot正式發布的溝通會上,面對臺下的開發者和媒體,技術負責人許偉則對PrompPilot的戰略價值給出了更多的論述角度,他在會議上給了幾個很有意思的斷,也是我印象比較深幾點。

第一,他說,在垂直場景的打造過程中,場景定制化與基礎模型能力的GAP會“永遠存在”。

如果要解決好垂直場景的落地問題,最好的方式就是“將一些關鍵能力交到廣大客戶和行業專家手中”,從而“共同推動智能的進一步廣泛和深度提升,實現大規模的落地應用”。

第二,其實也與第一中的解決方案相呼應。許偉稱,如果AI上半場是互聯網數據引領智能增長,那么“下半場的數據則源自行業和專家的腦袋”,而這會是“重要的區別”。

第三,與大模型訓練類似,大量開發者在開發agent的時候,依然像是在煉金,將數據扔進黑箱里祈求獲得黃金。這已經成為了agent開發中的痛點,同時也造成了一定的算力浪費。許偉認為,工程化的prompt能力,將不同的模塊聯動訓練,可以一定程度上讓agent的訓練“可執行、可驗證”。

從這個角度來說,PromptPilot對自己角色的定位算是很明確的。它應該就是一個輔助行業從AI上半場走向下半場的工具。

而作為工具,它自己要迭代、要scaling、要積累數據,同時要考慮一些“代碼素人”的行業專家也可以使用。

而如果落腳到現實問題上,PromptPilot其實要解決許偉提出的三個“悖論”。

一個是用戶“如何清楚表達需求”:

許偉認為,用戶的意圖從人腦,再到具象化的目標、結構化的表達,中間是存在鴻溝的。尤其是當場景越垂直、越專業,那就越難以用自然語言一次性說清楚,也越需要更精細、更結構化的prompt。

其次是如何摸清楚“模型的能力邊界”:

而對于agent開發者來說,大模型能力的邊界也是模糊的。(許偉沒有展開講,但我想這個觀點其實也無需多言,因為大模型其實是一個黑箱,所以才會有各種各樣對大模型的能力測評榜單,對榜單的評測結果才會有各種各樣的爭議)。

許偉說,“大模型應用本質是尋找定制場景的模型能力邊界”。他指出,作為大模型開發者的工作,其實是在表達不清的需求和能力莫測的模型之間,試圖搭建人與模型之間的橋梁。

第一和第二個“悖論”,其實呼應了之前的觀點,即場景定制化與基礎模型能力的GAP會“永遠存在”。

而第三個悖論則是長上下文的動態適應過程。

許偉認為這是目前最難的挑戰。一方面大模型本身是人類高級思考的替代品,本身是很開放式的(硅星人注:注意力不集中且容易有幻覺);另一方面,上下文越來越長,越來越多樣。這導致在開發過程中,很多問題是開發者想象之外的。

你很難想象PromptPilot能解決以上所有的問題,但他們給出了一個自己的工作流程,我也拍了一張照可以給大家參考——PromptPilot建立了一個與用戶行為流程相匹配的SDK數據閉環回流,來試圖形成一個不斷改進系統能力的飛輪。

而在整個發布會中,最高頻出現的詞語大概是圖中所示的評估標準和badcase。

在模型深入場景的過程中,可能最珍貴的就是如何評價的標準。與prompt一樣,標準其實藏在專家的腦子里,它甚至不是一條條理論性的可以清楚描述的語言,而是存在相當程度“灰度”的。而后者則是很難用語言直接描述的。

許偉舉例說,比如圖片審核中,一些元素以不同的方式不同的程度出現,可能得出的合規與否的判斷會完全不同。而PromptPilot能做的就是讓模型在與用戶不斷交互的過程中個,把評估標準背后的意圖給抽取出來。

在這個過程中,大量的case就顯得非常重要。

火山引擎大模型算法工程師王鐵飛,介紹了PromptPilot的四個模塊,分別是:

數據智擎工坊(Data Engineering)、Prompt 臻化聯動艙(Prompt優化和聯動精調)、Badecase洞察站(Badecase檢測)和 AI方案生成器(Solution)

這四個模塊可以理解為SDK數據閉環回流圖的細化。

從實操來看,整體的流程與8月份對外披露的升級版變化不大。整套系統給人的感覺是,在批量測試之前,人基本能改的地方,都開放給了人手動修改和評分;當然,相應的自動化能力也沒落下。

測試下來的感覺有點像一輛汽車,既有手動擋又有自動擋。

比如一些媒體老師,拿官方的案例,閉著眼睛一直讓自動化流程走到底,總體也能跑通,拿一個還不錯的測試分數;開發者則喜歡一邊讓自動流程跑,每跑一步,就上手優化一下,再接著跑,編prompt甚至能玩出一點vibe coding的感覺。

如許偉所說,PrompPilot希望把能力“交給專家”,所以產品方面能明顯看到給用戶留了很多能力植入和交互的地方。

首先,用戶在一鍵生成Prompt的時候可以提前加入知識庫的文檔。

用戶可以導入簡單的任務描述,也可以直接把領導給你的任務說明一股腦扔進去。

因為即便生成效果不佳,也是可以支持劃線局部提修改意見,當然直接上手改也是可以的。

跳測試。

這里給數據集輸入一個case(填寫變量)

變量可以從數據集里隨機抓,也可以AI生成以后自己改。

模型會跑回答。

跑完回答后,可以直接在模型回答里改,改到滿意為止。

如果太復雜的問題,可以在下方添加到評測集里,多輸出幾個標準答案,可以幫助模型表現更好。

當然也可以批量上傳評測集,評測完成后給所有的結果手動打分和輸入評測標準。同理,評測標準可以自動生成,也可以手動改寫輸入。

然后AI會自動生成打分的分數,打完分以后可以讓PromptPilot進行自動優化.

然后這個時候你才進入到PromptPilot核心能力的大門,也就是剛才提到的Prompt臻化聯動倉(Prompt優化和聯動精調)

如果不滿意的話,可以重新再來一遍,然后模型會不斷微調,把分數拉上去,表現不好的BadCase會被收錄到“錯題本”里,并導出一個智能優化的報告。

不要小看這個流程,它其實解決了獨立開發者的幾個頭疼的問題:

上下文能力和模型評估能力。

案圖示例里只有幾十個case,但如果像agent創業者,動輒數千個case涌入進來,這套流程的威力就會顯現出來了。這不是一個簡單的prompt編寫能力,而是幫助開發者直抵agent的核心。

我想甚至可以這么說:大模型+PromptPilot,其實就已經可以成為一個簡單版的DIY生產力agent了。

所以在交流環節,有開發者站起來的第一個問題就是,這玩意兒能不能接到非火山云的場景里,比如他自己玩的端側模型(其實我猜他可能想說阿里云、騰訊云之類的友商,但不太好意思)。

王鐵飛立刻說是可以的,他們已經開了API接口,能力是完全開放的,開發者直接自己接就可以了。

PromptPilot 團隊至少在發布會上展現了很包容性的姿態,他們甚至可以支持所謂的“Repurpose”的功能——就是如果你使用了一個較大較強的模型,但因為各種原因需要降級模型能力,PromptPilot可以幫你在執行這個特定的任務能力方面,盡量拉齊到原先的水平上。

我個人粗淺的理解是:相當于你原本開奔馳大G跑高速,但120邁勻速有很多車,換飛度的性價比其實更高。但在上高速,駕駛員對路況不熟悉,寧愿先用大奔把成功率跑上去,然后慢慢再去探尋成本的邊界,而PromptPilot在這個時候可以成為你換車的工具箱之一。

所以從這個角度來說,PromptPilot不是一個簡單的prompt工具,而是大模型落地的橋梁。它既能通過對話和評分,把人的需求溝通明白,也能以此為抓手,再對模型能力進行規劃和精調。

在所有的AI云廠都在布局agent服務能力的今天,PromptPilot未來會長成什么樣,是一件值得期待的事情。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
天才股神坦言:新一輪牛市來臨,如果本金30W內,建議死磕520戰法

天才股神坦言:新一輪牛市來臨,如果本金30W內,建議死磕520戰法

股經縱橫談
2026-04-23 20:37:06
最新:烏克蘭收復扎波羅熱要塞并構建立足點!再推進15公里

最新:烏克蘭收復扎波羅熱要塞并構建立足點!再推進15公里

項鵬飛
2026-04-25 22:56:08
奔馳快養不起北京汽車了

奔馳快養不起北京汽車了

汽車K線
2026-04-24 07:30:06
美國如今徹底沒希望了,因為已經遇到了,世界上最強大的大國崛起

美國如今徹底沒希望了,因為已經遇到了,世界上最強大的大國崛起

夢史
2026-04-26 06:48:11
舍伍德:薩拉赫大概率已完成利物浦最后一次出場,太令人惋惜

舍伍德:薩拉赫大概率已完成利物浦最后一次出場,太令人惋惜

懂球帝
2026-04-26 10:17:08
現代級魔改,估計俄羅斯娘家也看傻眼了吧

現代級魔改,估計俄羅斯娘家也看傻眼了吧

三叔的裝備空間
2026-04-24 23:53:16
今天才知道,為啥鵝蛋很少有人吃?為啥賣鵝蛋的人很少?漲知識

今天才知道,為啥鵝蛋很少有人吃?為啥賣鵝蛋的人很少?漲知識

阿龍美食記
2026-04-12 15:01:18
身價暴漲!季后賽這5位球員打出了價值

身價暴漲!季后賽這5位球員打出了價值

舟望停云
2026-04-25 21:09:48
DeepSeek V4背后,梁文鋒的轉身

DeepSeek V4背后,梁文鋒的轉身

豹變
2026-04-26 09:13:15
蔣萬安發出強硬警告,"中國臺灣省"走向國際,10國選擇明智應對

蔣萬安發出強硬警告,"中國臺灣省"走向國際,10國選擇明智應對

福建睿平
2026-04-25 11:54:44
馬正勇,已從廣東赴四川履新!畢紹剛,任昆明市委常委、市政府黨組副書記!

馬正勇,已從廣東赴四川履新!畢紹剛,任昆明市委常委、市政府黨組副書記!

蘭妮搞笑分享
2026-04-26 11:01:21
不甘心的羅玉鳳,令人敬佩

不甘心的羅玉鳳,令人敬佩

廖保平
2026-03-22 10:49:24
深圳那位用飲料澆滅煙頭的女生,到底經歷了什么

深圳那位用飲料澆滅煙頭的女生,到底經歷了什么

大張的自留地
2026-04-26 08:52:35
美方曾提醒:如果雙方談不攏,中國的武器裝備可能會去美國大門口

美方曾提醒:如果雙方談不攏,中國的武器裝備可能會去美國大門口

混沌錄
2026-04-25 16:42:06
耳朵長有佛耳,是前世在佛門修行的證明?不是所有人都具備

耳朵長有佛耳,是前世在佛門修行的證明?不是所有人都具備

老紅點評社
2025-08-21 15:16:36
10年麻將館老板囗述:凡是愛打麻將的,沒有一個人日子是過得好的

10年麻將館老板囗述:凡是愛打麻將的,沒有一個人日子是過得好的

小噎論事
2026-04-24 17:15:21
嗜賭成性只是冰山一角,婚內出軌、睡有婦之夫,體壇丑聞毀三觀

嗜賭成性只是冰山一角,婚內出軌、睡有婦之夫,體壇丑聞毀三觀

阿訊說天下
2026-04-25 11:15:04
殘陣森林狼112-96掘金3-1奪賽點,多森姆替補43分,約基奇24+15+9遭驅逐

殘陣森林狼112-96掘金3-1奪賽點,多森姆替補43分,約基奇24+15+9遭驅逐

懂球帝
2026-04-26 11:31:13
閆闖 被問買問界M6和Model Y哪個好? 被旁邊大哥一句話干沉默了

閆闖 被問買問界M6和Model Y哪個好? 被旁邊大哥一句話干沉默了

周哥一影視
2026-04-11 03:19:35
1-0 登頂英超!阿森納險翻車,頭號核心全場災難拖后腿

1-0 登頂英超!阿森納險翻車,頭號核心全場災難拖后腿

瀾歸序
2026-04-26 05:51:40
2026-04-26 12:15:00
硅星GenAI incentive-icons
硅星GenAI
比一部分人更先進入GenAl。
274文章數 38關注度
往期回顧 全部

科技要聞

漲價浪潮下,DeepSeek推動AI“價格戰”

頭條要聞

白宮突發槍擊案 250名記者聯名要求將晚宴變維權現場

頭條要聞

白宮突發槍擊案 250名記者聯名要求將晚宴變維權現場

體育要聞

那一刻開始,兩支球隊的命運悄然改變了

娛樂要聞

《八千里路云和月》大結局意難平

財經要聞

DeepSeek V4背后,梁文鋒的轉身

汽車要聞

預售19.38萬元起 哈弗猛龍PLUS七座版亮相

態度原創

親子
游戲
教育
時尚
房產

親子要聞

媽媽記錄下寶寶的第一次擁抱,最幸福的瞬間

PS5獨占新作外媒打滿分!直言媲美《艾爾登法環》

教育要聞

壓軸出場的題目,很多小朋友都失分了

伊姐周六熱推:電視劇《方圓八百米》;電視劇《金關》......

房產要聞

新一輪教育大爆發來了!海口,開始瘋狂建學校!

無障礙瀏覽 進入關懷版