網易首頁 > 網易號 > 正文 申請入駐

應用爆發之年:聊聊模型技術進化與商業化

0
分享至

(點擊收聽本期音頻)


采訪|泓君

圖文|泓君 朱婕

兩年前《硅谷101》在播客里聊大模型的時候,大家的普遍感受還是"有意思,但不好用"——幻覺、慢、貴,總覺得離真正的生產力還差那么幾步。

2026年,變化比想象中來得更快。阿里云千問大模型業務總經理徐棟告訴《硅谷101》,一個五六人的小團隊現在用AI一天能生成6000條廣告視頻,成本壓到10元以下,低于市場售價20至50元——商業閉環已經跑通了。AI漫劇也在爆發,國內短劇市場規模已經超過電影市場,視頻生成模型正從5秒進化到15秒,年底有望突破1分鐘。

成本端的變化更加劇烈。徐棟分享了一組數字:千問的推理成本正以每半年接近10倍的速度下降,推理速度從30-50 TPS飆升到80-100+,首包延遲從2秒降到500毫秒。他說,今天端側4B的小模型,能力已經超過兩年前最大的閉源模型,70%以上的通用任務可以在手機和車機上本地處理。

2025年被很多人稱為"AI應用元年"。如果說前兩年的關鍵詞是"模型能做什么",那今年所有企業都在問同一個問題——用AI,到底劃不劃算?

本期播客,《硅谷101》邀請了阿里云千問大模型業務總經理徐棟、影石Insta360研究院總監亓魯教授、語憶科技聯合創始人兼CEO呂瀛杰,一起拆解大模型在商業前線"開荒"的邏輯、成本和隱藏關卡。


歡迎關注《硅谷101視頻號》的音頻欄接收聽本期播客。如 果 你喜歡我們的 節目,更推 薦大家使用 音頻客戶端來收聽,《硅谷101 》已覆蓋各大 主流音頻 平臺(渠道見文末),歡迎訂閱!

以下是這次對話內容的精選:

01

模型的技術進步與商業化

泓君:很開心你能來做客我們的播客,因為在2025年底到2026年初,大家討論最多的一個是AI Agent,還有一個就是AI應用,真的開始走進大家的生活了。今天很開心請你能跟大家聊一聊大模型在商業化方向的一些趨勢。在此之前,你要不要先簡單介紹一下你在阿里的工作,以及你主要負責什么?

徐棟:阿里做大模型時間比較久了,最早的模型可以追溯到2021年左右。首先有一個在海外尤其有名的模型叫千問,英文名叫Qwen。在開源領域,它已經是一個體量非常大的模型,很多北美公司也會用它作為基座模型。它代表的是我們的語言模型,我們會用它去挑戰AI的智慧,看看它能不能用更多工具、進入更多生產環節。這是我們非常主力的一個模型。

第二個是視覺生成類的模型,叫萬相,英文名叫Wan,它可以生成圖片、視頻,也能做圖片和視頻的編輯,同時也有成為未來世界模型的范式的可能性。最近三個月我們重點發布了2.5的preview版和2.6版,在視頻創作方面收到了很多新反饋。

第三個基礎模型是去年云棲大會發布的Fun,一個純音頻模型,它涵蓋ASR、TTS,也包括聲音克隆。我們在這個模型上追求更擬真、支持多語言、不同方言和口音,讓它能更好地理解和表達。

我們的模型還是比較結構化的。在這幾個基座模型基礎上,我們開始與很多客戶交流合作,包括制造業、實體企業、品牌商,還有很多互聯網公司。但最近一年,我的感受是出現了大量AI Native公司,它們通過模型取得了不錯的成果,在很多碎片化的市場里實現了非常好的ROI。

泓君:你剛剛提到了幾個大模型。你覺得過去2025年,模型技術最重要的進化是在哪幾個方向?

徐棟:最近半年進化特別多。以“萬相Wan”為代表的視頻生成模型,如果類比GPT-3.5到4的狀態,我認為它已經達到了GPT-4的水平。過去視頻生成模型更多用于特效、娛樂,但現在它可以進入生產領域,比如最近很火的AI漫劇,增長速度非常快,還有自動化生成廣告視頻。很多15秒的切片廣告已經開始自動化生成,形成完整管線,可能五個人一天就能生成6000個視頻,這是一個非常明顯的趨勢。

從技術角度看,有幾個特點很有意思:

第一,生成時間變長了。視頻生成從過去的5秒、10秒,進入15秒時代,未來可能到一分鐘,這樣內容連貫性會更好。

第二,鏡頭語言更豐富。模型可以切換不同鏡頭,調整光影效果,接近專業影視級能力,用戶通過簡單提示詞就能實現。

第三,角色一致性保持

(Carry)
能力。這是受Sora2啟發,在角色扮演中,保持人物、物體、背景、音色的一致性,也就是“保ID”,讓后續創作有更好延展空間。

簡單來說,我們希望從15秒進一步延長生成時長,目前我們已經做到國內最長的視頻生成模型;讓鏡頭切換、光影變化這些原本需要專業導演、攝像、美術協作的能力,現在通過模型門檻大大降低;最后,角色扮演,保持一致的能力,我相信會成為未來所有視頻生成模型的標配。


萬相模型生成的AI動漫 圖片來源:萬相Wan

泓君:角色扮演具體是指什么?

徐棟:舉個例子:你可以用手機自拍一段5秒鐘視頻,抬頭或轉頭,說幾句話,類似試鏡。模型輸入這段視頻后,可以對人物形象和聲音進行“保ID”,后續創作中這個形象和聲音可以被復刻出來。

泓君:也就是說以后只需要真人出鏡5秒,后面的內容可以由AI生成、模型化運作。

徐棟:對,這意味著生成內容的可控性更高。以前可能依賴抽卡

(隨機生成)
,現在可以在輸入端提供更多參考維度,在動漫創作領域其實挺多的,以前是參考圖,現在開始參考視頻。

泓君:你剛剛提到,比如五個人一天可以生成6000個視頻,AI漫劇也比較火了,你覺得基于模型能力提升,你看到哪些比較好的商業化案例或應用?

徐棟:國內短劇市場已經超過電影市場。在視頻宣傳方面,很明顯短劇從原來的真人拍攝或大量人工編輯,開始有一定比例轉向AI生成。最近最火的是漫劇,它從動態漫發展過來的,劇情連貫,商業化能力強,已經成為與AI結合的一個典型。

泓君:像短劇市場、AI生成短劇、真人IP短劇,還有批量生成AI廣告,大家最關心的問題是,用AI做的成本和用人做的成本分別是多少?廠商在考慮接入模型時看重什么?

徐棟:現在按品質分為S級、A級、B級。一部短劇,如果成本合理,AI可能能做到2萬元以下,加上投流和ROI計算,有可能打正或實現不錯收入。如果對精品要求更高,需要投入更多后期制作資源,成本會更高,但劇集品質也會更好。

廣告方面,15秒視頻的AI成本可以控制在10元到15元以下,在市場上有比較好的商業空間。一般來說,一個合格的15秒廣告市場價在25元到50元之間,這樣就形成了較好的商業循環。


萬相模型生成的AI短片 圖片來源:萬相Wan

泓君:這個成本確實挺低的。阿里有淘寶電商生態的,是這些電商賣家在用AI做廣告嗎?

徐棟:這個結構是比較復雜的?,F在每個流量平臺會給廣告主或代理公司一定的編輯能力,以匹配其平臺。廣告主自己也有大量素材,可能是自己做的,也可能是第三方代理公司做的。在廣告生成方面,有可能是代理公司做,也可能是代理公司分包給AI Native的創業公司做。這類創業公司越來越多,它們將萬相和千問模型結合成管線,形成剛才說的五六個人一天生成6000個廣告的能力,再交給代理公司或流量平臺的廣告組。

泓君:挺有意思的。這是視頻生成模型方面。你們還有音頻生成模型和千問模型,你覺得另外兩個模型在2025年有哪些進步和突破?

徐棟:語言模型正在發生持續而深刻的變化,雖然我們很難再看到一個巨大的范式上的改變,我簡單說一下我們在做的事情。

第一,高質量數據集越來越少,大家都在精耕細作,通過調整數據順序、角度,提升模型知識學習效率,使模型在一些corner case

(邊緣案例)
上表現越來越好。

第二,模型結構會越來越稀疏,多Token預測

(MTP)
等技術在不同模型中實踐,速度會更快,甚至成倍提升。未來首包響應可能從2秒縮短到500毫秒都是有可能的,TPS可能從30-50提升到80-100以上,在性能要求高的場景下表現就會變得非常棒。

其實大家也可以從機器吞吐角度來去理解,模型稀疏化后,推理成本也會下降,可能以一個量級下降。

此外,指令遵循能力、Agent能力(尤其是工具調用)、上下文長度等都在持續迭代。疊加coding能力提升,未來可能會出現大量連續運行的Agent,它不像今天的Chatbot那樣,馬上給我個結果,而是能利用閑時計算資源做AI for science研究或生成深度報告,這背后它可能調用檢索引擎、CRM、ERP等工具。如果它會用了這么多工具,我們相信輸出質量一定會比純文本模型更好。

泓君:你講了很多基礎模型在細微點上的提升。去年我們追蹤大模型和Agent發展趨勢時,注意到2025年是AI從模型走向應用的關鍵一年,Agent大爆發,中國應用創新尤其活躍。為什么是去年這個時間點?是因為模型基礎能力提升,還是有其他關鍵點推動?

徐棟:第一是推理能力。2024年底OpenAI推出o1后,模型不再依賴所謂的概率,開始表現出邏輯偏好,這是我覺得是非常根本性的改變。

第二是模型規模變大,原本存在的挑戰是你訓不動它,但通過預訓練改進,模型變大的同時可控性也提高了,復雜指令能力越來越強。以前依賴確定性的workflow,但現在模型指令遵循和理解能力增強,只要有準確上下文,就能在泛化性和準確性之間找到平衡。

第三是工具調用

(Tool Use)
。隨著Claude Skills、MCP等標準逐漸被大家接受,越來越多工具顯性化,今天的模型開始跳脫了輸入輸出窗口,開始進入更多生產環節。這個環節可能不是一個框,而是一個標準的SaaS流程或硬件交互方式。

泓君:我注意到剛剛結束的CES展上有一個趨勢,所有產品都想與AI搭上關系,比如耳機、智能眼鏡、剪輯拍攝工具等。今年有很多中國客戶參展,背后也有千問大模型的影子。你能否聊聊,在AI硬件產品中,大模型扮演什么角色?

徐棟:模型與硬件結合不是新鮮事,早在十年前,ASR、CV模型都與硬件有關,但商業價值不大。這一次,我覺得最重要的是,模型變得更擬人,可以執行更多任務了。以前只能識別,現在能聽懂、看懂,給出你想要的結果。今天通過千問App,你可以通過自然語言直接訂咖啡、訂座位等。如果是眼鏡,通過自然語言完成這些任務,就跟過去是很大的區別。這背后離不開語音、視覺理解和文本模型。

泓君:通過眼鏡訂咖啡已經實現了嗎?

徐棟:準確說,早就實現了。千問App通過自然語言可以點咖啡、完成商業閉環,全部在一個基于大模型的架構里面去完成。我剛剛試過,它會生成卡片,如果大模型操作界面和原來App一樣,可能會有挑戰,推薦咖啡時會考慮距離、偏好、歷史選擇,因為戴眼鏡時希望AI懂我、有記憶,這樣更方便。你可以切換,點開就是完整菜單。


圖片來源:千問APP發布會

泓君:我們可以看看未來這類應用的發展情況。今天我們主題是大模型商業化,你能否整體介紹一下阿里千問是如何商業化的?

徐棟:做大模型與做云的最大區別是,云的覆蓋是比較慢的,最早是手游,慢慢覆蓋到金融和制造業。大模型這一波的改變是全行業覆蓋,每個行業都在用,只是滲透率不同,我們從兩個方向看:

第一,模型與企業結合,提升企業生產力。企業內部有很多流程和角色,大模型可以在設計、編程、研發、銷售等環節發揮作用。

第二,產品與大模型結合。很多互聯網公司和消費電子硬件天然與用戶交互,經過大模型改造后,交互體驗發生很大變化,產品定位發生根本改變,所以我們與之有深入合作,不僅限于云上合作,像一些手機和車廠有低延時和本地化需求,我們發布了Omni模型(4B參數),他們對這類端側模型很感興趣。

泓君:這是類似賣端側模型嗎?

徐棟:是。這個場景更多針對算力較強的手機廠商和車廠,畢竟涉及功耗、發熱等問題。經過兩三年打磨,很多車廠和手機廠開始考慮端云結合架構。因為需求越來越旺盛,僅靠云模型不夠,我們今天已經進入到一個深水區了,端云模型結合,都成為大家關心的話題了。

泓君:從消費者視角看,未來每部手機甚至每輛車都可能具備智能化交互能力,變得很智能,它是一開始就嵌入到手機里的。

徐棟:對,智能設備是每個人的貼身入口,涉及隱私、高時效性任務,所以一些硬件廠商的規劃里就會考慮這些因素。

泓君:我們把比如Omni的這個模型,放到一個手機或者是一個車里,它有一些任務是在云上處理的,會接入阿里云,還是客戶自己的云?

徐棟:絕大部分企業,基本上都在阿里云上面提供這樣的云服務,通過MaaS服務平臺“百煉”直接與設備交互。這個平臺的核心要求就是高并發、低延時、可觀測,支持鑒權管控,是一個相對完整的平臺。可以理解為絕大多數企業通過這個平臺連接業務。

泓君:什么場景可以直接在端側處理?什么場景移到云上?端側跟云,大概會占到一個什么樣的比例?

徐棟:這是動態變化的。現在端側模型效果比兩年前的百B模型還好,現在只要一個4B的模型可能就效果發生改變。通用類任務、基本交互任務、語音和視覺理解,七成以上可以由端側模型較好地去解決了。

泓君:客戶與阿里合作時,最關心什么問題?

徐棟:這是一個變化過程。最早關心的是效果,因為模型效果還不夠好,客戶會提很多垂直任務,構建評測集。最近半年到一年,客戶從效果轉向性能和成本。因為我們的模型體量增長了幾十倍,客戶也進入了嚴肅的生產環節,模型效果基本得到驗證了。

客戶關心TPS、首包延時,甚至精細化到4K輸入和10萬輸入,有分別不同的TPS跟首包的要求。

有些業務有高并發需求,比如智能外呼,半小時內完成10萬通電話,對并發要求很高。

最后是成本,當使用量增長幾十倍、上百倍后,成本勢必成為客戶非常關心的話題。像一開始說到的視頻生成模型,目前還比較貴,如果客戶要批量生成自動化的廣告,他對成本訴求也會進一步提高。

泓君:聽起來客戶對行業理解已經很深,知道什么場景用小模型,什么場景用大模型。我感覺行業商業化已經不是起步階段,大家開始提出具體需求,對垂直細分和精細化程度有了更多的考量。

徐棟:是的,最近小模型需求特別多,重復性的任務,用小模型會更有性價比。意圖理解、意圖抽取等場景,很多企業的Chatbot或Agent第一步就是對用戶的理解和判斷,這方面小模型需求也很多。中小模型的post-training

(后訓練)
或fine-tuning
(微調)
需求最近三個月開始越來越多,客戶希望基于閉源模型混合自己的數據,訓練出適合他的小模型。

泓君:成本是大家非常關注的。從阿里角度看,推理成本降了多少?

徐棟:推理成本基本上每半年下降近一個量級(十倍)。成本下降受多個因素影響:

第一,模型結構稀疏化、混合精度、MTP等技術的應用。

第二,芯片與模型的垂直一體化設計帶來潛在紅利。

第三,調度優化,提高利用率。我們通過不同模型切換、時間段任務切換、夜間跑批任務等,帶來了利用率的提升。利用率非常高的話,成本就會下降。

補充一個具體案例吧,2025年底我們發布了Qwen3-Next,一個80B參數、3B激活的模型,稀疏比很高,相信很多開發者已經試過了,它的推理效率、效果和速度都有很大提升。

泓君:除了模型結構和算法,芯片設計和軟硬一體化對推理成本下降非常有幫助。谷歌TPU早期推理成本是OpenAI、Anthropic的十分之一,就是因為它是根據模型算法專門去設計的。

徐棟:所以我們看阿里巴巴的科技板塊,有云、有模型,有芯片的投入,三位一體,聽起來和谷歌有點接近。垂直一體化的好處很多,不僅是芯片和模型,還涉及到云,比如剛剛說的調度優化,就是跟云相關的。

泓君:我注意到你們是全球最全面的開源大模型,當時為什么決定開源?

徐棟:2023年8月前后,我們的7B模型得到非常大的市場反饋,基于這個模型,我們打開了全球格局。千問和萬相在海外社區活躍度很高。開源有幾個好處:

第一,增強人才吸引力,很多頂尖科研工作者或學生在學校就開始用千問模型,對其特性很了解。

第二,社區反饋幫助我們快速迭代,早期的時候非常明顯,社區里面包括推理框架、推理引擎,甚至端側部署等開發者圍繞生態幫我們做建設,提出的數據集和失敗案例問題,對我們模型快速迭代的幫助非常多。

我們在開源這塊是投入非常大的,國內外企業幾乎沒有開發者不知道千問,企業內部或多或少都會用到千問的一些能力。尤其是我們開過小參數模型,如1.5B、3B以下,我們還有一個最“甜點”的模型是32B(單顯卡可運行),在企業中有大量應用。


圖片來源:Hugging Face

泓君:開源和閉源,你們怎么做商業化平衡?客戶拿到開源模型就可以免費用,閉源模型是有商業化收入在里面的。

徐棟:首先,阿里云是一家云公司,開源對我們云業務的帶動非常明顯,形成了商業化的正循環。第二,開源模型在發布時是離線版本,我們會在API版本(閉源)會進行修正和能力提升。很多開源生態用戶也希望使用更簡單易用、并發更高的MaaS服務。另外,開源模型考慮開發者易用性,參數不會太大。我們最大的模型千問3 Max沒有開源,因為部署成本很高,有需求的客戶會選擇千問3 Max。

泓君:2025年春節前后,DeepSeek發布開源模型,讓中美眼前一亮。你覺得他們的發布對阿里有沖擊嗎?包括商業化方面。

徐棟:市場還處于中早期階段,更多模型公司推動技術進步是最重要的。他們的論文清晰有參考意義,對整個行業是很好的推動。開源后反而帶動了開源生態活躍,讓千問開源得到進一步發展。千問從0.5B到235B版本跨度大,企業不同場景都可以用到,更新節奏快,基本上我們一個月發三個小版本,三個月到半年發五個左右的大版本。這是一個相互促進的過程。

泓君:今年大家討論如何衡量應用是否火爆,行業常用方法是看用了多少Token。你覺得未來如何評價大客戶或火爆應用?Token量是合理的評估指標嗎?

徐棟:我認為階段性有參考意義,很多公司用Tokens衡量創業估值,但長期來看,一定會回歸到收入,不一定是Token直接帶來的收入,也可能是封裝成Agent的收入。我們內部探討Model As Service

(模型即服務)
和Agent As Service
(智能體即服務)
。Tokens有一些弊端,比如最小模型和最大模型的成本、收入可能差1000倍,商業價值也會有很大不同。再比如說多模態,語音模型和文本模型的Token度量衡也沒有清晰地統一起來。但Token依然是目前觀察業務使用量的較好指標,我們比較關注。

泓君:Model As Service

(模型即服務)
和Agent As Service
(智能體即服務)
,有什么區別?

徐棟:Model As Service強調的是模型的服務能力,比如你能不能時刻推出最新的模型、你的API應用性是否足夠高,包括實時API、跑批任務等,這些都是它衍生出的很多產品的用法。

Agent As Service可能按場景或行業劃分,它可能用到多個模型,最后封裝出標準的任務結果給客戶使用,比如Deep Research就是一種智能體即服務能力。

泓君:你覺得現在大家在大模型研發上的投入還多嗎?我指的是基礎大模型最前沿的、性能最高的、再把模型推向極限的模型研發。我的感受是,現在大家也關注模型進化,但討論熱度不如商業化高。

徐棟:這可能是一個小的反共識,或誤區。從模型角度看,我覺得模型研發投入反而變大了。市場上每家公司、實驗室都說自己缺算力,這意味著他們的工作結果可以被定量衡量的,這是一個高度競爭的過程。只是它可能不像過去那么顯性,比如突然推出o1模型,它具有推理能力了,或者突然有了Nano Banana,它可以做編輯了。現在模型進入精耕細作階段,可能沒有太多極端的范式上的改變,但是有大量工程細節需要推敲。所以為什么成本在以量級下降?就是因為可以做的工作太多了,比如數據清洗、評價標準等,過去用規則,現在可以用模型,有大量細節工作可以做。


圖片生成質量在4個月里的進化 圖片來源:千問Qwen

泓君:現在模型研發主要表現在哪些方向?剛才我們講到了多模態是大家關注的重點,去年Agent大爆發,比如在Coding Agent方面,Anthropic和硅谷幾家大的模型廠商在代碼提升方向放了更多數據配比和優化。你覺得未來行業趨勢中,大家的模型研發在拼哪些方向?

徐棟:籠統講是Agentic能力。Agent或者Agentic這個詞,每個人定義都不一樣。從結果表現看,我期待的是一個模型能連續運行兩個星期,并拿到好結果。在這個過程中,它需要與環境不斷交互,它需要自己做思考判斷和假設。這樣的模型結果一定會是非常棒的。回到一開始講到的語言模型的投入方向:工具調用能力、上下文能力、復雜指令遵循能力、推理能力。這些能力不斷提升,組合起來會帶來實際業務落地的很大改變。

泓君:所以主要是精耕細作,而不是在模型智能上?

徐棟:對,這取決于智能的定義。如果智能可以打分,這些精耕細作都是讓智能分數越來越高。

02

從全景理解到自動剪輯

泓君:亓教授先來講一下,你們Insta360的產品是怎么樣跟AI結合的?

亓魯:我們是一家影像公司,使命是讓用戶更好地記錄和分享生活。所以與阿里的合作中,比較典型的是云端自動剪輯。我們希望用戶拍了一天或一整年的素材,能夠智能地剪輯成一條拿得出手或愿意分享的視頻,這對我們公司的戰略非常關鍵。

泓君:影石是我非常喜歡的公司,亓教授您可不可以詳細講一講,你們是怎么用到AI工具在視頻剪輯中的?


圖片來源:Insta360

亓魯:自動剪輯本身是一件特別主觀、玩法比較多的事情。難點不是把用戶片段拼起來,而是能命中用戶的剪輯意圖。不同人喜好不同:有的用戶在意故事延續性,希望視頻像一部小型紀錄片;有的用戶想要高光瞬間,讓影片節奏更快;還有的用戶注重氛圍和表達,比如配樂情緒、鏡頭語言、轉場風格。

所以我們與阿里的合作主要集中在兩個方面:一個是千問的多模態理解模型,另一個是萬相的視頻生成模型。前者偏感知和理解,后者偏特效生成。

泓君:假設我給AI工具輸入指令:“剪輯我所有從雪山滑下來失敗的瞬間?!彼紫纫斫庹Z義,其次要在視頻里分析哪些是失敗的瞬間。

亓魯:對。我們的多模態理解負責看懂用戶素材,理解每個片段發生了什么,進一步做高光提取、人物與事件判斷,最后將片段以結構化形式編排,讓素材成為有邏輯、有主線的內容組合。

泓君:你覺得現在整個模型的能力,它能理解到哪一步?能剪輯到哪一步?

亓魯:現在多模態理解在語義層面能滿足一定需求,更大的問題是如何進行用戶意圖識別。用戶意圖可能與素材無關,更多是用戶行為或給出的指示詞。但很多時候用戶自己也不知道如何表達想剪輯成什么樣。這是一個比較大的難點:怎么讓剪輯算法理解用戶到底想要什么。

泓君:就像用戶是不是一個好甲方,能否讓乙方清楚理解意圖。比如“失敗的瞬間”可能不夠,要說“從雪橇上飛出來的畫面”,給出更清晰客觀的定義,是這一步很難嗎?

亓魯:對。如果要求用戶給出清晰定義,那這個體驗也會很差。我們更希望用戶用模糊語句,我們就能理解。這在模型層面還比較難。

泓君:在你們用AI做影片時,推出了哪些具體功能?如何用到多模態的?可以跟大家講一講嗎?

亓魯:影石最核心的產品是全景相機,秉承“先拍后剪”理念:拍攝時用360度全角度覆蓋記錄現場,剪輯時再挑選最佳視角、最合適節奏,把內容講成故事。

全景素材與普通廣角相機不同,是360度全景圖。雖然通用大模型在預訓練階段會用到360度素材,但在海量平面素材面前,全景數據量就顯得很少,導致模型對360度全景素材理解較差。

影石會分為自研和調用API兩部分。我們通過自研的全景理解模型,先對全景素材進行高光提取,這是影石的核心技術壁壘,然后接入通用大模型進行平面內容編排。

泓君:哪部分自研,哪部分調用API?補充一句:從全景相機中提取可用素材,這個需求很硬核,因為你有一個主方向,可能三分之二素材是沒用的。

亓魯:如果是360度素材,即使場景相對單一,加上各種運鏡玩法,也可以讓素材更為生動。我們自研的部分主要是基于全景的多模態理解模型,后面更傾向于用通用大模型幫助理解平面素材。

泓君:比如用戶拍一段三分鐘左右的360度視頻,AI把最有亮點的環節剪出來,大概消耗什么成本?卡在哪?成本下降的核心驅動力是什么?

亓魯:用戶剪一段這樣的素材可能需要十幾塊錢成本,還是蠻貴的。我們希望在技術上解決,包括對模型輸入做更高的信息壓縮,因為全景素材可壓縮率較高。我們更希望結合全景特性,從技術手段上把Token數量壓下來。

03

不止是降本,更是增效

泓君:接下來聊第二個案例,語憶科技如何幫助大型零售公司用AI提升業務能力。呂總,我知道雀巢、寶潔、泡泡瑪特等都是你的客戶??梢韵冉榻B一下你們主要做什么嗎?

呂瀛杰:我們是為國內和跨境消費品牌提供全域消費者洞察分析的、AI ToB的一家SaaS公司。

泓君:可以分享一下你們怎么做AI,怎么與客戶合作嗎?

呂瀛杰:以前,中國消費品電商企業主要運營方式是通過產品買流量直接轉化客戶,非常依賴流量紅利。2023年后,流量紅利見頂,很多頭部企業逐漸意識到要從流量思維進化到“流量+消費者思維”,這就誕生了大量消費者調研需求。

企業在電商領域有很多消費者與客服溝通的數據,很多客戶曾用大模型直接對原始數據進行意圖理解和抽取,但他們自己做準確率連70%都達不到。

我們想幫他們解決這個問題。我們從2021、2022年開始用GPU跑顯卡,做了一個非常垂直的、針對不同行業的消費者意圖識別小模型??蛻粝M覀儗υ颊Z料打標,打出消費者畫像,并且識別意圖,幫他們搭建意圖識別Agent。

這些畫像不同于傳統投流用的年齡、職業等,而是與產品興趣直接相關,比如一個頭部美妝品牌,希望了解消費者膚質情況、使用產品后的反饋、是否過敏等。

泓君:這些信息怎么收集?我覺得這些信息很有用,比如我買護膚品或化妝品時,覺得選擇太復雜,研究清楚要花很久。

呂瀛杰:比如您買東西時,我們會讓客戶在接待話術中做埋點改造??蛻暨M線后,客服主動說:“我是您的護膚美妝顧問,為了更好地推薦產品,希望了解您的膚質情況?!边@樣改造后,消費者提及率會高很多。

這是一個方向。在處理過程中我們發現幾類意圖:第一類是消費者畫像;第二類是消費者對產品、服務、物流、營銷的反饋(正面或負面);第三類是歸因,舉個例子,一個國內頂級日化品企業,原來有六個員工人工登記退貨原因,對應責任部門,用于績效評定。我們幫他們搭建Agent歸因模型后,現在只有一個人復審。

泓君:你們與這些企業合作,他們用AI有好幾層動力。我們可以一個一個分析,取代客服可能是最常用的AI功能,你覺得效果好嗎?

呂瀛杰:我們不覺得是完全替代客服。客服工作流分售前接待和售后處理。售前接待中,客戶問產品問題,大模型經過知識庫訓練校準后,回答準確率可能比人還要好,非常棒。但客戶的真實咨詢場景更復雜,比如客戶問優惠券,大模型可能直接回答金額,但客戶接著問浙江地區能否參加國補,大模型再調取政策,如果再復雜到怎么湊單最能優惠,這樣延展下去,AI的準確率可能就不夠好。

泓君:在這些環節中,你們與基礎模型如何合作?以千問大模型為例,它們提供哪部分能力?

呂瀛杰:基座模型能提供消費者問題的意圖識別。其次,普遍做法是為客戶搭建AI知識庫,通過大模型識別意圖后,進入下一個工作流,用RAG方式獲取外掛知識庫。此外,大模型對知識庫清洗也有很大幫助,因為企業內部知識可能不是標準化文檔,可能有詳情頁圖片、Xmind工作流等。這么多復雜的知識源,都需要大模型梳理到知識庫中。這也是基座模型能力的重要體現。

泓君:你們選模型時最看重什么?是基座模型能力,還是調用接口?

呂瀛杰:我們的核心是幫品牌做消費者意圖識別理解,所以非常看重基座模型在這方面的能力。我們也有一些跨境的客戶,也有一些多語言的數據,我們測試過國內外模型,發現阿里的千問在電商場景的消費者意圖理解能力還是比較強的。

泓君:你們的位置很有意思:上游是基座模型,你們是中間層,下游連接想應用AI的企業客戶。你覺得這些客戶用AI是為了省成本還是增銷量?是做存量還是增量市場?

呂瀛杰:這是個動態發展的過程。2023年大家探索如何用AI幫助企業時,非常關注降本。但去年市場變化很大,很多企業發現用AI自動化節省一些人工,雖然能打平用人成本,但也沒有帶來特別大的效益價值。2024年下半年開始,越來越多企業想用AI增效,希望AI去幫他們發現深度的產品機會、消費者需求點,或老產品的新場景。

舉個例子,一個國內頂級家電品牌的高端產品線(客單價2萬以上),通過我們提供的AI消費者畫像識別和產品反饋分析,針對客戶功能需求設計營銷賣點、主播話術、客服話術。合作一年半后,整體銷量漲幅23%,高端線產品客單價提高6%以上。因為我們和這一個事業部合作效果很好,2025年他們把我們推薦給整個集團,每個事業部都接入了AI識別模型和SaaS產品、Agent能力。

泓君:像你們這樣一端連模型、一端連客戶的中間服務層,核心競爭力是什么?是對業務的理解深度,還是技術能力?

呂瀛杰:我們兩方面都有。我們會訓練針對不同行業意圖識別的模型,形成自己的數據飛輪??蛻艨吹降氖且鈭D識別標簽和成品Agent,但我們會留存數據訓練垂直模型,在意圖識別場域越來越準,尤其是對同類目的客戶。

更重要的是,客戶希望我們不僅是技術供應商,還能以行業專家的身份提供行業know-how,比如頭部企業如何應用AI產品,所以我們的客戶成功團隊

(CSM)
也會配置不同行業的專家提供服務。

泓君:有個更未來的問題:AI在意圖識別后匹配更精準商品,確實能帶來銷量提升和轉化。那么隨著越來越多行業和大品牌把AI打入工作流和銷售環節,最終所有企業都用上AI后,效果會不會慢慢變弱甚至追平?我們現在是否還在紅利期?

呂瀛杰:這個問題有意思。大家都升級軍火庫后,還有什么競爭力?我認為AI未來的價值核心還是掌握在人手里,看如何使用它。在意圖識別、方向匹配、Deep Research報告生成上,各企業可能大體一致。但最終決策者如何看待這些數據、挖掘AI處理后的洞察,非??慈说亩床炷芰ΑW詈筮€是要人找到真正的機會點。

泓君:這個總結特別好?,F在是在AI紅利期,越往后歸因,未來真正的好產品才最具競爭力。

呂瀛杰:對。所以好的產品經理、好的伙伴永遠有機會。我再提個題外話:AI對To B SaaS行業在客戶收費意識教育上起到了非常好的效果。以前中國To B企業客戶付費意愿和金額不高,因為他們認為誰都可以做軟件,價值不大。但AI這波影響很大,客戶明確認識到AI按Token計費,用了多少數據量就有相應成本,如果不付錢,就無法提供服務。在付費意識這塊,我們也在朝著美國To B市場同步。

【音頻收聽渠道】

公眾號:硅谷101

收聽渠道:蘋果|小宇宙|喜馬拉雅|蜻蜓FM|網易云音樂|QQ音樂|荔枝播客|嗶哩嗶哩

海外用戶:Apple Podcast|Spotify|TuneIn|Amazon Music

聯系我們:podcast@sv101.net

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
比亞迪宣布漲價,涉及部分選裝“天神之眼B”車型

比亞迪宣布漲價,涉及部分選裝“天神之眼B”車型

新京報
2026-04-29 12:34:30
2年發2400多視頻怨靈大哥續:網友高清修復曝光老太,女兒也不善

2年發2400多視頻怨靈大哥續:網友高清修復曝光老太,女兒也不善

奇思妙想草葉君
2026-04-27 01:45:11
躺平網紅受境外勢力資助?孫玉良:少年強則國強,少年躺平則國亡

躺平網紅受境外勢力資助?孫玉良:少年強則國強,少年躺平則國亡

孫玉良
2026-04-29 10:43:37
為什么說陽痿、跑步、心梗,成了“斬殺”中年男性的“三件套”?

為什么說陽痿、跑步、心梗,成了“斬殺”中年男性的“三件套”?

醫藥養生保健報社
2026-04-28 17:59:19
體制內工作滿30年的人,掀起了提前退休風

體制內工作滿30年的人,掀起了提前退休風

小陸搞笑日常
2026-04-28 18:26:39
鞏俐巴黎街頭與丈夫爭執摔花,77歲老公一個摸頭殺,全網破防

鞏俐巴黎街頭與丈夫爭執摔花,77歲老公一個摸頭殺,全網破防

茶余飯好
2026-04-27 20:20:50
1971年林彪一行出逃,次日江青找來秘書:我今天宣布一條命令

1971年林彪一行出逃,次日江青找來秘書:我今天宣布一條命令

顧秋韻
2026-04-29 07:58:40
中央政治局會議定調樓市,釋放新信號

中央政治局會議定調樓市,釋放新信號

21世紀經濟報道
2026-04-28 18:41:29
體制內“女兒國”現象越來越嚴重,領導吐槽:工作都不好開展!

體制內“女兒國”現象越來越嚴重,領導吐槽:工作都不好開展!

燈錦年
2026-04-27 14:10:17
潛逃前吳敬中送余則成一根金條,8年后切開才發現里面有膠卷

潛逃前吳敬中送余則成一根金條,8年后切開才發現里面有膠卷

卡西莫多的故事
2026-03-31 09:59:18
伊朗被大量未售出的石油淹沒,廢棄儲油罐已重啟

伊朗被大量未售出的石油淹沒,廢棄儲油罐已重啟

新浪財經
2026-04-28 15:40:36
“藏南”的管轄現狀,印度在藏南囤積重兵,中國還能收回藏南嗎?

“藏南”的管轄現狀,印度在藏南囤積重兵,中國還能收回藏南嗎?

共工之錨
2026-04-28 23:29:16
2015年,廣東老板舍棄百萬年薪,在終南山出家,妻子:愿再無來世

2015年,廣東老板舍棄百萬年薪,在終南山出家,妻子:愿再無來世

鍋鍋愛歷史
2026-04-28 04:00:10
“靠老公養,月薪三萬,不用帶娃”,兩年前全網羨慕的那個全職主婦,現狀讓人唏噓不已

“靠老公養,月薪三萬,不用帶娃”,兩年前全網羨慕的那個全職主婦,現狀讓人唏噓不已

橙子說說咱家娃
2026-04-29 08:10:38
辛柏青回應吳越撮合,沒有翻臉沒有接梗,把分寸和家人穩穩守住

辛柏青回應吳越撮合,沒有翻臉沒有接梗,把分寸和家人穩穩守住

一盅情懷
2026-04-28 17:18:29
魯尼:恩里克是頂級教頭,5-2領先還在大舉壓上爭取更多進球

魯尼:恩里克是頂級教頭,5-2領先還在大舉壓上爭取更多進球

懂球帝
2026-04-29 10:22:08
季后賽賽程安排引爭議,湖人連續2年輕松開局,聯盟不再照顧雷霆

季后賽賽程安排引爭議,湖人連續2年輕松開局,聯盟不再照顧雷霆

鐵甲西奇
2026-04-29 14:32:59
“果蔗大面積滯銷,都要爛在田里了!”廣東一糖廠出手:有多少收多少,榨完為止!廠外幾百輛貨車排隊,還給司機提供一日三餐

“果蔗大面積滯銷,都要爛在田里了!”廣東一糖廠出手:有多少收多少,榨完為止!廠外幾百輛貨車排隊,還給司機提供一日三餐

極目新聞
2026-04-29 12:10:43
重大進展!我國新發現13個億噸級油田

重大進展!我國新發現13個億噸級油田

看看新聞Knews
2026-04-29 12:28:10
釋新聞|阿聯酋出走OPEC,能源市場、阿拉伯聯盟與中東格局再洗牌

釋新聞|阿聯酋出走OPEC,能源市場、阿拉伯聯盟與中東格局再洗牌

澎湃新聞
2026-04-29 11:46:26
2026-04-29 15:15:00
硅谷101 incentive-icons
硅谷101
從這里駛向未來
171文章數 106關注度
往期回顧 全部

科技要聞

夭折的造富神話,逼著中國AI回去賺"慢錢"

頭條要聞

俄"受制裁"富豪的游艇通過霍爾木茲海峽 或獲美伊默許

頭條要聞

俄"受制裁"富豪的游艇通過霍爾木茲海峽 或獲美伊默許

體育要聞

一場九球狂歡,各路神仙批量下凡

娛樂要聞

馬頔一句話,孫楊媽媽怒罵節目組2小時

財經要聞

多地藥店違規串換商品套刷醫保揭秘

汽車要聞

配32寸升降屏 新款別克世紀CENTURY上市53.99萬起

態度原創

旅游
房產
藝術
本地
公開課

旅游要聞

連片芍藥花競相綻放 靈動又治愈

房產要聞

80億投資!浙商總部基地+海口北站,金沙灣這是要起飛?。?/h3>

藝術要聞

這些女神,竟然都是攝影師切爾尼亞季耶夫的復古作品!

本地新聞

用青花瓷的方式,打開西溪濕地

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版