過去曾經做過一些 AI 的評測:
這么久過去,之所以沒有再做評測,是因為時代又變化了。
評測是技術還沒有成熟階段,對 AI 的技術發展到什么程度的感知。
如果 AI 已經融入生活,那就沒必要用固定的問題集去拷問 AI,就如同高考題不能決定出一個好員工一樣,AI 現在在產品層面發展到什么程度,是用戶日常使用決定的,而不是雞兔同籠的回答能力決定的。
從 2025 年開始,AI 也的確進入了場景拼殺的深水區。這件事兒在年初跟莊明浩的那期播客里也提到過。技術的壓榨到頭了,產品的競爭開始白熱化。
所以今天就跟各位分享一下,AI 于我而言,日常的主要使用場景。時過境遷,再回頭做比較,可能頗有意思。
先說總結的話,就是 AI 的日常比例已經挺高了。未必是新需求,多數是過去需求的迭代和進化,有的笨拙和機械的工作,被 AI 很好地替代了。
這是我使用習慣的總表:
資料整理,海外,搭配搜索:Gemini > ChatGPT > 騰訊元寶(DeepSeek) > 秘塔 > DeepSeek > 豆包
資料整理,國內,搭配搜索: 騰訊元寶(DeepSeek)> 秘塔 > 夸克 > Gemini > ChatGPT > DeepSeek> 豆包
深度整理,搭配文檔:ChatGPT
文章查漏補缺: Gemini、ChatGPT、騰訊元寶(DeepSeek)、DeepSeek 、豆包
學習常識:騰訊元寶(DeepSeek)、豆包
知識庫問答:ima.coplit
美工:Midjourney、 ChatGPT o3
翻譯轉寫: Claude 4 、豆包
代碼編程:Trae
邊拍邊學:ChatGPT o3、豆包
旅行中搭配的深度閱讀:Gemini 、ChatGPT、夸克
辦事文檔撰寫:ChatGPT、騰訊元寶(DeepSeek)、Gemini、百度文庫
記錄夢境/照片處理:ChatGPT o3
視頻:Veo 3、即夢、可靈
音頻:MiniMax、NotebookLM、扣子空間
生產力
深度整理:任勞任怨的兼職員工
在 23 年寫稿子很疲憊的時候,我還跟搭檔瀟磊聊過,我們不光剪輯方面需要兼職,也許整理稿子方面,也需要兼職。不需要幫我們寫稿,只幫我們把相關的資料,按照時間線做一份整理,就能大大節省時間和精力。
現在,員工就位了,只是跟之前想象的不一樣。
從去年底,配合聯網能力,AI 做長篇幅框架整理的能力大幅提升。我在播客的前期工作,尤其「半拿鐵」的撰寫工作里,已經離不開 AI 這個兼職員工。
從效果看,目前的大概排名是:
海外話題:Gemini > ChatGPT > 騰訊元寶(DeepSeek) > 秘塔 > DeepSeek > 豆包
國內話題: 騰訊元寶(DeepSeek)> 秘塔 > 夸克 > Gemini > ChatGPT > DeepSeek> 豆包
之所以是這種情況,我自己的體會是,并非底模的技術水平差異,而是單純語料庫的區別,尤其是獨有的語料庫。
底模提供的是基礎的邏輯能力,在知識和信息上常有錯漏以及幻覺。這也是為什么要接入外部搜索內容作為補充的緣故。
而 Gemini 是 Google 自家的產品,接入的搜索引擎內容多樣且品質很高。
ChatGPT 有時整理的結構更好,可惜參考的資料總是不夠。
比如以星巴克發展史為例,ChatGPT 的 Deep Research 只能整理自 56 個搜索來源,而 Gemini 的 Deep Research 可以整理自 300 個以上的搜索結果。
國內的情況是,眾所周知的原因,搜索引擎已經廢掉了。在整理長內容,做研究時,公開的可用的內容主要來自兩方面:
- 微信公眾號(騰訊元寶獨有)
- 學術論文和文庫(秘塔和百度系產品)
- 播客(秘塔可以搜,但目前效果一般)
這讓元寶和秘塔哪怕在底模方面沒有太大競爭力,但整理的資料都效果很不錯。
像秘塔這個研究,也引用了 209 個來源:
未來 ChatBot 這一形態,產品層面會在至少兩個方向演化:
第一,獨有的知識庫、數據庫。
第二,深度研究,長輸入,長輸出。
先說第二點吧。
深度研究,深度福音
Deep Research (深度研究)真是作為文字工作者,或者課題研究者的深度福音。
討論一個長篇幅的課題的時候,普通的問答,不管是 ChatGPT,還是 DeepSeek,都是只能大略回答,要么語焉不詳。
要想跟他們聊明白星巴克的發展歷史、古代希臘哲學的核心脈絡,也不是不能聊,就是你得提前有一些儲備,或者要通過長期反復的對話,然后不斷自己梳理。
而一口氣能給出一份 3 萬字的詳細文稿,實在是省事兒太多。
前面提到, Gemini 能很好地整理互聯網公開的內容。所以像梳理一個完整的脈絡,效果很好。
例如半拿鐵近期要做的「中國互聯網故事」,大概會是至少 20 期的系列。那么如何分期才能保證系列的流暢性,以及還要保證盡可能覆蓋完整不要有遺漏、保證每一期都有足夠的故事性以及關聯度。就是個需要在架構上反復打磨的事情。
Gemini 能幫上不少忙。
而在另一個場景,ChatGPT 的 Deep Research 也相當有用。就是整理文本。
如果手頭有幾十萬、上百萬甚至更多的文檔內容,只想要 AI 完全根據這些內容整理成長文,那 ChatGPT 的 Deep Research 是不二之選。
這是我曾經嘗試讓 ChatGPT 的 Deep Research ,根據我過去的播客文稿,參考肯德基創始人的傳記,撰寫的 Prompt。
后來輸出的文稿,雖說不能直接使用,但是有了底稿調整,效率大大提升。
熟練掌握 Gemini 和 ChatGPT 的 Deep Research 之后,撰寫半拿鐵稿件的時間成本,至少降低了一半。
目前有 Deep Research 的不僅是這兩家,包括Perplexity 和 Grok 也有。我用的還不多。
國內秘塔也算是有研究模式,不過輸出的篇幅還不夠長。夸克也上線了深度研究,作為中文語料世界的搭配,還不錯(目前需要邀請碼)。
查漏補缺:校對官
如今每次整理完稿件,我都會扔給幾乎每個 AI (對,每個 AI,其實復制粘貼成本很低的),讓 AI 幫我校對。
通常能發現很多問題,也能補充不少資料。
知識學習:有交互的電子詞典
在整理稿件時,遇到不熟悉的概念,過去要至少翻閱幾篇文章學習,有的文章寫得可讀性很差,就要花不少工夫甄選。
現在投喂給 AI,能夠快速得到清晰簡潔的結論。而且拿不準的還能繼續追問。
這個場景下,幾乎已經替代搜索引擎了。
在這一場景下,用的最多的是騰訊元寶和豆包。
對于更客觀的、不太會有爭議的、歷史比較久遠的概念解讀,用豆包比較多,速度快,效果好。而對于新發生的事情,尤其要根據搜索結果來做整合的,那還是得用元寶,還是前面的道理,微信公眾號的資料是獨家的。
封面圖:美工
我很早就用 AI 生圖做封面了。作為平面的美工,只要掌握一些技巧,用 AI 生成的效果都很好。這就不多解釋了。
用的比較多的就是 Midjourney 和 ChatGPT o3。前者品質更高,后者更加可控。
這是近期的封面,分別是 Midjourney 和 ChatGPT o3 生成:
半文言文轉寫:翻譯助理
「半拿鐵·西游篇」是一檔講西游記原著的播客。在 AI 轉寫能力粗糙的時候,都是我一個字一個字手打的。幾乎每句話都要反復去搜索和查詢概念。
從今年初,AI 的轉寫已經完全能夠完成 80% 以上的底稿了。在讓 AI 處理完西游記原文之后,我只需要每句話做刪減、調整、增加一些笑料和口語化的表達,就能成文。
在前期準備工作的時間成本,降低到原本的 1/3。
這是我迭代了 7、8 個版本后,目前在用的 Prompt。
這是效果:
在做西游篇的稿件的時候,我忽然有種感觸:未來的譯本也許會千人千面。
在譯本領域常常見到一些討論乃至爭論,就是一本名著,誰的譯本更好,誰的還原度更高。而 AI 翻譯的顛覆性在于,任何人都可以定制一份自己的譯本。
像西游記這種經典名著,既可以要求用嚴肅的翻譯風格,也可以用詼諧的評書風格。可以寫成讓小朋友都懂的文本,也可以寫成公務員體制內的趣味版本。還可以定制為哪個翻譯大家的、文學大家的風格,不管是莫言還是余華的,是西式小說,還是元雜劇風的。全都是改幾句 Prompt 的事兒。
未來的譯本行業也許會有天翻地覆的變化了。
私人知識庫:未來形態的圖書館
前面提到了 ChatBot 的兩個發展方向,一個是深度。另一個就是信息的差異化。
騰訊出品的 ima.copilot 是知識庫的代表產品,我很喜歡,日常使用頻次也在提升。簡單說,就是可以投喂大量的數據(而不是常見的幾個文檔就到頭了),可以直接跟知識庫對話。如果你有記錄的習慣,那就相當于直接跟過去的自己對話。
比如,我就把過去幾乎所有創作過的內容都投喂進去了。一共有 274 篇文檔,毛估在 300 萬字左右。
對話的效果如下:
可以簡單理解為就是一個從私有資料池子里搜索的騰訊元寶或者豆包。
之前跟 ima 團隊的朋友交流過,聊到未來知識庫的「整理」變得沒那么重要,而「采集」變得更重要,獨特的篩選標準,以及采集邏輯,是決定知識庫的價值的。ima 里也有很多篩選自己喜歡的內容而形成的公開知識庫。
過去的互聯網像是一個大醬缸,一個無限開放的圖書館。而每個公眾號、每個文章又像是一本書、一個小冊子。AI 能力可以找到中間的平衡,我們可以有一個私人定制的圖書館,比如把我們習慣的書、資料和信源整理到一起,就不用擔心被污染。或者也可以參考別人的圖書館。
為什么需要私人圖書館呢?因為哪怕同個話題,也有完全不同的觀點,不存在絕對意義上客觀的資料。比如投資而言,價值投資派系的資料就能形成一份資料庫,而價值投資也是不同人有不同的派系,那也可以整理自己最喜歡的,比如有知有行的資料進去,讓 AI 消化,跟它對話。
這會是相當有價值的產品形態,也難怪馬化騰在電話會上都拿 ima 舉例子了。(我跟 ima 團隊對談的那期播客,近期應該會發布,在騰訊官方播客「以鵝傳鵝」,可以關注一下。)
對內容創作者自己來說,沉淀好自己的內容也特別有意義,有的不存不用確實就容易丟了。哪怕對別人沒用,自己時常反芻也很有幫助。坦白說,很多我思考過的東西都忘了。用 ima 總有種終于能找回自己過去的觀察和思考的感覺。
代碼:小試牛刀
很慚愧的是,明明有挺多想法,明明自己都常說產品經理也有機會做產品了,明明也有了 Trae 的試用邀請碼,但就是沒有多花時間精力用起來。
更多的是日常寫寫小的腳本,例如下載 PDF、合并 MD 文檔這種自用的小功能。今年下半年的目標是多用一下,多體會一下。據說 Claude 4 又上了一層樓,我還只見過豬跑,需要再吃點豬肉再來說味道。
AI 代碼編程是今年非常明確的,場景很落地,商業上又很閉環的 AI 領域。
前陣子去參加螞蟻技術日,他們的 AI 黑客松,有一個印象很深的項目,就是一個產品經理,在 48 小時內,完全依靠 Claude 完成了一個可用的產品。
當時我最大的感受就是,兩年前的 AI 黑客松還很需要程序員,現在的 AI 黑客松不太需要了。另外就是幾乎所有團隊都用到了 AI 編程,完成度都極高,都有 Demo 可以展示。
總的來說,作為一個內容創作者,生產力方面,毛估有 50% 的工作是 AI 在替代我完成的。這個比例還會增加,不過完全替代還是很有難度。最終的碼字表達目前還得自己來,不管投喂多少個人語料,生成的內容都是差點事兒的。
生活知識 - 隨時問答
我做內容的初衷就是滿足性格中的一個特點,好奇心。小時候我翻爺爺的辭海,都能翻一個小時不眨眼的。遇到有意思的長輩,也總能聽他多嘮幾句。
現在 AI 滿足了我隨時能問答的訴求。就仿佛是有一個萬事通,一個活了幾千歲的百曉生在身邊。
列舉一下我最近一周問過元寶和豆包的問題:
- 微眾銀行是普通銀行嗎?
- 飛機艙位代碼有統一標準嗎?
- the last of us 里的 艾莉 年齡多大?
- 段永平說的六頂帽子是什么?
- 日本的離境稅是怎么征收的?
- 查爾斯·勞頓是誰?
- vivo 的 i 音樂里的歌曲是哪方的版權?
- 中國梭子蟹的主要產地是?
- 像 歌手 這樣的綜藝,用的話筒一般都是什么話筒?
- 大英帝國勛章的等級有哪些?
- 韋馱菩薩是誰?
- 托卡馬克裝置是什么?
- IMARC 是一家怎樣的機構?
- 杭州東站停車怎么比較方便
- 為什么很多博主用微單拍攝視頻,而不是用攝像機?
當初我對辭海的感受就是,書里的知識太少了,相知道的都搜不出來。如今真的有能萬事皆知的真正的「辭海」了。
好奇心之外,也有很多非常硬的知識。例如醫學知識。人到中年,去醫院的次數變多。看到拍的片子,都會先問問元寶。讓醫生診斷是必不可少的步驟,不過有一些背景知識,醫生不會那么詳細解釋的。
像一份報告的很多細節,都有詳細補充。不理解的還可以繼續追問,耐心十足。
我之前頭皮有不舒服,被診斷為脂溢性皮炎,后來又診斷為銀屑病。問了醫生,兩個病的差異很大。但是后來開的藥都非常接近。還是元寶解決了我的疑問。
另外有頭皮炎癥、前額經常掉頭皮屑的朋友,也推薦試試這款藥。我自己的體會是藥到病除,效果極佳。
邊拍邊學 - 「辭海」的多模態
還是 o3,我已經習慣性拍一下問問它圖里是什么、這是在哪里。
給出的回答,經常包含了具體的特定名詞(例如,花窗),以及擴展的介紹。比起鋼鐵俠的賈維斯來說,步驟要多一些,沒法所見即所得,而是所見要上傳給 AI。但終于能夠實現,所見的,AI 都能跟你聊兩句,調取原則上全部的知識。
目前我是用 Meta 眼鏡的,不過調用 Meta AI 需要技術手段,比較麻煩。
用豆包耳機倒是體驗還不錯()。
近期雷鳥也發布了 X3 Pro AR 眼鏡。不知道實機效果如何,有朋友有測試機的話,可以考慮給我一臺試試~
這種能夠讓 AI 所見即所得的硬件設備,會是接下來的重點方向,也是兵家必爭之地。
旅行伴侶 - 深度閱讀
借著 Deep Research 的功能,如今每次出行,我也都會讓幾個 AI 幫我整理一份隨行閱讀文檔,了解當地的歷史文化。
月底準備去挪威,Gemini 整理的這份挪威歷史故事文集,就是相當好的讀物,像本小冊子。為什么不直接讀介紹挪威歷史的小冊子?沒有。我搜了很久,就是沒有合適的。
承接前文說的譯本的出版變化,可以自然拓展到,也許未來數字出版行業都會有革命性變化:(除了較新的,)知識就在這里了,出版都會變得千人千面。想讀的書,自己就能來出版。
地址在這里,也可以復制粘貼去瞅瞅,這是個幾分鐘就能「數字出版」的一本小冊子:
liufeinotes.feishu.cn/docx/TsrSdVcJroRVlyxkdeVcBwSWnFh
辦事文檔撰寫:手打模板不存在了
AI 來寫規整的辦事文檔,特別擅長,不用多說。
未來不用再去搜索各式各樣的模板,改來改去,改完再填空。而是提供信息后,很多文書的內容都可以沒有瑕疵地生成。
再疊加翻譯能力,大大省事兒。
像我在準備去挪威的簽證的時候,需要有一個行程表。而需要參考的信息比較雜,包括我的多段航班、郵輪,所住的城市和酒店,市內和城市間交通,以及旅行景點的信息。
我沒有管格式,全部都扔給 ChatGPT 完成。幾秒鐘就得到結果,轉給簽證代理,反饋是完整可用。
而如果說模板的全面性,的確百度文庫更有競爭力。文庫的內容能支持完成各式寫作。
記錄夢境:小趣味
自從 ChatGPT o3 能在生圖的時候很好地理解 Prompt 之后,我都會讓 o3 幫我記錄我昨晚做的夢。
有的畫的不符合夢境,還能調整修改。這個記錄是我個人的小趣味,倒未必是每個人的需求。
照片處理:小場景
清除游客和做一些定向的修正,o3 目前還是無出其右的水平。像這張圖,消除游客后,甚至能讓人看到千年之前的水塘是怎么樣的:
當然也有問題,遠處隱隱可見的小亭(樓閣)也給消除掉了。還有提升空間。
未來 AI 修圖和 AI 生圖也許會有更緊密的聯系。會越來越智能。
視頻生成:講一個故事
現在視頻生成的效果,無論國內還是海外,都已經達到可以用來講故事,制作一個短片的程度了。不過調試和后期處理的成本還是很高。
這是我用 Veo 3 做的片段合集:
更好的作品可以參考汗青的視頻號:
音頻目前效果最好的是 MiniMax 、NotebookLM 和扣子空間(space.coze.cn)。目前對我而言,更多是把一些文本更順暢地制作成可以聽的內容,在開車和散步的時候聽。在播客制作上暫時還替代不了人的真實情緒。
大家也可以一試。尤其扣子空間,目前用的是播客圈大家熟悉的主播,楊大壹和咪仔的聲音,很親切。
這是根據以上內容生成的一個較短的演示:
就整體的生活場景而言,AI 的滲透率也在逐步提升。
總體而言就是這樣了,過半年再來看看。
希望能有啟發。
題圖由 Midjourney 繪制。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.