文 | 陶魏斌
沒(méi)有跳票!
此前李彥宏透露的“百度有史以來(lái)最強(qiáng)大模型”,在今天(3月16日)如約而至——不但來(lái)了,百度還扔了一個(gè)炸彈。
打開文心一言的官網(wǎng),文心大模型4.5和文心大模型X1都已經(jīng)同步上線,這也預(yù)示著行業(yè)內(nèi)又重燃起大模型競(jìng)爭(zhēng)的戰(zhàn)火。
對(duì)廣大用戶而言,科技巨頭們的激烈競(jìng)爭(zhēng)就是一場(chǎng)福音。這意味著我們能夠享受到更高效、更智能的技術(shù)服務(wù),而且這一切大多是免費(fèi)的。
“硅基研究室”第一時(shí)間對(duì)文心X1和文心4.5進(jìn)行了全面測(cè)試,以探究它們究竟能為用戶帶來(lái)怎樣的體驗(yàn)升級(jí)。
測(cè)試下來(lái),感受最深的是,這兩款新版大模型,在性能上又實(shí)現(xiàn)了新突破,特別是文心X1在推理能力上,表現(xiàn)出的強(qiáng)大和專業(yè),令人震驚。
可以這么說(shuō),在很多場(chǎng)景上,文心X1扮演的已經(jīng)完全不是“實(shí)習(xí)生”,絕對(duì)算的上是一個(gè)成色很足的“專家”。
更關(guān)鍵的是,登陸文心一言官網(wǎng),這兩款大模型大家都可以免費(fèi)使用——百度這次真是下了血本,提前免費(fèi)向用戶開放了。
1、文心X1寫了份財(cái)報(bào)分析,把我們嚇到了
根據(jù)百度官方介紹,文心大模型X1具備更強(qiáng)的理解、規(guī)劃、反思、進(jìn)化能力,并支持多模態(tài),是首個(gè)自主運(yùn)用工具的深度思考模型。作為能力更全面的深度思考模型,文心大模型X1兼?zhèn)錅?zhǔn)確、創(chuàng)意和文采,在中文知識(shí)問(wèn)答、文學(xué)創(chuàng)作、文稿寫作、日常對(duì)話、邏輯推理、復(fù)雜計(jì)算及工具調(diào)用等方面表現(xiàn)尤為出色。
作為一名科技博主,第一時(shí)間想著,文心X1能不能幫我來(lái)寫一篇文章。
首先我們想到的是前段時(shí)間超火的Manus,看看文心X1會(huì)如何評(píng)價(jià)這個(gè)“當(dāng)紅炸子雞”。
我們輸入的提示詞是:
請(qǐng)針對(duì)最近爆火的Manus以及圍繞其引發(fā)的爭(zhēng)論,寫一篇2500字的評(píng)論,要求觀點(diǎn)明確,邏輯清晰,內(nèi)容準(zhǔn)確,文字流程,具有可讀性,符合互聯(lián)網(wǎng)傳播特色,同時(shí)體現(xiàn)專業(yè)性,有一定的思考。
很快,文心X1就開始干活了,首先它對(duì)我們的指令進(jìn)行了拆解和思考。
我們發(fā)現(xiàn)在這一階段,文心X1是不直接進(jìn)行聯(lián)網(wǎng)的,這個(gè)和DeepSeek的方案有一些差異——DS是首先進(jìn)行了檢索,然后根據(jù)搜索結(jié)果進(jìn)行拆解思考。
緊接著,文心X1開始聯(lián)網(wǎng)搜索,并把搜索結(jié)果和前面的推理思考進(jìn)行了融合。
不到1分鐘的時(shí)間,文心X1就輸出了一篇評(píng)論稿,整個(gè)過(guò)程非常的流暢,大家更關(guān)心的文章水平怎么樣,到底能不能用,我們?cè)谧詈髸?huì)展示整個(gè)過(guò)程,以及一字不改的文章,請(qǐng)大家來(lái)點(diǎn)評(píng)。
事實(shí)上,因?yàn)榘俣任男腦1是一款能自主運(yùn)用工具的大模型,所以文心X1是支持高級(jí)搜索、文檔問(wèn)答、圖片理解、AI繪圖、代碼解釋器、網(wǎng)頁(yè)鏈接讀取、TreeMind樹圖、百度學(xué)術(shù)檢索、商業(yè)信息查詢、加盟信息查詢等多款工具。
對(duì)于剛才的指令,我們實(shí)際上可以直接要求文心X1輸出Word形式的文檔。
鑒于此,我們準(zhǔn)備測(cè)試一下文心X1的“財(cái)經(jīng)”水平。
每年都3月-4月是A股上市公司的財(cái)報(bào)季,通常一則年度財(cái)務(wù)報(bào)告大多都有二三百頁(yè)。不要說(shuō)是非專業(yè)人士,就連財(cái)經(jīng)口的同學(xué)看起來(lái)也都特別費(fèi)神,再加上A股這么多公司,光重點(diǎn)行業(yè)、重點(diǎn)關(guān)注的上市公司,少說(shuō)都有上百家,這實(shí)在是一項(xiàng)巨大的工程量。
于是我們就準(zhǔn)備扔給文心X1,看看它能不能扮演“財(cái)經(jīng)專家”的角色。
首先我們找來(lái)這個(gè)周末剛剛出爐的寧德時(shí)代財(cái)報(bào),一共229頁(yè)。
我們把下載下來(lái)的PDF格式文檔,上傳給文心X1,輸入了相關(guān)指令:
你現(xiàn)在是一名財(cái)經(jīng)專業(yè)分析師,請(qǐng)根據(jù)上傳的寧德時(shí)代2024年年度報(bào)告文檔,提煉出寧德時(shí)代的業(yè)績(jī)亮點(diǎn),同時(shí)用一句話做點(diǎn)評(píng),要求客觀專業(yè),并通俗易懂,最后再擬5個(gè)適合互聯(lián)網(wǎng)傳播的業(yè)績(jī)分析標(biāo)題。
在這段指令當(dāng)中,我們其實(shí)提出來(lái)三個(gè)不同類型的要求,第一個(gè)是分析亮點(diǎn),第二個(gè)是做點(diǎn)評(píng),第三還要擬標(biāo)題。
我們看看文心X1是怎么干的:
這個(gè)過(guò)程我們覺(jué)得幾乎可以拿滿分,非常準(zhǔn)確清晰地理解了我們的意圖,并開始閱讀文檔。
可能因?yàn)槲臋n內(nèi)容比較豐富,文心X1花了將近1分鐘的時(shí)間去提取——是不是我們的要求太高了,如果是人工去翻閱的話,再專業(yè)的財(cái)務(wù)人員也需要半小時(shí)以上,但對(duì)于AI,我們居然超過(guò)30秒,都有點(diǎn)……不耐煩了。
不過(guò)好在文心X1在閱讀完財(cái)報(bào)后,結(jié)果的輸出還是很快。
最終,文心X1在2分鐘以內(nèi),完成了我們輸入的指定。
那這個(gè)回答到底專業(yè)不專業(yè)?我們找來(lái)我們經(jīng)常看到一個(gè)財(cái)經(jīng)分析師在自己公眾號(hào)上的分析,可以作為一個(gè)對(duì)比。
可以這么說(shuō),專業(yè)分析師關(guān)注的點(diǎn),文心X1已經(jīng)全部做了提煉,并且也作為關(guān)鍵核心信息去做了分析。
這就很可怕了,要知道要成為一名能被行業(yè)內(nèi)認(rèn)可的專業(yè)財(cái)經(jīng)分析師,沒(méi)有10年的積累幾乎是不可能的,但現(xiàn)在文心X1的表現(xiàn)已經(jīng)有模有樣了。
某種程度上來(lái)說(shuō),文心X1還是一個(gè)多面手,不但給你做了財(cái)經(jīng)方面的專業(yè)分析,還能成為一位財(cái)經(jīng)記者,給你用一句話去總結(jié)好,還幫你擬好適合在網(wǎng)上傳播的標(biāo)題——在現(xiàn)實(shí)生活中,一個(gè)財(cái)經(jīng)分析師和一個(gè)財(cái)經(jīng)記者,往往很難在同一個(gè)人身上復(fù)合。
而且,一般來(lái)說(shuō),財(cái)經(jīng)分析師也都有自己熟悉和擅長(zhǎng)的行業(yè),但對(duì)于文心X1來(lái)說(shuō),上一秒它可以給你分析寧德時(shí)代,下一秒馬上可以跟你接著分析茅臺(tái)股份或者建設(shè)銀行。
想想這個(gè)就覺(jué)得——人類太弱小了。
2、不敢直視,妥妥的多面手
體驗(yàn)完文心X1,我們繼續(xù)把目光瞄向了文心大模型4.5。
這個(gè)百度首個(gè)原生多模態(tài)大模型,此前還沒(méi)有面世,就已經(jīng)被冠以“百度史上最強(qiáng)”了,“硅基研究室”第一時(shí)間親測(cè),看看到底有哪些強(qiáng)悍的能力,能不能超越此前帶給大家驚艷的DeepSeek R1。
官方給出的介紹比較簡(jiǎn)單,稱“文心大模型4.5是百度自主研發(fā)的新一代原生多模態(tài)基礎(chǔ)大模型,通過(guò)多個(gè)模態(tài)聯(lián)合建模實(shí)現(xiàn)協(xié)同優(yōu)化,多模態(tài)理解能力優(yōu)秀;具備更精進(jìn)的語(yǔ)言能力,理解、生成、邏輯、記憶能力全面提升,去幻覺(jué)、邏輯推理、代碼能力顯著提升。”
翻譯成大白話就是,文心4.5是多模態(tài)的。
市面上現(xiàn)在很多的大模型是單一功能的,比如有的是推理回答,有的是用來(lái)作圖的,有的是擅長(zhǎng)做視頻的,大家在用的時(shí)候,就需要在各種大模型之間不停輸入輸出,才能完成真正的工作要求。
插一句,之前走紅的Manus,就是把各種大模型“套”在了一起,幫你一個(gè)流程解決了。但它有一個(gè)問(wèn)題是,因?yàn)楦鱾€(gè)大模型之間的指令和語(yǔ)句理解都不一樣,很容易最后出現(xiàn)走樣。
文心4.5的這個(gè)多模態(tài)是原生多模態(tài)——這個(gè)能聽,能說(shuō),能唱,能畫的“助理”,是同一個(gè)大腦指揮的。
這就很符合人類思考的本質(zhì),能做到效率和效果的雙保障。
另一方面,文心4.5還特意指出來(lái)“去幻覺(jué)”的概念。DeepSeek的流行,讓很多人化身成為“作家”,不僅文筆斐然,還特別會(huì)“編故事”,導(dǎo)致出現(xiàn)了很多“無(wú)中生有”和“張冠李戴”的情況。
廢話不說(shuō),提前來(lái)測(cè)一波。
作為自媒體博主,圖片版權(quán)問(wèn)題一直是困擾這個(gè)行業(yè)的難題,稍不留神就會(huì)造成圖片侵權(quán)。
這次我們就讓文心4.5來(lái)根據(jù)提供的文字,來(lái)匹配生成不同平臺(tái),比如小紅書、微博、公眾號(hào)等不同類型的圖片。
我們先在微博上,找到人民日?qǐng)?bào)今天發(fā)的這個(gè)早安語(yǔ),然后請(qǐng)文心4.5來(lái)配圖。
馬上開干。
放大看一下,一眼看去很有宮崎駿的風(fēng)格。
第二個(gè)任務(wù)是生成適合小紅書發(fā)布的圖片。
這張真的很合適。
還有關(guān)鍵的一點(diǎn)是,“懂事”的文心4.5,實(shí)際上還調(diào)整了圖片的格式——微博是橫屏,而小紅書的圖片是豎直圖,而這一點(diǎn)完全是它自己理解分析的。
接下來(lái)是微信公眾號(hào)的配圖。
坦白來(lái)說(shuō),這個(gè)和微博配圖有點(diǎn)重復(fù)了,這個(gè)當(dāng)然很大原因是,我們輸入的指定幾乎是相同的——至于我們?yōu)槭裁催@么做,是想讓指令輸入者以“小白”的形式出現(xiàn),不需要懂太多“輸入詞”的熟練工。
令人意外的是,文心4.5好像也發(fā)現(xiàn)了這一點(diǎn),它馬上貼心地給出了提示:
我們點(diǎn)了“改為極簡(jiǎn)主義風(fēng)格”,效果出來(lái)了:
可以這么說(shuō),這個(gè)配圖水平,可以適配市面上80%以上的內(nèi)容創(chuàng)作者,而且不需要你掌握太多的“提示詞”技巧,你可以直接把你的文章丟給文心4.5,剩下的就是——驗(yàn)收。
測(cè)試完文字生成圖片后,我們拉來(lái)個(gè)另一個(gè)家庭場(chǎng)景——給孩子輔導(dǎo)作業(yè)。
網(wǎng)上有個(gè)段子,說(shuō)“不談學(xué)習(xí),母慈子孝,連摟帶抱;一談學(xué)習(xí),雞飛狗跳,嗚嗷嗷叫;讓老人血壓高,讓鄰居不睡覺(jué)”。
而且這還是在能輔導(dǎo)作業(yè)的情況下,很多時(shí)候,家長(zhǎng)的那點(diǎn)知識(shí)都還給了學(xué)校老師,基本就沒(méi)有那個(gè)能力輔導(dǎo)了。
如果文心4.5能扮演“家庭老師”的身份,輔助解決孩子的學(xué)習(xí)困難,那能“解放”很多的家長(zhǎng)了。
先來(lái)一題物理的電力問(wèn)題:
注意,我們是直接拍照給到的一張圖片,這很符合家庭的場(chǎng)景,家長(zhǎng)直接從孩子的作業(yè)里,拍個(gè)照片進(jìn)行上傳。
很快,答案就出來(lái)了。
不但有答案,還非常清晰地給出了詳細(xì)的答題過(guò)程。
要知道,現(xiàn)在市面上的很多中小學(xué)輔導(dǎo)軟件,基本上都是收費(fèi)的,你想看答案看過(guò)程,那就要充值付費(fèi),而文心4.5可是——免費(fèi)的。
3、讓更多“打工人”受益是關(guān)鍵
坦白來(lái)說(shuō),幾輪測(cè)試體驗(yàn)下來(lái),“硅基研究室”的幾個(gè)同學(xué)已經(jīng)從興奮勁,摻雜了一點(diǎn)點(diǎn)小困惑。
興奮是因?yàn)椋男牡膹?qiáng)大是顯而易見的,而且文心的原生多模態(tài)特點(diǎn),效率特別的高,并且能解決目前大家對(duì)推理大模型詬病比較多的“幻覺(jué)”問(wèn)題。
在這測(cè)試過(guò)程中,我們還重點(diǎn)讓文心X1做了很多的挑戰(zhàn),比如回答經(jīng)典的“孤島紅眼睛、藍(lán)眼睛島民關(guān)系”的推理題;比如寫了一篇“劇本殺級(jí)別的懸疑推理故事”;比如設(shè)計(jì)安排了“五一結(jié)婚需要做的準(zhǔn)備事項(xiàng)安排”等等。
最終文心X1給出的答案都是專家級(jí)別的,感興趣的朋友,可以自己去文心一言的官網(wǎng)去體驗(yàn),現(xiàn)在都是免費(fèi)的。
困惑在于,像百度文心這樣強(qiáng)大的AI大模型出現(xiàn),確實(shí)迫使我們?nèi)ニ伎迹?strong>作為人類,我們應(yīng)該如何去合理應(yīng)用和掌握這些工具,最終真正提升生產(chǎn)能力——而不是被取代。
這兩年大模型工具的應(yīng)用已經(jīng)越來(lái)越普遍了。以百度文心為例,去年文心大模型日均調(diào)用量持續(xù)高速增長(zhǎng),與2023年同期的5000萬(wàn)次相比,一年增長(zhǎng)33倍至16.5億。
這個(gè)背后,是百度一直堅(jiān)持壓強(qiáng)式、馬拉松式的研發(fā)投入。數(shù)據(jù)顯示,近十年百度累計(jì)研發(fā)投入超過(guò)1800億元,以大模型為核心的人工智能專利申請(qǐng)量、授權(quán)量,都是國(guó)內(nèi)第一,全球領(lǐng)先,其中深度學(xué)習(xí)相關(guān)的專利申請(qǐng)量全球第一。
“我們相信只有規(guī)模化的應(yīng)用才能讓技術(shù)發(fā)揮它的價(jià)值。”李彥宏在百度25周年全員信中這樣表示。
事實(shí)上,只有讓最前沿的技術(shù)產(chǎn)品化、商業(yè)化,才讓更多的人從中受益。
根據(jù)我們收到的信息,百度文心X1的價(jià)格是DeepSeek R1的一半,文心4.5價(jià)格是GPT4.5的1%,相信這樣的價(jià)格能惠及更多的商業(yè)用戶以及讓大模型助力工業(yè)生產(chǎn)。
回到我們最開始的測(cè)試,不賣關(guān)子了,我們把文心X1寫的這篇一字不改呈現(xiàn)出來(lái),請(qǐng)你來(lái)點(diǎn)評(píng):
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.