作者 | 山竹
出品 | 鋅產(chǎn)業(yè)(公眾號:xinchanye2021)
2023年12月13日,全球科技頂刊《Nature》發(fā)布年度十大人物,與以往不同的是,今年的Nature’s 10額外增加了一個(gè)非人類,ChatGPT。
2023年12月20日,國家語言資源監(jiān)測與研究中心、商務(wù)印書館等單位聯(lián)合主辦的“漢語盤點(diǎn)2023”公布的年度國際詞,同樣是ChatGPT。
ChatGPT讓大模型席卷全球,大模型被全球科技領(lǐng)袖定義為一次顛覆式科技革命。
微軟CEO Satya Nadella說,“AI是我正在經(jīng)歷的第五次重大變革。”
騰訊CEO馬化騰說,“AI是幾百年不遇、類似發(fā)明電的工業(yè)革命一樣的機(jī)遇。”
英偉達(dá)CEO黃仁勛更是大膽預(yù)測,“兩年之內(nèi),英偉達(dá)乃至整個(gè)行業(yè)都會面目全非。”
我們不是先知,無法預(yù)見未來,但全球這些最具影響力、最有資源的企業(yè)領(lǐng)袖一致警覺和大手筆投入,必然會在短期內(nèi)形成一個(gè)不可逆的產(chǎn)業(yè)趨勢。
因此,無論能否對社會帶來顛覆性改變,或者能夠帶來多大的改變,大模型都值得每個(gè)人分出一部分精力去了解、關(guān)注。
12月24日,在中國信通院人工智能論壇上,智源研究院大模型行業(yè)應(yīng)用負(fù)責(zé)人周華、中國移動研究院AI中心副總經(jīng)理金鏑、華為云產(chǎn)業(yè)發(fā)展高級專家翟傳璞、硅動科技CEO袁俊輝、科大訊飛北京研究院院長助理李家琦、國網(wǎng)智能電網(wǎng)研究院計(jì)算及應(yīng)用研究所副所長石聰聰就大模型落地難題進(jìn)行了一場對話。
值得注意的是,這些人是大模型時(shí)代國內(nèi)最先覺醒的那批親歷者、實(shí)踐者、創(chuàng)業(yè)者,也是國內(nèi)大模型研究、應(yīng)用、創(chuàng)業(yè)者中最典型的代表。
周華說,現(xiàn)在的大模型還是一個(gè)“文科生”;
袁進(jìn)輝說,大模型亟需訪存密集型專用芯片;
金鏑說,從「小模型」到「大模型」思路難轉(zhuǎn)變;
翟傳璞說,算力也應(yīng)該有如云服務(wù)一樣的租賃模式;
石聰聰說,大模型在行業(yè)中還沒有一個(gè)很成熟的案例;
李家琦講述了科大訊飛科技文獻(xiàn)行業(yè)大模型落地過程中從中科院文獻(xiàn)中心的“借兵”經(jīng)歷;
他們這一年的親身經(jīng)歷與所思所想,是中國大模型產(chǎn)業(yè)發(fā)展最好的沉淀。
從中,鋅產(chǎn)業(yè)總結(jié)了大模型落地的十大難題,它們分別是:
算力不足、行業(yè)數(shù)據(jù)不足、應(yīng)用經(jīng)驗(yàn)不足、缺少專用芯片、數(shù)據(jù)處理難題、數(shù)據(jù)微調(diào)難題、思維模式轉(zhuǎn)變難題、成本超高難題、運(yùn)營模式改變難題、算力運(yùn)營模式創(chuàng)新難題。
以下是鋅產(chǎn)業(yè)特別就這場對話中部分關(guān)鍵內(nèi)容進(jìn)行的不改變原意的整理,借幾位親歷者的親身經(jīng)驗(yàn)和真知灼見,一起深入了解當(dāng)下大模型的魔力邊界:
01大模型落地的十個(gè)難題
問:這一年,大模型在落地過程中,遇到了哪些問題。
石聰聰:行業(yè)大模型在應(yīng)用上有四方面挑戰(zhàn):
第一,大模型的行業(yè)知識不足。
我們對比了現(xiàn)在很多通用大模型,行業(yè)知識、語料不足,很難解決行業(yè)中遇到的復(fù)雜任務(wù),所以通用大模型用于行業(yè),需要做二次預(yù)訓(xùn)練。
第二,算力不足。
因?yàn)樾枰龆晤A(yù)訓(xùn)練,對行業(yè)算力需求很迫切。尤其是在如今形勢下,我們對國產(chǎn)算力需求尤為迫切,我們現(xiàn)在算力大概有幾百P,甚至上千P的缺口。
第三,數(shù)據(jù)樣本不足。
因?yàn)槲覀?strong>需要準(zhǔn)備大量行業(yè)語料(需要幾百B,甚至幾百T),涉及到各個(gè)業(yè)務(wù)領(lǐng)域,尤其很多數(shù)據(jù)還涉及用戶敏感信息,這些數(shù)據(jù)的融合、脫敏也有一定難度。
第四,應(yīng)用經(jīng)驗(yàn)不足。
傳統(tǒng)小模型也能解決很多問題,現(xiàn)在大模型能否一統(tǒng)天下,還需要觀察。
近幾年,我們還是需要考慮大模型和小模型如何協(xié)同應(yīng)用,這也是需要我們重點(diǎn)關(guān)注的問題。
李家琦:我簡單談一下我們大模型在科技文獻(xiàn)領(lǐng)域落地遇到的問題。
我們當(dāng)時(shí)主要遇到了兩方面難題:
第一,數(shù)據(jù)處理難題。
我們當(dāng)時(shí)和中國科學(xué)院文獻(xiàn)情報(bào)中心合作,這個(gè)論文解析很困難。
如何對這些數(shù)據(jù)進(jìn)行高質(zhì)量清洗,并形成足夠多數(shù)據(jù)對大模型進(jìn)行二次訓(xùn)練,這個(gè)是比較有難度的。
我們當(dāng)時(shí)使用了很多開源PDF解析工具,最后用我們自己的OCR解析軟件才解決了這些問題。
第二,數(shù)據(jù)微調(diào)(SFT)難題。
因?yàn)閿?shù)據(jù)構(gòu)造時(shí),例如面向一篇生物論文構(gòu)造數(shù)據(jù)時(shí),這篇論文的創(chuàng)新性是什么?肯定需要生物領(lǐng)域的專家才能給出一個(gè)較好的判斷。
所以我們最后是從中科院文獻(xiàn)中心協(xié)調(diào)了二三十人來幫助我們進(jìn)行數(shù)據(jù)標(biāo)注,這樣才完成了數(shù)據(jù)標(biāo)注任務(wù)。
此外,在大模型研發(fā)過程中,我們完全使用了華為昇騰910B。
早期,我們也是剛開始使用國產(chǎn)硬件進(jìn)行大模型落地開發(fā),在算子適配上遇到了一些問題,后來在華為的幫助下,解決了算子適配問題。
最終,我們從4月到10月,用了半年時(shí)間,完成了大模型在科技文獻(xiàn)領(lǐng)域的行業(yè)落地。
袁進(jìn)輝:我們認(rèn)為大模型推理、部署的成本未來會成為一個(gè)主要問題。
我們都相信大模型未來會無處在,要想無處不自在,今天來看成本還是比較貴的,這個(gè)已經(jīng)有很多證據(jù)。
國內(nèi)現(xiàn)在大模型使用量還沒有那么高,海外有的應(yīng)用使用量很高,已經(jīng)暴露出這個(gè)問題。
例如,微軟GPT寫代碼的助手付費(fèi)用戶超過100萬時(shí),雖然每個(gè)月每位用戶會交20美元服務(wù)費(fèi),但實(shí)際上微軟還要虧幾十美元。這就說明用戶付的費(fèi)用還是cover不了它的成本。
OpenAI前段時(shí)間發(fā)布GPTs時(shí),用戶量突然暴增,OpenAI因此停止注冊了一段時(shí)間,因?yàn)樗挥心敲磶兹f塊GPU在工作,如果再增加用戶,就會影響之前用戶的使用體驗(yàn)。
這些問題都暴露出來,今天大模型推理成本還是太高了。
幾年前,我們在手機(jī)上下載張圖片、下載個(gè)視頻,都要精打細(xì)算,要考慮這個(gè)月流量有多少。但今天我們在手機(jī)、微信上刷視頻,其實(shí)不會再考慮成本的問題。
大模型要真正做到無處不在的話,一定要像今天我們使用帶寬一樣“不心疼”。
翟傳璞:大模型要發(fā)展,無非就是算力、算法、數(shù)據(jù)幾個(gè)層面。
從算力層面來看,我們認(rèn)為應(yīng)該有多種供給方式。
一種是單獨(dú)通過算力購買的方式,另外,我們也在思考,我們能否采用一種新的方式——類似云服務(wù)租賃來租賃算力方式提供算力。
這樣一來,我不僅能滿足短時(shí)間大規(guī)模算力的需求,國產(chǎn)算力遷移和適配能力也可以考慮通過工具——在云服務(wù)上提供遷移、優(yōu)化工具來實(shí)現(xiàn)。
從算法和模型層面來看,大模型與行業(yè)結(jié)合很重要。
華為大模型的重點(diǎn)是在To B領(lǐng)域,To B領(lǐng)域和行業(yè)經(jīng)驗(yàn)結(jié)合非常重要。
例如我們在《Nature》上發(fā)表的氣象大模型,僅僅靠算法工程師是完不成的,它一定是算法工程師和氣象學(xué)專家一起努力才能完成。
從數(shù)據(jù)層面來看,大家都說數(shù)據(jù)獲取、數(shù)據(jù)標(biāo)注比較困難,我們是希望把我們內(nèi)部這種算法使用、標(biāo)注的能力貢獻(xiàn)出來。
另外,我們希望有一些技術(shù)能夠解決數(shù)據(jù)流通的問題。
例如現(xiàn)在歐洲喊得比較多的可信數(shù)據(jù)空間、可信數(shù)據(jù)交換的能力,能不能應(yīng)用在AI數(shù)據(jù)獲取和流通環(huán)節(jié),將有限數(shù)據(jù)發(fā)揮出更大價(jià)值。
金鏑:中國移動是從今年年初開始啟動大模型研發(fā)工作的。
現(xiàn)在我們也推出了139億參數(shù)的語言大模型,推出之后,我們在公司內(nèi)部和客戶中加快推進(jìn)大模型落地。
在這個(gè)過程中,我也有一些自己的體會。
第一,現(xiàn)在面臨較大挑戰(zhàn)是,行業(yè)如何看待和擁抱大模型。
我們在集團(tuán)內(nèi)部,包括見一些行業(yè)客戶,他們都會問我們,大模型到底能干什么?能帶來什么價(jià)值?要先從哪些領(lǐng)域開始用?
這些都是很現(xiàn)實(shí)的問題。
這其中涉及一種思維方式的轉(zhuǎn)變。包括我經(jīng)常也會把思維限定在原來信息化和小模型思維體系中。在提解決方案時(shí),想著想著又變成了IT化的豎井模式,變成了原來的「+AI」模式。
現(xiàn)在很多時(shí)候,用大模型去替代原來的小模型只是一種改良,沒有把大模型真正的價(jià)值激發(fā)出來。
所以包括我們自己、我們的用戶,都要思考到底想用大模型干什么?希望它能帶來什么變化?
第二,大模型運(yùn)營模式需要變化。
我們已經(jīng)把大模型用在了中國移動客服領(lǐng)域、網(wǎng)絡(luò)運(yùn)維領(lǐng)域,用上后發(fā)現(xiàn),它雖然提升了業(yè)務(wù)體驗(yàn),但也需要企業(yè)改變后端業(yè)務(wù)運(yùn)營方式。
例如,大模型里的數(shù)據(jù)是有時(shí)效性的,假如在服務(wù)客戶時(shí),我們發(fā)現(xiàn)了一個(gè)需要馬上解決的問題,解決這個(gè)問題是用打補(bǔ)丁方式,還是基于大模型方式來快速響應(yīng),這是擺在我們面前一個(gè)現(xiàn)實(shí)的問題。
第三,成本問題。
大家都覺得大模型非常好,但一說到用大模型,需要買多少算力,投多少人做數(shù)據(jù)治理、訓(xùn)練模型,需要多少人做運(yùn)維,用戶就不敢用了,這是行業(yè)客戶一個(gè)非常現(xiàn)實(shí)的問題。
周華:我今年接觸了很多行業(yè)客戶,一般來說,我們和行業(yè)客戶溝通會先問兩個(gè)問題:
第一,你的數(shù)據(jù)怎么樣;第二,你有多少算力。
數(shù)據(jù)層面,大模型應(yīng)用也就一年,時(shí)間并不長,很多行業(yè)客戶對數(shù)據(jù)認(rèn)識并不深刻。
那這其中有什么問題呢?
主要問題是,我們有大量客戶對自身數(shù)據(jù)能不能用于大模型訓(xùn)練并不清楚,很多時(shí)候,大家一說數(shù)據(jù),都是數(shù)據(jù)庫里的數(shù)據(jù),或者大數(shù)據(jù)平臺中的數(shù)據(jù)。
其實(shí)這些數(shù)據(jù)是無法用于模型訓(xùn)練的。
另外,很多客戶平時(shí)并不會積累行業(yè)相關(guān)的文本數(shù)據(jù),例如領(lǐng)域里的論文、教科書等,但是這些恰恰對行業(yè)大模型訓(xùn)練來說非常重要。
客戶自身的數(shù)據(jù),有些放在數(shù)據(jù)庫里,有些以PDF等文件形式存放在不同地方,要用這些未經(jīng)整理的數(shù)據(jù)訓(xùn)練模型,成本往往非常高。
所以,我們往往都會建議客戶,首先數(shù)據(jù)處理要有專人負(fù)責(zé),要做大模型首先要把數(shù)據(jù)做好,甚至在規(guī)劃大模型過程中,就要做好數(shù)據(jù)整理。
在行業(yè)層面,我們更推崇多家企業(yè)共同推動一個(gè)行業(yè)模型訓(xùn)練的模式。
行業(yè)模型的數(shù)據(jù)每家都去做的話,成本非常高,也很浪費(fèi)資源,這項(xiàng)工作很適合通過行業(yè)協(xié)會來做。
算力層面,我們很多客戶沒有A100、H100、A800,這些企業(yè)手上一般是有消費(fèi)級顯卡,3090、4090,如果要做模型訓(xùn)練肯定存在很多問題。
我們研究院最近針對這一問題,在做很多研發(fā)工作,包括4比特量化、DPU等相關(guān)技術(shù)。
我們會和客戶深入溝通,希望這些客戶對低資源的模型訓(xùn)練可以有一定認(rèn)識,這樣訓(xùn)練出的模型能否滿足他們的需求要有一定的認(rèn)識。
這樣,在大模型落地過程中就可以節(jié)省大量資源。
02預(yù)見2024:大模型的八個(gè)變化
問:2024年,大模型會在哪些新應(yīng)用場景爆發(fā)。
周華:我們做大模型的研發(fā)看到了一些趨勢,這里我談兩點(diǎn):
第一,多模態(tài)大模型會有很大的突破。
我們看到最近谷歌發(fā)布了Gemini,這之前,OpenAI發(fā)布了GPT-4V,在開源領(lǐng)域、在學(xué)術(shù)界,也有大量像LLaMA模型出來,這讓業(yè)界對多模態(tài)大模型產(chǎn)生了研發(fā)興趣。
我們現(xiàn)在和制造業(yè)有很多對接,他們對于工程制圖的解析、幾何體的解析是有需求的,但我們現(xiàn)在最好的GPT-4都做不好。
在多模態(tài)這塊,現(xiàn)在的發(fā)展還很初步,我覺得2024年,會有很多團(tuán)隊(duì)來解決這些問題。
第二,現(xiàn)在的大模型還是一個(gè)比較強(qiáng)的“文科生”,未來會在行業(yè)場景有突破。
它可以做一些文字處理,也會解決一些專業(yè)問題,但專業(yè)度并不高,工業(yè)制造這種場景有大量對準(zhǔn)確性、專業(yè)性有很高要求,有很多很深入的事實(shí)性問題,現(xiàn)在的大模型依然存在幻覺率。
我們研究院現(xiàn)在在致力于做這些事,希望把我們大模型的邏輯能力、數(shù)學(xué)、物理能力提升,未來能夠在制造業(yè)使用。
金鏑:我們認(rèn)為現(xiàn)在人工智能已經(jīng)在從「+AI」向「AI+」這個(gè)方向發(fā)展了。
結(jié)合我自己的工作體會,我覺得:
第一,在能夠充分發(fā)揮大模型認(rèn)知、理解、生成的場景下(如輔助辦公),短期內(nèi)會有很大的變化。
我自己身邊就有這樣的例子,我們UX設(shè)計(jì)師現(xiàn)在已經(jīng)在大量使用大模型做設(shè)計(jì)了,這極大地提升了他自己的工作效率。
我們研究院在OA系統(tǒng)中,現(xiàn)在也在嵌入一些輔助文檔,用大模型給大家提供輔助辦公幫助,這個(gè)場景在2024年一定會有很大的變化。
第二,我們也會致力于解決行業(yè)大模型的幻覺問題。
我們接觸的很多客戶,例如醫(yī)療、政府、運(yùn)營商,他們要求大模型不能胡說八道,大模型給出的答案一定是百分之百準(zhǔn)確的,或有極高準(zhǔn)確率。這樣才能完成專業(yè)工作。
第三,我們看到了端云協(xié)同的趨勢。
特別是手機(jī)端的芯片、PC端的芯片最近一波發(fā)布,極大地增強(qiáng)了NPU能力,端側(cè)大模型和云端大模型結(jié)合起來后,一定會誕生出很多新型智能終端型產(chǎn)品。
翟傳璞:從我看,有兩個(gè)方面:
第一,大模型會從2023年的單點(diǎn)嘗試,向2024年小規(guī)模復(fù)制落地發(fā)展。
例如政務(wù)、金融、氣象等領(lǐng)域,我們做了臺風(fēng)預(yù)測大模型后,現(xiàn)在泰國氣象局也在復(fù)制落地。
第二,Gartner認(rèn)為大模型未來場景選擇會遵從“4C理論”。
第一個(gè)C是技術(shù)成熟度,第二個(gè)C是場景商用化, 第三個(gè)C是緊迫性,第四個(gè)C是成本。
我們?nèi)タ紤]未來場景,可以從這四個(gè)方面著眼,來判斷大模型能在哪些場景率先落地。
袁俊輝:我蠻期待專門針對大模型推理需求芯片的出現(xiàn)。
客觀來說,今天市場上所有GPU和芯片,都是在大模型出現(xiàn)之前、為之前負(fù)載設(shè)計(jì)的。
從技術(shù)上來看,之前的任務(wù)很多是計(jì)算密集型,計(jì)算為主,所以這些芯片通常會堆很多計(jì)算單元。
但在大模型出現(xiàn)之后,大家意識到,大模型推理是一個(gè)訪存密集的事兒。所以很多芯片在今天都不是特別適用于大模型推理。
但是現(xiàn)在芯片已經(jīng)改不了了,新架構(gòu)沒出現(xiàn)時(shí),就只能通過軟件來打補(bǔ)丁。
可能之后會出現(xiàn)專門針對大模型特性,例如針對訪存瓶頸的訪存密集型芯片架構(gòu)出現(xiàn)。
李家琦:我非常同意袁老師的看法,我們其實(shí)非常需要專門面向推理的芯片,來降低部署大模型的成本。
在軟件層面,目前主要是從模型壓縮、量化角度來將計(jì)算量大幅降低。
在產(chǎn)業(yè)層面,現(xiàn)在大模型落地有很多推理方面的需求,我覺得未來會誕生一些軟件平臺,專門提供推理服務(wù)。
石聰聰:2023年面向個(gè)人用戶的話,大模型用的場景還是很多的,包括人機(jī)交互、輔助辦公。
對于行業(yè)用戶,我們看到行業(yè)大模型在金融、政務(wù)、能源、教育領(lǐng)域已經(jīng)有一些應(yīng)用。
但是說實(shí)話,我們也確實(shí)沒有看到大模型在行業(yè)里有一個(gè)非常成熟的案例。
從我們行業(yè)來說,我們也在積極擁抱大模型。
明年我們國網(wǎng)公司會拿出很多場景,包括客服、無人機(jī)巡檢,甚至調(diào)度運(yùn)行,我們都會拿出來探索大模型的應(yīng)用。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.