網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

年度話題：大模型落地的十大難題

2023-12-29 14:14:14　來源: 鋅產(chǎn)業(yè)

北京舉報(bào)

分享至

作者 | 山竹

出品 | 鋅產(chǎn)業(yè)（公眾號：xinchanye2021）

2023年12月13日，全球科技頂刊《Nature》發(fā)布年度十大人物，與以往不同的是，今年的Nature’s 10額外增加了一個(gè)非人類，ChatGPT。

2023年12月20日，國家語言資源監(jiān)測與研究中心、商務(wù)印書館等單位聯(lián)合主辦的“漢語盤點(diǎn)2023”公布的年度國際詞，同樣是ChatGPT。

ChatGPT讓大模型席卷全球，大模型被全球科技領(lǐng)袖定義為一次顛覆式科技革命。

微軟CEO Satya Nadella說，“AI是我正在經(jīng)歷的第五次重大變革。”

騰訊CEO馬化騰說，“AI是幾百年不遇、類似發(fā)明電的工業(yè)革命一樣的機(jī)遇。”

英偉達(dá)CEO黃仁勛更是大膽預(yù)測，“兩年之內(nèi)，英偉達(dá)乃至整個(gè)行業(yè)都會面目全非。”

我們不是先知，無法預(yù)見未來，但全球這些最具影響力、最有資源的企業(yè)領(lǐng)袖一致警覺和大手筆投入，必然會在短期內(nèi)形成一個(gè)不可逆的產(chǎn)業(yè)趨勢。

因此，無論能否對社會帶來顛覆性改變，或者能夠帶來多大的改變，大模型都值得每個(gè)人分出一部分精力去了解、關(guān)注。

12月24日，在中國信通院人工智能論壇上，智源研究院大模型行業(yè)應(yīng)用負(fù)責(zé)人周華、中國移動研究院AI中心副總經(jīng)理金鏑、華為云產(chǎn)業(yè)發(fā)展高級專家翟傳璞、硅動科技CEO袁俊輝、科大訊飛北京研究院院長助理李家琦、國網(wǎng)智能電網(wǎng)研究院計(jì)算及應(yīng)用研究所副所長石聰聰就大模型落地難題進(jìn)行了一場對話。

值得注意的是，這些人是大模型時(shí)代國內(nèi)最先覺醒的那批親歷者、實(shí)踐者、創(chuàng)業(yè)者，也是國內(nèi)大模型研究、應(yīng)用、創(chuàng)業(yè)者中最典型的代表。

周華說，現(xiàn)在的大模型還是一個(gè)“文科生”；

袁進(jìn)輝說，大模型亟需訪存密集型專用芯片；

金鏑說，從「小模型」到「大模型」思路難轉(zhuǎn)變；

翟傳璞說，算力也應(yīng)該有如云服務(wù)一樣的租賃模式；

石聰聰說，大模型在行業(yè)中還沒有一個(gè)很成熟的案例；

李家琦講述了科大訊飛科技文獻(xiàn)行業(yè)大模型落地過程中從中科院文獻(xiàn)中心的“借兵”經(jīng)歷；

他們這一年的親身經(jīng)歷與所思所想，是中國大模型產(chǎn)業(yè)發(fā)展最好的沉淀。

從中，鋅產(chǎn)業(yè)總結(jié)了大模型落地的十大難題，它們分別是：

算力不足、行業(yè)數(shù)據(jù)不足、應(yīng)用經(jīng)驗(yàn)不足、缺少專用芯片、數(shù)據(jù)處理難題、數(shù)據(jù)微調(diào)難題、思維模式轉(zhuǎn)變難題、成本超高難題、運(yùn)營模式改變難題、算力運(yùn)營模式創(chuàng)新難題。

以下是鋅產(chǎn)業(yè)特別就這場對話中部分關(guān)鍵內(nèi)容進(jìn)行的不改變原意的整理，借幾位親歷者的親身經(jīng)驗(yàn)和真知灼見，一起深入了解當(dāng)下大模型的魔力邊界：

01大模型落地的十個(gè)難題

問：這一年，大模型在落地過程中，遇到了哪些問題。

石聰聰：行業(yè)大模型在應(yīng)用上有四方面挑戰(zhàn)：

第一，大模型的行業(yè)知識不足。

我們對比了現(xiàn)在很多通用大模型，行業(yè)知識、語料不足，很難解決行業(yè)中遇到的復(fù)雜任務(wù)，所以通用大模型用于行業(yè)，需要做二次預(yù)訓(xùn)練。

第二，算力不足。

因?yàn)樾枰龆晤A(yù)訓(xùn)練，對行業(yè)算力需求很迫切。尤其是在如今形勢下，我們對國產(chǎn)算力需求尤為迫切，我們現(xiàn)在算力大概有幾百P，甚至上千P的缺口。

第三，數(shù)據(jù)樣本不足。

因?yàn)槲覀?strong>需要準(zhǔn)備大量行業(yè)語料（需要幾百B，甚至幾百T），涉及到各個(gè)業(yè)務(wù)領(lǐng)域，尤其很多數(shù)據(jù)還涉及用戶敏感信息，這些數(shù)據(jù)的融合、脫敏也有一定難度。

第四，應(yīng)用經(jīng)驗(yàn)不足。

傳統(tǒng)小模型也能解決很多問題，現(xiàn)在大模型能否一統(tǒng)天下，還需要觀察。

近幾年，我們還是需要考慮大模型和小模型如何協(xié)同應(yīng)用，這也是需要我們重點(diǎn)關(guān)注的問題。

李家琦：我簡單談一下我們大模型在科技文獻(xiàn)領(lǐng)域落地遇到的問題。

我們當(dāng)時(shí)主要遇到了兩方面難題：

第一，數(shù)據(jù)處理難題。

我們當(dāng)時(shí)和中國科學(xué)院文獻(xiàn)情報(bào)中心合作，這個(gè)論文解析很困難。

如何對這些數(shù)據(jù)進(jìn)行高質(zhì)量清洗，并形成足夠多數(shù)據(jù)對大模型進(jìn)行二次訓(xùn)練，這個(gè)是比較有難度的。

我們當(dāng)時(shí)使用了很多開源PDF解析工具，最后用我們自己的OCR解析軟件才解決了這些問題。

第二，數(shù)據(jù)微調(diào)（SFT）難題。

因?yàn)閿?shù)據(jù)構(gòu)造時(shí)，例如面向一篇生物論文構(gòu)造數(shù)據(jù)時(shí)，這篇論文的創(chuàng)新性是什么？肯定需要生物領(lǐng)域的專家才能給出一個(gè)較好的判斷。

所以我們最后是從中科院文獻(xiàn)中心協(xié)調(diào)了二三十人來幫助我們進(jìn)行數(shù)據(jù)標(biāo)注，這樣才完成了數(shù)據(jù)標(biāo)注任務(wù)。

此外，在大模型研發(fā)過程中，我們完全使用了華為昇騰910B。

早期，我們也是剛開始使用國產(chǎn)硬件進(jìn)行大模型落地開發(fā)，在算子適配上遇到了一些問題，后來在華為的幫助下，解決了算子適配問題。

最終，我們從4月到10月，用了半年時(shí)間，完成了大模型在科技文獻(xiàn)領(lǐng)域的行業(yè)落地。

袁進(jìn)輝：我們認(rèn)為大模型推理、部署的成本未來會成為一個(gè)主要問題。

我們都相信大模型未來會無處在，要想無處不自在，今天來看成本還是比較貴的，這個(gè)已經(jīng)有很多證據(jù)。

國內(nèi)現(xiàn)在大模型使用量還沒有那么高，海外有的應(yīng)用使用量很高，已經(jīng)暴露出這個(gè)問題。

例如，微軟GPT寫代碼的助手付費(fèi)用戶超過100萬時(shí)，雖然每個(gè)月每位用戶會交20美元服務(wù)費(fèi)，但實(shí)際上微軟還要虧幾十美元。這就說明用戶付的費(fèi)用還是cover不了它的成本。

OpenAI前段時(shí)間發(fā)布GPTs時(shí)，用戶量突然暴增，OpenAI因此停止注冊了一段時(shí)間，因?yàn)樗挥心敲磶兹f塊GPU在工作，如果再增加用戶，就會影響之前用戶的使用體驗(yàn)。

這些問題都暴露出來，今天大模型推理成本還是太高了。

幾年前，我們在手機(jī)上下載張圖片、下載個(gè)視頻，都要精打細(xì)算，要考慮這個(gè)月流量有多少。但今天我們在手機(jī)、微信上刷視頻，其實(shí)不會再考慮成本的問題。

大模型要真正做到無處不在的話，一定要像今天我們使用帶寬一樣“不心疼”。

翟傳璞：大模型要發(fā)展，無非就是算力、算法、數(shù)據(jù)幾個(gè)層面。

從算力層面來看，我們認(rèn)為應(yīng)該有多種供給方式。

一種是單獨(dú)通過算力購買的方式，另外，我們也在思考，我們能否采用一種新的方式——類似云服務(wù)租賃來租賃算力方式提供算力。

這樣一來，我不僅能滿足短時(shí)間大規(guī)模算力的需求，國產(chǎn)算力遷移和適配能力也可以考慮通過工具——在云服務(wù)上提供遷移、優(yōu)化工具來實(shí)現(xiàn)。

從算法和模型層面來看，大模型與行業(yè)結(jié)合很重要。

華為大模型的重點(diǎn)是在To B領(lǐng)域，To B領(lǐng)域和行業(yè)經(jīng)驗(yàn)結(jié)合非常重要。

例如我們在《Nature》上發(fā)表的氣象大模型，僅僅靠算法工程師是完不成的，它一定是算法工程師和氣象學(xué)專家一起努力才能完成。

從數(shù)據(jù)層面來看，大家都說數(shù)據(jù)獲取、數(shù)據(jù)標(biāo)注比較困難，我們是希望把我們內(nèi)部這種算法使用、標(biāo)注的能力貢獻(xiàn)出來。

另外，我們希望有一些技術(shù)能夠解決數(shù)據(jù)流通的問題。

例如現(xiàn)在歐洲喊得比較多的可信數(shù)據(jù)空間、可信數(shù)據(jù)交換的能力，能不能應(yīng)用在AI數(shù)據(jù)獲取和流通環(huán)節(jié)，將有限數(shù)據(jù)發(fā)揮出更大價(jià)值。

金鏑：中國移動是從今年年初開始啟動大模型研發(fā)工作的。

現(xiàn)在我們也推出了139億參數(shù)的語言大模型，推出之后，我們在公司內(nèi)部和客戶中加快推進(jìn)大模型落地。

在這個(gè)過程中，我也有一些自己的體會。

第一，現(xiàn)在面臨較大挑戰(zhàn)是，行業(yè)如何看待和擁抱大模型。

我們在集團(tuán)內(nèi)部，包括見一些行業(yè)客戶，他們都會問我們，大模型到底能干什么？能帶來什么價(jià)值？要先從哪些領(lǐng)域開始用？

這些都是很現(xiàn)實(shí)的問題。

這其中涉及一種思維方式的轉(zhuǎn)變。包括我經(jīng)常也會把思維限定在原來信息化和小模型思維體系中。在提解決方案時(shí)，想著想著又變成了IT化的豎井模式，變成了原來的「+AI」模式。

現(xiàn)在很多時(shí)候，用大模型去替代原來的小模型只是一種改良，沒有把大模型真正的價(jià)值激發(fā)出來。

所以包括我們自己、我們的用戶，都要思考到底想用大模型干什么？希望它能帶來什么變化？

第二，大模型運(yùn)營模式需要變化。

我們已經(jīng)把大模型用在了中國移動客服領(lǐng)域、網(wǎng)絡(luò)運(yùn)維領(lǐng)域，用上后發(fā)現(xiàn)，它雖然提升了業(yè)務(wù)體驗(yàn)，但也需要企業(yè)改變后端業(yè)務(wù)運(yùn)營方式。

例如，大模型里的數(shù)據(jù)是有時(shí)效性的，假如在服務(wù)客戶時(shí)，我們發(fā)現(xiàn)了一個(gè)需要馬上解決的問題，解決這個(gè)問題是用打補(bǔ)丁方式，還是基于大模型方式來快速響應(yīng)，這是擺在我們面前一個(gè)現(xiàn)實(shí)的問題。

第三，成本問題。

大家都覺得大模型非常好，但一說到用大模型，需要買多少算力，投多少人做數(shù)據(jù)治理、訓(xùn)練模型，需要多少人做運(yùn)維，用戶就不敢用了，這是行業(yè)客戶一個(gè)非常現(xiàn)實(shí)的問題。

周華：我今年接觸了很多行業(yè)客戶，一般來說，我們和行業(yè)客戶溝通會先問兩個(gè)問題：

第一，你的數(shù)據(jù)怎么樣；第二，你有多少算力。

數(shù)據(jù)層面，大模型應(yīng)用也就一年，時(shí)間并不長，很多行業(yè)客戶對數(shù)據(jù)認(rèn)識并不深刻。

那這其中有什么問題呢？

主要問題是，我們有大量客戶對自身數(shù)據(jù)能不能用于大模型訓(xùn)練并不清楚，很多時(shí)候，大家一說數(shù)據(jù)，都是數(shù)據(jù)庫里的數(shù)據(jù)，或者大數(shù)據(jù)平臺中的數(shù)據(jù)。

其實(shí)這些數(shù)據(jù)是無法用于模型訓(xùn)練的。

另外，很多客戶平時(shí)并不會積累行業(yè)相關(guān)的文本數(shù)據(jù)，例如領(lǐng)域里的論文、教科書等，但是這些恰恰對行業(yè)大模型訓(xùn)練來說非常重要。

客戶自身的數(shù)據(jù)，有些放在數(shù)據(jù)庫里，有些以PDF等文件形式存放在不同地方，要用這些未經(jīng)整理的數(shù)據(jù)訓(xùn)練模型，成本往往非常高。

所以，我們往往都會建議客戶，首先數(shù)據(jù)處理要有專人負(fù)責(zé)，要做大模型首先要把數(shù)據(jù)做好，甚至在規(guī)劃大模型過程中，就要做好數(shù)據(jù)整理。

在行業(yè)層面，我們更推崇多家企業(yè)共同推動一個(gè)行業(yè)模型訓(xùn)練的模式。

行業(yè)模型的數(shù)據(jù)每家都去做的話，成本非常高，也很浪費(fèi)資源,這項(xiàng)工作很適合通過行業(yè)協(xié)會來做。

算力層面，我們很多客戶沒有A100、H100、A800，這些企業(yè)手上一般是有消費(fèi)級顯卡，3090、4090，如果要做模型訓(xùn)練肯定存在很多問題。

我們研究院最近針對這一問題，在做很多研發(fā)工作，包括4比特量化、DPU等相關(guān)技術(shù)。

我們會和客戶深入溝通，希望這些客戶對低資源的模型訓(xùn)練可以有一定認(rèn)識，這樣訓(xùn)練出的模型能否滿足他們的需求要有一定的認(rèn)識。

這樣，在大模型落地過程中就可以節(jié)省大量資源。

02預(yù)見2024：大模型的八個(gè)變化

問：2024年，大模型會在哪些新應(yīng)用場景爆發(fā)。

周華：我們做大模型的研發(fā)看到了一些趨勢，這里我談兩點(diǎn)：

第一，多模態(tài)大模型會有很大的突破。

我們看到最近谷歌發(fā)布了Gemini，這之前，OpenAI發(fā)布了GPT-4V，在開源領(lǐng)域、在學(xué)術(shù)界，也有大量像LLaMA模型出來，這讓業(yè)界對多模態(tài)大模型產(chǎn)生了研發(fā)興趣。

我們現(xiàn)在和制造業(yè)有很多對接，他們對于工程制圖的解析、幾何體的解析是有需求的，但我們現(xiàn)在最好的GPT-4都做不好。

在多模態(tài)這塊，現(xiàn)在的發(fā)展還很初步，我覺得2024年，會有很多團(tuán)隊(duì)來解決這些問題。

第二，現(xiàn)在的大模型還是一個(gè)比較強(qiáng)的“文科生”，未來會在行業(yè)場景有突破。

它可以做一些文字處理，也會解決一些專業(yè)問題，但專業(yè)度并不高，工業(yè)制造這種場景有大量對準(zhǔn)確性、專業(yè)性有很高要求，有很多很深入的事實(shí)性問題，現(xiàn)在的大模型依然存在幻覺率。

我們研究院現(xiàn)在在致力于做這些事，希望把我們大模型的邏輯能力、數(shù)學(xué)、物理能力提升，未來能夠在制造業(yè)使用。

金鏑：我們認(rèn)為現(xiàn)在人工智能已經(jīng)在從「+AI」向「AI+」這個(gè)方向發(fā)展了。

結(jié)合我自己的工作體會，我覺得：

第一，在能夠充分發(fā)揮大模型認(rèn)知、理解、生成的場景下（如輔助辦公），短期內(nèi)會有很大的變化。

我自己身邊就有這樣的例子，我們UX設(shè)計(jì)師現(xiàn)在已經(jīng)在大量使用大模型做設(shè)計(jì)了，這極大地提升了他自己的工作效率。

我們研究院在OA系統(tǒng)中，現(xiàn)在也在嵌入一些輔助文檔，用大模型給大家提供輔助辦公幫助，這個(gè)場景在2024年一定會有很大的變化。

第二，我們也會致力于解決行業(yè)大模型的幻覺問題。

我們接觸的很多客戶，例如醫(yī)療、政府、運(yùn)營商，他們要求大模型不能胡說八道，大模型給出的答案一定是百分之百準(zhǔn)確的，或有極高準(zhǔn)確率。這樣才能完成專業(yè)工作。

第三，我們看到了端云協(xié)同的趨勢。

特別是手機(jī)端的芯片、PC端的芯片最近一波發(fā)布，極大地增強(qiáng)了NPU能力，端側(cè)大模型和云端大模型結(jié)合起來后，一定會誕生出很多新型智能終端型產(chǎn)品。

翟傳璞：從我看，有兩個(gè)方面：

第一，大模型會從2023年的單點(diǎn)嘗試，向2024年小規(guī)模復(fù)制落地發(fā)展。

例如政務(wù)、金融、氣象等領(lǐng)域，我們做了臺風(fēng)預(yù)測大模型后，現(xiàn)在泰國氣象局也在復(fù)制落地。

第二，Gartner認(rèn)為大模型未來場景選擇會遵從“4C理論”。

第一個(gè)C是技術(shù)成熟度，第二個(gè)C是場景商用化，第三個(gè)C是緊迫性，第四個(gè)C是成本。

我們?nèi)タ紤]未來場景，可以從這四個(gè)方面著眼，來判斷大模型能在哪些場景率先落地。

袁俊輝：我蠻期待專門針對大模型推理需求芯片的出現(xiàn)。

客觀來說，今天市場上所有GPU和芯片，都是在大模型出現(xiàn)之前、為之前負(fù)載設(shè)計(jì)的。

從技術(shù)上來看，之前的任務(wù)很多是計(jì)算密集型，計(jì)算為主，所以這些芯片通常會堆很多計(jì)算單元。

但在大模型出現(xiàn)之后，大家意識到，大模型推理是一個(gè)訪存密集的事兒。所以很多芯片在今天都不是特別適用于大模型推理。

但是現(xiàn)在芯片已經(jīng)改不了了，新架構(gòu)沒出現(xiàn)時(shí)，就只能通過軟件來打補(bǔ)丁。

可能之后會出現(xiàn)專門針對大模型特性，例如針對訪存瓶頸的訪存密集型芯片架構(gòu)出現(xiàn)。

李家琦：我非常同意袁老師的看法，我們其實(shí)非常需要專門面向推理的芯片，來降低部署大模型的成本。

在軟件層面，目前主要是從模型壓縮、量化角度來將計(jì)算量大幅降低。

在產(chǎn)業(yè)層面，現(xiàn)在大模型落地有很多推理方面的需求，我覺得未來會誕生一些軟件平臺，專門提供推理服務(wù)。

石聰聰：2023年面向個(gè)人用戶的話，大模型用的場景還是很多的，包括人機(jī)交互、輔助辦公。

對于行業(yè)用戶，我們看到行業(yè)大模型在金融、政務(wù)、能源、教育領(lǐng)域已經(jīng)有一些應(yīng)用。

但是說實(shí)話，我們也確實(shí)沒有看到大模型在行業(yè)里有一個(gè)非常成熟的案例。

從我們行業(yè)來說，我們也在積極擁抱大模型。

明年我們國網(wǎng)公司會拿出很多場景，包括客服、無人機(jī)巡檢，甚至調(diào)度運(yùn)行，我們都會拿出來探索大模型的應(yīng)用。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.