每周處理數(shù)千條AI行業(yè)新聞,我的本地管道需要一個(gè)能讀懂"語(yǔ)義"的腦子。選模型時(shí),RNN(循環(huán)神經(jīng)網(wǎng)絡(luò))是第一個(gè)被我排除的——不是它不夠老資格,是它處理長(zhǎng)文本的方式,像極了那個(gè)記筆記永遠(yuǎn)只記最后一行的同事。
RNN的設(shè)計(jì)哲學(xué)很樸素:給神經(jīng)網(wǎng)絡(luò)裝一個(gè)"記憶槽",每讀一個(gè)新詞,就把上一個(gè)狀態(tài)塞進(jìn)去一起算。
這個(gè)"循環(huán)"結(jié)構(gòu)讓它天生適合序列數(shù)據(jù)。股票走勢(shì)、語(yǔ)音波形、一行行代碼,時(shí)間步之間的依賴關(guān)系被硬編碼進(jìn)架構(gòu)里。1986年RNN的概念就誕生了,比多數(shù)讀者的工齡還長(zhǎng)。
但問(wèn)題就出在那個(gè)"記憶槽"的容量上。
梯度消失:RNN的阿喀琉斯之踵
訓(xùn)練神經(jīng)網(wǎng)絡(luò)靠反向傳播,誤差從輸出層一層層往回傳。RNN的循環(huán)結(jié)構(gòu)意味著誤差要穿越無(wú)數(shù)個(gè)時(shí)間步——想象一下,你試圖回憶三個(gè)月前某次會(huì)議的某個(gè)細(xì)節(jié),但每過(guò)一天記憶就衰減一點(diǎn)。RNN處理長(zhǎng)序列時(shí),早期輸入的信號(hào)在數(shù)學(xué)上幾乎歸零。
LSTM(長(zhǎng)短期記憶網(wǎng)絡(luò))和GRU(門(mén)控循環(huán)單元)是RNN的補(bǔ)救方案。它們用"門(mén)控機(jī)制"決定什么該記、什么該忘,把有效記憶長(zhǎng)度從幾十步擴(kuò)展到幾百步。2014年前后,LSTM幾乎壟斷了機(jī)器翻譯和語(yǔ)音識(shí)別。
但幾百步在新聞文本面前依然捉襟見(jiàn)肘。一篇行業(yè)分析動(dòng)輒兩三千詞,LSTM的"選擇性記憶"到了后半段還是會(huì)漏掉關(guān)鍵伏筆——就像讀推理小說(shuō)時(shí)忘了第一章的線索。
Transformer的"作弊"技巧
2017年Google那篇《Attention Is All You Need》徹底改寫(xiě)了規(guī)則。Transformer不搞循環(huán),它讓模型同時(shí)"看"到整個(gè)序列的每個(gè)位置,用自注意力機(jī)制(self-attention)直接計(jì)算任意兩個(gè)詞之間的關(guān)聯(lián)權(quán)重。
距離不再是問(wèn)題。第1個(gè)詞和第500個(gè)詞的關(guān)系,計(jì)算復(fù)雜度與相鄰詞對(duì)相同。我的新聞管道需要識(shí)別跨段落的企業(yè)關(guān)聯(lián)、技術(shù)演進(jìn)脈絡(luò),這種"全局視野"是RNN家族永遠(yuǎn)無(wú)法提供的。
Meta Llama 3.2–1B的參數(shù)規(guī)模(10億級(jí)別)在本地GPU上剛好跑得動(dòng),而它的注意力層能捕捉我需要的語(yǔ)義模式:某家公司三年前的一次收購(gòu),如何與本周的產(chǎn)品發(fā)布形成戰(zhàn)略閉環(huán)。
RNN還沒(méi)死,只是退守 niche
我的選擇不代表RNN已過(guò)時(shí)。實(shí)時(shí)音頻流處理、低功耗邊緣設(shè)備、需要嚴(yán)格時(shí)序因果性的場(chǎng)景,RNN的輕量化變體仍有優(yōu)勢(shì)。但自然語(yǔ)言理解這個(gè)戰(zhàn)場(chǎng),Transformer及其衍生架構(gòu)已經(jīng)建立了難以逾越的壁壘。
Cornell那門(mén)課讓我意識(shí)到:架構(gòu)選擇不是選"最好"的,是選"最匹配任務(wù)約束"的。我的約束是本地部署、語(yǔ)義深度、周級(jí)批處理——Llama 3.2的注意力機(jī)制在這個(gè)三角里找到了平衡點(diǎn)。
那個(gè)只記最后一行的同事?我讓他去管日志切分了。讀新聞這種活兒,得找個(gè)能通讀全文還做筆記的。
你的 pipeline 里,有沒(méi)有某個(gè)"祖?zhèn)?組件其實(shí)早該被換掉了?
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.