選對(duì)了算法,模型表現(xiàn)還是一塌糊涂?問題可能出在你沒碰過的那堆數(shù)字上。
超參數(shù)(hyperparameter)是模型訓(xùn)練前人工設(shè)定的配置項(xiàng),直接決定模型怎么學(xué)、學(xué)多快、學(xué)到什么程度。和訓(xùn)練過程中自動(dòng)學(xué)習(xí)的模型參數(shù)不同,這些數(shù)字需要你在啟動(dòng)訓(xùn)練前就拍板。拍錯(cuò)了,再厲害的算法也能跑成廢鐵。
Grid Search:窮舉法的暴力美學(xué)
最直觀的思路是列個(gè)表格,把所有可能的組合試一遍。學(xué)習(xí)率0.01、0.001、0.0001各跑一輪,批量大小32、64、128全測(cè)一通,最后挑驗(yàn)證集表現(xiàn)最好的那組。
這種方法在參數(shù)空間小的時(shí)候很管用。但變量超過三四個(gè),計(jì)算成本會(huì)指數(shù)級(jí)爆炸。想象一下:5個(gè)參數(shù),每個(gè)10個(gè)候選值,就是10萬次訓(xùn)練循環(huán)。算力 burn 得起,時(shí)間也耗不起。
Random Search:用隨機(jī)性打敗維度詛咒
2012年Bergstra和Bengio的論文戳破了一個(gè)反直覺的事實(shí):隨機(jī)采樣在多數(shù)場(chǎng)景下比網(wǎng)格搜索更高效。不是每個(gè)參數(shù)都同等重要,隨機(jī)搜索用更少的試驗(yàn)次數(shù)覆蓋更廣闊的搜索空間。
實(shí)際工程中,隨機(jī)搜索常被當(dāng)作baseline。它不需要你對(duì)參數(shù)間的相互作用有先驗(yàn)知識(shí),代碼三行就能跑起來。缺點(diǎn)是結(jié)果不可復(fù)現(xiàn),兩次跑可能給出差異明顯的推薦值。
Bayesian Optimization:把調(diào)參變成概率游戲
更聰明的玩法是把每次試驗(yàn)的結(jié)果喂給高斯過程,讓算法自己猜下一輪該測(cè)哪組參數(shù)。核心思想簡(jiǎn)單:表現(xiàn)好的區(qū)域值得細(xì)挖,表現(xiàn)差的區(qū)域快速放棄。
這種方法在計(jì)算資源緊張、單次訓(xùn)練成本高的場(chǎng)景下優(yōu)勢(shì)明顯。AutoML工具箱里那些"一鍵最優(yōu)"的功能,底層多半是這個(gè)邏輯。代價(jià)是實(shí)現(xiàn)復(fù)雜,調(diào)參器的超參數(shù)本身又成了新問題。
去年Kaggle一份調(diào)研顯示,冠軍方案里手工調(diào)參和自動(dòng)化搜索的比例大概是6:4。工具越來越聰明,但人對(duì)業(yè)務(wù)場(chǎng)景的理解,暫時(shí)還找不到替代品。
你上次完整記錄下一組超參數(shù)的實(shí)驗(yàn)日志,是什么時(shí)候?
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.