網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

機(jī)器學(xué)習(xí)調(diào)參：同樣的算法，別人準(zhǔn)確率比你高23%的秘密

2026-04-14 10:26:58　來源: 報(bào)錯(cuò)免疫體

北京舉報(bào)

分享至

選對(duì)了算法，模型表現(xiàn)還是一塌糊涂？問題可能出在你沒碰過的那堆數(shù)字上。

超參數(shù)（hyperparameter）是模型訓(xùn)練前人工設(shè)定的配置項(xiàng)，直接決定模型怎么學(xué)、學(xué)多快、學(xué)到什么程度。和訓(xùn)練過程中自動(dòng)學(xué)習(xí)的模型參數(shù)不同，這些數(shù)字需要你在啟動(dòng)訓(xùn)練前就拍板。拍錯(cuò)了，再厲害的算法也能跑成廢鐵。

Grid Search：窮舉法的暴力美學(xué)

最直觀的思路是列個(gè)表格，把所有可能的組合試一遍。學(xué)習(xí)率0.01、0.001、0.0001各跑一輪，批量大小32、64、128全測(cè)一通，最后挑驗(yàn)證集表現(xiàn)最好的那組。

這種方法在參數(shù)空間小的時(shí)候很管用。但變量超過三四個(gè)，計(jì)算成本會(huì)指數(shù)級(jí)爆炸。想象一下：5個(gè)參數(shù)，每個(gè)10個(gè)候選值，就是10萬次訓(xùn)練循環(huán)。算力 burn 得起，時(shí)間也耗不起。

Random Search：用隨機(jī)性打敗維度詛咒

2012年Bergstra和Bengio的論文戳破了一個(gè)反直覺的事實(shí)：隨機(jī)采樣在多數(shù)場(chǎng)景下比網(wǎng)格搜索更高效。不是每個(gè)參數(shù)都同等重要，隨機(jī)搜索用更少的試驗(yàn)次數(shù)覆蓋更廣闊的搜索空間。

實(shí)際工程中，隨機(jī)搜索常被當(dāng)作baseline。它不需要你對(duì)參數(shù)間的相互作用有先驗(yàn)知識(shí)，代碼三行就能跑起來。缺點(diǎn)是結(jié)果不可復(fù)現(xiàn)，兩次跑可能給出差異明顯的推薦值。

Bayesian Optimization：把調(diào)參變成概率游戲

更聰明的玩法是把每次試驗(yàn)的結(jié)果喂給高斯過程，讓算法自己猜下一輪該測(cè)哪組參數(shù)。核心思想簡(jiǎn)單：表現(xiàn)好的區(qū)域值得細(xì)挖，表現(xiàn)差的區(qū)域快速放棄。

這種方法在計(jì)算資源緊張、單次訓(xùn)練成本高的場(chǎng)景下優(yōu)勢(shì)明顯。AutoML工具箱里那些"一鍵最優(yōu)"的功能，底層多半是這個(gè)邏輯。代價(jià)是實(shí)現(xiàn)復(fù)雜，調(diào)參器的超參數(shù)本身又成了新問題。

去年Kaggle一份調(diào)研顯示，冠軍方案里手工調(diào)參和自動(dòng)化搜索的比例大概是6:4。工具越來越聰明，但人對(duì)業(yè)務(wù)場(chǎng)景的理解，暫時(shí)還找不到替代品。

你上次完整記錄下一組超參數(shù)的實(shí)驗(yàn)日志，是什么時(shí)候？

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.