一個有趣的數據科學項目,把健身房里的江湖規矩量化了。研究者用Python分析了Open Powerlifting數據庫里390萬條官方藥檢賽事記錄,發現了一些反直覺的競技策略。
先說背景。Open Powerlifting是個開源項目,追蹤全球力量舉比賽結果,完整數據集390萬行、42列,涵蓋運動員信息、每次試舉記錄和各項成績指標。研究者先做了嚴格篩選:只保留經認證的藥檢賽事,剔除無關字段。有個坑要注意——負值代表試舉失敗,不是數據錯誤,得先建布爾列標記成敗,再把負數轉空值。
![]()
技術棧很標準:pandas、numpy做數據處理,seaborn和matplotlib可視化,pingouin做統計檢驗。整個流程模塊化跑通:原始CSV→過濾→清洗→特征工程→校驗→分析。填充策略偏保守:年齡從年齡組反推,體重從體重級別估算,絕不生造數據。每個具體問題再動態過濾空值,避免一刀切。
核心發現有三點。
第一,巔峰年齡22-24歲。 按體重標準化后,男女運動員的競技曲線幾乎重合,之后穩步下滑。沒有性別差異,只有生理規律。
第二,臥推是翻車重災區。 第三把試舉失敗率:臥推54%,深蹲和硬拉僅36-40%。這個差距在男女組別、各種裝備類型下都穩定存在——臥推就是 behaves differently,技術或策略上需要單獨對待。
第三,第四把值得賭。 規則允許破紀錄時加試第四把,成功率約77%,硬推更是高達83%。這是整個項目最實用的洞察:能申請第四把就申請,期望值明顯為正。
方法論上的教訓同樣實在。數據量夠大時,強行填充不如接受缺失;有些特征必須在清洗前建好,否則你會對著滿屏NaN的布爾列,花一小時跟AI debugging。
完整代碼已開源。項目完成于Evolve數據科學碩士課程期間。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.