每年1.4億新生兒,哭聲是唯一的語言,父母只能靠猜。一位新手父親這樣描述第一周:"她哭,我喂;又哭,我換;再哭,我完全不知道錯在哪。"
這個困境催生了ROO——全球首個多模態嬰兒哭聲分析與回應系統,底層跑的是Gemma 4。
![]()
現有應用如CryAnalyzer、ChatterBaby、AYA,全是2019-2022年間用CNN分類器做的。App Store評論區一片哀嚎:"只會說餓了。"它們能檢測哭聲,但無法理解。
ROO做了三件競品沒做的事:同時分析聲學特征和面部表情;用科學匹配的安撫音和母聲回應;內置12首合成曲目+云端真實音樂,凌晨三點不用翻YouTube。
技術卡點在于Gemma 4的音頻模型(E2B、E4B)專為端側部署設計,公開推理接口尚未開放。開發者換了個思路:讓模型"看見"哭聲而非聽見。
梅爾頻譜圖把音頻轉成二維圖像——橫軸時間、縱軸頻率、亮度代表能量強度。ROO用Web Audio API在瀏覽器本地生成這張圖,父母能實時看到寶寶的哭聲模式。饑餓、疼痛、困倦,每種需求在頻譜上呈現截然不同的視覺紋理。
前端用SvelteKit 5,托管在Cloudflare Pages;推理走Gemini API/OpenRouter;音頻采集靠MediaRecorder,安撫播放用Web Audio API和Cloudflare R2存儲;母聲回應調用Web Speech API。會話歷史存localStorage,服務端零日志。
目前部署在roo.risingranks.in,支持PWA安裝。免費額度耗盡時分析會延遲10-20秒,UTC早間配額重置后恢復。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.