IT之家 5 月 22 日消息,網(wǎng)易有道今日宣布,決定將“子曰”大模型 4.0 的核心雙引擎 ——“多模態(tài)模型”與“語音合成(TTS)模型”,正式面向全球全量開源。開發(fā)者可以免費下載、部署,并基于此進行二次開發(fā)。
![]()
此次開源的“子曰 4”多模態(tài)模型(27B 參數(shù)規(guī)模)面向教育場景,支持視覺輸入的數(shù)理能力,做到了行業(yè)頂尖水平(SOTA)。
- 在同等參數(shù)的規(guī)模模型中,處理帶圖表的高難度視覺數(shù)理問題
- 純文本的中文數(shù)理難題,準確率 81.4%
![]()
此外,新模型采用了精細化思維鏈重構(gòu)方案。通過匯聚大規(guī)模優(yōu)質(zhì)、精簡的推理樣本進行深度優(yōu)化,把思維鏈輸出長度壓縮了 43.2%。這意味著:回答同樣的問題,它輸出的 Token 更少、推理路徑更短、出答案更快。
對于做實際業(yè)務(wù)的開發(fā)者和企業(yè)來說,直接效果就是:推理成本下降。
![]()
此外,網(wǎng)易有道團隊還針對國內(nèi)學生真實的作業(yè)、考試和提問場景進行了深度優(yōu)化,讓它能夠解決真實學習中遇到的復(fù)雜痛點。
而開源的語音合成(TTS)模型支持跨語種音色情感遷移克隆,只要上傳一段中文音頻,就能克隆說話人的音色,并流利說出英語、韓語、越南語…… 不帶“中式口音”。而且情感也能精準遷移克隆 —— 只要生氣地說一句話,合成出來的外語也是生氣的語氣。
- 3 秒:上傳任意音頻素材,系統(tǒng)即可在 3 秒內(nèi)完成零樣本原聲復(fù)制。
- 97%:在克隆任務(wù)中準確度超過 97%,克隆音色與原聲的相似度達 85% 以上。
- 14 種語言:全面支持中、英、日、韓、德、法、西、印尼、意、泰、葡、俄、馬來、越南語等 14 種語言。
IT之家附兩款模型開源地址如下:
- 多模態(tài)模型:https://huggingface.co/netease-youdao/Confucius4
- TTS 模型:https://github.com/netease-youdao/Confucius4-TTS
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.