“大模型的核心意義是做更好的信息處理,大部分的信息體現在多模態的內容里面,而不是體現在文字上。”MiniMax創始人閆俊杰如此解釋上線視頻、音樂生成模型的初衷。
近日,在“2024 MiniMax Link伙伴日”活動上,MiniMax發布了基于MOE(混合專家模型)+ Linear Attention(線性注意力)的新型線性模型架構,并展示了MiniMax最新音樂模型、視頻模型的研發成果。
MiniMax新型線性模型架構能在單位時間內更加高效地訓練海量數據,極大地提升了模型的實用性和響應速度。在與GPT-4o同一代模型能力對比上,MiniMax的新一代模型處理10萬token時效率可提升2-3倍,并且隨著長度越長,提升越明顯。相比于通用Transformer架構,新架構的原生線性計算復雜度大幅減少了大模型的訓練和推理成本。在128K的序列長度下,新架構成本減少90%以上。
據介紹,MiniMax視頻模型具有壓縮率高、文本響應好和風格多樣等優點,可生成原生高分辨率、高幀率視頻,模型能力首屈一指。
閆俊杰分析,視頻模型與文本模型有著本質區別,前者處理量大,更具復雜性,因此無法應用文本模型所構建的底層基礎設施,用于數據處理、清洗以及標注等。視頻模型不僅需要升級基礎設施,還因為缺少開源的內容,需要投入更多耐心。
MiniMax第一款音樂模型則可以合成純音樂為制作人快速構建歌曲的基本結構,由歌手自由演繹主唱或和聲部分。沒有伴奏,音樂模型也可以是實力歌手,清唱作品同樣不在話下。值得一提的是,MiniMax語音模型已實現對粵語、日語、韓語、西班牙語等多語種支持的升級。
目前,全球領先的MiniMax音樂生成模型與視頻生成模型已經在開放平臺和海螺AI網頁版上線。此外,abab 7系列模型將于未來數周內正式發布,并采用新一代創新技術。
MiniMax成立于2021年,是一家專注于推動通用人工智能技術突破的科技創業公司,已經獲得阿里、騰訊、紅杉中國、高瓴創投、IDG資本等機構投資。公司擁有自研多模態通用大模型,此前基于大模型發布了針對企業客戶的技術開放平臺,和海螺A1、星野等多款C端AI應用產品。
MiniMax所打造的AI內容社區注重內容交互。據統計,MiniMax每日與全球用戶進行超30億次交互,處理超3萬億文本token、2000萬張圖片和7萬小時語音,大模型日處理交互量排名國內AI公司首位。
MiniMax主要通過開放平臺和在產品中植入廣告實現商業化。“目前最重要的東西還不是商業化,而是真正達到技術可廣泛可用的程度。”閆俊杰當下思考更多的還是技術如何提升,以及如何跟用戶做更好的共創。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.