无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

金融大模型哪家強?11款主流達模型橫向測評,中國平安“險勝”DeepSeek登頂權威榜單

0
分享至

保觀 | 聚焦保險創新

由于近期公眾號推送機制改變,歡迎您在公眾號首頁點擊右上【···】,將保觀設為“星標”,及時跟蹤行業最新資訊

隨著人工智能技術的快速發展,大模型已經成為驅動金融行業生態變革的重要力量。在這一大背景下,如何科學、客觀地評估金融大模型的真實能力,成為全行業所關注的焦點。

近日,由上海人工智能實驗室聯合金融行業權威機構共同推出的CNFinBench評測榜單正式發布,引起了業內的廣泛關注。

據悉,該榜單分別從金融專業知識、業務理解和分析、推理和計算、合規性和風險控制、應用程序安全性五個核心維度,對國內外主流大語言模型進行了全方位的專業評估,為金融行業選擇大模型應用提供了重要參考依據。


具體來看,本次榜單共收錄11款全球領先的金融大模型,涵蓋國內外開源與閉源兩大類型。同時11款大模型在五大測評維度中各有側重,反映出不同研發主體在金融大模型領域的技術優勢與布局方向

具體來看,“金融專業知識問答”考察的是模型對金融概念、法規的掌握程度,DeepSeek-R1以73.5的單項得分排名第一;

“金融業務理解與分析”評估的是模型處理實際業務流程的能力,Gemini-2.5-Flash以65.2的單項得分排名第一;

“金融事實推理與計算”評估的是模型在復雜金融場景下的邏輯推演能力,PinganGPT-Qwen3-32B以78.0的單項得分排名第一;

“金融合規與風險控制”評估的是模型對監管要求的敏感性與判斷力,Doubao-1.5-pro以57.4的單項得分排名第一;

“金融內生與應用安全”評估的是模型在應用過程中的穩定性和安全性,Gemini-2.5-Flash以99.7的單項得分排名第一。

其中由平安集團推出的金融大模型PinganGPT-Qwen3-32B以綜合得分66.1分的成績摘得榜單第一名,成為本次測評中的最大亮點。在加速迭代的AI浪潮中,平安在金融領域多年沉淀的技術實力仍然不容小覷。

本文將對上榜的11款大模型進行深度分析,解讀各模型的測評表現、技術特點等。

1.PinganGPT-Qwen3-32B

發布時間:2026年2月5日

綜合評分:66.1

PinganGPT-Qwen3-32B由中國平安旗下團隊Omni-Sinitic研發,于2026年2月5日正式發布,并在3月4日完成更新,作為一款閉源金融大模型,參數量僅32B,卻以66.1的綜合得分斬獲榜單第一。

在測評表現上,該模型的金融專業知識評分為69.3分、業務理解和分析為56.7分、推理和計算為78分、合規性和風險控制為54.7分、應用程序安全性為72分,其中推理和計算得分是五大測評維度中評分最高的一項,其他維度得分同樣處于上游水平,全方位的優異表現印證了平安集團在金融垂直領域的技術積累。

具體來看,該款模型依托平安30萬億字節的海量金融數據、3.2 萬億高質量文本語料訓練而成,能夠實現復雜金融場景下的精準數值計算與嚴謹邏輯推理,如今已經廣泛的應用于平安生態內的車險報案、智能問數、費用審核等97個實際業務場景。

此外,中國平安依托于全金融牌照和自主研發的金融大模型,將人工智能技術嵌入到客戶服務、風險減量、信貸風控等多個領域,實現內部效率重構到外部生態賦能的完整閉環。截至2025年前三個季度,中國平安已沉淀30萬億字節數據,覆蓋近2.50億個人客戶,超75億圖片語料,以海量數據為基礎,讓AI持續拓展場景應用的深度和廣度。

2.DeepSeek-R1

發布時間:2025年5月28日

綜合評分:66.0

DeepSeek-R1由DeepSeek研發,于2025年5月28日正式發布,作為一款開源大模型,671B的超大參數量成為本次榜單的一大亮點,并以66.0的綜合得分位居榜單第二名,充分展現出在金融大模型領域的強勁競爭力。

在測評表現上,該模型的金融專業知識評分為73.5分、業務理解和分析為54.4分、推理和計算為76.9分、合規性和風險控制為48.8分、應用程序安全性為76.6分。其中金融專業知識問答是11家大模型中評分最高的,合規與風險控制得分稍低,也是與第一名拉開差距的關鍵因素之一。

具體來看,DeepSeek-R1最大的優勢就是能夠在超大參數量支撐下,具備較強的知識儲備與推理能力,在金融專業知識的覆蓋度與準確性上表現突出,但在風險預警等場景下,性能仍有較大提升空間。

3.Doubao-1.5-pro

發布時間:2025年1月22日

綜合評分:64.3

Doubao-1.5-pro由字節跳動研發,于2025年1月22日正式發布,作為一款閉源大模型,其參數量未公開,憑借64.3的綜合得分,位居榜單第三名,是國內自研金融大模型的重要代表之一。

在測評表現上,該模型展現出均衡的發展特點,其中金融專業知識評分為72.9分、業務理解和分析為52.8分、推理和計算為66.0分、合規性和風險控制為57.4分、應用程序安全性為72.4分。

作為字節跳動在大模型領域的核心成果,Doubao-1.5-pro依托字節跳動在自然語言處理、人工智能技術上的數據積累,具備較強的自然語言交互能力與場景適配能力,能滿足金融客服、智能咨詢等標準化的金融場景需求。同時在合規風險把控上表現尤為突出,進一步滿足了金融融行業監管和政策法規要求。

4.Claude-sonnet4

發布時間:2025年5月22日

綜合評分:63.5

Claude-sonnet4由美國科技公司Anthropic研發,于2025年 5月22日正式發布,作為海外的頭部科技企業的閉源大模型,其參數量未公開,以63.5的綜合得分位居榜單第四名,潛力十分巨大。

在測評表現上,該模型金融專業知識評分為71.3分、業務理解和分析為61.2分、推理和計算為52.7分、合規性和風險控制為51.5分、應用程序安全性為80.8分。其中除了合規與風險控制是短板,其他領域的得分都處于上游水平。

與其他大模型有所不同,Claude-sonnet4在自然語言理解、復雜業務場景分析上具備不小的優勢,可以根據任務復雜度靈活分配算力,從而進行快速響應,以及復雜問題分析。所以目前Claude-sonnet4主要用于日常開發或者企業級落地應用中,憑借其出色的成本效益和穩定可靠性,成為眾多開發團隊的首選主力模型。

5.Qwen3-235B-A22B-Instruct

發布時間:2025年7月21日

綜合評分:62.2

Qwen3-235B-A22B-Instruct由阿里巴巴研發,于2025年7月21日正式發布,參數量在本次上榜開源模型中處于中等水平,綜合得分62.2分,位居榜單第5名。

在測評表現上,該模型表現較為均衡。具體來看,金融專業知識評分為63.4分、業務理解和分析為60.4分、推理和計算為62.3分、合規性和風險控制為51.6分、應用程序安全性為73.1分,僅應用程序安全性這一項得分突破了70。

作為阿里系大模型在金融領域的重要布局,該模型與阿里旗下的電商、金融生態深度融合,在推理能力、多語言支持、工具調用上具備天然的優勢。不過在金融專業知識深度、合規風險把控上仍有提升空間。未來有望依托阿里的技術生態,在更多的金融場景里實現落地。

6.Gemini-2.5-Flash

發布時間:2025年4月17日

綜合評分:58.9

Gemini-2.5-Flash由海外頭部科技企業谷歌研發,于2025年4月17日正式發布,作為閉源大模型,其參數量未公開,以58.9的綜合得分位居榜單第六名。

在測評表現上,與其他的大模型有所不同,該模型呈現出極度不均衡的特點,99.7的金融內生與應用安全得分創下本次榜單的最高分,而金融專業知識問答得分僅23.0、合規與風險控制得分僅36.6,均位列榜單倒數,成為其綜合得分偏低的主要原因。

作為谷歌旗下的重要大模型之一,Gemini-2.5-Flash在模型安全、業務場景分析、邏輯推理上具備一定的優勢,這體現了谷歌在人工智能安全、數據隱私保護上的技術積淀。但值得注意的是,海外大模型進入中國市場時,期監管政策適配性、專業術語的理解成為了進入中國市場的主要障礙。

7.TouchstoneGPT-7B-Instruct

發布時間:2024年11月8日

綜合評分:58.4

TouchstoneGPT-7B-Instruct由粵港澳大灣區數字經濟研究院研發,于2024年11月8日正式發布,是一款開源小參數量大模型,以 58.4的綜合得分位居榜單第七名,是中小科研機構在金融大模型領域的代表案例之一。

在測評表現上,該模型表現中規中矩,金融專業知識評分為64.8分、業務理解和分析為40.8分、推理和計算為59.3分、合規性和風險控制為53.5分、應用程序安全性為73.4分。

TouchstoneGPT-7B-Instruct最大的特點是部署成本低、運行效率高,適合中小金融機構進行部署運用。但是因為受限于參數量的影響,該模型在金融業務理解與分析上存在不小的短板,難以滿足復雜的金融場景需求,所以不適合大型金融機構進行部署運用。

8.GPT-4o

發布時間:2025年5月13日

綜合評分:56.6

GPT-4o由海外科技公司OpenAI研發,于2025年5月13日正式發布,其參數量暫未公開,以56.6的綜合得分位居榜單第八名,表現低于外界預期。

在測評表現上,該模型的發展較為均衡,但整體得分水平偏下。其中金融專業知識評分為37.5分、業務理解和分析為63.9分、推理和計算為69.0分、合規性和風險控制為41.8分、應用程序安全性為70.8分。

作為全球領先的通用大模型,GPT-4o的優勢是成本與效率優化顯著、綜合性能領先,同時可以深度集成至ChatGPT全平臺。但該模型受限于研發時間與行業數據積累,在金融專業知識、業務理解、合規風控上存在明顯的不足。

9.Kimi-K2-Instruct

發布時間:2025年9月5日

綜合評分:53.6

Kimi-K2-Instruct由Moonshot研發,于2025年9月5日正式發布,作為一款超大參數量的開源大模型,其1000B的參數量為本次榜單之最,與超大參數量形成鮮明反差的是綜合得分僅53.6,位居榜單第九名。

在測評表現上,該模型呈現兩極分化的特點。其中金融專業知識評分為35.4分、業務理解和分析為53.8分、推理和計算為59.8分、合規性和風險控制為24.3分、應用程序安全性為69.0分。

作為千億參數量的開源大模型,Kimi-K2-Instruct在需要強計算能力的場景中具備較強的優勢,比如數據建模、金融量化分析、邏輯推理等等。但在金融專業知識、合規風控上存在明顯短板。這說明大參數量并非金融大模型的核心競爭力,未來還需要結合金融行業數據進行專項訓練。

10.Fin-R1

發布時間:2025年3月21日

綜合評分:49.5

Fin-R1由上海財經大學團隊研發,于2025年3月21日正式發布,作為一款由高校科研實驗室推出的開源小參數量大模型,綜合得分為49.5,居榜單第十名。

在測評表現上,該模型得分均處于下游水平。其中金融專業知識評分為36.8分、業務理解和分析為50.8分、推理和計算為60.1分、合規性和風險控制31.4分、應用程序安全性為68.5分。

作為高校科研成果,Fin-R1的研發重點更多的放在技術創新上,因此在金融專業知識、合規風險控制、業務理解等方面并不占據優勢,因此難以與商業金融場景進行適配。

11.Llama3.3-70B-Instruct

發布時間:2024年12月6日

綜合評分:46.0

Llama3.3-70B-Instruct由海外科技巨頭Meta研發,于2024年12月6日正式發布,70B的參數量處于中等水平,以46.0的綜合得分成為本次榜單的最后一名。

在測評表現上,該模型得分均位列下游。其中金融專業知識評分為22.9分、業務理解和分析為53.8分、推理和計算為59.8分、合規性和風險控制24.3分、應用程序安全性為69.0分。

該模型最大的特點就是成本低、性能優秀,且在大模型領域具備一定的技術影響力。而在此次測評中的不佳表現的主要原因是該模型的側重點放在了自然語言交互,而在金融領域中缺乏針對性的訓練與優化。

最后,CNFinBench發布的金融大模型測評榜單,為行業提供了專業的評估和參考。同時以平安集團為代表的金融大模型,已經充分展現出國內在金融大模型領域的技術實力和數據積累。未來隨著AI技術與金融業務的持續融合,金融大模型將發揮愈加重要的作用。

保觀知識星球

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
留神峪煤礦工人:連一雙手套都沒發過

留神峪煤礦工人:連一雙手套都沒發過

極目新聞
2026-05-24 20:08:34
太揪心了!山西煤礦礦難,有博主靈魂拷問:你們是干什么吃的!

太揪心了!山西煤礦礦難,有博主靈魂拷問:你們是干什么吃的!

丫頭舫
2026-05-24 10:13:49
英超官方:阿森納客戰水晶宮后捧杯領獎,下賽季佩戴冠軍金標

英超官方:阿森納客戰水晶宮后捧杯領獎,下賽季佩戴冠軍金標

懂球帝
2026-05-24 20:18:40
里克爾梅:老佛爺是皇馬歷史最好的主席,但皇馬需開啟新周期

里克爾梅:老佛爺是皇馬歷史最好的主席,但皇馬需開啟新周期

懂球帝
2026-05-24 20:40:46
不打了!西決報銷!雷霆傷病潮來了

不打了!西決報銷!雷霆傷病潮來了

籃球教學論壇
2026-05-24 09:17:30
前Meta員工吐槽:團隊90%是華人,7次裁員有6次針對本就少數的非華人

前Meta員工吐槽:團隊90%是華人,7次裁員有6次針對本就少數的非華人

西游日記
2026-05-24 18:21:55
存儲熱潮愈演愈烈!獎金拿到手軟 三星、SK海力士員工涌入豪車展廳

存儲熱潮愈演愈烈!獎金拿到手軟 三星、SK海力士員工涌入豪車展廳

財聯社
2026-05-24 14:00:09
吳婉芳次子大婚!干爹張學友獻唱,每桌兩瓶茅臺,鄭伊健夫婦也在

吳婉芳次子大婚!干爹張學友獻唱,每桌兩瓶茅臺,鄭伊健夫婦也在

裕豐娛間說
2026-05-24 07:05:20
連續兩周獲亞軍!馬來西亞大師賽:陳雨菲決賽0-2不敵因達農

連續兩周獲亞軍!馬來西亞大師賽:陳雨菲決賽0-2不敵因達農

全景體育V
2026-05-24 15:23:20
“去俄化”再進一步!哈薩克斯坦認祖金帳汗國,俄羅斯被戳中痛點

“去俄化”再進一步!哈薩克斯坦認祖金帳汗國,俄羅斯被戳中痛點

全城探秘
2026-05-23 14:27:34
俄羅斯或許正考慮“芬蘭模式”,以實現“勝利”結束戰爭

俄羅斯或許正考慮“芬蘭模式”,以實現“勝利”結束戰爭

山河路口
2026-05-23 21:02:58
全國總工會:堅決擁護黨中央決定

全國總工會:堅決擁護黨中央決定

新京報
2026-05-23 19:45:06
日媒:高市早苗發文稱對中國山西煤礦事故深感悲痛

日媒:高市早苗發文稱對中國山西煤礦事故深感悲痛

隨波蕩漾的漂流瓶
2026-05-23 22:02:02
重慶:17人失聯,1人死亡

重慶:17人失聯,1人死亡

南方都市報
2026-05-24 11:26:22
全球4個最頂尖大腦作出共同判斷,留給人類的時間只有5年了

全球4個最頂尖大腦作出共同判斷,留給人類的時間只有5年了

史政先鋒
2026-05-23 15:03:56
伊朗總統:準備向世界保證,伊朗不尋求擁有核武器

伊朗總統:準備向世界保證,伊朗不尋求擁有核武器

新華社
2026-05-24 20:20:19
53歲袁立突發重病!病床素顏照曝光,身處上海頂級醫院治療

53歲袁立突發重病!病床素顏照曝光,身處上海頂級醫院治療

行者聊官
2026-05-23 14:57:01
投喂獅子時觀光車車門突然打開!探訪八達嶺野生動物園:猛獸區投喂項目已關閉,同類觀光車停運

投喂獅子時觀光車車門突然打開!探訪八達嶺野生動物園:猛獸區投喂項目已關閉,同類觀光車停運

紅星新聞
2026-05-24 18:07:17
中央氣象臺:江蘇、上海、浙江西部、安徽南部、湖北東部和南部等地出現較強雷達回波

中央氣象臺:江蘇、上海、浙江西部、安徽南部、湖北東部和南部等地出現較強雷達回波

大風新聞
2026-05-24 10:26:30
留神峪救援最新進展:發現兩條隱藏巷道,此前企業人員提供“陰陽圖紙”使救援難度大大提升

留神峪救援最新進展:發現兩條隱藏巷道,此前企業人員提供“陰陽圖紙”使救援難度大大提升

浙江之聲
2026-05-24 17:34:50
2026-05-24 21:40:50
保觀 incentive-icons
保觀
保險科技資訊平臺!
3108文章數 1333關注度
往期回顧 全部

財經要聞

什么情況下,本輪AI大行情會結束?

頭條要聞

女子將2萬多克黃金存珠寶店起糾紛:老板猥褻我和女兒

頭條要聞

女子將2萬多克黃金存珠寶店起糾紛:老板猥褻我和女兒

體育要聞

唐斯發牌,大頭逆襲:騎士跌向殘忍夏季

娛樂要聞

王鶴棣掉粉超20萬!代言和作品遭抵制

科技要聞

我戴著攝像頭上班,正在幫AI搶走我飯碗

汽車要聞

2027款星途瑤光上市 把"全球車"標準卷進13萬級市場

態度原創

旅游
游戲
房產
親子
公開課

旅游要聞

穿越最美西藏|千年古城拉薩 人文與自然相映

LCK第二賽段:領先不會打比賽,5000不是劣勢,T1翻盤成功橫掃BRO

房產要聞

瘋狂周末,海口樓市突然爆了!

親子要聞

優可絲的面料,像奶皮子一樣軟,長短也很合適。 楊雪呀

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版