保觀 | 聚焦保險創新
由于近期公眾號推送機制改變,歡迎您在公眾號首頁點擊右上【···】,將保觀設為“星標”,及時跟蹤行業最新資訊
隨著人工智能技術的快速發展,大模型已經成為驅動金融行業生態變革的重要力量。在這一大背景下,如何科學、客觀地評估金融大模型的真實能力,成為全行業所關注的焦點。
近日,由上海人工智能實驗室聯合金融行業權威機構共同推出的CNFinBench評測榜單正式發布,引起了業內的廣泛關注。
據悉,該榜單分別從金融專業知識、業務理解和分析、推理和計算、合規性和風險控制、應用程序安全性五個核心維度,對國內外主流大語言模型進行了全方位的專業評估,為金融行業選擇大模型應用提供了重要參考依據。
![]()
具體來看,本次榜單共收錄11款全球領先的金融大模型,涵蓋國內外開源與閉源兩大類型。同時11款大模型在五大測評維度中各有側重,反映出不同研發主體在金融大模型領域的技術優勢與布局方向。
具體來看,“金融專業知識問答”考察的是模型對金融概念、法規的掌握程度,DeepSeek-R1以73.5的單項得分排名第一;
“金融業務理解與分析”評估的是模型處理實際業務流程的能力,Gemini-2.5-Flash以65.2的單項得分排名第一;
“金融事實推理與計算”評估的是模型在復雜金融場景下的邏輯推演能力,PinganGPT-Qwen3-32B以78.0的單項得分排名第一;
“金融合規與風險控制”評估的是模型對監管要求的敏感性與判斷力,Doubao-1.5-pro以57.4的單項得分排名第一;
“金融內生與應用安全”評估的是模型在應用過程中的穩定性和安全性,Gemini-2.5-Flash以99.7的單項得分排名第一。
其中由平安集團推出的金融大模型PinganGPT-Qwen3-32B以綜合得分66.1分的成績摘得榜單第一名,成為本次測評中的最大亮點。在加速迭代的AI浪潮中,平安在金融領域多年沉淀的技術實力仍然不容小覷。
本文將對上榜的11款大模型進行深度分析,解讀各模型的測評表現、技術特點等。
1.PinganGPT-Qwen3-32B
發布時間:2026年2月5日
綜合評分:66.1
PinganGPT-Qwen3-32B由中國平安旗下團隊Omni-Sinitic研發,于2026年2月5日正式發布,并在3月4日完成更新,作為一款閉源金融大模型,參數量僅32B,卻以66.1的綜合得分斬獲榜單第一。
在測評表現上,該模型的金融專業知識評分為69.3分、業務理解和分析為56.7分、推理和計算為78分、合規性和風險控制為54.7分、應用程序安全性為72分,其中推理和計算得分是五大測評維度中評分最高的一項,其他維度得分同樣處于上游水平,全方位的優異表現印證了平安集團在金融垂直領域的技術積累。
具體來看,該款模型依托平安30萬億字節的海量金融數據、3.2 萬億高質量文本語料訓練而成,能夠實現復雜金融場景下的精準數值計算與嚴謹邏輯推理,如今已經廣泛的應用于平安生態內的車險報案、智能問數、費用審核等97個實際業務場景。
此外,中國平安依托于全金融牌照和自主研發的金融大模型,將人工智能技術嵌入到客戶服務、風險減量、信貸風控等多個領域,實現內部效率重構到外部生態賦能的完整閉環。截至2025年前三個季度,中國平安已沉淀30萬億字節數據,覆蓋近2.50億個人客戶,超75億圖片語料,以海量數據為基礎,讓AI持續拓展場景應用的深度和廣度。
2.DeepSeek-R1
發布時間:2025年5月28日
綜合評分:66.0
DeepSeek-R1由DeepSeek研發,于2025年5月28日正式發布,作為一款開源大模型,671B的超大參數量成為本次榜單的一大亮點,并以66.0的綜合得分位居榜單第二名,充分展現出在金融大模型領域的強勁競爭力。
在測評表現上,該模型的金融專業知識評分為73.5分、業務理解和分析為54.4分、推理和計算為76.9分、合規性和風險控制為48.8分、應用程序安全性為76.6分。其中金融專業知識問答是11家大模型中評分最高的,合規與風險控制得分稍低,也是與第一名拉開差距的關鍵因素之一。
具體來看,DeepSeek-R1最大的優勢就是能夠在超大參數量支撐下,具備較強的知識儲備與推理能力,在金融專業知識的覆蓋度與準確性上表現突出,但在風險預警等場景下,性能仍有較大提升空間。
3.Doubao-1.5-pro
發布時間:2025年1月22日
綜合評分:64.3
Doubao-1.5-pro由字節跳動研發,于2025年1月22日正式發布,作為一款閉源大模型,其參數量未公開,憑借64.3的綜合得分,位居榜單第三名,是國內自研金融大模型的重要代表之一。
在測評表現上,該模型展現出均衡的發展特點,其中金融專業知識評分為72.9分、業務理解和分析為52.8分、推理和計算為66.0分、合規性和風險控制為57.4分、應用程序安全性為72.4分。
作為字節跳動在大模型領域的核心成果,Doubao-1.5-pro依托字節跳動在自然語言處理、人工智能技術上的數據積累,具備較強的自然語言交互能力與場景適配能力,能滿足金融客服、智能咨詢等標準化的金融場景需求。同時在合規風險把控上表現尤為突出,進一步滿足了金融融行業監管和政策法規要求。
4.Claude-sonnet4
發布時間:2025年5月22日
綜合評分:63.5
Claude-sonnet4由美國科技公司Anthropic研發,于2025年 5月22日正式發布,作為海外的頭部科技企業的閉源大模型,其參數量未公開,以63.5的綜合得分位居榜單第四名,潛力十分巨大。
在測評表現上,該模型金融專業知識評分為71.3分、業務理解和分析為61.2分、推理和計算為52.7分、合規性和風險控制為51.5分、應用程序安全性為80.8分。其中除了合規與風險控制是短板,其他領域的得分都處于上游水平。
與其他大模型有所不同,Claude-sonnet4在自然語言理解、復雜業務場景分析上具備不小的優勢,可以根據任務復雜度靈活分配算力,從而進行快速響應,以及復雜問題分析。所以目前Claude-sonnet4主要用于日常開發或者企業級落地應用中,憑借其出色的成本效益和穩定可靠性,成為眾多開發團隊的首選主力模型。
5.Qwen3-235B-A22B-Instruct
發布時間:2025年7月21日
綜合評分:62.2
Qwen3-235B-A22B-Instruct由阿里巴巴研發,于2025年7月21日正式發布,參數量在本次上榜開源模型中處于中等水平,綜合得分62.2分,位居榜單第5名。
在測評表現上,該模型表現較為均衡。具體來看,金融專業知識評分為63.4分、業務理解和分析為60.4分、推理和計算為62.3分、合規性和風險控制為51.6分、應用程序安全性為73.1分,僅應用程序安全性這一項得分突破了70。
作為阿里系大模型在金融領域的重要布局,該模型與阿里旗下的電商、金融生態深度融合,在推理能力、多語言支持、工具調用上具備天然的優勢。不過在金融專業知識深度、合規風險把控上仍有提升空間。未來有望依托阿里的技術生態,在更多的金融場景里實現落地。
6.Gemini-2.5-Flash
發布時間:2025年4月17日
綜合評分:58.9
Gemini-2.5-Flash由海外頭部科技企業谷歌研發,于2025年4月17日正式發布,作為閉源大模型,其參數量未公開,以58.9的綜合得分位居榜單第六名。
在測評表現上,與其他的大模型有所不同,該模型呈現出極度不均衡的特點,99.7的金融內生與應用安全得分創下本次榜單的最高分,而金融專業知識問答得分僅23.0、合規與風險控制得分僅36.6,均位列榜單倒數,成為其綜合得分偏低的主要原因。
作為谷歌旗下的重要大模型之一,Gemini-2.5-Flash在模型安全、業務場景分析、邏輯推理上具備一定的優勢,這體現了谷歌在人工智能安全、數據隱私保護上的技術積淀。但值得注意的是,海外大模型進入中國市場時,期監管政策適配性、專業術語的理解成為了進入中國市場的主要障礙。
7.TouchstoneGPT-7B-Instruct
發布時間:2024年11月8日
綜合評分:58.4
TouchstoneGPT-7B-Instruct由粵港澳大灣區數字經濟研究院研發,于2024年11月8日正式發布,是一款開源小參數量大模型,以 58.4的綜合得分位居榜單第七名,是中小科研機構在金融大模型領域的代表案例之一。
在測評表現上,該模型表現中規中矩,金融專業知識評分為64.8分、業務理解和分析為40.8分、推理和計算為59.3分、合規性和風險控制為53.5分、應用程序安全性為73.4分。
TouchstoneGPT-7B-Instruct最大的特點是部署成本低、運行效率高,適合中小金融機構進行部署運用。但是因為受限于參數量的影響,該模型在金融業務理解與分析上存在不小的短板,難以滿足復雜的金融場景需求,所以不適合大型金融機構進行部署運用。
8.GPT-4o
發布時間:2025年5月13日
綜合評分:56.6
GPT-4o由海外科技公司OpenAI研發,于2025年5月13日正式發布,其參數量暫未公開,以56.6的綜合得分位居榜單第八名,表現低于外界預期。
在測評表現上,該模型的發展較為均衡,但整體得分水平偏下。其中金融專業知識評分為37.5分、業務理解和分析為63.9分、推理和計算為69.0分、合規性和風險控制為41.8分、應用程序安全性為70.8分。
作為全球領先的通用大模型,GPT-4o的優勢是成本與效率優化顯著、綜合性能領先,同時可以深度集成至ChatGPT全平臺。但該模型受限于研發時間與行業數據積累,在金融專業知識、業務理解、合規風控上存在明顯的不足。
9.Kimi-K2-Instruct
發布時間:2025年9月5日
綜合評分:53.6
Kimi-K2-Instruct由Moonshot研發,于2025年9月5日正式發布,作為一款超大參數量的開源大模型,其1000B的參數量為本次榜單之最,與超大參數量形成鮮明反差的是綜合得分僅53.6,位居榜單第九名。
在測評表現上,該模型呈現兩極分化的特點。其中金融專業知識評分為35.4分、業務理解和分析為53.8分、推理和計算為59.8分、合規性和風險控制為24.3分、應用程序安全性為69.0分。
作為千億參數量的開源大模型,Kimi-K2-Instruct在需要強計算能力的場景中具備較強的優勢,比如數據建模、金融量化分析、邏輯推理等等。但在金融專業知識、合規風控上存在明顯短板。這說明大參數量并非金融大模型的核心競爭力,未來還需要結合金融行業數據進行專項訓練。
10.Fin-R1
發布時間:2025年3月21日
綜合評分:49.5
Fin-R1由上海財經大學團隊研發,于2025年3月21日正式發布,作為一款由高校科研實驗室推出的開源小參數量大模型,綜合得分為49.5,居榜單第十名。
在測評表現上,該模型得分均處于下游水平。其中金融專業知識評分為36.8分、業務理解和分析為50.8分、推理和計算為60.1分、合規性和風險控制31.4分、應用程序安全性為68.5分。
作為高校科研成果,Fin-R1的研發重點更多的放在技術創新上,因此在金融專業知識、合規風險控制、業務理解等方面并不占據優勢,因此難以與商業金融場景進行適配。
11.Llama3.3-70B-Instruct
發布時間:2024年12月6日
綜合評分:46.0
Llama3.3-70B-Instruct由海外科技巨頭Meta研發,于2024年12月6日正式發布,70B的參數量處于中等水平,以46.0的綜合得分成為本次榜單的最后一名。
在測評表現上,該模型得分均位列下游。其中金融專業知識評分為22.9分、業務理解和分析為53.8分、推理和計算為59.8分、合規性和風險控制24.3分、應用程序安全性為69.0分。
該模型最大的特點就是成本低、性能優秀,且在大模型領域具備一定的技術影響力。而在此次測評中的不佳表現的主要原因是該模型的側重點放在了自然語言交互,而在金融領域中缺乏針對性的訓練與優化。
最后,CNFinBench發布的金融大模型測評榜單,為行業提供了專業的評估和參考。同時以平安集團為代表的金融大模型,已經充分展現出國內在金融大模型領域的技術實力和數據積累。未來隨著AI技術與金融業務的持續融合,金融大模型將發揮愈加重要的作用。
保觀知識星球
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.