您的當前位置:首頁 > 綜合 > 11月中文大模型基準測評出爐:GPT 5.1奪冠、DeepSeek開源第一 正文
時間:2025-12-18 03:09:22 來源:網(wǎng)絡整理 編輯:綜合
11月28日消息,SuperCLUE公布了2025年11月中文大模型基準測評結(jié)果。本次測評圍繞數(shù)學推理、科學推理、代碼生成含web開發(fā))、幻覺控制、精確指令遵循五大核心任務展開,題目總量為822道新題
11月28日消息,月中源第SuperCLUE公布了2025年11月中文大模型基準測評結(jié)果。模型
本次測評圍繞數(shù)學推理、基準科學推理、測評出爐代碼生成(含web開發(fā))、月中源第幻覺控制、模型精確指令遵循五大核心任務展開,基準題目總量為822道新題,測評出爐最終得分取各任務平均分。月中源第
本次共測評27個國內(nèi)外大模型同臺競技,模型OpenAI的基準GPT 5.1與國產(chǎn)模型DeepSeek分別斬獲綜合冠軍與開源領域第一。
OpenAI的測評出爐GPT-5.1 (high) 以68.11的總分登頂,成為本月綜合表現(xiàn)最佳的月中源第大模型。
GPT-5.1 在數(shù)學推理(74.07)、模型代碼生成(76.30)等項表現(xiàn)突出,基準幻覺控制得分 88.80,展現(xiàn)出強穩(wěn)定性。
Anthropic的Claude-Opus-4.5-Reasoning以62.57分緊隨其后,其幻覺控制得分高達90.33,在該項能力上領跑。
而在開源模型中,深度求索的 DeepSeek-V3.2-Exp-Thinking以53.69分位列開源陣營第一。
聯(lián)想摩托羅拉與鴻日達設立3D打印實驗室 聚焦通信設備輕量化2025-12-18 02:51
全球首位“AI機器人”代言人!小鵬全新一代Iron代言自家X9超級增程版2025-12-18 02:33
僅3g!Sandisk發(fā)布全球最小1TB USB2025-12-18 02:18
臺積電將對2/3/5nm制程大漲價 蘋果18面臨成本壓力!小米玄戒O1恐難逃影響2025-12-18 01:45
主板用上木頭、皮革:技嘉X870E AERO X3D WOOD開售!定價3999元2025-12-18 01:31
小鵬X9綜合續(xù)航超1600公里!何小鵬詳解10年純電為何做增程2025-12-18 01:30
從客廳到車艙 家電品牌紛紛進入造車新戰(zhàn)場2025-12-18 01:06
24.98萬起 新款坦克400上市:新增Hi42025-12-18 00:41
掛墻用更方便!清風原生木漿紙巾24.9元10提大促2025-12-18 00:34
泡泡瑪特出現(xiàn)直播事故:消費者質(zhì)疑主播在內(nèi)涵自己是韭菜2025-12-18 00:28
2025年最強的拍照手機推薦 看清真實影像力2025-12-18 02:25
決戰(zhàn)雙11:完美打印機選購指南2025-12-18 02:24
行業(yè)至暗時刻!飛天茅臺電商補貼售價降至官方指導價1499元:官方回應2025-12-18 02:19
Windows 98發(fā)布會全球直播藍屏死機!微軟揭秘真相:未測試直接演示2025-12-18 02:07
(經(jīng)濟觀察)賦能中國經(jīng)濟發(fā)展 專家解碼“關(guān)鍵變量”2025-12-18 01:27
罕見特大暴雪!大范圍雨雪將影響多地2025-12-18 01:16
決戰(zhàn)雙11:完美打印機選購指南2025-12-18 01:14
行業(yè)唯一超大屏賽道:華為又一款7英寸手機曝光!2025-12-18 01:11
繼組裝終端產(chǎn)品后 蘋果首次考慮在印度封裝iPhone芯片2025-12-18 01:01
受不可抗力影響 知名資源網(wǎng)站低端影視宣布關(guān)站2025-12-18 00:53