您的當(dāng)前位置:首頁 > 熱點 > SuperCLUE最新評測:360zhinao3 正文
時間:2025-12-18 02:43:11 來源:網(wǎng)絡(luò)整理 編輯:熱點
近日,中文精確指令遵循測評基準(zhǔn)SuperCLUE-CPIF)正式發(fā)布,360zhinao3-o1.5以78.97分位居國產(chǎn)大模型第一,在任務(wù)類型、指令數(shù)量兩類劃分中均為國內(nèi)榜首,其在精確指令遵循上的卓
近日,新評中文精確指令遵循測評基準(zhǔn)(SuperCLUE-CPIF)正式發(fā)布,新評360zhinao3-o1.5以78.97分位居國產(chǎn)大模型第一,新評在任務(wù)類型、新評指令數(shù)量兩類劃分中均為國內(nèi)榜首,新評其在精確指令遵循上的新評卓越表現(xiàn),正是新評AI技術(shù)提升“可用性”和“實用性”、從實驗室走向大規(guī)模產(chǎn)業(yè)應(yīng)用的新評關(guān)鍵一步。
本次測評涵蓋 GPT-5.1(high)、新評Gemini-3-Pro-Preview、新評GPT-5(high)、新評DeepSeek-V3.2-Exp-Thinking、新評Claude-Sonnet-4.5-Reasoning等共15個國內(nèi)外模型參與。新評基于實際生產(chǎn)環(huán)境特點,新評SuperCLUE-CPIF 重點評估大型語言模型(LLM)在中文環(huán)境下精確遵循復(fù)雜、新評多約束指令的能力。測評結(jié)果顯示,國產(chǎn)主流大模型中,360zhinao3-o1.5以78.97分位居國產(chǎn)大模型第一,ERNIE-X1.1和DeepSeek-V3.2-Exp-Thinking 分別以75.90分和74.36分位居國內(nèi)二、三。
(圖說:SuperCLUE-CPIF 測評截圖)
360zhinao3-o1.5指令遵循訓(xùn)練部分的工作已經(jīng)發(fā)布在論文Light-IF系列上。該模型直面現(xiàn)有大語言模型在處理交織多重約束的復(fù)雜指令時普遍存在的“懶惰推理”現(xiàn)象,通過自動化指令構(gòu)建與難度感知強化學(xué)習(xí)兩大核心技術(shù),驅(qū)動模型從被動執(zhí)行向“主動檢查-修改-再檢查”的演進,顯著提升了在復(fù)雜指令下的精準(zhǔn)遵循度。
(圖說:Light-IF系列模型論文發(fā)表)
另外,360zhinao3-o1.5的訓(xùn)練模型Light-IF論文曾被頂會AAAI 2026成功收錄。據(jù)悉,AAAI 2025共收到12957篇有效投稿,錄用3032篇,錄取率為23.4%,其中Oral論文占比4.6%。而AAAI 2026的投稿量進一步飆升至23680篇,僅錄用4167篇,錄取率降至17.6%,Oral錄用率更是進一步降低。Light-IF能在如此激烈的競爭中脫穎而出,可見其在精準(zhǔn)指令遵循上的突破性。值得一提的是,Light-IF系列模型已陸續(xù)在Hugging Face開源,供全球開發(fā)者使用、對比與復(fù)現(xiàn)。
將小參數(shù)模型的能力推向極致,是360智腦團隊持續(xù)深耕的技術(shù)路徑。此前,360與北京大學(xué)聯(lián)合研發(fā)的Tiny-R1-32B模型,僅以5%的參數(shù)量便在數(shù)學(xué)等領(lǐng)域逼近了千億級模型的性能,是一次在模型優(yōu)化與融合上的深厚積累。這種對“小而精”垂類模型的持續(xù)打磨,為AI智能體(Agent)的爆發(fā)奠定了堅實基礎(chǔ)。
微信:這種“轉(zhuǎn)賬”不要收!2025-12-18 02:27
解鎖“車位到車位”領(lǐng)航輔助!比亞迪唐L新色版上市:21.48萬起2025-12-18 02:02
(粵港澳全運會)十五運會射擊(飛碟):名將續(xù)傳奇 新星展鋒芒2025-12-18 02:02
古天樂現(xiàn)身樂道展臺秀粵語 李斌現(xiàn)場回贈一把“寶劍”2025-12-18 01:51
微信:這種“轉(zhuǎn)賬”不要收!2025-12-18 01:27
新手必看!老炮也來!影馳2025年末裝機推薦2025-12-18 01:09
靈光APP上線3天擴容8輪 沖上App Store中國區(qū)免費榜第六2025-12-18 01:06
限時12.99萬起 日產(chǎn)天籟鴻蒙座艙版上市:燃油車全球首搭2025-12-18 01:02
小米官宣:比亞迪方程豹鈦7首發(fā)適配小米生態(tài)接口 支持后排掛載平板2025-12-18 01:01
臺胞向中國閩臺緣博物館捐贈19件家書家藏2025-12-18 00:06
羅永浩:很多人被PUA慣了 總說是平臺成就了個人2025-12-18 02:19
要想暖氣熱 就得先放氣 很多人都做錯了2025-12-18 02:03
2025年末換機不糾結(jié)!OPPO Reno15系列開賣 精致小直屏更有超強實況玩法2025-12-18 01:48
微軟發(fā)布Win11 KB5070312更新:修復(fù)文件管理器普遍Bug!2025-12-18 01:44
什么手機可以拍實況照片 2025實測指南來了2025-12-18 01:21
黑龍江省原副省長、省公安廳原廳長畢寶文被查2025-12-18 01:13
Grok在線吹捧馬斯克:比詹姆斯體能更強 比布拉德皮特還帥2025-12-18 00:59
海爾智慧樓宇成食品工業(yè)TOP級企業(yè)首選品牌2025-12-18 00:44
一大波應(yīng)用上架鴻蒙版 人民日報健康、可樂記賬、順易充都來了!2025-12-18 00:37
蘋果M4 Max游戲?qū)崪y:能超RTX 5070!2025-12-18 00:01