國內(nèi)唯一 阿里千問斬獲NeurIPS 2025最佳論文獎
時間:2025-12-17 16:19:03 出處:休閑閱讀(143)
11月27日,國內(nèi)人工智能領(lǐng)域頂級會議NeurIPS 2025公布了論文獎,唯阿問斬阿里通義千問團(tuán)隊在注意力機(jī)制上的千論文研究成果從全球5524篇論文中脫穎而出,被評為最佳論文,最佳是國內(nèi)唯一獲得該獎項的中國團(tuán)隊。該論文首次在業(yè)內(nèi)揭秘了注意力門控對大模型性能和訓(xùn)練的唯阿問斬影響,據(jù)悉,千論文該研究成果已應(yīng)用于Qwen3-Next模型,最佳并顯著提升模型的國內(nèi)性能與魯棒性。
阿里通義千問研究成果被評為NeurIPS 2025最佳論文
門控是唯阿問斬大模型應(yīng)用最廣泛的技術(shù)之一,它可以作為模型的千論文“智能降噪耳機(jī)”,幫助模型過濾無效信息從而提升模型性能。最佳近年來,國內(nèi)AlphaFold2、唯阿問斬Forgetting Transformer等學(xué)術(shù)界和工業(yè)界模型開始探索將門控和注意力機(jī)制結(jié)合,千論文但都對門控在注意力機(jī)制中有效的原因缺乏探索,也沒有大規(guī)模實(shí)踐的經(jīng)驗(yàn)。
此次,通義千問團(tuán)隊通過在1.7B稠密模型(Dense)與15B混合專家模型(MoE)上訓(xùn)練超過 3.5 萬億 token,并對比 30 余組控制實(shí)驗(yàn),首次清晰揭秘了其背后的原理,并展現(xiàn)了在注意力中使用門控形式最有效的方式及擴(kuò)展成功實(shí)踐。
注意力頭是?注意力機(jī)制中的基本計算單元。實(shí)驗(yàn)結(jié)果顯示,對各注意力頭的輸出進(jìn)行門控,是提升模型性能最有效的方式。使用該方式,在引入額外1%參數(shù)、計算開銷增加低于2%的情況下,可以實(shí)現(xiàn)0.2以上的困惑度下降、MMLU基準(zhǔn)評測2個點(diǎn)的提升。研究還發(fā)現(xiàn),該技術(shù)還能在更大規(guī)模的模型訓(xùn)練上實(shí)現(xiàn)更好的性能。
使用論文方法,在引入額外1%參數(shù)、計算開銷增加低于2%的情況下,可以實(shí)現(xiàn)0.2以上的困惑度下降、MMLU基準(zhǔn)評測2個點(diǎn)的提升
更深入的分析發(fā)現(xiàn),注意力門控還解決了大模型長期存在的兩大問題:注意力池(Attention Sink),即少量特殊token計算中產(chǎn)生很大的輸出值、占據(jù)很高的注意力分?jǐn)?shù);巨量激活(Massive Activation),即模型激活中出現(xiàn)大于中位數(shù)數(shù)千倍的離群值。上述兩個現(xiàn)象都容易在BF16等低精度訓(xùn)練中引發(fā)數(shù)值誤差,影響訓(xùn)練穩(wěn)定與低精度部署。該研究顯示,門控注意力將首token的注意力占比從 46.7%降至4.8%,同時將最大激活值從1053降至94。
目前,該技術(shù)方案、實(shí)驗(yàn)?zāi)P图爱a(chǎn)品級模型均已開源。NeurIPS評審委員會表示:“我們認(rèn)為該方法將被廣泛采用,這項工作將極大推動社區(qū)對大語言模型中注意力機(jī)制的理解。”
通義千問團(tuán)隊表示:“對門控機(jī)制、模型機(jī)制等的深入理解,不僅為大語言模型架構(gòu)設(shè)計提供了新思路,也為構(gòu)建更穩(wěn)定、更高效、更可控的大模型奠定了基礎(chǔ)。”
據(jù)悉,目前阿里千問已開源300多款模型,涵蓋全模態(tài)、全尺寸,全球下載量突破7億次,衍生模型超過18萬個,位居全球第一。
猜你喜歡
- 多地醫(yī)院接診泡溫泉昏迷患者 確診熱射病
- 鬧劇一場!菲律賓“撤回”一次7.5級地震
- 夢想與傳承:兩位羽毛球選手的殘?zhí)貖W會之旅
- 殘?zhí)貖W會網(wǎng)球比賽在珠海舉行
- 顯卡還沒跑滿 數(shù)據(jù)中心先被“網(wǎng)線”卡脖子了
- 國家知識產(chǎn)權(quán)局:持續(xù)加大對民營經(jīng)濟(jì)的支持和服務(wù)力度
- 一圖看懂:純電鋼炮零跑Lafa5五款車型到底如何選
- 湖南瀏陽做強(qiáng)特色優(yōu)勢產(chǎn)業(yè) 縣域經(jīng)濟(jì)能級攀升
- 通勤族夢中情車!12306回應(yīng)京滬夜班高鐵:應(yīng)客流需求臨時增加