國內(nèi)唯一 阿里千問斬獲NeurIPS 2025最佳論文獎(jiǎng)
時(shí)間:2025-12-17 16:17:30 出處:知識(shí)閱讀(143)
11月27日,國內(nèi)人工智能領(lǐng)域頂級(jí)會(huì)議NeurIPS 2025公布了論文獎(jiǎng),唯阿問斬阿里通義千問團(tuán)隊(duì)在注意力機(jī)制上的千論文研究成果從全球5524篇論文中脫穎而出,被評(píng)為最佳論文,最佳是國內(nèi)唯一獲得該獎(jiǎng)項(xiàng)的中國團(tuán)隊(duì)。該論文首次在業(yè)內(nèi)揭秘了注意力門控對大模型性能和訓(xùn)練的唯阿問斬影響,據(jù)悉,千論文該研究成果已應(yīng)用于Qwen3-Next模型,最佳并顯著提升模型的國內(nèi)性能與魯棒性。
阿里通義千問研究成果被評(píng)為NeurIPS 2025最佳論文
門控是唯阿問斬大模型應(yīng)用最廣泛的技術(shù)之一,它可以作為模型的千論文“智能降噪耳機(jī)”,幫助模型過濾無效信息從而提升模型性能。最佳近年來,國內(nèi)AlphaFold2、唯阿問斬Forgetting Transformer等學(xué)術(shù)界和工業(yè)界模型開始探索將門控和注意力機(jī)制結(jié)合,千論文但都對門控在注意力機(jī)制中有效的原因缺乏探索,也沒有大規(guī)模實(shí)踐的經(jīng)驗(yàn)。
此次,通義千問團(tuán)隊(duì)通過在1.7B稠密模型(Dense)與15B混合專家模型(MoE)上訓(xùn)練超過 3.5 萬億 token,并對比 30 余組控制實(shí)驗(yàn),首次清晰揭秘了其背后的原理,并展現(xiàn)了在注意力中使用門控形式最有效的方式及擴(kuò)展成功實(shí)踐。
注意力頭是?注意力機(jī)制中的基本計(jì)算單元。實(shí)驗(yàn)結(jié)果顯示,對各注意力頭的輸出進(jìn)行門控,是提升模型性能最有效的方式。使用該方式,在引入額外1%參數(shù)、計(jì)算開銷增加低于2%的情況下,可以實(shí)現(xiàn)0.2以上的困惑度下降、MMLU基準(zhǔn)評(píng)測2個(gè)點(diǎn)的提升。研究還發(fā)現(xiàn),該技術(shù)還能在更大規(guī)模的模型訓(xùn)練上實(shí)現(xiàn)更好的性能。
使用論文方法,在引入額外1%參數(shù)、計(jì)算開銷增加低于2%的情況下,可以實(shí)現(xiàn)0.2以上的困惑度下降、MMLU基準(zhǔn)評(píng)測2個(gè)點(diǎn)的提升
更深入的分析發(fā)現(xiàn),注意力門控還解決了大模型長期存在的兩大問題:注意力池(Attention Sink),即少量特殊token計(jì)算中產(chǎn)生很大的輸出值、占據(jù)很高的注意力分?jǐn)?shù);巨量激活(Massive Activation),即模型激活中出現(xiàn)大于中位數(shù)數(shù)千倍的離群值。上述兩個(gè)現(xiàn)象都容易在BF16等低精度訓(xùn)練中引發(fā)數(shù)值誤差,影響訓(xùn)練穩(wěn)定與低精度部署。該研究顯示,門控注意力將首token的注意力占比從 46.7%降至4.8%,同時(shí)將最大激活值從1053降至94。
目前,該技術(shù)方案、實(shí)驗(yàn)?zāi)P图爱a(chǎn)品級(jí)模型均已開源。NeurIPS評(píng)審委員會(huì)表示:“我們認(rèn)為該方法將被廣泛采用,這項(xiàng)工作將極大推動(dòng)社區(qū)對大語言模型中注意力機(jī)制的理解。”
通義千問團(tuán)隊(duì)表示:“對門控機(jī)制、模型機(jī)制等的深入理解,不僅為大語言模型架構(gòu)設(shè)計(jì)提供了新思路,也為構(gòu)建更穩(wěn)定、更高效、更可控的大模型奠定了基礎(chǔ)。”
據(jù)悉,目前阿里千問已開源300多款模型,涵蓋全模態(tài)、全尺寸,全球下載量突破7億次,衍生模型超過18萬個(gè),位居全球第一。
猜你喜歡
- 樂道L90榮獲大三排SUV首個(gè)C
- 90后數(shù)學(xué)天才韋東奕已獲評(píng)北京大學(xué)副教授:身著黑衣出鏡
- 三文魚與AI兼得 挪威用NVIDIA H100顯卡散熱養(yǎng)魚
- 企業(yè)級(jí)SATA SSD天花板!長江存儲(chǔ)SE006 960GB評(píng)測:持續(xù)3天高負(fù)荷測試 全程穩(wěn)定讀寫
- 從被動(dòng)到主動(dòng)防御:麒麟軟件VARA大會(huì)展示漏洞管理“黑科技”
- 1年有13個(gè)月!如今埃塞俄比亞正在過2018年
- 從北京到紐約,2025鼓嶺論壇暢敘中美人民友誼
- 北京開展布局太空數(shù)據(jù)中心:距地面700公里 可容納百萬卡集群
- 全部單風(fēng)扇!七彩虹RTX 5070/5060 Ti Mini顯卡正式發(fā)布:3499元起