您的當前位置:首頁 > 探索 > 商湯開源NEO多模態(tài)模型架構(gòu),實現(xiàn)視覺、語言深層統(tǒng)一 正文
時間:2025-12-18 03:11:47 來源:網(wǎng)絡整理 編輯:探索
新浪科技訊12月2日下午消息,商湯科技發(fā)布并開源了與南洋理工大學 S-Lab合作研發(fā)的全新多模態(tài)模型架構(gòu)——NEO,宣布從底層原理出發(fā)打破傳統(tǒng)“模塊化”范式的桎梏,通過核心架構(gòu)層面的多模態(tài)深層融合,實

新浪科技訊 12月2日下午消息,商湯實現(xiàn)視覺深層商湯科技發(fā)布并開源了與南洋理工大學 S-Lab合作研發(fā)的開源全新多模態(tài)模型架構(gòu)——NEO,宣布從底層原理出發(fā)打破傳統(tǒng)“模塊化”范式的模態(tài)模型桎梏,通過核心架構(gòu)層面的架構(gòu)多模態(tài)深層融合,實現(xiàn)視覺和語言的商湯實現(xiàn)視覺深層深層統(tǒng)一,并在性能、開源效率和通用性上帶來整體突破。模態(tài)模型
據(jù)悉,架構(gòu)在架構(gòu)創(chuàng)新的商湯實現(xiàn)視覺深層驅(qū)動下,NEO展現(xiàn)了極高的開源數(shù)據(jù)效率——僅需業(yè)界同等性能模型1/10的數(shù)據(jù)量(3.9億圖像文本示例),便能開發(fā)出頂尖的模態(tài)模型視覺感知能力。無需依賴海量數(shù)據(jù)及額外視覺編碼器,架構(gòu)其簡潔的商湯實現(xiàn)視覺深層架構(gòu)便能在多項視覺理解任務中追平Qwen2-VL、InternVL3 等頂級模塊化旗艦模型。開源
此外,模態(tài)模型NEO還具備性能卓越且均衡的優(yōu)勢,在MMMU、MMB、MMStar、SEED-I、POPE等多項公開權(quán)威評測中,NEO架構(gòu)均斬獲高分,優(yōu)于其他原生VLM綜合性能,真正實現(xiàn)了原生架構(gòu)“精度無損”。
當前,業(yè)內(nèi)主流的多模態(tài)模型大多遵循“視覺編碼器+投影器+語言模型”的模塊化范式。這種基于大語言模型(LLM)的擴展方式,雖然實現(xiàn)了圖像輸入的兼容,但本質(zhì)上仍以語言為中心,圖像與語言的融合僅停留在數(shù)據(jù)層面。這種“拼湊”式的設計不僅學習效率低下,更限制了模型在復雜多模態(tài)場景下(比如涉及圖像細節(jié)捕捉或復雜空間結(jié)構(gòu)理解)的處理能力。
而NEO架構(gòu)則通過在注意力機制、位置編碼和語義映射三個關鍵維度的底層創(chuàng)新,讓模型天生具備了統(tǒng)一處理視覺與語言的能力。
具體而言,在原生圖塊嵌入(Native Patch Embedding)方面,這一架構(gòu)摒棄了離散的圖像tokenizer,通過獨創(chuàng)的Patch Embedding Layer (PEL)自底向上構(gòu)建從像素到詞元的連續(xù)映射。這種設計能更精細地捕捉圖像細節(jié),從根本上突破了主流模型的圖像建模瓶頸。
在原生多頭注意力 (Native Multi-Head Attention)方面,針對不同模態(tài)特點,NEO在統(tǒng)一框架下實現(xiàn)了文本token的自回歸注意力和視覺token的雙向注意力并存。這種設計極大地提升了模型對空間結(jié)構(gòu)關聯(lián)的利用率,從而更好地支撐復雜的圖文混合理解與推理。(文猛)
海量資訊、精準解讀,盡在新浪財經(jīng)APP 責任編輯:何俊熹
對焦穩(wěn)・畫質(zhì)優(yōu)・夠輕便!佳能 R8:萬元內(nèi)全畫幅覆蓋旅拍/親子/昏暗場景2025-12-18 02:42
廣東茂名“城BA”開賽 激發(fā)城市活力2025-12-18 02:35
陜西青少年體育俱樂部擊劍聯(lián)賽總決賽開賽 700余名小劍客“亮劍”2025-12-18 02:21
十五運會主新聞中心召開首場新聞發(fā)布會 各地記者將感受“細節(jié)之處見溫暖”2025-12-18 02:07
官方通報車黑案件:犯罪團伙抓取“小米、理想、華為”關鍵詞 批量制作垃圾內(nèi)容2025-12-18 01:56
借力“十五運” 廣州荔灣體育設施提質(zhì)擴容2025-12-18 01:39
第七戰(zhàn)神奇翻盤!道奇絕境逆轉(zhuǎn)藍鳥,達成兩連冠2025-12-18 01:06
WTT蒙彼利埃冠軍賽:國乒女單奪冠 莫雷加德男單登頂2025-12-18 00:53
《王者榮耀》孫悟空玩法升級:終于能騎筋斗云飛了2025-12-18 00:50
十五運會主新聞中心召開首場新聞發(fā)布會 各地記者將感受“細節(jié)之處見溫暖”2025-12-18 00:47
瓜子中的愛馬仕!內(nèi)蒙古三胖蛋大瓜子9元/罐大促2025-12-18 02:44
(粵港澳全運會)十五運會開幕式暖場表演環(huán)節(jié)首次劇透2025-12-18 02:29
借力“十五運” 廣州荔灣體育設施提質(zhì)擴容2025-12-18 02:23
展技能促發(fā)展 北京市體育傳統(tǒng)項目學校棒球比賽落幕2025-12-18 02:04
何小鵬:當前沒有AI泡沫 未來AI市場有巨大機遇2025-12-18 01:58
華大男籃迎戰(zhàn)澳門黑熊 吉祥物“龍仔”詮釋“永不言棄”2025-12-18 01:44
第十五屆全國運動會火炬?zhèn)鬟f在粵港澳三地四城同步舉行2025-12-18 01:14
十五運會開幕式最后一次帶觀眾全要素彩排完成 亮點搶先看2025-12-18 01:07
小米公布短劇內(nèi)容進展:已擁有1000部S級短劇2025-12-18 01:00
(粵港澳全運會)廣東隊選手王偉瑩奪得十五運會跳水項目女子個人全能冠軍2025-12-18 00:46