企業(yè)錄(www.qy6.com)-公司信息發(fā)布,網上買賣交易門戶

新浪科技訊12月2日下午消息，商湯科技發(fā)布并開源了與南洋理工大學 S-Lab合作研發(fā)的全新多模態(tài)模型架構——NEO，宣布從底層原理出發(fā)打破傳統(tǒng)“模塊化”范式的桎梏，通過核心架構層面的多模態(tài)深層融合，實

2025-12-17 14:53:09

商湯開源NEO多模態(tài)模型架構，實現(xiàn)視覺、語言深層統(tǒng)一

　　新浪科技訊 12月2日下午消息，商湯實現(xiàn)視覺深層商湯科技發(fā)布并開源了與南洋理工大學 S-Lab合作研發(fā)的開源全新多模態(tài)模型架構——NEO，宣布從底層原理出發(fā)打破傳統(tǒng)“模塊化”范式的模態(tài)模型桎梏，通過核心架構層面的架構多模態(tài)深層融合，實現(xiàn)視覺和語言的商湯實現(xiàn)視覺深層深層統(tǒng)一，并在性能、開源效率和通用性上帶來整體突破。模態(tài)模型

　　據悉，架構在架構創(chuàng)新的商湯實現(xiàn)視覺深層驅動下，NEO展現(xiàn)了極高的開源數(shù)據效率——僅需業(yè)界同等性能模型1/10的數(shù)據量（3.9億圖像文本示例），便能開發(fā)出頂尖的模態(tài)模型視覺感知能力。無需依賴海量數(shù)據及額外視覺編碼器，架構其簡潔的商湯實現(xiàn)視覺深層架構便能在多項視覺理解任務中追平Qwen2-VL、InternVL3 等頂級模塊化旗艦模型。開源

　　此外，模態(tài)模型NEO還具備性能卓越且均衡的優(yōu)勢，在MMMU、MMB、MMStar、SEED-I、POPE等多項公開權威評測中，NEO架構均斬獲高分，優(yōu)于其他原生VLM綜合性能，真正實現(xiàn)了原生架構“精度無損”。

　　當前，業(yè)內主流的多模態(tài)模型大多遵循“視覺編碼器+投影器+語言模型”的模塊化范式。這種基于大語言模型（LLM）的擴展方式，雖然實現(xiàn)了圖像輸入的兼容，但本質上仍以語言為中心，圖像與語言的融合僅停留在數(shù)據層面。這種“拼湊”式的設計不僅學習效率低下，更限制了模型在復雜多模態(tài)場景下（比如涉及圖像細節(jié)捕捉或復雜空間結構理解）的處理能力。

　　而NEO架構則通過在注意力機制、位置編碼和語義映射三個關鍵維度的底層創(chuàng)新，讓模型天生具備了統(tǒng)一處理視覺與語言的能力。

　　具體而言，在原生圖塊嵌入（Native Patch Embedding）方面，這一架構摒棄了離散的圖像tokenizer，通過獨創(chuàng)的Patch Embedding Layer （PEL）自底向上構建從像素到詞元的連續(xù)映射。這種設計能更精細地捕捉圖像細節(jié)，從根本上突破了主流模型的圖像建模瓶頸。

　　在原生多頭注意力（Native Multi-Head Attention）方面，針對不同模態(tài)特點，NEO在統(tǒng)一框架下實現(xiàn)了文本token的自回歸注意力和視覺token的雙向注意力并存。這種設計極大地提升了模型對空間結構關聯(lián)的利用率，從而更好地支撐復雜的圖文混合理解與推理。（文猛）

海量資訊、精準解讀，盡在新浪財經APP

責任編輯：何俊熹

訪客，請您發(fā)表評論:取消回復

網站分類

熱門文章

友情鏈接

小米AI眼鏡新版本升級超實用一句話就能交停車費
法國前總統(tǒng)薩科齊記述獄中生活的回憶錄出版
《死侍與金剛狼》并非最終告別！休·杰克曼暗示回歸飾演金剛狼

亚洲精品xxxxx,特级淫片欧美高清视频蜜桃,亚洲毛片儿,视频免费1区二区三区,91在线视频免费看,91亚洲视频在线,蜜芽亚洲欧美一区二区电影

企業(yè)錄(www.qy6.com)-公司信息發(fā)布,網上買賣交易門戶

2025-12-17 14:53:09

商湯開源NEO多模態(tài)模型架構，實現(xiàn)視覺、語言深層統(tǒng)一

瀏覽:292

© 2025. sitemap

亚洲精品xxxxx,特级淫片欧美高清视频蜜桃,亚洲毛片儿,视频免费1区二区三区,91在线视频免费看,91亚洲视频在线,蜜芽亚洲欧美一区二区电影

企業(yè)錄(www.qy6.com)-公司信息發(fā)布,網上買賣交易門戶

2025-12-17 14:53:09

商湯開源NEO多模態(tài)模型架構，實現(xiàn)視覺、語言深層統(tǒng)一

瀏覽:292

© 2025. sitemap

商湯開源NEO多模態(tài)模型架構，實現(xiàn)視覺、語言深層統(tǒng)一