您的當(dāng)前位置:首頁 > 探索 > 摩爾線程發(fā)布Torch 正文
時(shí)間:2025-12-18 03:14:40 來源:網(wǎng)絡(luò)整理 編輯:探索
11月28日消息,摩爾線程正式發(fā)布了PyTorch深度學(xué)習(xí)框架的最新版MUSA擴(kuò)展庫——Torch-MUSA v2.7.0,在功能集成、性能優(yōu)化、硬件支持上都實(shí)現(xiàn)了進(jìn)一步突破。
11月28日消息,線程摩爾線程正式發(fā)布了PyTorch深度學(xué)習(xí)框架的發(fā)布最新版MUSA擴(kuò)展庫——Torch-MUSA v2.7.0,在功能集成、線程性能優(yōu)化、發(fā)布硬件支持上都實(shí)現(xiàn)了進(jìn)一步突破。線程
值得一提的發(fā)布是,在短短一個(gè)月內(nèi),線程Torch-MUSA就連續(xù)完成了v2.5.0、發(fā)布v2.7.0兩次版本更新。線程
另外一個(gè)變化就是發(fā)布,v2.5.0版本起,線程Torch-MUSA版本號(hào)與PyTorch主版本號(hào)保持同步,發(fā)布便于開發(fā)者進(jìn)行版本識(shí)別與管理。線程
v2.7.0版本進(jìn)一步集成了muSolver、發(fā)布muFFT等計(jì)算加速庫,線程顯著提升復(fù)雜計(jì)算任務(wù)的執(zhí)行效率;
新增支持統(tǒng)一內(nèi)存設(shè)備(Unified Memory)的UMM,有效優(yōu)化內(nèi)存使用效率。
繼續(xù)保持與最新MUSA SDK的兼容性,支持使用MUSA SDK 4.2.0至4.3.0及更高版本進(jìn)行編譯。
目前,Torch-MUSA專屬支持的算子總數(shù)已超過1050個(gè),系統(tǒng)在性能與穩(wěn)定性方面均實(shí)現(xiàn)進(jìn)一步提升,為大模型訓(xùn)練與推理提供了更高效、更可靠的底層支持。
下一次版本升級(jí)將是v2.9.0,進(jìn)一步優(yōu)化性能與功能,持續(xù)構(gòu)建和完善基于MUSA架構(gòu)國產(chǎn)全功能GPU的深度學(xué)習(xí)生態(tài)。
▼ Torch-MUSA開源地址:
https://github.com/MooreThreads/torch_musa
v2.7.0版本主要更新內(nèi)容
新增特性
▼ 動(dòng)態(tài)雙精度轉(zhuǎn)換(Dynamic Double Cast)
用戶可通過設(shè)置環(huán)境變量export TORCH_USE_MUSA_DOUBLE_CAST=1,開啟Float64數(shù)據(jù)類型算子的動(dòng)態(tài)轉(zhuǎn)換功能,torch_musa將使用float32作為計(jì)算數(shù)據(jù)類型。
▼ 分布式檢查點(diǎn)(Distributed Checkpoint)
支持從多個(gè)rank并行加載和保存模型,顯著加速檢查點(diǎn)的保存與加載過程。目前已支持分布式檢查點(diǎn)的異步保存功能。
功能增強(qiáng)
▼ 新增Poisson、binomial、_standard_gamma、_sample_dirichlet、vdot、upsample(1d、2d、3d、with aa)、flash_attention、transformer_encoder_layer 等多個(gè)實(shí)用算子,MUSA專屬支持的算子總數(shù)突破1050個(gè)。
▼ 通過升級(jí)PyTorch底層支持,torch.compile與AOTInductor功能進(jìn)一步增強(qiáng);
▼ 默認(rèn)啟用TF32計(jì)算模式,提升浮點(diǎn)運(yùn)算效率;
▼ 優(yōu)化性能分析工具Kineto的穩(wěn)定性,并將其適配版本升級(jí)至2.7.0;
▼ 繼續(xù)優(yōu)化FSDP2流水線并行策略,進(jìn)一步降低內(nèi)存占用。
v2.5.0版本主要更新內(nèi)容
新增特性
▼ 新增muFFT與muSolver庫集成,大幅擴(kuò)展計(jì)算能力;
▼ 在面向邊緣計(jì)算的SoC設(shè)備中支持統(tǒng)一內(nèi)存管理,基于Arm 架構(gòu)的UMA(統(tǒng)一內(nèi)存尋址)設(shè)計(jì),實(shí)現(xiàn)GPU與CPU共享同一物理內(nèi)存空間,顯著降低模型運(yùn)行過程中的內(nèi)存開銷,具體包括:
消除GPU端重復(fù)內(nèi)存分配;
減少主機(jī)與設(shè)備間的內(nèi)存拷貝;
GPU可直接訪問由CPU分配器申請(qǐng)的內(nèi)存空間。
算子擴(kuò)展與性能優(yōu)化
▼ 新增支持包括ilshift、irshift、replication_pad1d_bwd、angle、ctcLossTensor、ctcLossTensorBwd、logit、amin/amax/prod.dim_int、glu_bwd等多個(gè)算子;
▼ 新增基礎(chǔ) Sparse(CSR) 操作支持;
▼ 擴(kuò)充量化算子支持范圍;
▼ 修復(fù)torch.norm形狀錯(cuò)誤問題;
▼ 支持reduce_sum的uint8輸入與int64輸出;
▼ C++擴(kuò)展新增支持tensor.is_musa()方法;
▼ 修復(fù)空輸入下argmax/argmin的異常行為;
▼ 優(yōu)化var/std、pad、convolution3d、layer_norm等操作的執(zhí)行效率。
系統(tǒng)功能增強(qiáng)
▼ 開放torch.musa.mccl.version()接口;
▼ 支持getCurrentMUSABlasHandle與getCurrentMUSABlasLtHandle;
▼ 優(yōu)化FSDP2流水線并行策略,降低訓(xùn)練內(nèi)存占用。
臺(tái)灣學(xué)者:大陸反制措施斬?cái)唷芭_(tái)獨(dú)”勢(shì)力“倚日謀獨(dú)”幻想2025-12-18 03:14
官方通報(bào)商家頂風(fēng)賣假冒3C充電寶:全部扣押 已立案調(diào)查2025-12-18 03:13
銅價(jià)飛漲 法國充電樁電纜被盜案件井噴:有站點(diǎn)徹底癱瘓2025-12-18 03:04
孫正義回應(yīng)清倉英偉達(dá):為了投AI 我是哭著賣的2025-12-18 02:30
意想不到!AMD突然發(fā)布RX 9060 XT LP顯卡:降至140W功耗2025-12-18 02:06
UE5.7引擎表現(xiàn)爆炸優(yōu)化無敵!5090跑4K穩(wěn)定60FPS2025-12-18 01:59
UE5.7引擎表現(xiàn)爆炸優(yōu)化無敵!5090跑4K穩(wěn)定60FPS2025-12-18 01:45
華碩B850重炮手二代WIFI7主板領(lǐng)銜 雙12稱霸熱賣榜2025-12-18 01:23
iPhone 18 Pro上熱搜:摒棄藥丸狀挖孔 多位網(wǎng)友吐槽丑2025-12-18 01:19
經(jīng)濟(jì)學(xué)家滕泰:農(nóng)村養(yǎng)老金提高到600元 消費(fèi)一定極大提振2025-12-18 01:16
什么手機(jī)可以拍實(shí)況照片 2025實(shí)測(cè)指南來了2025-12-18 03:08
男子懸崖墜落200米被樹救下 利用周邊樹枝烤火取暖 26小時(shí)后獲救2025-12-18 03:07
蔚來11月交付同比勁增76.3%逆勢(shì)企穩(wěn) 全新ES8生產(chǎn)交付將大幅提速2025-12-18 03:07
寒潮大舉南下!下半年最冷一天來了:局地2025-12-18 01:52
究竟哪種馬達(dá)最好:盤盤手機(jī)馬達(dá)的“三六九等”2025-12-18 01:48
深圳十峰勇士人車接力賽收官 同步發(fā)起“凈山護(hù)?!毙袆?dòng)2025-12-18 01:46
從萊茵認(rèn)證到超級(jí)工廠 凱迪仕超級(jí)工廠揭秘高端智能鎖生產(chǎn)工藝全流程2025-12-18 01:43
經(jīng)濟(jì)學(xué)家滕泰:農(nóng)村養(yǎng)老金提高到600元 消費(fèi)一定極大提振2025-12-18 01:25
(經(jīng)濟(jì)觀察)賦能中國經(jīng)濟(jì)發(fā)展 專家解碼“關(guān)鍵變量”2025-12-18 01:23
“大空頭”再度開火:稱特斯拉市值被“荒謬地高估”2025-12-18 00:44