靈初智能陳源培:騰訊云強(qiáng)大算力助力快速完成VLA模型訓(xùn)練
時(shí)間:2025-12-17 16:19:14 出處:時(shí)尚閱讀(143)
11月21日,靈初練騰訊全球數(shù)字生態(tài)大會(huì)城市峰會(huì)落地?zé)o錫,智能助力靈初智能聯(lián)合創(chuàng)始人陳源培發(fā)表主題演講,陳源分享了具身智能在靈巧操作領(lǐng)域的培騰技術(shù)突破與應(yīng)用前景,并重點(diǎn)介紹了與騰訊云在模型訓(xùn)練、訊云型訓(xùn)遠(yuǎn)程遙操作等方面的算力深度合作成果。
陳源培指出,快速具身智能在靈巧操作領(lǐng)域的完成發(fā)展面臨模型、數(shù)據(jù)與場(chǎng)景三大核心挑戰(zhàn)。靈初練模型層面,智能助力需攻克復(fù)雜指令理解與實(shí)體運(yùn)動(dòng)控制的陳源融合問(wèn)題;數(shù)據(jù)層面,存在訓(xùn)練樣本規(guī)模不足導(dǎo)致訓(xùn)練效率低下的培騰瓶頸;場(chǎng)景層面,則需克服真實(shí)環(huán)境中的訊云型訓(xùn)不確定性,以實(shí)現(xiàn)技術(shù)的算力穩(wěn)定部署與規(guī)模化應(yīng)用。
在模型構(gòu)建方面,快速靈初智能采用“分層端到端”VLA架構(gòu)作為核心技術(shù)路線。陳源培表示,這一架構(gòu)對(duì)云端算力的性能與穩(wěn)定性提出了極高要求。在模型訓(xùn)練過(guò)程中,騰訊云提供了強(qiáng)大的異構(gòu)計(jì)算資源和全鏈路優(yōu)化支持,顯著加速了模型迭代進(jìn)程,為技術(shù)從構(gòu)想走向原型提供了關(guān)鍵保障。
針對(duì)數(shù)據(jù)獲取與場(chǎng)景落地難題,雙方基于騰訊云的音視頻技術(shù),構(gòu)建了端到端的低時(shí)延遠(yuǎn)程控制系統(tǒng)。“該方案不僅為復(fù)雜場(chǎng)景提供可靠的人工干預(yù)通道,更重要的是構(gòu)建了高質(zhì)量示范數(shù)據(jù)的采集通路,為模型的持續(xù)優(yōu)化與強(qiáng)化學(xué)習(xí)奠定堅(jiān)實(shí)基礎(chǔ)。”陳源培強(qiáng)調(diào)。
展望未來(lái),陳源培表示靈初智能將繼續(xù)深化與騰訊云的戰(zhàn)略合作,共同推進(jìn)具身智能技術(shù)在物流、零售等場(chǎng)景的規(guī)?;涞?,加速智能機(jī)器人技術(shù)在產(chǎn)業(yè)端的應(yīng)用進(jìn)程。
以下為陳源培講話全文:
各位領(lǐng)導(dǎo)大家好,我是靈初的聯(lián)創(chuàng)陳源培。今天我給大家?guī)?lái)的分享是《具身智能靈巧操作的發(fā)展》。
我會(huì)從四個(gè)方面來(lái)介紹,第一個(gè)是具身智能的挑戰(zhàn)。在靈初看來(lái)具身智能主要由三個(gè)方面構(gòu)成,第一個(gè)場(chǎng)景,第二個(gè)數(shù)據(jù),第三個(gè)模型。
我先從場(chǎng)景說(shuō)起,我們公司是專注于做雙臂雙手靈巧操作的公司,我們選的是輪式底盤,具身智能最大的價(jià)值代替人們勞動(dòng),提高生產(chǎn)力,最關(guān)鍵的是雙手操作,所以我們選擇了一雙手,這跟數(shù)據(jù)強(qiáng)相關(guān)。
對(duì)于具身來(lái)說(shuō),大概率還是用人類的數(shù)據(jù),現(xiàn)有的幾種數(shù)據(jù)模式,包括數(shù)據(jù)工廠和仿真數(shù)據(jù),都有各自的缺陷,仿真會(huì)有一些很難仿真的東西,比如軟體、流體,數(shù)據(jù)工廠雖然可以高質(zhì)量的采集數(shù)據(jù),但并不能采集世界上所有的數(shù)據(jù),我們走的是直接采集人類數(shù)據(jù),直接采集人手?jǐn)?shù)據(jù),再用到機(jī)器人上,這個(gè)我后面會(huì)詳細(xì)介紹。
還有就是模型,我們公司是國(guó)內(nèi)最早提出分層端到端的公司,甚至早于國(guó)外的公司,這是源于我們團(tuán)隊(duì)一開(kāi)始的背景就是從大模型和強(qiáng)化學(xué)習(xí)來(lái)的,我們認(rèn)為純粹的端到端是比較早期的,現(xiàn)在比較務(wù)實(shí)的方法是分層的做法,也逐漸成為了行業(yè)共識(shí)。這里面最難的點(diǎn)是什么?主要有兩個(gè),第一個(gè)是在分層的時(shí)候,上層的大腦和小腦要怎么銜接,第二個(gè)就是如何通過(guò)強(qiáng)化學(xué)習(xí),提高它的整體操作成功率和泛化性,這兩點(diǎn)我們公司都有自己的思考。
公司當(dāng)時(shí)在仿真里面做靈巧手的訓(xùn)練,這是非常雜亂的樂(lè)高堆,然后抓起來(lái)再放下來(lái),包括各種各樣形狀的樂(lè)高,包括人工的打斷,都可以做的比較好。右邊也是從仿真到真機(jī)里面,具有六十多個(gè)靈巧操作的展示,這些都是我們公司很早的積累,就形成了現(xiàn)在這么一個(gè)分層端到端的VLA架構(gòu),上層有一個(gè)Planner,是大模型微調(diào)形成的,主要輸入的是圖片和語(yǔ)音,通過(guò)上層的COT自適應(yīng)的輸出最適合下沉模型的Token,然后給到下層,下層的小腦模型再通過(guò)這些輸入,來(lái)輸出機(jī)器人具體的關(guān)節(jié)角度,整個(gè)過(guò)程中,它會(huì)有幾段,一開(kāi)始先用預(yù)訓(xùn)練數(shù)據(jù)來(lái)做訓(xùn)練,后面會(huì)用真機(jī)強(qiáng)化的方式做最后成功率的提升。
剛剛說(shuō)到了數(shù)據(jù),我們?cè)跀?shù)據(jù)的思考,可以看左邊這個(gè)數(shù)據(jù)金字塔,從最底層的互聯(lián)網(wǎng)仿真數(shù)據(jù),在冷啟動(dòng)的時(shí)候會(huì)使用,真機(jī)數(shù)據(jù)是質(zhì)量最高的,但它的泛化能力有問(wèn)題,所以我們更多采用中間的真實(shí)數(shù)據(jù),就是人可以戴著手套去采集。有兩個(gè)重要的點(diǎn),第一個(gè)是現(xiàn)在硬件發(fā)展非???,現(xiàn)在硬件采集的數(shù)據(jù)三年后大概率不是這個(gè)硬件,所以數(shù)據(jù)怎么遷移是比較難的問(wèn)題。第二個(gè)是必須有可移動(dòng)式的數(shù)采方案。最右邊數(shù)據(jù)生成方式,我們?cè)趺窗讶耸謹(jǐn)?shù)據(jù)真正在機(jī)器人上用起來(lái),所以我們有一套相關(guān)的技術(shù)棧。
還有數(shù)采手套的采集方式,它無(wú)需機(jī)器人就可以做數(shù)采,它的好處有三點(diǎn),一個(gè)是成本,不用機(jī)器人在旁邊做遙操,只需要手套的成本,是傳統(tǒng)遙操的1/10,第二是支持戶外的大規(guī)模數(shù)采,第三是有非常高的自由度。這是模型在物流場(chǎng)景的采集過(guò)程,最左邊是在人采集數(shù)據(jù)的基礎(chǔ)上加上一套遙操數(shù)據(jù),這是我們自研的一套遙操方案,右邊就可以通過(guò)真機(jī)強(qiáng)化學(xué)習(xí)來(lái)做最后的微調(diào),直到最右邊真實(shí)部署的時(shí)候,就可以達(dá)到比較高的成功率和節(jié)拍,這里展示了物流分揀場(chǎng)景的作業(yè)。
我們公司做的所有的動(dòng)作,都是通過(guò)一個(gè)VLA模型,結(jié)合預(yù)訓(xùn)練、后訓(xùn)練、強(qiáng)化學(xué)習(xí)的技術(shù)來(lái)做的,這是當(dāng)時(shí)在世界人工智能大會(huì)上的現(xiàn)場(chǎng)展示錄制,包含了商超打包的產(chǎn)品,有抓、掃碼、放置,最后有一個(gè)比較靈巧的對(duì)塑料袋進(jìn)行打結(jié)。這里面最難的是最后一步掃碼,因?yàn)樗枰R(shí)別出碼在哪里,在抓取的時(shí)候不抓到這個(gè)碼,以及最后掃的時(shí)候要定位的非常準(zhǔn)確,必須通過(guò)大模型才能做到。這個(gè)打結(jié)也是一個(gè)比較全程的靈巧操作,需要比較精確的抓取,包括視覺(jué)和反饋,才能夠做的比較好。
這是一些難以操作的,像手機(jī)這類物品,需要把它撥到桌邊再抓取,然后再遞給別人,這一套傳統(tǒng)的方法都比較難做,也是通過(guò)我們的大腦模型來(lái)完成的。這是麻將機(jī)器人,可以自主發(fā)牌、抓牌、打牌,在展會(huì)上有很多觀眾朋友一起體驗(yàn)了。所有的這些技術(shù)都是通過(guò)強(qiáng)學(xué)習(xí)后訓(xùn)練做的,然后我們自己收集數(shù)據(jù),再通過(guò)大模型的后訓(xùn)練技術(shù),把整個(gè)麻將的策略、識(shí)別和具身聯(lián)動(dòng),全部訓(xùn)練到了一個(gè)模型里面,才能完成這么一件事。整個(gè)操作也是非常長(zhǎng)程的操作,因?yàn)橐蛲暌徽中枰芏啻蔚淖?、放、抽牌,以及雙手之間的交換,包括碰牌和杠牌,這都是不能被預(yù)設(shè)好的。
然后是行業(yè)應(yīng)用,剛剛說(shuō)到了模型,我們更希望的不是純粹上來(lái)就收集一個(gè)仿真學(xué),那樣難度太大,并且太陡峭,像自動(dòng)駕駛的經(jīng)驗(yàn),上來(lái)就做L4并不是一個(gè)好選擇,所以我們更傾向的是在場(chǎng)景中做整個(gè)閉環(huán),我們雖然是一個(gè)細(xì)分場(chǎng)景,但非常有價(jià)值,我們把整個(gè)模型構(gòu)建起來(lái)之后,再拿這些數(shù)據(jù)回流回來(lái),最后慢慢擴(kuò)大這個(gè)模型,所以我們一個(gè)比較看好的場(chǎng)景就是物流,因?yàn)槲锪鞯膱?chǎng)景碰到的物體會(huì)比較多,衣服倉(cāng)、化妝品倉(cāng),物體是比較泛化的,包括零售,現(xiàn)在碰到的物體以后大概率是在家庭中也能碰到的物體,還有很重要的一點(diǎn)是可以出海。這是我們的兩個(gè)場(chǎng)景,一個(gè)是眾包,一個(gè)是貨到人揀選,都是有希望能夠做出來(lái)的。
商業(yè)主要有兩方面,第一個(gè)是數(shù)據(jù),數(shù)據(jù)這個(gè)東西除了國(guó)內(nèi),國(guó)外的需求也是非常多的,據(jù)我們了解的一些市場(chǎng)價(jià)格,包括國(guó)外的大廠也在頻繁的收數(shù)據(jù),我們認(rèn)為數(shù)據(jù)的缺口非常大,但和他們交流下來(lái),他們也不會(huì)要純粹數(shù)據(jù)中間商的數(shù)據(jù),按他們的說(shuō)法,必須要懂模型,必須要證明這個(gè)數(shù)據(jù)可以訓(xùn)練出來(lái)模型,包括我們自己,因?yàn)槲覀冏约阂沧鲇?xùn)仿真學(xué)所以我們有自己的數(shù)據(jù),會(huì)有一部分的數(shù)據(jù)出海。第二個(gè)是物流,是我們比較看好也是短期能夠完成的場(chǎng)景,在海外也有非常多類似的客戶,像GXO、UPS等等,我們也是積極的在做。
然后就是和騰訊云的合作,非常感謝騰訊云跟我們整個(gè)模型團(tuán)隊(duì)一直長(zhǎng)期的支持,對(duì)于VLA模型訓(xùn)練來(lái)說(shuō),第一點(diǎn)最離不開(kāi)的就是整套云的算力,騰訊云在這個(gè)過(guò)程中不僅給我們算法團(tuán)隊(duì)非常多的支持,而且還跟我們做深入的技術(shù)交流,構(gòu)建出一套對(duì)雙方都有用的技術(shù)積累和沉淀,為之后的具身或者整個(gè)智能體都有比較好的積累。
第二個(gè)合作空間就是遙操作,對(duì)我們公司來(lái)說(shuō),長(zhǎng)期的落地,具身是一個(gè)從0到1的東西,最后落地的時(shí)候,大概率會(huì)像智駕一樣,早期的時(shí)候會(huì)有安全員在后面接管,這時(shí)候遠(yuǎn)程遙操接管方案非常重要,因?yàn)轵v訊云的音視頻流技術(shù)非常先進(jìn),所以遙操的延時(shí)會(huì)非常低,我們會(huì)跟騰訊云有非常多的合作,希望后面能夠繼續(xù)合作,共同把具身智能這個(gè)賽道推向一個(gè)新的高度。
謝謝大家。
猜你喜歡
- 華碩:PC漲價(jià)已是大趨勢(shì)!看市場(chǎng)決定最佳時(shí)機(jī)
- 詩(shī)人趙嘉音與比利時(shí)前首相伊夫·萊特姆共話:如果我們讀懂彼此的詩(shī)歌 世界會(huì)更近一步
- 打著“愛(ài)國(guó)”、“正義”旗號(hào)詆毀長(zhǎng)城汽車 大眼哥說(shuō)車被判賠20萬(wàn)
- 加油站請(qǐng)女模搞“雙12”促銷引熱議 官方回應(yīng):已責(zé)令整改
- 買PS5的錢回來(lái)了! 《寂靜嶺f》主演加藤小夏成為PS品牌大使
- 反詐重要工具!抖音宣布官方外呼服務(wù)熱線統(tǒng)一為95152
- 脈脈高聘:AI崗位單月增幅高達(dá)11倍 小鵬汽車新發(fā)崗位AI滲透率第一
- 萬(wàn)元以下假貨多!選購(gòu)高端RGB
- 告別選擇困難!酷睿Ultra 7 255HX加持 華碩天選6 Pro酷睿版成終極答案