訂閱
糾錯(cuò)
加入自媒體

原力靈機(jī)周而進(jìn):具身智能從Demo到進(jìn)廠,會(huì)殘酷篩掉99%的團(tuán)隊(duì)

大模型狂歡之后,AI 領(lǐng)域的下一場(chǎng)“硬仗”,正無可爭(zhēng)議地指向了具身智能。

在這條熾熱的賽道上,成立僅一年的「原力靈機(jī)」走了一條略顯“非主流”的務(wù)實(shí)路線。當(dāng)不少團(tuán)隊(duì)熱衷于用炫酷的 Demo 展示機(jī)器人“會(huì)做什么前沿動(dòng)作”時(shí),有著曠視科技背景、兼具大模型研發(fā)與多年 AI 商業(yè)落地經(jīng)驗(yàn)的創(chuàng)始團(tuán)隊(duì),卻一頭扎進(jìn)了最難的底層基建里。

過去一年,原力靈機(jī)一口氣交出了五張答卷:具身原生大模型 DM0、開源開發(fā)框架 Dexbotic 2.0、量產(chǎn)工作流 DFOL、真機(jī)評(píng)測(cè)平臺(tái) RoboChallenge 以及開源硬件。他們的目標(biāo)極其明確:把具身智能從“只能活在實(shí)驗(yàn)室的 Demo”,硬拽進(jìn)“真實(shí)場(chǎng)景、商業(yè)閉環(huán)與持續(xù)迭代”的工業(yè)流水線里。

這種死磕落地的基因,與聯(lián)合創(chuàng)始人周而進(jìn)的履歷高度契合。他初三便保送清華電子工程系,2013 年作為曠視研究院早期成員,曾主導(dǎo)開發(fā)了行業(yè)首個(gè)金融級(jí)身份認(rèn)證云服務(wù) FaceID——那是 AI 視覺技術(shù)最早、也最成功的規(guī);虡I(yè)戰(zhàn)役之一。如今,帶著跑通大規(guī)模商業(yè)閉環(huán)的經(jīng)驗(yàn),他在原力靈機(jī)掌舵具身模型與框架研發(fā),直面這個(gè)行業(yè)最底層的生死命題。

面對(duì)當(dāng)下喧囂的具身賽道,周而進(jìn)向我們拋出了三個(gè)冷峻的判斷: 

第一,  真機(jī)數(shù)據(jù)的價(jià)值已無可撼動(dòng)。 具身智能的分水嶺,就在于誰(shuí)能率先將機(jī)器人大規(guī)模部署出去,強(qiáng)力轉(zhuǎn)動(dòng)數(shù)據(jù)飛輪;

第二,   具身智能的“ChatGPT 時(shí)刻”不在于花哨的絕技,而在于“開箱即用的泛化性”。 即機(jī)器人在陌生的場(chǎng)景、面對(duì)陌生的物品,依然能穩(wěn)定、不出錯(cuò)地完成基本動(dòng)作; 

第三,  從跨出 Demo 到真正完成場(chǎng)景閉環(huán),這中間極高的壁壘“會(huì)殘酷地篩掉 99% 的人”。 這里面充滿了無法用算力跳過的、不可壓縮的時(shí)間成本。

圍繞這些論斷,我們與周而進(jìn)展開了一次深度對(duì)話。且看這位兼具頂級(jí)算法思維與老辣落地經(jīng)驗(yàn)的創(chuàng)業(yè)者,如何解構(gòu)行業(yè)的關(guān)鍵變量:

昂貴的真機(jī)數(shù)據(jù)與海量的第一視角(human data),究竟該如何排兵布陣?

萬(wàn)眾期待的具身智能“ChatGPT 時(shí)刻”,到底何時(shí)降臨?

困擾全行業(yè)的“泛化性”難題,真正的突破口藏在哪里?

為什么讓機(jī)器人從 Demo 走到真實(shí)場(chǎng)景,遠(yuǎn)比人們想象的還要難上一萬(wàn)倍?

原力靈機(jī)聯(lián)合創(chuàng)始人周而進(jìn)在2026年技術(shù)開放日現(xiàn)場(chǎng)

數(shù)據(jù)與泛化性

智能進(jìn)化論:進(jìn)入具身智能領(lǐng)域一年多,你覺得行業(yè)最大的變化是什么?

周而進(jìn):大家在數(shù)據(jù)方面信心越來越堅(jiān)定,對(duì)要大規(guī)模要搞真機(jī)基本形成共識(shí)。兩年前,要搞一個(gè)10萬(wàn)小時(shí)的數(shù)采,所有人都會(huì)覺得瘋狂。今天大家基本有共識(shí),要把具身搞好,至少得有百萬(wàn)小時(shí)級(jí)別的數(shù)據(jù)規(guī)模。

現(xiàn)在的很多研究,包括我們自己做實(shí)驗(yàn)也會(huì)發(fā)現(xiàn),數(shù)據(jù)量拉起來,模型在泛化能力上就是表現(xiàn)得越來越魯棒。

智能進(jìn)化論:除數(shù)據(jù)之外的其他因素呢?

周而進(jìn):有很多,但最核心應(yīng)該先把數(shù)據(jù)拉起來,其他是被牽引的。如果數(shù)據(jù)量起來了,模型的體量也應(yīng)該增加,否則可能學(xué)不了那么多數(shù)據(jù)。所以逐步也會(huì)看到模型參數(shù)量也在增加。

智能進(jìn)化論:行業(yè)內(nèi)有觀點(diǎn)認(rèn)為可能不需要那么依賴真機(jī)數(shù)據(jù),因?yàn)樗容^稀少。

周而進(jìn):這是階段性的狀態(tài)。但真要大規(guī)模落地,最直接的就是真機(jī)數(shù)據(jù)。類比自動(dòng)駕駛,今天有誰(shuí)拿人騎自行車的數(shù)據(jù)去訓(xùn)自動(dòng)駕駛,沒有。你應(yīng)該把機(jī)器造出來,大規(guī)模鋪出去,機(jī)器人的數(shù)據(jù)機(jī)器人自己生產(chǎn)。

智能進(jìn)化論:你覺得具身智能現(xiàn)在處在什么階段?

周而進(jìn):大的階段,一定還是比較早期的。但又跟一兩年前不太一樣,當(dāng)時(shí)能比較穩(wěn)的完成一個(gè)動(dòng)作就不錯(cuò)了。我們自己的目標(biāo),今年年底把基本動(dòng)作做到開箱即用,有場(chǎng)景的泛化性,有物品的泛化性。

什么時(shí)候真機(jī)能夠大規(guī)模部署出去,就是邁向一個(gè)新臺(tái)階了。今天到了要把基礎(chǔ)模型能力拉到有保證的準(zhǔn)確率和泛化性能狀態(tài)上。誰(shuí)達(dá)到了這個(gè)狀態(tài),他的真機(jī)就可以大規(guī)模部署做強(qiáng)化學(xué)習(xí)了。他的數(shù)據(jù)飛輪和數(shù)據(jù)質(zhì)量,和做不到這一個(gè)階段,還是在實(shí)驗(yàn)室環(huán)境里面去采數(shù)據(jù),之間的差距會(huì)越來越大。

智能進(jìn)化論:你說的大規(guī)模是多少量級(jí)?

周而進(jìn):現(xiàn)在一般的數(shù)據(jù)采集還只是幾十臺(tái)到百臺(tái),在真機(jī)做強(qiáng)化可能也就十幾臺(tái)到20臺(tái),實(shí)驗(yàn)室就會(huì)更少,幾臺(tái)。我們期望的規(guī)模是百到千這個(gè)級(jí)別的。

智能進(jìn)化論:如果具身智能有ChatGPT時(shí)刻的話,會(huì)什么時(shí)候到來,以什么為標(biāo)志?

周而進(jìn):每個(gè)人對(duì)ChatGPT時(shí)刻的理解不太一樣。我更多理解為開箱即用,能夠有場(chǎng)景泛化,有準(zhǔn)確率的下限保證。你的模型、你的硬件不只在自家實(shí)驗(yàn)室work,放其他家都能work。

開箱即用可以是一個(gè)非常簡(jiǎn)單的任務(wù),比如pick and place,把東西從A拿到B,這個(gè)簡(jiǎn)單動(dòng)作已經(jīng)能解決很多問題了。如果能夠做到在不同的場(chǎng)景、不同操作對(duì)象上都不犯錯(cuò),都成功,這個(gè)泛化性就比現(xiàn)有的模型又往前走了一大截了。

智能進(jìn)化論:開箱即用能不能舉個(gè)例子,比如下游整機(jī)廠商拿到我們的模型,就可以直接部署上了嗎?

周而進(jìn):我們會(huì)先綁定自己的硬件,自己的本體和算法肯定是最適配的。在我們自己的本體上面,希望能夠做到開箱即用,完成一些基本動(dòng)作。泛化性我們拆解為4個(gè)維度:物品,場(chǎng)景,任務(wù),硬件構(gòu)型,難度是依次遞增的。我們對(duì)于開箱即用的首要目標(biāo)是前三者。在硬件構(gòu)型上也有一個(gè)學(xué)習(xí)的過程。相當(dāng)于對(duì)一個(gè)大模型來說,我都沒見過德語(yǔ),不可能上來就會(huì)講德語(yǔ),但是如果你給我準(zhǔn)備語(yǔ)料微調(diào)一下,模型也能適應(yīng)新的硬件。

智能進(jìn)化論:你覺得現(xiàn)在行業(yè)過熱的是什么?被低估的又有什么?

周而進(jìn):我覺得相比大模型來說,具身行業(yè)沒有過熱,或者熱度還遠(yuǎn)遠(yuǎn)不夠。大家對(duì)于通用機(jī)器人發(fā)展的預(yù)期一直是低估的。

我覺得大家在數(shù)據(jù)上面的投入還不夠多。今天很多搞數(shù)據(jù)規(guī)模的都是在海外,證明了這條路是work的,然后我們是跟隨的策略。我覺得整個(gè)行業(yè)應(yīng)該有更大更堅(jiān)定的決心在數(shù)據(jù)投入上。

智能進(jìn)化論:真機(jī)數(shù)據(jù)方面,你覺得行業(yè)普遍面臨哪些挑戰(zhàn)呢?

周而進(jìn):真機(jī)數(shù)據(jù)在控制成本的情況下,規(guī)模和高精度無法兼顧,是兩者的平衡。

如果想要更多場(chǎng)景泛化,比如 human data,egocentric data,數(shù)據(jù)精度低但量很大。如果想把某個(gè)動(dòng)作做好,就通過遙操把精確的關(guān)節(jié)電機(jī)信號(hào)采集下來,得到高精度的數(shù)據(jù)。

智能進(jìn)化論:什么樣的數(shù)據(jù)算是訓(xùn)練具身模型的高質(zhì)量數(shù)據(jù)?

周而進(jìn):還是回到你的目的,缺啥補(bǔ)啥。

智能進(jìn)化論:咱們主要用三類數(shù)據(jù)來訓(xùn)練,多模態(tài)互聯(lián)網(wǎng)數(shù)據(jù)、駕駛行為數(shù)據(jù)、具身多傳感數(shù)據(jù),這里面真機(jī)數(shù)據(jù)的占比會(huì)不會(huì)越來越大?

周而進(jìn):我覺得會(huì)越來越大,真機(jī)數(shù)據(jù)是提高模型質(zhì)量最大的一個(gè)變量。今天其實(shí)機(jī)器人的數(shù)據(jù)這件事情,大家才剛剛開始起量。數(shù)據(jù)量是很容易被拉起來的。

智能進(jìn)化論:你們提到“熵在哪里,數(shù)據(jù)就投向哪里”,熵是人判斷還是系統(tǒng)判斷的?

周而進(jìn):最終希望是自動(dòng)化系統(tǒng)來反饋。經(jīng)常容易出錯(cuò)的地方,就是信息密度很高,我就先往這個(gè)方向去投資源做。如果我做好了,就相當(dāng)于做小學(xué)數(shù)學(xué)題,沒有信息量了。但是現(xiàn)在的baseline都很低,人就能夠判斷。

智能進(jìn)化論:你們說數(shù)采要“全身全時(shí)全域”,全域是指什么?

周而進(jìn):全域就是你的采集場(chǎng)景,場(chǎng)所。如果從終點(diǎn)倒推,我們相信最終機(jī)器人能夠完成絕大部分人類日常的操作活動(dòng),那么人類今天日常活動(dòng)的區(qū)域都是它的素材區(qū)域。

智能進(jìn)化論:關(guān)于第一視角,我們?cè)趺纯创@條路線?

周而進(jìn):我覺得這類數(shù)據(jù)的價(jià)值很高。第一視角是我們今年的一個(gè)非常重要的數(shù)采方向。在機(jī)器人被大規(guī)模部署出去之前,怎么樣有一種性價(jià)比最高的方式去廣泛的捕捉各種場(chǎng)景的各種動(dòng)作,第一視角是比較方便的一種數(shù)采方案。

圖片

模型與閉環(huán)

智能進(jìn)化論: 你們?cè)趺纯碫LA這個(gè)路徑?

周而進(jìn):今天整個(gè)具身的訓(xùn)練方式還是從一個(gè)已有的知識(shí)體系往物理世界做遷移。VLA的前身會(huì)有一個(gè)互聯(lián)網(wǎng)的VLM預(yù)訓(xùn)練模型,在這個(gè)基礎(chǔ)上,疊加一些動(dòng)作數(shù)據(jù)或者機(jī)器人數(shù)據(jù), 希望它能夠掌握物理的動(dòng)作技能。 這種方式它的上限可能是比較明顯的。相當(dāng)于一個(gè)小孩,從小只讓看書不讓你動(dòng)手,等到10歲的時(shí)候教你踢球,運(yùn)動(dòng)能力肯定受影響。 所以DM0模型我們做了具身原生的VLA,從第一天開始就把互聯(lián)網(wǎng)數(shù)據(jù)跟機(jī)器人數(shù)據(jù)從零開始一起訓(xùn)練的。從小不僅讀書,同時(shí)也練體育,做到全面發(fā)展。

智能進(jìn)化論:這就是我們具身原生最核心的一點(diǎn)吧?具體是怎么同步來做?

周而進(jìn):核心是訓(xùn)練方式。我們整個(gè)VLM從頭開始自己訓(xùn),并且在過程中設(shè)計(jì)了多任務(wù)的一套訓(xùn)練范式,就是物理空間推理思維鏈。

智能進(jìn)化論:空間推理思維鏈?zhǔn)窃趺磳?shí)現(xiàn)的?

周而進(jìn):就像人做事一樣,比如我要打掃房間,第一,要做任務(wù)的拆解,每一步干啥。第二,定位被操作對(duì)象。比如說我第一步要掃地,我得找到掃把在哪。

第三,人很多時(shí)候是下意識(shí)的,我要掃地,我要先走過去拿起掃把,然后從哪開始掃。所以我們希望模型能夠生成出來運(yùn)動(dòng)軌跡。

推理思維鏈里后面幾個(gè)環(huán)節(jié)都是關(guān)于運(yùn)動(dòng)軌跡,以不同的表現(xiàn)形式,可以是一條線,也可以是3D運(yùn)動(dòng)軌跡。把它串起來之后,希望機(jī)器人能夠把一個(gè)復(fù)雜任務(wù)像人一樣去理解和拆解。

智能進(jìn)化論:今年要實(shí)現(xiàn)更高的泛化性,空間推理思維鏈會(huì)升級(jí)嗎?

周而進(jìn):今年會(huì)復(fù)雜很多,比如說方位代詞、肢體語(yǔ)言、空間代詞等各種指代關(guān)系,就是機(jī)器人需要進(jìn)一步具備的能力。

生活中最常見的,“衛(wèi)生間在哪?在那。”我做了一個(gè)手勢(shì),告訴你一個(gè)代詞。純用文本,向左走左拐五十米再右拐,是非常麻煩的。這些都是我們擴(kuò)充訓(xùn)練模式的方法。

智能進(jìn)化論:空間推理思維鏈的壁壘在什么地方?

周而進(jìn):方法都是開源的,我們不認(rèn)為它是壁壘。核心還是回到數(shù)據(jù)和你對(duì)于具身任務(wù)的理解。如果你沒有自己做過機(jī)器人,你并不知道坑會(huì)在什么地方,機(jī)器人最容易犯錯(cuò)的地方在哪,而訓(xùn)練流程就是基于這些認(rèn)知推導(dǎo)出來的。

智能進(jìn)化論:你認(rèn)為現(xiàn)在具身大模型最難的挑戰(zhàn)在什么地方?泛化、記憶、精度和長(zhǎng)程任務(wù),還是什么?

周而進(jìn):最重要的還是泛化性。

智能進(jìn)化論:泛化性,最難突破的點(diǎn)在什么地方?

周而進(jìn):首先泛化需要海量的數(shù)據(jù),這也是為什么今年大家都在往human data,ego data這個(gè)方向去做。第二是傳感器的豐富度。今天機(jī)器人好用的觸覺傳感器模組,很多還在探索,沒有收斂到統(tǒng)一的方案下。這些傳感器采集的數(shù)據(jù),也遠(yuǎn)小于現(xiàn)在攝像頭的數(shù)據(jù),其他傳感器數(shù)據(jù)就更少了。 視覺是一個(gè)非常強(qiáng)的信號(hào),純視覺方案可能已經(jīng)能解決絕大部分問題了。但是如果我們目標(biāo)不是要一個(gè)六七十分的東西,比如在家洗碗,不可能用六七十分的,洗10個(gè)碗有4個(gè)會(huì)打碎,我一定會(huì)選一個(gè)99%的。這時(shí)候其他維度的傳感器都是需要的。

智能進(jìn)化論:原力靈機(jī)今年提升泛化性最大的抓手在什么地方?

周而進(jìn):在廣泛的數(shù)據(jù)的基礎(chǔ)之上,有一套精巧的模型結(jié)構(gòu)和訓(xùn)練范式。

VLA和世界模型,這兩個(gè)方向我們同時(shí)在做。我們是非常務(wù)實(shí)主義的,不會(huì)說要站隊(duì)哪條技術(shù)路線,更多的還是這條路線能夠解決哪些問題。

我們就會(huì)把VLA跟世界模型結(jié)合做一個(gè)統(tǒng)一的模型,同時(shí)做兩種預(yù)測(cè),一個(gè)是接下來應(yīng)該做什么動(dòng)作,第二是世界接下來怎么變化,兩者是完全對(duì)偶的。

智能進(jìn)化論:模型架構(gòu)方面是沿用其他家的還是自己創(chuàng)新的?

周而進(jìn):我們現(xiàn)在有好幾個(gè)點(diǎn)在自己探,包括記憶,觸覺,動(dòng)作的編碼形態(tài),但最后會(huì)把它們整合到一個(gè)模型里。

去年我們第一個(gè)在VLA領(lǐng)域提出了基于記憶的方式,后面有好多家都在follow。動(dòng)作的編碼形態(tài),現(xiàn)在大家都用Pi的模式,有沒有其他的編碼形態(tài)能夠讓整個(gè)動(dòng)作的訓(xùn)練、軌跡的訓(xùn)練變得更加絲滑?

智能進(jìn)化論:今年DM0模型會(huì)再升級(jí)嗎?是否延續(xù)小參數(shù)路線?

周而進(jìn):會(huì),到時(shí)候看。DM是一系列模型的發(fā)布計(jì)劃,基本上每半年就會(huì)發(fā)布一個(gè)新的版本。

智能進(jìn)化論:DM0模型我們強(qiáng)調(diào)智能密度高,怎么理解?

周而進(jìn):一味追求參數(shù)量大,好像大就是牛,這是非常有問題。對(duì)機(jī)器人來說,大就意味著推理效率是個(gè)問題,當(dāng)然你可以認(rèn)為只是成本問題。

最核心的問題是,大真的牛嗎?或者對(duì)于1B、2B的模型,到底它的天花板在哪?這個(gè)問題是被忽視的。我們發(fā)布一點(diǎn)幾B的模型,其實(shí)想要傳達(dá)這樣的理念,通過好好做數(shù)據(jù)加科學(xué)的訓(xùn)練范式,甚至能做到比更大的模型更好的效果。

智能進(jìn)化論:DM0在產(chǎn)業(yè)已經(jīng)應(yīng)用了嗎?

周而進(jìn):物流行業(yè)是業(yè)務(wù)上面會(huì)首先選擇的方向,一些客戶已經(jīng)在做POC驗(yàn)證了。

智能進(jìn)化論:我們強(qiáng)調(diào)模型訓(xùn)練閉環(huán)的重要性,在真實(shí)場(chǎng)景7×24小時(shí)跑。閉環(huán)具體難在哪?

周而進(jìn):具身模型并不是模型訓(xùn)練完那一刻,模型智能就被鎖死了。而是放到真實(shí)場(chǎng)景里,能被用起來,才能能夠得到真實(shí)的數(shù)據(jù)。數(shù)據(jù)繼續(xù)加入訓(xùn)練流程里,才能夠把飛輪轉(zhuǎn)起來。

核心問題是能不能真的進(jìn)到場(chǎng)景,最后一步其實(shí)會(huì)篩掉99%的人。沒有經(jīng)歷過完整的AI產(chǎn)品商業(yè)化落地,做過真正的交付,去工廠趴過的團(tuán)隊(duì),根本就不會(huì)意識(shí)到,所謂場(chǎng)景完全閉環(huán),讓你的機(jī)器人24小時(shí)被用起來,冰山下有多少坑。

比如對(duì)接過工廠的操作系統(tǒng)嗎?改造過它的產(chǎn)線嗎?機(jī)器人犯錯(cuò)了怎么辦?如果不考慮這些問題,demo做的再好,最后一步永遠(yuǎn)實(shí)現(xiàn)不了。

智能進(jìn)化論:我們是怎么做的?

周而進(jìn):我們之前在曠視做了十幾年算法的落地。我們非常清楚這里面坑有多少,要配備怎樣的交付團(tuán)隊(duì),怎樣對(duì)接客戶的業(yè)務(wù)系統(tǒng),以及你要交付的應(yīng)該是個(gè)解決方案,而不是單點(diǎn)的一個(gè)模型或者機(jī)器人。

為什么我們選擇物流,因?yàn)槲覀冇泻軓?qiáng)的客戶基礎(chǔ),在物流的很多場(chǎng)景里面,我們和合作伙伴是具備產(chǎn)線改造的能力的。

智能進(jìn)化論:要跨過這一步,最難的挑戰(zhàn)在哪?

周而進(jìn):很多東西你沒有經(jīng)歷過,永遠(yuǎn)不會(huì)具備這個(gè)能力,這里面有很大的時(shí)間不可壓縮性。所以我不認(rèn)為從算法到demo是0~1,從demo到進(jìn)廠是1~100,那是一個(gè)復(fù)雜得多的路。Moving atoms,難度遠(yuǎn)高于moving bits。這也是我們的壁壘和優(yōu)勢(shì),完整的經(jīng)歷過整個(gè)創(chuàng)業(yè)的階段。

智能進(jìn)化論:目前物流場(chǎng)景能真實(shí)交付的,哪些場(chǎng)景已經(jīng)跑通了?

周而進(jìn):比如物料的分揀。一個(gè)典型任務(wù)是從料箱中抓取商品、分揀并完成打包。 我們首先去做的,就是拆解成很多的崗位和步驟,比如第一步就是做物料的篩選。你能夠從這邊把東西拿到另一邊,所以Pick up & place是一個(gè)非常重要的技術(shù)能力。

智能進(jìn)化論:現(xiàn)在我們這套流程全自動(dòng)化了嗎?

周而進(jìn):全自動(dòng)化是不嚴(yán)謹(jǐn)?shù)恼f法。如果說我的模型在物流場(chǎng)景已經(jīng)99%了,這是吹牛。我們的方案是有兜底方案的整體解決方案,如果出錯(cuò)了也不會(huì)讓你產(chǎn)線停下來。在物流場(chǎng)景內(nèi),隨著數(shù)據(jù)飛輪轉(zhuǎn)起來,準(zhǔn)確率會(huì)越來越高,節(jié)省下來的成本會(huì)越來越多。

智能進(jìn)化論:OpenClaw(龍蝦)與具身智能結(jié)合有哪些想象空間,會(huì)是未來的方向之一嗎?

周而進(jìn):龍蝦是非常好的方向,完全打開了大家對(duì)大模型的想象力。但是今天用龍蝦去操作機(jī)器人不是特別火。龍蝦是個(gè)大腦,能做很好的任務(wù)規(guī)劃下達(dá)指令,但如果具身就是做不了,那也無能為力。更重要的是,機(jī)器人本體做low level的簡(jiǎn)單任務(wù)的成功率得往上走,這樣再配合上云端的龍蝦,可能要火很多。

圖片

框架與工作流

智能進(jìn)化論:Dexbotic開源框架在行業(yè)內(nèi)有什么樣的優(yōu)勢(shì)?

周而進(jìn):現(xiàn)在行業(yè)里很多框架是我發(fā)表了一個(gè)好的工作,然后把代碼工程化一下開源了,這只是針對(duì)你工作的一個(gè)開源。

今天做具身,VLM、視覺編碼器、動(dòng)作生成序列的 action expert,都可以用不同家的。 如果站在更加通用的角度,想要提供類似腳手架的基礎(chǔ)建設(shè),就不該綁死某種模型結(jié)構(gòu),而是給大家充分的選擇權(quán)。Dexbotic的設(shè)計(jì)理念,就是希望大家自由創(chuàng)造你自己的實(shí)驗(yàn)和結(jié)構(gòu)。我們做了更好的工程化的解耦,不同模塊之間可以相互組合。

智能進(jìn)化論:現(xiàn)在Dexbotic框架的使用情況如何?

周而進(jìn):GitHub上一直有用戶反饋,給我們提了很多改進(jìn)建議。我們覺得首先大家是需要這樣的一套框架的。

框架是第一步,我們也開源了自己的硬件?蚣芨布显谝黄穑瑥臄(shù)采到模型訓(xùn)練,到最后重新部署回這臺(tái)機(jī)器,Dexbotic提供完整的走完一整套流程的平臺(tái)。我們很多高校的客戶、合作伙伴企業(yè),很多都需要這種完整平臺(tái)。

智能進(jìn)化論:行業(yè)內(nèi)有沒有類似Dexbotic這樣的框架?

周而進(jìn):很少,我們還是挺獨(dú)特的,不光是框架,還跟自己的硬件結(jié)合。去年我們跟清華大學(xué)與無問芯穹的 RLinf 團(tuán)隊(duì)深度合作,一鍵就能在Dexbotic上基于RLinf把模仿學(xué)習(xí)到強(qiáng)化學(xué)習(xí)全部都走完。從完備性的功能角度,我們現(xiàn)在是獨(dú)一份。

Dexbotic推出后已服務(wù)數(shù)十家機(jī)構(gòu),超千名開發(fā)者

智能進(jìn)化論:DFOL柔性生產(chǎn)工作流到底能產(chǎn)生什么價(jià)值?

周而進(jìn):就是閉環(huán)。它是一套標(biāo)準(zhǔn)化的基礎(chǔ)設(shè)施,將算法訓(xùn)練、數(shù)據(jù)更新與采集清洗緊密耦合。

部署到客戶現(xiàn)場(chǎng)后,模型運(yùn)行并產(chǎn)出的高質(zhì)量數(shù)據(jù)回流至云端,經(jīng)自動(dòng)化基建完成模型迭代,改進(jìn)后的模型再下發(fā)至客戶側(cè),獲得進(jìn)一步反饋并觸發(fā)更多數(shù)據(jù)收集。從模型迭代的視角,就是快速把數(shù)據(jù)飛輪轉(zhuǎn)起來,把模型迭代的效率拉起來。我們一些核心的物流客戶已經(jīng)在使用。

智能進(jìn)化論:業(yè)內(nèi)也有其他廠商在做真機(jī)評(píng)測(cè),RoboChallenge真機(jī)評(píng)測(cè)如何保持行業(yè)領(lǐng)先性?

周而進(jìn):我們自己做算法,也做硬件,所以是站在最前沿的一線來反推,我到底需要一個(gè)什么樣的科學(xué)評(píng)測(cè)機(jī)制。評(píng)測(cè)在我們內(nèi)部是一個(gè)團(tuán)隊(duì)來做,重要性不亞于算法訓(xùn)練。我們會(huì)周期性更新,相當(dāng)于攻防出題,原來的題老了就換新的題。

智能進(jìn)化論:今年Robochallenge的演進(jìn)方向是什么?

周而進(jìn):泛化性是今年評(píng)測(cè)的一個(gè)重點(diǎn)。之前的Table30測(cè)試集其實(shí)并沒有測(cè)泛化性,還是在特定題目下面完成任務(wù)。但是我給你換幾個(gè)被抓取的對(duì)象,你是不是還能把這個(gè)任務(wù)做了?

第二,我們要逐步從桌面走到更大空間,從抓取到移動(dòng)到全身控制,評(píng)測(cè)整個(gè)機(jī)器人運(yùn)動(dòng)的復(fù)雜性也是一個(gè)維度。

智能進(jìn)化論:泛化性怎么測(cè)?

周而進(jìn):回到我們對(duì)泛化性的定義,要不停的換不同的操作對(duì)象、場(chǎng)景和任務(wù)。相當(dāng)于你訓(xùn)練的任務(wù),跟我給你測(cè)試的任務(wù)不完全一樣。

Table 30 V2 任務(wù)集

成長(zhǎng)與愿景

智能進(jìn)化論:進(jìn)入具身領(lǐng)域一年多來,你個(gè)人最大的感受是什么?

周而進(jìn):物理世界是一個(gè)非常復(fù)雜的環(huán)境,算法跟硬件高度耦合的領(lǐng)域,比純粹做模型要復(fù)雜得多。我覺得要有空杯心態(tài),充分吸收交叉領(lǐng)域的知識(shí)。因?yàn)槊總(gè)領(lǐng)域都有自己的專家,一定是一個(gè)團(tuán)隊(duì)協(xié)作的方式。

智能進(jìn)化論:就你自己的經(jīng)驗(yàn)來說,哪些是可以遷移過來的,哪些是要重新學(xué)的?

周而進(jìn):我們是做視覺出身,在模型訓(xùn)練這一塊經(jīng)驗(yàn)還是比較豐富的。后來從視覺到文本、多模態(tài),這一整條鏈路都做過。這一年半,大家都自己動(dòng)手去修機(jī)器,部署模型,看著機(jī)器人采數(shù)據(jù)。整個(gè)過程中學(xué)習(xí)了非常多硬件相關(guān)知識(shí)。

智能進(jìn)化論:你覺得自己一路從求學(xué),進(jìn)曠視到現(xiàn)在,哪些東西是一直沒變的?

周而進(jìn):對(duì)技術(shù)的追求極致和對(duì)未知的一個(gè)好奇心,這可能是最本源的。因?yàn)樽龊芏嗍虑檫^程中有很多挫折,但是回過頭想想,每天醒來仍然有讓自己比較熱血沸騰的點(diǎn)。

一個(gè)是要把這件事情做到極致,就是你覺得從原理上來說,它就應(yīng)該能夠做到怎么樣?為什么沒有做到這樣?第二是好奇心,無論具身還是大模型,今天大家還是面臨很多新問題,有好奇心就有動(dòng)力去試。

智能進(jìn)化論:你從小就對(duì)計(jì)算機(jī)特別感興趣,還是什么事情啟發(fā)了你?

周而進(jìn):我學(xué)生生涯花了比較多精力在搞信息學(xué)競(jìng)賽,競(jìng)賽的影響是比較深的。

第一,分析問題的邏輯思維能力,對(duì)復(fù)雜工程的拆解能力,用代碼在有限時(shí)間內(nèi)實(shí)現(xiàn)出來,我覺得是特別有意思的一件事情。

第二,競(jìng)賽的過程中你會(huì)接觸到很多計(jì)算機(jī)科學(xué)的開放性問題,極大地?cái)U(kuò)充了視野,原來有那么多有趣的東西。所以由它(競(jìng)賽)入門,衍生出來一系列自己的關(guān)注點(diǎn),興趣都在往計(jì)算機(jī)科學(xué)領(lǐng)域靠近了。

智能進(jìn)化論:AI沖擊包括科技巨頭的裁員,好多年輕人都會(huì)迷茫,焦慮,對(duì)于他們有什么建議嗎?

周而進(jìn):年輕人不想聽建議。我也是個(gè)年輕人,我只能說我自己的想法。我從小到大基本上,一直在做自己深層次真正感興趣的事情。因?yàn)檫^程中有太多挑戰(zhàn)了,要能夠堅(jiān)持下去,一定是你真的感興趣這件事。還有得學(xué)習(xí)新東西,不能讓自己的視野、認(rèn)知停下來。

智能進(jìn)化論:你對(duì)具身智能有什么愿景,或者理想中的畫面?

周而進(jìn):我的一個(gè)愿景是看到具備廣義社會(huì)身份的機(jī)器人出現(xiàn),這是挺讓人興奮的。

今天大家對(duì)機(jī)器人的期待,更多是功能層面,它能替我干啥事兒。如果機(jī)器人有自己的身份ID、支付寶、電話號(hào)碼,已經(jīng)某種程度賦予了它一個(gè)虛擬的社會(huì)身份了。

當(dāng)機(jī)器人有自己的身份,很多基礎(chǔ)設(shè)施也可以為機(jī)器人建,而不是為人建。就像沒有汽車的時(shí)候不會(huì)建馬路,汽車大規(guī)模普及,世界上出現(xiàn)了各種馬路。

人機(jī)共生不是簡(jiǎn)單在功能層面的,是更復(fù)雜的社會(huì)層面,從整個(gè)社會(huì)的基礎(chǔ)設(shè)施,到人和機(jī)器人之間的關(guān)系,機(jī)器人本身的權(quán)益等都考慮進(jìn)來。

END

本文為「智能進(jìn)化論」原創(chuàng)作品,歡迎關(guān)注。

       原文標(biāo)題 : 原力靈機(jī)周而進(jìn):具身智能從Demo到進(jìn)廠,會(huì)殘酷篩掉99%的團(tuán)隊(duì)

聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評(píng)論

暫無評(píng)論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)