訂閱
糾錯
加入自媒體

具身智能融資超300億,數據“賣水”生意先賺錢了

2026-04-17 17:53
藍鯊財經社
關注

"百億規(guī)模的生意誰在布局?"

 作者 | 簡   安

編輯 | 盧旭成

中國的具身智能行業(yè)有多火?據不完全統(tǒng)計,開年至今總融資額已超300億元,估值超100億元的具身智能公司超20家。4月16日,它石智能宣布完成4.55億美元融資,成為這輪具身智能融資狂潮的最新案例。

圖片

這超300億融資中的大部分并沒有流向機器人本體制造。貝殼財經曾報道,年內超過半數投資都涌向“具身大腦”和“靈巧手”這兩個方向——一個決定機器人的智商,一個決定機器人的動手能力。

圖片

數據卡住了具身智能的脖子

目前,機器人最大的問題不是腿腳不好,而是腦子不夠聰明。也就是說,單純的機器人硬件制造已不是壁壘,如何獲取、處理和利用大規(guī)模、多模態(tài)的真實世界數據,成為決定具身智能模型能力上限和產業(yè)發(fā)展速度的關鍵。

目前來看,市場上絕大多數機器人還停留在模仿階段,只能完成單一的標準化任務。比如一臺機器人可能會疊衣服,但不一定會疊被子,它需要一個動作一個動作地學,做不到像人那樣舉一反三。

這種單點模仿的能力和通用智能相差甚遠。造成這種困境的根本原因就在于:沒有足夠多高質量的物理交互數據。要打破這個瓶頸,唯一的路徑就是用海量的數據喂養(yǎng)模型,讓機器人在無數次的交互中學會泛化能力。這個邏輯和大語言模型的進化路徑一致,只是兩者需要的數據天差地別:大語言模型之所以聰明,是因為它消化了互聯網幾十年積累的海量文本數據,而機器人要變聰明,則需要真實物理世界中包括視覺、觸覺、運動軌跡、空間位置等多維度的龐雜數據去喂養(yǎng)。

與自動駕駛面對的高標準場景如全國統(tǒng)一的交通規(guī)則、高度標準化的操控邏輯,因而數據采集相對規(guī)范統(tǒng)一不同,機器人面對的是家庭、商超、工廠等非標準化的場景,每一個場景、每一個物體、每一個動作都可能存在差異,這讓數據采集的難度指數級上升。數據荒,已經成為制約整個具身智能行業(yè)發(fā)展的瓶頸。

覓蜂科技董事長及CEO姚卯青在接受藍鯊財經社等媒體采訪時透露,ChatGPT5的訓練數據達100億小時,具身智能的有效數據量只有50萬小時 ,差距達兩萬倍。如果說語言大模型已是大學生的話,那具身智能大模型就還是一個小嬰兒。所以很多機器人公司融到錢之后,最先做的一件事就是:買數據、采數據。

數據“賣水”人瞄準了這一產業(yè)痛點。

4月16日,京東和智元機器人旗下的覓蜂科技各自拿出了一套關于具身智能(物理AI)數據的解決方案:京東在全球首推覆蓋“采、存、標、訓、評、仿、測”全鏈路的具身智能數據基礎設施;覓蜂科技要做“一站式物理AI數據服務平臺”。

圖片

圖源:覓蜂科技CEO姚卯青

這兩家企業(yè)在同一天發(fā)布的方案,揭示了一個正在發(fā)生的事情:具身智能行業(yè)的核心瓶頸已經從硬件本體(“小腦”)快速轉移到驅動智能決策的高質量訓練數據(“大腦”)。業(yè)內人開玩笑說,賣機器人本體的企業(yè)不一定能快速實現盈利,但數據“賣水”的生意可能最先跑通。

圖片

圖源:網絡

圖片

具身智能數據生意市場規(guī);虺100億元

數據標注并不是什么新鮮生意,早在2014年前后深度學習、推薦算法興起的時候,就催生了一大批數據標注工廠。

當時它們主要給百度、抖音這樣的互聯網公司提供服務,通過人工標注圖片和視頻來訓練算法。也有影視和游戲類的公司,用動作捕捉設備采集人體動作數據,用來制作電影特效和游戲動畫。但這些早期的數據,無法滿足機器人訓練的數據需求——傳統(tǒng)數據標注大多用于內容AI,與物理AI的訓練邏輯不一定相同;影視動作捕捉則更多追求視覺效果,而不是讓機器人復刻動作。所以很多機器人公司發(fā)現,買回來的數據要么精度不夠、要么場景不匹配,不能直接用來訓練具身智能大模型。

市場上沒有足夠多高質量的數據,一些頭部機器人公司便親自下場做數據業(yè)務。比如智元機器人就拆分出覓蜂科技,專門打造一站式物理AI數據服務平臺;京東也發(fā)布了覆蓋“采、存、標、訓、評、仿、測” 全鏈路的具身智能數據基礎設施;還有一批從自動駕駛、人工智能實驗室出來的初創(chuàng)團隊,也紛紛涌入這個賽道。

目前行業(yè)內的機器人數據主要分為三類,各自的定價和用途也有明顯區(qū)別。其中,仿真數據在虛擬環(huán)境中生成,主要用來補充一些罕見的長尾場景,尚未形成大規(guī)模的流通市場,價格也不透明;通過穿戴設備采集人類動作數據的無本體數據,成本低也更易規(guī);,收斂狀態(tài)下價格大概是真機數據價格的三分之一到二分之一。

精度最高的是真機數據——實體機器人實際操作采集的數據,最適合用來訓練落地場景的模型,市場價在每小時 500-1000 元之間。這個價格聽起來不算太貴,按這個價格測算,如全行業(yè)一年能產出100萬小時的有效數據,對應的市場規(guī)模是10億元;如果有效數據產出提升到1000萬小時,就是100億元的市場規(guī)模。姚卯青告訴藍鯊財經社,現在整個物理AI數據處于“有多少買多少”的供不應求的狀態(tài)。

因此,京東和覓蜂都把千萬小時級產能定為目標。姚卯青表示,2026年覓蜂將實現千萬小時級數據產能,目標在2030年達成百億小時級數據產能,共建全球最大物理AI數據生態(tài)。京東也表示,要構建全球規(guī)模最大的具身智能數據集采中心,在兩年內積累1000萬小時人類真實場景視頻數據。

為了快速放大產能,京東和覓蜂都采用輕資產的眾包模式,這和美團、滴滴搭建的騎手和網約車司機平臺的運營邏輯相似。

京東推出了自研的可穿戴式超高清采集終端JoyEgoCam,計劃發(fā)動最多60萬人進行“人類史上規(guī)模最大的數據采集行動”。這個目標完成起來不難,京東集團2025年員工數超90萬,只要京東創(chuàng)始人劉強東一聲令下就可以給京東的快遞小哥、外賣騎手等提供一個增收的副業(yè)。

圖片

圖源:京東黑板報

覓蜂不自己大規(guī)模建設數據采集中心,但有一個1-200人團隊,負責打造數據采集“樣板間”,同時給合作伙伴提供統(tǒng)一的標準、系統(tǒng)和運營管理模板,吸引各地合作伙伴加盟。合作伙伴在全國自建團隊、采購設備完成數據采集,覓蜂科技負責派發(fā)訂單、管控質量和對接客戶。這種模式,不僅能讓覓蜂科技迅速擴張產能,還能推動智元機器人硬件的銷售——合作伙伴要采集真機數據,需要采購智元的機器人和相應的設備。

姚卯青透露,千萬小時目標級的具身智能優(yōu)質數據需要鋪設1萬臺采集終端。如此,光是覓蜂的合作伙伴就能幫智元機器人多賣1萬臺機器人(宇樹科技2025年才賣出5500臺人形機器人)。這個模式跟比亞迪新能源汽車一開始主要賣給出租車公司類似。

圖片

圖源:覓蜂科技

不過,這個快速發(fā)展的行業(yè),依然還面臨很多挑戰(zhàn)。如機器人場景的非標準化,導致數據采集的質量參差不齊;很多地方的數采中心存在重復采集、低效運營的問題;無本體數據雖然采集效率高,但天生存在精度不足的缺陷;整個行業(yè)也還沒有形成統(tǒng)一的數據標準,不同平臺采集的數據很難跨平臺復用……但這些痛點也恰恰是這門數據生意的壁壘。

姚卯青表示,現在的具身智能就像是大模型2017年、2018年剛出現時的狀態(tài),大家已經看到一條路徑,但還沒有看到完整的智能涌現的雛形,機器人要實現真正的通用智能,至少還有四五年的路要走。這也意味著,行業(yè)對優(yōu)質數據的需求會長期存在,而且會越來越旺盛。

       原文標題 : 具身智能融資超300億,數據“賣水”生意先賺錢了

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權或其他問題,請聯系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關注公眾號
    OFweek人工智能網
    獲取更多精彩內容
    文章糾錯
    x
    *文字標題:
    *糾錯內容:
    聯系郵箱:
    *驗 證 碼:

    粵公網安備 44030502002758號