“人工智能的下一波浪潮,是以人形機器人為代表的具身智能。”優必選研究院AI大模型與交互部負責人石海林直言。
2025年,以人形機器人為先鋒的智能機器人產業加速邁向現實,其依托的具身智能技術首次被寫入中國政府工作報告,正式躍升為國家戰略。
政策的號角與產業的回應同頻共振:今年全球具身智能市場預計將突破百億元,2030年整個產業規模有望達到千億級別,為這場變革提供了強有力的背書。商業的邊界正被拓寬,技術的路徑正在接受檢驗,一個機器從“執行者”向“協作者”演進的新物種起源故事,已然開篇。
第一章:緣起
從圖靈猜想,到國家戰略
具身智能并非憑空而來,它的興起本質上是一場研究范式的革命——從預設的“機器編程”轉向自主的“環境學習”。
這一概念的思想源頭可追溯至1950年。計算機科學之父艾倫·圖靈在其論文《計算機器與智能》中首次提出了人工智能的構想,為具身智能埋下了深遠的伏筆。
1980至1990年代,羅德尼·布魯克斯和羅爾夫·普費弗等學者提出了行為主義與身體化智能理論,對傳統AI的“離身”認知觀發起挑戰,主張智能源于機體與環境的持續互動。
進入21世紀,隨著機構學、機器學習與機器人學等領域的交叉融合,具身智能在2000-2010年間逐漸形成一個相對完整的學科分支。
2010年之后,深度學習技術的突破推動研究進入新階段。研究人員開始利用虛擬環境與大規模算力來設計與訓練智能系統,使其在仿真世界中初步學習并適應物理規律。
根本性的轉折發生在2017年。Transformer架構的誕生,解決了傳統模型處理長序列數據的瓶頸,為后續的大模型技術爆炸埋下種子。
2022年后,ChatGPT等現象級應用的爆發證明了大型語言模型在理解與規劃上的強大能力,相當于為機器人配備了一個通用的“任務大腦”。
至此,通向通用機器人的技術路徑豁然開朗,即將大模型的“腦”與機器人的“身”深度融合。2023年,斯坦福大學的ALOHA(一個開源的雙臂機器人模仿學習系統)研究項目展示了機器人通過觀察人類視頻模仿學習精細操作技能的潛力,實現了從“編程執行”到“模仿學習”的關鍵跨越,推動具身智能在2025年走向產業前沿。
正如石海林所言,當前產業仍處于早期探索與商業化加速階段,“具身智能在未來3-5年的時間將步入成熟期。” 每一次技術躍進,都在為具身智能的最終成熟積累了必要的基礎。
第二章:架構
“大腦”、“小腦”與“身體”的協同奧秘
具身智能的本質,是為人工智能賦予一個能夠感知和行動于現實世界的物理身體。在眾多形態中,人形機器人因其與人類環境天生的兼容性,被視為實現通用具身智能最具潛力的載體。
當前,業界普遍采用“大腦、小腦、本體”的三層架構來解構人形機器人的系統。這套架構的核心思想是 “智能解耦”,將復雜的認知任務與高精度的實時控制分離。
“大腦”指代AI大模型,負責語言理解、環境感知與高級任務決策等;
“小腦”則是運動控制算法,調度機器人的協調與平衡、實時避障等;
“本體”是硬件載體,包括骨骼結構、關節電機、傳感器和靈巧手等,負責最終執行動作。
此架構的精妙之處在于讓最合適的系統處理最擅長的任務。依托此設計,高性能的“大腦”(AI大模型)可部署于云端,專注處理環境感知、語言理解與復雜決策;輕量而高效的“小腦”(控制算法)則負責本體的實時運動協調與平衡。二者各司其職,共同構成了一個既能深思熟慮又能敏捷反應的高效系統。
而決策與控制的協同,離不開精準的感知作為前提。 傳感器作為機器感知物理世界的“感官”,其精度與可靠性成為決定機器人能否在非結構化環境中自如行動的關鍵一環。當前,中國傳感器市場規模已突破千億元,并以每年15%的速度持續增長。視覺、觸覺、力覺等多模態感知能力的融合提升,直接影響機器人在復雜、動態環境中的適應能力。
第三章:改變
大模型驅動認知躍遷,工具變身助手
如果說傳統機器人是“聰慧的工具”,那么具身智能機器人則是“有思想的助手”。這一轉變的根本動力來自大模型的強大認知能力。
從控制系統的角度看,傳統機器人采用的是分層控制架構——規劃層、動作層、基元層、伺服層逐級遞進。具身智能機器人則在此基礎上增加了“需求理解層”和“任務分解層”,兩層由大模型驅動,使得機器人能夠理解自然語言指令、自主規劃任務序列。
上述能力的獲得源于大模型在多模態學習上的突破。據悉,北京大學與人民大學的聯合研究團隊首次構建了百萬規模的動作生成數據集MotionLib,利用互聯網視頻訓練通用動作生成框架Being-M0,實現了人類動作向多類型人形機器人的跨平臺遷移。
這意味著機器人不再需要針對每個任務逐個編程,而是能夠通過觀看視頻學習,實現真正的泛化能力。
硅谷創新公司Figure AI的最新模型Helix則展現了讓機器人像人類一樣思考與行動的可能性,標志著端到端學習時代的來臨。
雖然技術指標令人矚目,但其核心價值在于實現了從“規則執行機器”到“自主決策體”的質的飛躍。
然而大模型的應用并非無所不能。當前階段,大模型主要擅長需求理解、任務分解等高層級控制,而在低層運動控制中的精確性和實時性仍然有限。
如此人形機器人采用“大腦+小腦”的協同架構,大模型負責規劃,傳統控制算法負責執行,形成高效互補的發展路線更加清晰。
協同架構的認知指導了產業的技術選擇,企業不會盲目追求“大模型包打天下”,而是理性地尋求技術的最優配置。
第四章:競速
全球賽局開啟,融資與上市并驅
特別是2025年下半年以來,人形機器人領域的競爭驟然升級,從實驗室的技術演示,全面轉向產品發布、資本運作與戰略落地的全方位競速。一時間,核心技術、應用場景、融資額度與頂尖人才的流向,無不成為激烈爭奪的焦點,全球市場競爭已呈 “烽煙四起” 之勢。
國內賽道的焦點無疑是頭部企業的“上市競速”。宇樹科技于11月15日率先完成IPO輔導驗收,僅用四個多月便走完全程,叩響“A股人形機器人第一股”的大門。樂聚智能此前已完成于10月30日完成IPO輔導備案沖刺IPO,而傅利葉、智元機器人、云深處科技等公司完成股改,則預示著后續的資本浪潮將更為洶涌。
資本正以前所未有的力度重倉押注。機構預測,到2026年全球具身智能市場將突破百億元,年增速超60%。而人才的爭奪更為直觀,字節跳動為“人形機器人算法專家”開出百萬年薪。華為、騰訊、小米通過投資與自研雙線布局,比亞迪、上汽憑借制造底蘊強勢切入。
吉利則采取投資與產業合作相結合的策略,與優必選、銀河通用等企業建立合作關系,并于11月20日領投星動紀元完成10億元融資。值得關注的是,星動紀元已獲得超過5億元的年度訂單,與吉利、雷諾、順豐等企業在具體場景展開合作。
全球賽場同樣波瀾迭起。在瑞士聯邦第一大城市蘇黎世,初創公司Flexion宣告結束隱身模式,憑借其專攻機器人“大腦”的技術路線,一舉獲得由英偉達和DST Global等領投的5000萬美元A輪融資。與此同時,安卓之父安迪·魯賓在東京創立Genki Robotics,此舉不僅是對技術本源的回歸,更是對日本精密制造生態戰略價值的一次精準卡位。
市場的激烈競爭,使得“硬件優先”與“模型優先”兩大技術路徑的分野愈發清晰。宇樹科技、逐際動力等代表“硬件派”,從其雙足機器人CL-1的動態行走能力展示中,可見其對本體控制與機械可靠性的極致追求;而近期浮出水面的Flexion和發布SesameX系列計算平臺的黑芝麻智能,則代表了“模型派”的思路,致力于為多樣化的機器人“軀體”提供強大的智能核心與算力底座。
從硅谷、東京...到深圳、北京、上海,人形機器人的競爭已從實驗室demo,走向產品、資本與戰略的全面交鋒。這場競賽也推動了上游產業鏈的協同突破。例如奧比中光發布新一代機器人專用深度相機,提升了機器的“視覺”感知精度。眾多企業的進展共同表明,具身智能的快速發展,正依賴于一個持續創新、相互支撐的產業生態,未來可期。
第五章:趨勢
四大技術演進,重構“感知-決策-行動”閉環
業界人士指出,具身智能的成熟,最終體現為在真實世界中形成一個高效、魯棒的“感知-決策-行動”閉環。未來具身智能正由四大關鍵技術的協同演進所驅動,分別包括多模態感知融合、運動控制的“智能-控制”一體化、環境交互的自主化,以及大模型與具身系統的深度耦合。
1、多模態感知從“精準識別”走向“深度融合”
作為機器理解物理世界的基礎,感知技術正超越單一模態(如純視覺或純觸覺)的精度競賽,邁向多源信息的協同與互補。其演進呈現三個清晰路徑:
首先,通過物理模擬器與世界模型構建高保真虛擬訓練場,為智能體提供近乎無限的“試錯”空間,以極低成本積累物理經驗。
其次,利用生成式AI逆向設計機器人本體結構,實現機械硬件與控制算法的協同優化,從源頭提升能效與性能。
最后,構建大規模、高質量的具身決策數據集,為復雜、長尾場景下的任務策略遷移提供數據燃料。
2、運動控制呈現“智能-控制”一體化特征
運動控制正從依賴精確環境模型的傳統范式,向更靈活、自適應的智能范式轉變。其核心是構建類似生物的“大腦-小腦”協同架構:由“大腦”(大模型)負責高層任務規劃與語義理解,而“小腦”(專用控制算法)則專精于底層運動的實時、高精度執行。
其技術突破體現在三個層面:模型預測控制與強化學習的融合,賦予機器人在不確定環境中的在線學習與調整能力;借鑒生命科學的冗余控制機制,增強系統的抗干擾性與魯棒性;以及在設計階段便實現的軟硬件深度協同,確保算法效能被物理結構完美承載。
3、環境交互從“預設響應”升級為“自主適應”
環境交互能力是檢驗具身智能水平的終極試金石。其發展趨勢是從結構化場景中的預設行為,向非結構化環境中的自主決策與主動適應躍遷。這依賴于世界模型與物理模擬器構成的“數字孿生”系統,讓機器人能在虛擬世界中通過“想象”進行推理和預演,再將習得的能力遷移到現實。
4、大模型從“云端大腦”深化為“系統靈魂”
大模型與具身智能的融合,正從初期的“賦能”(提供對話接口)走向更深層次的“重塑”。它不再僅是處理自然語言的“大腦”,而是進化為整個系統的“靈魂”,催生出“模型即服務”的新產業范式。
具體表現為在工業制造中,靈巧手融合視覺與力控模型,實現“抓取無震顫”的精細操作;在醫療領域,手術機器人通過多模態模型實時構建人體3D圖譜,達成“眼-腦-手-力”的閉環反饋;在物流等復雜系統中,大模型則成為調度全局、實現多機協同的決策中樞。
第六章:落地
叩開商業化大門,多場景滲透路徑
當技術聚變達到臨界點,商業化應用的大門便隨之開啟。全球市場競爭格局呈現出傳統機器人企業、互聯網巨頭與新興創業公司同臺競技的多元化態勢,而清晰的滲透路徑與持續下降的成本,正共同推動產業從實驗室走向規模化應用。
縱觀產業鏈,上游核心部件是關鍵壁壘與突破口。據業界信息,傳感器、減速器、伺服系統與芯片等上游核心零部件,仍占據人形機器人總成本的70%以上,是價值集聚的高地。值得關注的是,中國在諧波減速器、伺服系統等領域的國產化率正持續提升,預計到2025年,關鍵部件國產化率將達35%-50%,此舉將有力推動整機成本下降30%,為規模化普及掃除障礙。
從應用場景看,產業正遵循一條從簡單到復雜、從專用到通用、從ToB到ToC的滲透路徑。
工業制造與物流是目前落地最快、效果最顯著的領域。因其環境相對可控、任務定義清晰,例如因時機器人的五指靈巧手,憑借內建的力控傳感器與標準動作庫,實現了“抓取精準無震顫”,已廣泛應用于醫療器械、3C制造等高精度作業中。
醫療康復與服務場景正加速滲透。傅利葉智能等公司研發的康復機器人,通過柔順控制技術,為患者提供精準、安全的輔助訓練;CAIR的微創手術機器人則實現了“眼-腦-手”協同,大幅提升手術的精準度與安全性。
特種應用與未來想象。在安防巡檢、應急救援乃至未來的航天航空等極端或特種環境中,具身智能機器人正展現出替代人類進行高危作業的巨大潛力。
據《2025人形機器人與具身智能產業研究報告》預測,2025年,全球具身智能市場規模預計達195.25億元,2030年預計達2326.3億元,復合年增長率(CAGR)達64.18%。而我國2025年具身智能市場規模將達52.95億元,占全球約27%;其人形機器人市場規模將達82.39億元,占全球約50%。
另據國務院發展研究中心相關研究報告認為,中國具身智能產業市場規模有望在2030年達到4000億元、在2035年突破萬億元。
人形機器人作為具身智能技術的先鋒賽道,其迅猛發展是推動整個產業達到千億級規模預期的重要引擎。人形機器人的高占比更是凸顯出中國在硬件制造與特定賽道上的優勢;而具身智能的廣闊前景則揭示了其作為未來重要戰略性產業與各行各業深度融合的巨大潛力。
第七章: 前瞻
冷思考與未來路徑
盡管前景廣闊,但人形機器人產業的成熟仍需穿越多重挑戰。當前,技術的泛化能力尚不足以應對所有現實場景的復雜性與長尾問題。在機器人領域,多數企業的融資階段偏早期,大多數公司還處在“技術驗證”階段,離真正走入千家萬戶還有不小距離。同時,商業回報閾值也還不足以完全支撐高昂的量產成本,行業存在“估值前置、收入滯后”的現象,不少項目仍停留在概念驗證或樣機演示階段。
業界認為,在未來3-5年的關鍵培育期內,產業參與者需要保持戰略耐心,理性選擇切入場景,避免陷入“技術萬能”的盲目樂觀。具身智能的終局,并非是創造一個無所不能的“通用人工智能體”,而是在特定邊界內,成為能夠深刻理解人類意圖、并與物理世界進行高效、安全協作的“伙伴”。
具身智能的發展軌跡,更可能是一條陡峭而持續的上升曲線,而非瞬間爆發的奇點。當技術突破、成本下降與市場接受度在某一節點交匯,我們才能真正迎來機器“人”時代的全面開啟。
























網站客服
粵公網安備 44030402000946號