控制算法手記——腿足運動控制(5)

文:李磊2025年第三期

摘要;深度強化學習沒有“黑魔法”,動力學行為-模型-數據-控制結構的問題一以貫之,不可偏廢。分析場景、任務和 問題本身,抓住主要矛盾仍然是行之有效的思維過程。

文/李磊


1 復雜地形下腿足運動控制的挑戰

如“控制算法手記——腿足運動控制(2)” 一文中所 述,復雜地形適應性是腿足機器人相比輪履式機器人的獨 特優勢,然而復雜地形通常是未知或者難以準確觀測/估計 的,主要體現為以下三點:
· 地形幾何特性,決定通過該地形時的接觸點/面和接觸 時機,難以準確獲取(傳感器視野限制/噪聲/遮擋、受自身 位姿估計影響);
· 地形物理特性,決定地面能提供的切向/法向接觸力動 態特性,難以準確估計;
· 空間三維環境,決定機身-落腳點所必須具備的關系, 受自身狀態估計和傳感器限制難以準確獲取。
另外,腿足機器人(被控對象)本身作為復雜的動力學 系統,其動力學行為包含以下三方面非理想因素:
· 浮動基多剛體動力學系統-地面碰撞接觸,導致自身 位姿/速度間接測量(需要狀態估計,且受地形-接觸特性影 響)、間接控制,且受地形干擾的特性;
· 實際機電系統動力學特性在細節層面復雜化了動力學 行為,如傳感器噪聲、關節傳動特性等;
· 加工裝配誤差、負載多變、外界干擾以及不同初始狀 態進一步復雜化了動力學行為。
來自環境未知/不確定性以及被控對象本身復雜的動力 學行為,對腿足機器人運動控制造成了巨大挑戰。無論是強 化學習還是基于模型的方法根據不同任務下這些問題的不同 表現,都可以進行有針對性的處理。對于強化學習來說,環 境未知/不確定性以及浮動基多剛體間接測量、間接控制的 問題,使得其所依托的MDP框架中的狀態假設不再有效:
“狀態”代表無缺失、無冗余,具有馬氏性,與環境密 切相關的信息。
如控制算法手記——腿足運動控制(3)中提到的,當前學習范式(Model-Free, Sim2Real,下文簡稱沿用)下的強 化學習在訓練過程中學習到的是一種“靜態”非線性最優“狀 態”反饋控制,也即算法是建立在“狀態”之上的。然而,我 們能夠知道的也只有諸如當前機身相對姿態/角速度/線性加 速度(IMU)、關節速度/位置信息以及相機坐標系中的點云 信息/深度信息,而不是地面摩擦系數、接觸力/接觸狀態、 地形幾何特性、機身位置/速度/抬腿高度等信息。由于決定 動力學過程的部分“狀態”變量未知,問題分析框架也就從 MDP退化為POMDP(部分可觀察馬爾科夫決策過程,相當 于傳統控制理論中問題從全狀態反饋控制變成輸出反饋控 制) ,即算法是建立在“觀察”基礎上的,這就打破了信息 完備條件下的優勢:
· 當前條件下價值判斷更準確,決策依據信息更充分;
· 狀態反饋越直接,在獎勵函數中體現越直接,策略訓 練效率和部署效果越好;
· 狀態完備時(表征維數更多),動作映射更精細;
· 能夠唯一確定狀態-動作間映射,避免一對多(不同 “狀態”組合可能會產生同樣“觀察”),能夠產生相近情境 下的正確區分動作。
既然上述因素對算法性能十分重要,那我們自然希望:
· 盡可能準確判斷價值,以輔助正確計算策略梯度,找 到最優策略;
· 盡可能從已有的“觀察序列”重建“狀態”信息,或者 利用正逆向模型,實時感知環境變化,保證狀態-動作映射 的精確和唯一性以及策略訓練部署性能;
· 盡可能考慮非理想因素帶來的影響,保證仿真訓練學 習的策略貼近實際。
實際上,上述三方面的考慮構成了使用DRL深度強化學 習進行運控算法設計、訓練和部署時的重要依據(圖1)。

2 當前學習范式下DRL 腿足運控算法策略結構


77.png

如圖1所示,結合上述分 析,當前范式下DRL腿足運控算 法訓練部署,要考慮下述兩方 面因素。
(1)(仿真)特權信息利 用——盡可能準確判斷價值,提 供充分依據找到最優策略
Actor-Critic策略梯度架 構+PPO策略優化算法是當前使 用DRL進行腿足運控的主流方 式。考慮到當前學習范式下在 仿真環境中進行策略訓練,在訓練過程中,仿真環境可以提供完備信息(相關地形參數、 干擾力、速度是提前設置的,可以準確獲取,接觸狀態/接 觸力/機身速度/抬腿高度可以通過物理學引擎解算,這些參 數還能夠獲得準確的時間對齊,且延遲較低),因此在建模 準確的前提下可以利用仿真環境提供的相關真值(“Ground Truth”)組成信息完備的“狀態”。因為該“狀態”信息是仿 真環境中特有的,該信息又被稱為“特權信息”。“特權信 息”的引入在仿真訓練過程中,能夠為Actor網絡提供準確的 優勢函數以輔助計算策略梯度。取決于是否將該特權信息引 入Actor中以學習,可將特權信息的利用分為三大類:
· Teacher-Student架構:即將特權信息接入Actor網絡 和Critic網絡,相當于上帝視角下學習到到一個表現很好的 策略(“完美狀態”-動作映射),然后在部分可觀察條件 下,使用模仿/監督學習訓練一個Student網絡,將Teacher 策略網絡學到的“完美”映射傳遞給Student策略網絡,實際 Student策略網絡接受部分可觀察信息,通過編碼器等形式 重建或者部分重建狀態信息(見下節介紹);這種兩階段訓 練過程大幅降低了部分可觀察條件下的策略的訓練難度,并 貫穿在ETH系列強化學習論文中,然而也面臨著以下問題:
Sequentially training the teacher and student networks is data inefficient. The student policy might be unable to explore failure states in which the teacher policy has learned in the early stage of learning using RL. This limitation is because, during BC, the studentpolicy is only provided with good action supervision from the teacher policy.  ——DreamWaQ
· Asymmetric Actor-Critic架構:即只將特權信息引入 到Critic網絡中去,Actor網絡接受部分可觀察信息,并結合 重建“狀態”信息,輸出動作決策;
· 最近提出來的Concurrent Teacher-Student架構處于 兩者之間,其融合了Teacher-Student架構和Asymmetric Actor-Critic架構的優勢,即單階段訓練,但Actor也可使 用特權信息。在Teacher學習的過程中Student同步學習 Teacher策略以及相關狀態編碼信息(即使Teacher生成的 動作不完美)。具體實現上,Teacher和Student使用一組 Actor-Critic網絡,均使用強化學習進行訓練(Student訓練 的目的也是為了最大化獎勵,而不是盡可能地像Teacher策 略),只是在并行Agent劃分上,一部分屬于Teacher(比 例更大以便能夠盡快學習策略),一部分屬于Student。
因此,在仿真訓練環節,應該合理、充分利用特權信息, 以盡可能準確判斷價值,提供充分依據找到真正最優策略。
(2)從已有的“觀察序列”重建“狀態”信息
地形環境影響機器人狀態及其估計和控制動作,機器人 狀態估計通過里程計、位姿影響視覺感知(視覺坐標系)。 環境越復雜多變,“狀態”分布在空間上越廣泛/密集,從 “觀察序列”精確重建“狀態”越必要,從而使得策略網絡接 受到的“狀態”能夠準確反映當前條件的變化,保證了“觀 察”-“狀態”-動作的準確映射,實現在復雜地形上穩定可靠通過。按照任務復雜程度,可考慮以下狀態:
· 地形/環境信息;
· 機身狀態估計信息;
· 地形信息-機身狀態融合估計;
· 地形/環境信息-機身狀態-視覺信息融合。
前三種主要應用于盲走,后一種主要適應于視覺強化學 習,能夠適應的地形逐漸復雜(事實上,后面兩種狀態重構 已經分別成為目前盲走和視覺行走的SOTA算法),這也體 現了當前學習范式的演進過程。值得注意的是,如果對于某 種環境/任務,某個狀態/獎勵項相對重要,也可以考慮重建 “狀態”(如抬腿高度、足端力等) ,以保證獎勵項在訓練 過程中能夠充分體現,這體現了DRL框架設計“狀態-動作- 獎勵”的協同設計思想。
考慮到不同“狀態”組合可能會產生同樣“觀察”,而 可使用的觀察較為有限(主要包括IMU、機身關節以及視覺 信息如深度圖、點云等)以及"觀察"噪聲,因此在使用“觀 察序列”重建"狀態"信息時,需要選擇合適的監督信息、網 絡結構和訓練學習方式,如使用對比學習、變分自動編碼器 VAE以及地形重構等模塊。

3 Sim2Real:精確建模與物理量對齊

當前學習范式下,因為仿真訓練學習階段完成后,學習 到的策略便成了一個靜態策略,如何保證在仿真訓練階段學 習到策略在實際部署中同樣有效?這就需要在:
· 建模仿真階段:盡可能地對當前任務設定下,任何影 響實際動力學行為/性能目標的因素進行準確建模,做到實 際中的任務環境設置和發生的物理過程是什么樣,仿真中就 是什么樣;
· 部署測試階段:實際部署條件盡可能與仿真環境中設 置的一致,做到仿真是什么樣,實際部署是就是什么樣。
尤其在建模仿真階段,特別需要考慮機電系統的實際特性 并仔細評估其對動力學過程的影響。如果其占據主導因素,那 一定要在仿真中體現,特別是一些容易忽略的因素(如電機扭 矩飽和、實際重心位置、視覺傳感器實際噪聲特性、傳動系統 的摩擦、與環境的實際接觸碰撞過程),不能無腦依賴參數隨 機化減小Sim2Real Gap;從另一方面來說,在機電系統設計 過程中,也應該盡量考慮這些非理想因素對控制算法的影響, 如在控制算法手記——什么讓控制算法復雜化?

綜上所述,一個良好設計的機電系統可以大幅簡化控制 算法設計及部署測試,對于強化學習同樣有效,這就需要機 電系統工程與算法工程師的密切協同。

4 總結

如同在“控制算法手記——先學習系統動力學建模和分 析”一文中所述,無論采用何種控制方法,首先還是應該從 問題本身出發,從動力學行為的角度分析主要矛盾并確定相 關應對思路,運用DRL深度強化學習進行腿足運動控制無疑 也要遵循這一思路。本文從復雜地形上腿足運動控制面臨的 挑戰出發,分析其主要矛盾并歸納整理現有DRL框架下的處 理方法。此外,還有其他諸多細節,如動作空間的設計、與 模型的結合等限于篇幅,不再贅述。最后,需要強調的是, 盡管DRL相關工具鏈的成熟降低了應用“門檻”,但使用DRL 做好、做優腿足運控,保證其實際應用性能,以切實產生應 用價值,仍然需要下一番細功夫。

                                                                                                   11.png


中傳動網版權與免責聲明:

凡本網注明[來源:中國傳動網]的所有文字、圖片、音視和視頻文件,版權均為中國傳動網(www.cdcst56.com)獨家所有。如需轉載請與0755-82949061聯系。任何媒體、網站或個人轉載使用時須注明來源“中國傳動網”,違反者本網將追究其法律責任。

本網轉載并注明其他來源的稿件,均來自互聯網或業內投稿人士,版權屬于原版權人。轉載請保留稿件來源及作者,禁止擅自篡改,違者自負版權法律責任。

如涉及作品內容、版權等問題,請在作品發表之日起一周內與本網聯系,否則視為放棄相關權利。

伺服與運動控制

關注伺服與運動控制公眾號獲取更多資訊

直驅與傳動

關注直驅與傳動公眾號獲取更多資訊

中國傳動網

關注中國傳動網公眾號獲取更多資訊

熱搜詞
  • 運動控制
  • 伺服系統
  • 機器視覺
  • 機械傳動
  • 編碼器
  • 直驅系統
  • 工業電源
  • 電力電子
  • 工業互聯
  • 高壓變頻器
  • 中低壓變頻器
  • 傳感器
  • 人機界面
  • PLC
  • 電氣聯接
  • 工業機器人
  • 低壓電器
  • 機柜
回頂部
點贊 0
取消 0
往期雜志
  • 2025年第二期

    2025年第二期

    伺服與運動控制

    2025年第二期

  • 2025年第一期

    2025年第一期

    伺服與運動控制

    2025年第一期

  • 2024年第六期

    2024年第六期

    伺服與運動控制

    2024年第六期

  • 2024年第五期

    2024年第五期

    伺服與運動控制

    2024年第五期

  • 2024年第四期

    2024年第四期

    伺服與運動控制

    2024年第四期