Part II: 네 가지 기폭제

Chapter 6: 학습 알고리즘 Canon

집필일: 2026-04-24 최종수정일: 2026-04-24

6.1 순서대로 도착해야 했던 다섯 논문

2019년과 2024년 사이에 출판된 다섯 논문이 GPU 병렬 시뮬레이션(5장)과 QDD 하드웨어(4장)를 배포 가능한 휴머노이드 보행 스택으로 전환시킨 강화학습(RL) 정전(正典)을 정의한다. 각 논문이 이전 것이 열어 둔 조각 하나를 추가했다. 이 순서가 중요하다.

  1. Hwangbo 외, 2019 — 액추에이터 네트워크가 모터 모델 간극을 닫는다.
  2. Lee 외, 2020 — teacher-student 특권 정보가 시뮬레이션 진실을 proprioceptive 배포로 연결한다.
  3. Kumar 외, 2021 (RMA) — 적응이 암묵적으로 되고, 명시적 추정이 아니라 state-action 이력으로부터 추론된다.
  4. Siekmann 외, 2021 — 레시피가 4족에서 이족으로 졸업한다.
  5. Radosavovic 외, 2024 — 레시피가 causal Transformer와 함께 풀사이즈 휴머노이드로 졸업한다.

이 다섯은 모두 알고리즘 기여뿐 아니라 시스템 시연이기도 하다 — critical-analyst의 novelty 매트릭스가 T(이론적)나 S(서베이)가 아니라 B(돌파구 시스템)로 분류하는 종류의 논문. 그 분류의 이유가 정확히 다섯 논문 순서가 중요한 이유다. 각 시연이 실제 하드웨어에서 다음 계층의 가정을 완화할 수 있음을 증명했다. Hwangbo 2019가 없었다면 Lee 2020은 실제 ANYmal과 일치하지 않는 시뮬레이터를 가졌을 것이다. Lee 2020이 없었다면 Kumar 2021은 증류할 특권 teacher 기준선이 없었을 것이다. Kumar 2021의 암묵 적응 프레이밍이 없었다면 Siekmann 2021은 Cassie에서 명시적 시스템 식별을 필요로 했을 것이다. Siekmann 2021의 이족 proof-of-life가 없었다면 휴머노이드 공동체는 아직 Radosavovic 2024가 가능하다고 믿지 않았을 것이다.

이 장은 이 다섯 논문을 진행한다(§§6.2–6.6). 이후 정전이 함축하지만 스스로 제공하지는 않는 세 보조 발전을 감사한다. TCN에서 LSTM을 거쳐 Transformer로의 history encoder 아키텍처 진화(§6.7), PPO와 FastTD3를 통한 off-policy의 귀환을 포함한 RL 알고리즘 가계(§6.8), 참조 기반 RL이 그 위에 앉는 모션 prior 기저층(DeepMimic, AMASS, LAFAN1, OmniRetarget, PHC)(§6.9). §6.10은 상체로 정전을 보행에서 양손 조작으로 밀어붙인 전신 loco-manipulation 확장 — HumanPlus, H2O / OmniH2O, TWIST, Expressive Whole-Body Control, HOVER — 을 개관한다. 장은 Part II 판결로 닫힌다(§6.11). history encoder를 갖는 teacher-student는 부분 해결이며, 컨텍스트 길이 trade-off, 다기술 통합, 언어 조건화 주위로 특정 열린 프런티어가 있다.

6.2 Hwangbo 2019 — 액추에이터 네트워크

Hwangbo 외의 2019년 Science Robotics 논문 [3]은 하드웨어에 zero-shot으로 전이되는 end-to-end 학습된 4족 보행의 정통 "첫 엄밀한 시연"이다. 알고리즘적 기여는 액추에이터 네트워크다. 실제 ANYmal 모터 데이터 — 관절 상태 이력을 관절 토크로 매핑 — 에 학습된 신경망이 시뮬레이터 안의 이상화된 액추에이터 모델을 대체한다. 시뮬레이터의 이상화(희망 관절 위치가 PD 제어 법칙이 생산할 토크를 생산함)는 실제 모터에 대해 틀리다. 액추에이터 네트워크가 기록된 하드웨어 데이터로부터 실제 매핑을 학습하고, 그 학습된 동역학을 시뮬레이션에 주입한다.

메커니즘은 grey-box 시스템 식별의 한 형식이다. 모터 매개변수를 해석적으로 추정하고(강성, 댐핑, backlash, 온도 의존 마찰) 1차 원리 모델에 꽂는 대신, Hwangbo와 동료들은 기록된 (관절 상태, 명령된 토크, 실제 토크 출력) 삼중쌍에 대해 작은 MLP를 학습시킨다. MLP가 시뮬레이터가 물리에 사용하는 액추에이터 모델이 된다. 이 시뮬레이터에 대해 학습된 정책은 — 이상화된 기준선이 아니라 — 하드웨어에 전이되는데, 시뮬레이터의 동역학이 액추에이터의 실제 행동을 포함하기 때문이다.

결과가 변화를 정량화한다. 학습된 정책이 1.6 m/s 전진 속도를 달성하는데, 같은 로봇에서 이전 수작업 튜닝 제어기의 약 2배다 [3]. Cost of transport는 25% 감소한다. 정책은 100개 초기 낙하 포즈 중 80개에서 회복한다. 이것은 시뮬레이션 수치가 아니라 하드웨어 수치다. 시나리오별 수작업 튜닝 없이 닫을 수 없다고 추정되었던 sim-to-real 간극이 데이터로부터 학습된 잘 특성화된 액추에이터 모델로 닫힐 수 있음을 확립한다.

Hwangbo 2019의 기여는 세 겹이다. 첫째, 시스템 시연이다 — 시뮬레이션에서 학습되고 하드웨어에 배포되며 최고의 이전 수작업 제어기를 능가하는 완전한 정책. 둘째, 알고리즘 기여다 — 액추에이터 네트워크 아키텍처와 학습 레시피. 셋째, 공동체 주장이다 — sim-to-real 프로그램이 신뢰할 만하고, 차세대 작업이 그것을 열린 연구 질문으로 취급하지 말고 성공을 가정해야 한다. 세 주장 모두 착지했다.

6.3 Lee 2020 — 특권 정보를 갖는 teacher-student

Hwangbo 2019의 정책은 액추에이터 네트워크로 증강된 시뮬레이터에 대해 처음부터 학습되었다. Lee, Hwangbo, Wellhausen, Koltun, Hutter의 2020년 Science Robotics 논문 [6]이 공동체 기본값이 된 teacher-student 패러다임을 도입했다. teacher는 특권 정보 — 전체 지형 height-map, 접촉력 지면 진실, 환경 매개변수 지면 진실 — 로 학습되는데, 배포된 로봇은 직접 접근할 수 없다. student는 하드웨어에서 실제로 가용한 센서 판독만 받는 proprioception 전용 정책이다. student는 RL 보상으로부터 직접이 아니라 behavioral cloning과 DAgger 스타일의 온라인 증류를 통해 teacher로부터 학습된다.

이것이 작동하는 이유는 교훈적이다. teacher는 더 쉬운 RL 문제를 갖는다 — 환경이 무엇인지 보니까 정책 gradient의 분산이 더 적다. student는 더 어려운 추론 문제를 갖는다 — 볼 수 없는 것을 보상해야 한다. 그러나 student는 RL 문제를 풀 필요가 없다. 자신의 (빈약한) 관측을 주면 teacher의 행동을 흉내내기만 하면 된다. student의 어려움은 RL 최적화에서 시연으로부터의 지도학습으로 밀려나고, 통계적으로 더 싸다.

결과는 논문의 두 번째 신호 기여다. 배포된 student 정책은 이끼, 진흙, 눈을 포함한 2.5 km 야외 하이크에서 100% 성공을 달성한다 [6]. 하이크는 데모 릴이 아니라 zero 낙하의 수 시간 자율 배포다. 평균 전진 속도는 1.0 m/s다. 논문은 시뮬레이션에서 완전히 학습되고 특권 정보로부터 teacher-student를 통해 증류된 정책이 통계적으로 의미 있는 실세계 분포에 걸쳐 하드웨어에 배포될 수 있는 첫 엄밀한 시연이다.

분야에 대한 영향은 즉각적이었다. 특권 정보를 갖는 teacher-student는 이제 2022년 이후 출판된 거의 모든 휴머노이드 RL 논문의 기본 구조다. 6장의 §6.4–6.6 모두가 이 구조를 상속하고, 10장의 VLA 장이 더 높은 수준의 VLA-student-teacher 규모에서 이를 상속한다.

6.4 Kumar 2021 — RMA와 암묵 적응

Lee 2020의 teacher는 환경을 보았고, student는 눈을 감고 보상해야 했다. 자연스러운 질문이 따른다. student가 환경을 추론할 수 있을까 — 지면 진실이 아니라 자신의 state-action 이력으로부터? Kumar, Fu, Pathak, Malik의 Rapid Motor Adaptation (RMA) 논문 [9]이 RSS 2021에서 그렇다고 답했다.

RMA는 두 단계 학습 절차다. 단계 1은 환경 매개변수(질량, 마찰, 모터 강도)를 인코딩하는 extrinsics 벡터를 특권 입력으로 받는 기반 정책을 학습시킨다. 단계 2는 로봇의 최근 state-action 이력 — 전형적으로 지난 50 시간스텝 — 으로부터 extrinsics 벡터를 회귀하는 적응 모듈을 학습시킨다. 배포에서는 적응 모듈만 로봇에서 돈다. 이력으로부터 extrinsics를 추론하고, 기반 정책이 추론된 extrinsics를 조건으로 관절 명령을 생산한다.

기여는 암묵 시스템 식별이다. Kumar 외는 적응 모듈이 놀랍도록 작은 네트워크(0.9M 매개변수)로 환경 매개변수를 추론할 수 있고 서브초 시간 척도에서 큰 매개변수 변화에 적응 — 100 kg 페이로드 스왑으로부터 1초 미만의 회복 — 할 수 있음을 보였다 [9]. 도전적 지형 suite에 걸쳐 RMA는 70/80 횡단 성공 — 비적응 기준선 대비 상당한 개선 — 을 달성했다.

RMA가 도입한 개념적 이동 — 추정된 매개변수 벡터가 아니라 학습된 잠재로서의 컨텍스트 — 이 §6.6과 §6.7의 Transformer 기반 history encoder를 세팅했다. 1년 내에 분야의 기본 이력 아키텍처는 "extrinsics를 명시적으로 추정"에서 "이력을 인코더에 공급하고 인코더의 표현이 적응을 하게 하라"로 이동했다. RMA 논문은 이 이동이 신뢰할 만해진 순간이다.

6.5 Siekmann 2021 — 이족 proof-of-life

2019–2021년 결과는 모두 4족에 대한 것이었다. 이족 휴머노이드로의 번역은 자동이 아니었다. 이족은 구조적으로 덜 안정적이고, 어느 순간에나 더 적은 지지 접촉을 가지며, LIPM의 타당성 영역 경계에 더 가깝게 작동한다(1장). Siekmann, Godse, Fern, Hurst의 2021년 RSS 논문 [10]이 이족 proof-of-life를 제공했다. Cassie 플랫폼(4장의 SEA 대안 계보)에 배포하여, 상용 휴머노이드에서 zero-shot sim-to-real — 완전 학습된 blind 이족 계단 traversal — 을 시연한다.

아키텍처 선택이 교훈적이다. 정책은 proprioceptive 이력에 대한 LSTM이며, 지형 경사, 계단 치수, 질량, 액추에이터 이득에 대한 도메인 랜덤화로 MuJoCo에서 학습된다. 보상은 clock-phase 설계 — 2장에서 논의한 HZD 유도 보상 성형 — 를 통해 주기적 보행을 인코딩한다. 정책은 0.5 m/s 전진 속도에서 4/4 성공적 blind 계단 오르기를 달성하며, 약 30 시도에 걸쳐 zero 낙하다 [10]. Siekmann의 2020년 선행 논문 [7]은 같은 플랫폼에서 LSTM history encoder가 보행 외란 거부에서 feedforward MLP보다 2–3× 더 robust함을 시연했고, 2021년 논문이 배포된 결과다.

이족 proof-of-life가 중요했던 이유는 분야가 휴머노이드 RL을 단순히 4족 결과에서 외삽된 것이 아니라 따로 시연된 것으로 취급할 수 있도록 허가했기 때문이다. 공동체는 1년 내에 "RL은 다리형 로봇에서 작동"에서 "RL은 이족을 포함한 다리형 로봇에서 작동"으로 선회했다. Dao, Duan, Apgar, Hurst의 2022년 ICRA 논문 [11]은 clock-phase 보상 구성을 단일 정책 가계로부터 5개의 일반적 이족 보행을 포괄하도록 확장하여, Cassie에서 zero-shot sim-to-real로 clock-phase 설계가 보행 유형에 걸쳐 일반화됨을 시연했다.

6.6 Radosavovic 2024 — 풀사이즈 휴머노이드의 causal Transformer

Radosavovic, Xiao, Zhang, Darrell, Malik, Sreenath의 2024년 Science Robotics 논문 [13]이 정전의 닫는 괄호다. 풀사이즈 휴머노이드 — Agility Robotics Digit — 에 대해 LSTM에서 Transformer로의 결정적 이동을 표시하는 아키텍처를 갖는 정책으로 완전 학습된 야외 보행을 시연한다.

정책은 proprioceptive 관측과 과거 행동의 긴 창에 대한 causal Transformer다. Isaac Gym에서 대규모 도메인 랜덤화로 학습되며 8 GPU에서 약 4시간에 수렴한다 [13]. 배포된 정책은 낙하 없이 세션당 1 km 이상 야외에서 연속적으로 걷고, 80 N까지의 푸시로부터 회복한다. 논문의 주요 실증적 발견: Transformer가 주목하는 컨텍스트 길이를 늘리면 배포 robustness가 테스트된 한계까지 단조적으로 개선된다. 이 관찰 — 더 많은 이력이 student의 적응에 도움이 된다 — 은 Kumar 2021의 암묵 적응 주장의 2024 버전이며, 9장의 System 1 아키텍처 논의를 세팅한다.

Radosavovic 2024의 후속 작업 Humanoid Locomotion as Next Token Prediction [13]은 제어 문제를 proprioception, 속도 명령, 관절 행동의 다중화된 스트림에 대한 autoregressive 다음 토큰 예측으로 재프레이밍한다. 시뮬레이션 롤아웃, 모델 기반 궤적, 재타게팅된 인간 비디오의 혼합 코퍼스에 학습된 정책은 270억 토큰에 학습되며 온보드 50 Hz에서 돈다. 논문은 인간 비디오 토큰 추가가 RL 전용 기준선 대비 푸시 회복을 약 25% 개선한다고 보고한다 — 언어 모델링에 익숙한 스케일링 레시피가 토큰화와 데이터 원천이 적절히 선택될 때 휴머노이드 제어에 전이된다는 초기 신호.

Hwangbo 2019에서 Radosavovic 2024로의 개념적 호는: 먼저 액추에이터 모델로 sim-to-real 간극을 닫고 → 그다음 student가 볼 수 없는 것을 보상하도록 학습시키고 → 그다음 student가 자신의 이력으로부터 컨텍스트를 추론하게 하고 → 그다음 student의 아키텍처가 긴 컨텍스트에 대한 attention을 통해 스케일하게 하라. 다섯 논문은 독립적으로 가치 있다. 그들의 순서가 패러다임을 확립한 것이다.

그림 6.1: 다리 로봇 학습의 정전 계보 타임라인 2019–2024 — 다섯 논문 각각의 차별적 기여를 포함한 타임라인. Hwangbo et al. 2019 (액추에이터 네트워크가 ANYmal의 sim-to-real 간극을 닫음) → Lee et al. 2020 (teacher–student 증류, 2.5 km 야외 하이크) → Kumar et al. 2021 (RMA: 상태-행동 이력으로부터 암묵적 적응) → Siekmann et al. 2021 (Cassie 위 biped proof-of-life, LSTM + 클럭 위상 보상) → Radosavovic et al. 2024 (Digit 위 causal Transformer, 1 km 이상 야외 보행). 패러다임 호: sim-to-real → teacher-student → 암묵적 적응 → 이족 전이 → attention으로 스케일된 이력. 저자 작성 일러스트 (Gemini 보조 재현).
그림 6.1: 다리 로봇 학습의 정전 계보 타임라인 2019–2024 — 다섯 논문 각각의 차별적 기여를 포함한 타임라인. Hwangbo et al. 2019 (액추에이터 네트워크가 ANYmal의 sim-to-real 간극을 닫음) → Lee et al. 2020 (teacher–student 증류, 2.5 km 야외 하이크) → Kumar et al. 2021 (RMA: 상태-행동 이력으로부터 암묵적 적응) → Siekmann et al. 2021 (Cassie 위 biped proof-of-life, LSTM + 클럭 위상 보상) → Radosavovic et al. 2024 (Digit 위 causal Transformer, 1 km 이상 야외 보행). 패러다임 호: sim-to-real → teacher-student → 암묵적 적응 → 이족 전이 → attention으로 스케일된 이력. 저자 작성 일러스트 (Gemini 보조 재현).

6.7 History encoder — TCN, LSTM, Transformer

다섯 논문 정전과 나란히 달리는 것은 RL 정책이 자신의 최근 관측-행동 이력을 인코딩하는 방법의 아키텍처 진화다. 관측 자체 — base 선형·각속도, base frame에서의 중력 벡터, 관절 위치·속도, 최근 행동, 명령된 속도 — 는 즉각적 상태를 제공한다. 이력이 암묵 적응[9]과 외란 회복[10]에 대한 컨텍스트를 제공한다.

Temporal Convolutional Network (TCN) 이 첫 널리 채택된 선택이었고, Lee 2020과 Kumar 2021에 등장했다. TCN은 학습이 저렴하고, 경계된 수용 영역을 가지며, 수치적으로 안정적이다. 단점은 수용 영역을 사전에 선택해야 하고, 확장하려면 재학습이 필요하다는 것이다.

Long Short-Term Memory (LSTM) 네트워크가 Siekmann 2020이 2–3× 보행 외란 robustness 이득을 시연한 후 공동체 기본값이 되었다. LSTM은 시간스텝에 걸쳐 순환 상태를 수반한다. 수용 영역은 효과적으로 무경계이며, 병렬화 불가능한 추론과 더 복잡한 학습 동역학의 비용이 든다. Siekmann 2021, HOVER [19], 많은 휴머노이드 플랫폼의 프로덕션 정책이 LSTM 기반 정책을 쓴다.

Causal Transformer 가 Radosavovic 2024와 함께 분야에 진입했다. Transformer는 전체 최근 이력에 대해 병렬로 주목한다. 추론은 LSTM보다 메모리를 더 많이 쓰지만 배포 시 효율적으로 캐싱될 수 있다. Radosavovic 논문들의 중심 실증 발견 — 더 긴 attention 창이 robustness를 단조적으로 개선 — 이 2024–2026 프런티어 기업 스택에서의 Transformer 기반 정책으로의 이동을 추동했다.

순서 TCN → LSTM → Transformer는 언어 모델링에서의 순서(TCN / WaveNet → LSTM / seq2seq → Transformer / GPT)를 약 5년 지연으로 재현한다. 로보틱스 분야의 지연은 상상력의 실패가 아니다. Transformer 품질의 휴머노이드 데이터 — 기록된 궤적의 수와 길이 — 가 GPU 병렬 시뮬레이션(5장)이 학습할 충분한 양을 생성할 때까지 존재하지 않았다는 사실을 반영한다.

6.8 PPO, TD3, off-policy의 귀환

정전 정책을 학습시키는 RL 알고리즘은, 드문 예외를 제외하고, Proximal Policy Optimization (PPO) [26]이다. PPO는 on-policy이고, 구현이 간단하며, GPU 병렬 시뮬레이션이 가능하게 하는 큰 배치 크기 하에서 수치적으로 안정적이다. Isaac Gym / legged_gym / Humanoid-Gym의 기본 학습 알고리즘이며 다섯 논문 정전의 모든 논문에 사용된다.

때때로 저평가되는 것은 off-policy 알고리즘 — SAC, TD3, 그 후손 — 이 조용히 계속 발전했고 휴머노이드 RL 주류로 돌아오기 시작했다는 것이다. Fujimoto, van Hoof, Meger의 TD3 (Twin Delayed DDPG) [2]은 DDPG를 신뢰할 수 없게 만든 Q-값 과대 추정 문제를 clipped double-Q 학습, 지연된 정책 업데이트, target-policy 평활화를 통해 다루었다. TD3는 2018년과 2021년 PPO 인수 사이의 연속 제어를 위한 off-policy 작업마였다.

Seo, Lee와 동료들의 FastTD3 [22]은 off-policy RL을 휴머노이드 제어 프런티어에 재도입한다. FastTD3는 대규모 병렬 시뮬레이션과 큰 배치 업데이트, distributional critic, 튜닝된 하이퍼파라미터를 결합한다. HumanoidBench 보행–조작 suite [27]에서 FastTD3는 단일 A100에서 3시간 미만에 과제를 풀고, 험지 도메인 랜덤화 과제에서 wall-clock 시간으로 PPO를 2–5× 능가한다 [22]. 의의는 어느 한 알고리즘이 이겼다는 것이 아니라, 분야가 이제 알고리즘 선택을 감당할 수 있다는 것이다 — off-policy는 샘플 효율성이 단순성보다 더 중요한 과제에 대해 실행 가능한 프로덕션 옵션이다.

off-policy의 귀환은 더 넓은 신호의 일부다. GPU 병렬 시뮬레이션 기폭제(5장)가 알고리즘 수준 엔지니어링이 다시 중요할 만큼 성숙했다. 샘플 효율성이 CPU 시뮬레이션에 의해 경계되었을 때 모든 알고리즘이 똑같이 감당할 수 없었다. PPO의 단순성이 경쟁 이점이었다. 초당 백만 스텝 처리량으로, 알고리즘적 세밀한 차이가 다시 나타난다.

6.9 모션 prior — DeepMimic, AMASS, LAFAN1, OmniRetarget, PHC

표현적 과제 — 순수 보행이 아니라 인간 동작처럼 보이는 전신 동작 — 에 대해 휴머노이드 RL을 작동하게 만드는 것의 상당 부분이 모션 prior다. 정책이 추종을 보상받는 참조 궤적. 모션 prior 계보는 Peng, Abbeel, Levine, van de Panne의 DeepMimic [1]으로 거슬러 올라간다. DeepMimic은 RL 정책으로 mocap 클립을 추종하며, 보상은 pose, root, 속도, 접촉력 항의 가중합이고 phase 변수에 의해 구동된다. 논문은 25개의 매우 동적인 기술 — backflip, cartwheel, 달리기 — 을 80% 이상 성공률로 포괄하는 단일 정책을 생산했고, 모든 이후 전신 휴머노이드 RL 논문이 구축하는 참조 모션 RL 템플릿을 확립했다.

DeepMimic의 요구사항은 참조 모션이다. 두 지배적 원천.

AMASS [5]는 사실상 표준 참조 모션 아카이브다. 15+ 광학 mocap 데이터셋이 통합된 SMPL-H 매개변수 코퍼스로 집계되며, 300+ 피험자 11,000+ 동작에 걸쳐 총 40+ 시간이다. AMASS는 DeepMimic 후손들, HumanPlus [15], HOVER [19], GR00T N1의 모션 구성요소(9장), 그리고 2020년 이후 출판된 거의 모든 휴머노이드 모션 추종 RL의 학습 코퍼스다.

LAFAN1 [8]은 Ubisoft La Forge의 더 작지만 클립당 품질이 더 높은 mocap 공개다. 5명의 배우에 걸친 77분. LAFAN1은 더 고품질 캐릭터 동작을 위한 보조 데이터 원천으로 AMASS와 함께 쓰인다.

AMASS와 LAFAN1을 직접 쓰는 데의 과제는 재타게팅이다. 인간 동작이 로봇 기구학에 매핑되어야 하는데, 거의 항상 불일치한다. 순진한 재타게팅은 발 스케이팅, 침투, 비가해 접촉을 생산한다. 2024–2025년 이 문제를 해결하는 기여는 OmniRetarget [24]이다. 에이전트, 지형, 조작된 물체 사이 상호작용 메시를 구축하고, 인간과 로봇 메시 사이 Laplacian 변형을 최소화하며, 접촉과 기구학 제약을 강제한다. OmniRetarget은 8+ 시간의 물리적으로 가해한 재타게팅 궤적을 생산하며 — 이전 기준선의 약 18%에 비해 zero 발 스케이팅과 zero 침투 — 5항 보상으로 30초 장기 시나리오 같은 것을 지원한다.

관련 연구 방향: 재타게팅을 완전히 추상화하는 학습된 모션 표현. Luo와 동료들의 PHC (Perpetual Humanoid Controller) 와 후속 PULSE [20]는 AMASS에 대해 VAE 유사 encoder-decoder를 학습하며, decoder 자체가 모션 추종 정책이다. 결과적인 모션 잠재 공간이 하류 RL을 위한 행동 공간이 되며, 관절 공간 RL 대비 샘플 효율성을 약 10× 개선하고 평균 관절당 위치 오차 약 25 mm로 AMASS의 99%+를 추종한다.

모션 prior 스택 — DeepMimic의 보상 템플릿 + AMASS의 데이터 아카이브 + OmniRetarget의 가해성 계층 + PHC의 학습된 표현 — 이 휴머노이드 RL을 단순 보행에서 표현적 전신 제어로 끌어올리는 것이며, §6.10의 전신 확장이 앉는 기저층이다.

6.10 전신 loco-manipulation 확장

다섯 논문 정전(§§6.2–6.6)이 보행을 해결했다. 2023–2025 확장들이 레시피를 전신 동작으로 밀어붙여 보행을 양손 조작과 결합시켰다. 여섯 시스템이 확장 공간을 정의한다.

Expressive Whole-Body Control (ExBody) [14]이 디커플링을 도입했다. 상체가 mocap(Unitree H1으로 재타게팅된 CMU Mocap + AMASS 부분집합)을 추종하는 반면 하체는 자신의 험지 정책을 돈다. teacher-student 증류가 둘을 연결한다. ExBody는 5 cm 무작위 범프에서 춤추며 걷는 Unitree H1을 시연하며, 상체 관절 추종 MAE는 0.15 rad 미만이다 [14]. 디커플링 패턴 — 보행과 상체 표현이 따로 학습되어 배포 시 구성 — 이 여러 하류 시스템에서 재등장한다.

HumanPlus [15]는 인간 단일 RGB 비디오에서 Unitree H1의 흉내내는 정책으로의 end-to-end 파이프라인을 구축한다. 기성 인간 포즈 추정이 SMPL-X 포즈를 생산하고, 재타게팅 계층이 H1에 매핑하며, shadow 정책 보상이 Isaac Gym에서 재타게팅된 참조를 추종하도록 휴머노이드를 학습시킨다. 40 시연 미세 조정으로 HumanPlus는 7개의 전신 과제(복싱, 타이핑, 천 접기, 공 던지기 등)에서 60–85% 성공에 도달한다. 기여는 접근성이다 — mocap suite 없이 휴대폰 카메라만.

H2O와 OmniH2O [19]는 풀사이즈 휴머노이드의 실시간 teleoperation을 밀어붙인다. H2O는 운영자를 관찰하는 단일 RGB 카메라와 실시간 재타게팅 + imitation-sanitizer 파이프라인을 사용하여 운영자의 전신 동작을 약 50 ms 지연으로 Unitree H1에 매핑한다. OmniH2O는 H2O를 5-finger Inspire Robots 손으로 증강된 Unitree H1과 운영자에 걸쳐 일반화하는 보편 재타게팅 모듈로 확장한다. 6시간의 teleoperation 데이터에 학습된 자율 정책은 학습된 과제에서 60–90% 성공에 도달한다.

TWIST (Teleoperated Whole-body Imitation System) [23]은 VR 스타일 teleoperation과 mocap과 teleop 데이터로부터 증류된 causal-Transformer 정책을 결합한다. Unitree G1에 배포되어 단일 정책으로부터 25+ 전신 기술(cartwheel, 점프, 춤, 양손 조작)을 생산하고 120 N 측면 푸시 회복을 보고한다.

HOVER [19]는 2024년 통합 전신 제어기다. oracle AMASS 학습된 모션 흉내내기 teacher로부터의 증류를 통해 15+ 뚜렷한 제어 모드(관절 PD, 토크, 역기구학, 발걸음 명령, root 속도 등)를 지원하는 150만 매개변수 정책. HOVER는 Jetson급 edge GPU에서 200 Hz로 돌아, 9장이 전개하는 학습된 System 0 / System 1 패턴에 대한 가장 가까운 공개 유사체를 만든다.

Wang 외의 Generalist [25]는 Isaac Lab에서 과제별 전문 정책(걷기, 달리기, 앉기, 춤)을 학습시킨 다음, 단일 generalist 전신 정책으로 증류한다. generalist는 8개 정전 과제에서 각 전문가의 3–5% 이내에 머문다 — 그들의 비교에서 공동 다과제 RL을 능가하는 전문가-그다음-generalist 레시피.

세 추가 시스템이 전신 프런티어를 완성한다. Humanoid Parkour [18]는 Unitree H1에서 비전 조건 휴머노이드 parkour를 시연한다 — 간격 건너기(0.5 m), 플랫폼 오르기(0.4 m 높이), 평균대 traversal(0.3 m 폭) — 80%+ 코스 완료율로, depth 비전을 갖는 teacher-student 파이프라인을 통해. Get-Up Policies [21]는 Unitree G1에서 임의의 낙하 포즈에서 6초 미만에 80–90% 성공으로 일어서는 낙하 회복 정책을 학습시킨다. FALCON [Zhang et al., 2025]은 힘 적응 휴머노이드 loco-manipulation을 학습시키며, 전신 정책을 compliant 접촉이 필요한 과제를 위한 힘 센싱 팔과 결합한다 — 15장의 조작 데이터 논의에 중요.

§6.10 시스템들 전반의 공통 주제: 다섯 논문 정전이 분야에 보행을 주었고, 2024–2025 시스템들은 이제 그 보행을 상체 표현, 양손 조작, 비전과 작곡하고 있다. 작곡은 자동이 아니다 — 위의 각 시스템이 특정 결합 선택(디커플 대 통합, teleop 증류 대 보상 성형, mocap 추종 대 shadow 학습)을 탐색한다 — 그러나 작곡의 사실이 측정 가능한 진전이다.

조작으로부터의 초기 선례. OpenAI의 2019년 로봇 손으로 루빅스 큐브 풀기 논문 [4]이 end-effector 규모에서 정전 스택을 예고했다. 자동 도메인 랜덤화(ADR)를 통한 도메인 랜덤화, 시뮬레이션에서 zero-shot으로 큐브를 푸는 dexterous 손, LSTM history encoder를 쓰는 정책. 이 논문은 보행 시연이 아니라 손 조작 시연이기 때문에 정전에서 종종 저평가되지만, 기법들 — ADR, LSTM history 인코딩, 광범한 시뮬레이션 규모 도메인 랜덤화 — 이 2019–2021 보행 RL 레시피에 직접 공급되었다. 논문은 레시피의 재료가 2019년까지 선반에 있었고, 2020–2024 정전이 그것들을 표준 형식으로 조직했다는 유용한 상기물이다.

6.11 판결과 열린 질문

기폭제 3 판결: 부분 해결됨. 정전 레시피 — Hwangbo 2019 액추에이터 네트워크 → Lee 2020 teacher-student → Kumar 2021 RMA → Siekmann 2021 Cassie → Radosavovic 2024 풀사이즈 휴머노이드 causal Transformer — 는 Cassie, Digit, Unitree G1과 H1, Booster T1, Berkeley Humanoid, 여러 추가 플랫폼에 걸쳐 재현·배포 가능하다. history encoder는 TCN → LSTM → Transformer로 이동했다. 전신 loco-manipulation 확장(§6.10)이 정전을 상체 조작과 작곡한다. 남은 열린 것은 세 특정 프런티어다.

  1. 온보드 추론에 대한 컨텍스트 길이 대 지연 trade-off. 더 긴 attention 창이 robustness를 단조적으로 개선한다는 Radosavovic 2024의 발견 [13]은 추론이 System 1 지연 예산에 더 이상 맞지 않는 컨텍스트 길이에서 배포 벽에 부딪힌다. 긴 컨텍스트 온보드 Transformer의 엔지니어링은 열린 연구 프런티어다. Jetson급 하드웨어에서 HOVER의 200 Hz 추론 [19]이 edge 규모에서 다중 모드 전신 정책에 대한 현재 공개 천장이다.
  1. 단일 Transformer를 넘는 다기술 통합. 각 전신 시스템(HumanPlus, H2O, TWIST, HOVER, Generalist)이 증류 또는 참조 모션 성형을 통해 그 대상 기술 집합에서 60–90% 성공에 도달한다. 아직 넓은 범위의 보행 넓은 범위의 조작을 상용 배포에 수용 가능한 성공률로 포괄하는 단일 정책을 생산한 것은 없다. 다섯 논문 정전이 균일 기술 RL을 해결했고, 교차 기술 일반화가 다음 목표다.
  1. 1 kHz 실시간 보장을 잃지 않는 System 0/1 정책의 언어 조건화. VLA 장(10장)이 이를 위에서부터(System 2의 VLM이 System 1 정책을 조건화) 다룰 것이다. 아래에서부터의 질문 — System 1 정책이 실시간 보장을 깰 Transformer 추론 지연을 수반하지 않고 언어 토큰을 소비하는 방법 — 은 열려 있다.

5장 판결(시뮬레이션)과 6장 판결(학습)이 함께 7장 열린 프런티어를 함축한다. sim-to-real 보정 계층이 정전과 시뮬레이터가 닫을 수 없는 잔차 간극이 흡수되어야 하는 곳이다. 7장이 이를 다룬다.

6.12 7장으로의 다리

정전 레시피, 알고리즘, 모션 prior, 전신 확장 모두가 시뮬레이션에서 학습된 것이 하드웨어에 배포될 것을 가정한다. 잔차 간극을 닫는 sim-to-real 보정 — 올바른 분포에 대한 도메인 랜덤화, 시뮬레이터가 DR이 흡수할 수 있는 것보다 더 틀린 곳에서의 시스템 식별, 마지막 몇 퍼센트를 위한 잔차 delta-action 보정 — 이 7장이다. 세 전략이 프런티어 스택에서 공존한다. 그들의 작곡이 기폭제들이 수렴하게 만드는 특정 엔지니어링이다.

참고문헌

  1. Peng, X. B., Abbeel, P., Levine, S., & van de Panne, M. (2018). DeepMimic: Example-guided deep reinforcement learning of physics-based character skills. ACM SIGGRAPH. arXiv:1804.02717.
  2. Fujimoto, S., van Hoof, H., & Meger, D. (2018). Addressing function approximation error in actor-critic methods. Proc. ICML. arXiv:1802.09477.
  3. Hwangbo, J., Lee, J., Dosovitskiy, A., Bellicoso, D., Tsounis, V., Koltun, V., & Hutter, M. (2019). Learning agile and dynamic motor skills for legged robots. Science Robotics. arXiv:1901.08652.
  4. Akkaya, I., Andrychowicz, M., et al. (2019). Solving Rubik's cube with a robot hand. arXiv preprint.
  5. Mahmood, N., Ghorbani, N., Troje, N. F., Pons-Moll, G., & Black, M. J. (2019). AMASS: Archive of motion capture as surface shapes. Proc. ICCV. arXiv:1904.03278.
  6. Lee, J., Hwangbo, J., Wellhausen, L., Koltun, V., & Hutter, M. (2020). Learning quadrupedal locomotion over challenging terrain. Science Robotics. arXiv:2010.11251.
  7. Siekmann, J., Green, K., Warila, J., Fern, A., & Hurst, J. (2020). Learning memory-based control for human-scale bipedal locomotion. Proc. RSS. arXiv:2006.02402.
  8. Harvey, F. G., Yurick, M., Nowrouzezahrai, D., & Pal, C. (2020). Robust motion in-betweening (LAFAN1 dataset). ACM TOG / SIGGRAPH.
  9. Kumar, A., Fu, Z., Pathak, D., & Malik, J. (2021). RMA: Rapid motor adaptation for legged robots. Proc. RSS. arXiv:2107.04034.
  10. Siekmann, J., Godse, Y., Fern, A., & Hurst, J. (2021). Blind bipedal stair traversal via sim-to-real reinforcement learning. Proc. RSS. arXiv:2105.08328.
  11. Dao, J., Duan, H., Apgar, T., & Hurst, J. (2022). Sim-to-real learning of all common bipedal gaits via periodic reward composition. Proc. IEEE ICRA. arXiv:2011.01387.
  12. Radosavovic, I., Xiao, T., Zhang, B., Darrell, T., Malik, J., & Sreenath, K. (2024). Real-world humanoid locomotion with reinforcement learning. Science Robotics. arXiv:2303.03381.
  13. Radosavovic, I., et al. (2024). Humanoid locomotion as next token prediction. NeurIPS. arXiv:2402.19469.
  14. Cheng, X., et al. (2024). Expressive whole-body control for humanoid robots. Proc. RSS. arXiv:2402.16796.
  15. Fu, Z., et al. (2024). HumanPlus: Humanoid shadowing and imitation from humans. Proc. CoRL. arXiv:2406.10454.
  16. He, T., et al. (2024). Learning human-to-humanoid real-time whole-body teleoperation (H2O). Proc. IEEE/RSJ IROS. arXiv:2403.04436.
  17. He, T., et al. (2024). OmniH2O: Universal and dexterous human-to-humanoid whole-body teleoperation and learning. Proc. CoRL. arXiv:2406.08858.
  18. Zhuang, Z., et al. (2024). Humanoid parkour learning. Proc. CoRL. arXiv:2406.10759.
  19. He, T., et al. (2024). HOVER: Versatile neural whole-body controller for humanoid robots. Proc. IEEE ICRA 2025. arXiv:2410.21229.
  20. Luo, Z., et al. (2024). Universal humanoid motion representations for physics-based control (PHC/PULSE). Proc. ICLR. arXiv:2310.04582.
  21. He, T., et al. (2025). Learning getting-up policies for real-world humanoid robots. arXiv preprint 2502.12152.
  22. Seo, H., et al. (2025). FastTD3: Simple, fast, and capable reinforcement learning for humanoid control. arXiv preprint 2505.22642.
  23. Ze, Y., et al. (2025). TWIST: Teleoperated whole-body imitation system. arXiv preprint 2505.02833.
  24. Yang, H., et al. (2025). OmniRetarget: Interaction-preserving data generation for humanoid whole-body loco-manipulation and scene interaction. arXiv preprint 2509.26633.
  25. Wang, X., et al. (2025). From experts to a generalist: Toward general whole-body control for humanoid robots. arXiv preprint 2506.12779.
  26. Schulman, J., Wolski, F., Dhariwal, P., Radford, A., & Klimov, O. (2017). Proximal policy optimization algorithms. arXiv preprint 1707.06347.
  27. Sferrazza, C., Huang, D.-M., Lin, X., Lee, Y., & Abbeel, P. (2024). HumanoidBench: Simulated humanoid benchmark for whole-body locomotion and manipulation. Proc. RSS. arXiv:2403.10506.