휴머노이드 로보틱스의 10년: ZMP에서 VLA까지

모델 기반 제어에서 학습 기반 정책으로의 패러다임 전환

2015–2026 휴머노이드 10년. 네 기폭제(QDD·GPU 시뮬·RL·sim-to-real)와 System 0/1/2, 선두 기업, 제조피지컬AI 확산까지.

First published: 2026-04-24 | Last updated: 2026-06-18

읽기 시작

🤖

16개 챕터 5 Parts

옛 스택에서 VLA까지 한 권에.

📚

기본기 + 모던 이론

LIPM·QP부터 PPO·Transformer·Diffusion policy·VLA까지 이론 다리를 깐다.

🏭

제조피지컬AI 관점

한국 제조 강점과 글로벌 휴머노이드 경쟁의 접점.

Part I: 정통파 스택과 그 유산

2003–2015 정통파 스택의 전성기와 한계

Kajita LIPM · ZMP preview control · whole-body inverse dynamics QP · capture-point footstep. ASIMO·HRP·DRC-Atlas 계보. 모델 불확실성·접촉·지연이 왜 이 패러다임을 폭발시키는지.

→ 02

여전히 유효한 기본기

LIPM·ZMP·whole-body QP·MPC 중 현대 hybrid 컨트롤러와 System 0 PD 루프에 살아남은 이론 유산. 독자가 Part II·III를 읽기 전 붙들어야 할 기본 개념.

→ 03

패러다임 전환 개관

바뀐 네 축의 상호의존성 지도 — QDD 없으면 RL 무의미, GPU 시뮬 없으면 DR 불가 등. 각 축을 이후 챕터에 어떻게 나누는지의 로드맵.

→

Part II: 네 가지 기폭제

하드웨어 — QDD 액추에이터

MIT Cheetah 2017 계보. 외전형 BLDC + 저기어비 유성기어가 만든 backdrivability·high bandwidth·proprioceptive GRF. Mini Cheetah backflip 이후 Unitree/Figure/1X로 수렴.

→ 05

GPU 대규모 병렬 시뮬레이션

Isaac Gym 2021 변곡점, Rudin et al. ANYmal 분 단위 학습. Isaac Lab · MuJoCo MJX · Genesis · Humanoid-Gym 2026 표준. 도메인 랜덤화를 실용화한 샘플 스케일.

→ 06

학습 알고리즘 Canon

Hwangbo 2019 actuator network → Lee 2020 teacher-student → Kumar 2021 RMA → Siekmann 2021 Cassie → Radosavovic 2023 풀사이즈 transformer. History encoder 추세 TCN→LSTM→Transformer.

→ 07

Sim-to-Real 3전략

Domain Randomization · System ID + Actuator Network · Residual/ASAP(delta action). Reactive footstep이 계획이 아니라 매 제어 주기 emergent 출력으로 바뀐 근거.

→

Part III: 2026 표준 스택

모던 이론 기본기

Part II·III를 쉽게 소화하기 위한 이론 다리 — RL·policy gradient·PPO/TD3 개요, Transformer history encoder의 in-context adaptation, Diffusion policy, VLA 개념. Ch2의 옛 기본기와 짝을 이루는 '새 기본기'.

→ 09