Part I: 정통파 스택과 그 유산

Chapter 2: 여전히 유효한 기본기

집필일: 2026-04-24 최종수정일: 2026-04-24

2.1 왜 옛 기본기를 다시 보는가

1장은 하나의 주장으로 끝났다. 정통파 LIPM/ZMP/QP 스택은 불충분했지 틀리지 않았다. 구분은 수사가 아니다. 만약 정통파 스택이 틀렸다면, 2026년의 새 휴머노이드 엔지니어는 Kajita 2003을 안전하게 무시하고, Westervelt의 hybrid zero dynamics를 호기심거리로 취급하고, 곧바로 픽셀에 대해 정책을 학습시킬 수 있을 것이다. 실제로는 그럴 수 없다. 2026년의 모든 프로덕션 휴머노이드 스택에는 정통파 primitive들이 세 군데의 하중을 지탱하는 자리에 남아 있다. 관절 수준에서 System 0의 PD 또는 토크 추종기로, System 1 정책의 보상 설계에 사용되는 reference로, 그리고 학습된 정책이 신뢰할 수 없게 되는 순간을 중재하는 안전 모니터로. 이 장은 그 primitive들의 작동 재고(inventory)다.

두 가지 추가 동기가 이 장을 정당화한다. 첫째, 이 장은 독자를 위한 다리다. 8장은 이후 "새 기본기" — policy gradient, Transformer, diffusion policy, VLA — 를 제공한다. 이 두 기반 중 하나(고전 제어 또는 현대 RL)를 이미 알고 이 책에 도달한 독자는 2장과 8장을 상호 보충하는 쌍으로 기대게 된다. 둘째, 이 장은 지속되는 것과 지속되지 않는 것의 정직한 분리다. 분야는 이 전환을 깨끗한 단절로 프레이밍하는 경향이 있었다. 실제로 출하되는 코드를 읽어 보면 진실은 정통파 primitive가 정확히 특성화된 역할로 지속된다는 것이다.

이 장은 다섯 생존자에 대한 감사의 형식으로 진행된다. (1) 보상 설계의 템플릿으로서의 LIPM, (2) 전신 QP와 그 현대 MPC 후손, (3) 암묵적 안전 범위로서의 캡처 포인트, (4) clock-phase 보상 구조의 개념적 조상인 HZD, (5) 전신 목적의 언어로서의 centroidal dynamics. 여섯 번째 절에서는 2013년경의 강화학습-로보틱스 상태 — Part II·III 직전의 세계 — 를 논의하며, 네 가지 기폭제가 실제로 변화시킨 것이 무엇인지 독자가 보정할 수 있도록 한다. 장은 이 책의 Part II–V를 조직하는 운영 규칙 하나로 닫힌다. 증명 가능한 곳에서는 옛 primitive를 쓰고, 분포 커버리지가 유일한 가용 보장인 곳에서는 새 primitive를 써라.

2.2 보상 설계 템플릿으로서의 LIPM

정통파 시대 LIPM의 표준 용법은 생성 모델이었다. ZMP 기준이 주어지면 CoM 궤적을 계산하라. 이 용법은 대체로 은퇴했다. LIPM의 두 번째 역할 — 더 높은 차원의 제어기가 따라야 할 저차원 템플릿 — 은 은퇴하지 않았다. 현대 휴머노이드 RL에서 LIPM은 보상 함수 내부에 살아남는다.

전형적인 휴머노이드 보행 RL의 보상 분해를 살펴보자. 6장의 teacher-student 정전(正典)이 전개하듯 구성되어 있다. 속도 추종 항이 있고, 매끄러움 항이 있고, 에너지 사용 항이 있고, 템플릿 추종 항이 있다. 템플릿 추종 항은 같은 발걸음 명령에 대해 LIPM 기반 제어기가 생성했을 CoM 궤적에 가깝게 명령된 CoM 궤적을 유지하도록 정책을 보상한다. 정책은 이 템플릿을 준수할 것을 요구받지 않는다. 템플릿을 향해 추동될 뿐이고, 넓은 학습 분포가 주어지면 최적화기는 템플릿 자체가 예측하지 못했을 이탈 — 불일치 접촉에서 회복하는 발의 긁힘, 페이로드 변화를 보상하는 팔 흔들기 — 을 발견한다. 템플릿은 탐색의 씨를 뿌렸고, 정책이 그 위를 개선했다.

이 패턴 — 학습 가능한 prior로서의 고전 모델 — 은 학습 문헌에 형식적 대응이 있다. DeepMimic 보상 구조 ^[10]이며, 여기서 참조 모션(예: mocap 궤적)이 추종 항으로 보상에 들어가고 정책은 이탈할 자유를 갖는다. mocap 대신 LIPM으로 이 패턴을 적용하는 것이 여러 프로덕션 스택이 보상의 보행 부분에 대해 하는 일이며, 이 패턴에 대한 참조는 Ch6 정전(正典)에 걸쳐 나타난다. 이 접근의 현대 갱신판 — OmniRetarget 2025, 상호작용 보존 리타게팅으로 참조 모션을 생성 — 은 동일한 템플릿 조건화 아이디어의 진화일 뿐이며, 단지 더 풍부한 템플릿이다. 근저의 논리는, 잘 선택된 저차원 템플릿이 고차원 행동 공간에서 탐색을 가능하게 만든다는 것이다. LIPM은 여전히 휴머노이드 균형에 대한 잘 선택된 템플릿이다.

Kajita 외의 교과서 ^[3]는 LIPM 유도의 표준 참조로 남아 있고, ^[1]의 preview control 구성은 정책이 무엇을 향해 성형되고 있는지를 설명하는 현대 논문의 부록에도 여전히 등장한다. 교과서 내용은 낡지 않았다. 선수 지식이다.

2.3 전신 QP와 그 MPC 후손

1장의 전신 QP — 마찰 원뿔, 관절 한계, centroidal 제약 하에서 1 kHz로 관절 토크를 계산하는 대상 — 는 사라지지 않았다. 두 개의 뚜렷한 역할로 승격되었고, 세 번째 역할에서 부분적으로 일반화되었다.

역할 1: System 0 토크 추종기. 2024–2026년의 모든 System 0/1/2 휴머노이드 스택에서 최하단 주파수 계층은 희망 관절 위치 또는 희망 관절 토크를 방출하고, 고전적 추종기가 이를 1 kHz로 실현한다. 추종기가 위치 기반이면 PD 제어기이고, 토크 기반이면 모터 드라이버 안에 사는 관절별 정류기이며, 전신 기반이면 task-space wrench 요구를 가용 관절 사이에 분배하면서 마찰 원뿔과 토크 한계를 존중하는 QP다. Figure Helix 02의 System 0는 1 kHz에서 도는 학습된 10M-파라미터 네트워크 ^[17]이지만, 이 학습된 S0는 무작위화된 제약을 갖는 전신 QP의 함수 근사로 다시 읽을 수 있다. 가중치 안에 QP의 구조를 흡수하는 셈이다. Wensing, Posa, Hu의 최근 서베이 ^[8]는 현대 최적화 기반 동적 다리형 로봇 제어가 QP primitive를 학습 일반화와 나란히 유지하는 방식을 기록한다.

역할 2: 안전 필터. 학습된 정책이 관절 한계·마찰 원뿔·자체 충돌을 위반할 행동을 제안하면, 고전 QP 기반 안전 필터가 학습된 행동을 가해 집합으로 투영할 수 있다. 이 패턴 — 정책은 제안하고, 필터가 처분한다 — 은 Agility Robotics의 Motor Cortex를 "always-on safety layer"로 기술하는 공개 설명 ^[15]에 명시되며, Boston Dynamics가 자신의 하이브리드 MPC + RL 작업을 프레이밍하는 아키텍처 패턴이다 ^[16]. 필터가 QP인 이유는, 자신의 보장이 분포적인 정책 아래에 두기에 증명 가능하게 옳은 것이 바로 QP이기 때문이다. 6장은 특정 학습된 정책이 가해성을 향해 경향하도록 학습될 수 있음을 보이고, 11장은 그 아래에 여전히 가진 보장이 가치가 있다고 주장한다.

역할 3: 전신 MPC. 동역학 제약을 갖는 후퇴지평선 문제로의 전신 QP 일반화가 전신 모델 예측 제어(MPC) 다. Koenemann, Del Prete, Tassa의 2015년 작업 ^[6]은 27 DoF HRP-2 휴머노이드에서 최초의 실시간 전신 MPC를 오프보드 12-코어 데스크톱의 differential dynamic programming(DDP) solver로 구현했으며, DDP 반복당 약 50 ms(≈20 Hz fast-time 재계획)가 온보드 200 Hz 위치 제어 루프에 20 ms 궤적 time step으로 공급되었다. 이는 동역학 모델이 비선형이 되도록 허용되었을 때 MPC가 할 수 있는 일의 후기-정통파-시대 시연이었다. 이 작업 라인은 이어져 왔다(Crocoddyl, Pinocchio의 DDP 확장, Boston Dynamics 내부 및 Inria·ETH 학술 그룹이 사용하는 전신 MPC 툴체인). 2026년에 전신 MPC는 Boston Dynamics가 RL로 대체하는 것이 아니라 보완한다고 주장하는 특정 기술이다 ^[16]. MPC가 고품질 행동을 생산하고, 학습된 정책이 후보를 생산하며, 융합 계층 — 때로는 QP, 때로는 학습된 중재자 — 이 선택한다. Wensing 외의 ETH 서베이 ^[8]는 2022–2024년 최적화 기반 다리형 제어 상태를 약 200편의 참고문헌으로 지도화하며, 현대 스택의 제어이론 측면을 원하는 독자에게 Kajita 2014 교과서의 표준 현대 후계자다.

book-writer와 독자 양쪽에 대한 함의는 11장의 Boston Dynamics 심층 분석은 2장의 QP·MPC 작동 재고 없이는 읽을 수 없다는 것이다. BD의 하이브리드 철학은 향수가 아니다. QP의 증명 가능한 옳음이 지킬 가치가 있다는 베팅이자, RL의 분포적 커버리지가 대체가 아닌 보완이라는 베팅이다. 그 베팅이 Figure의 end-to-end 학습 베팅 대비 성공할지가, 사실상 Part IV의 경쟁이다.

2.4 암묵적 안전 범위로서의 캡처 포인트

1.4절의 캡처 포인트는 — LIPM 에너지 분석에서 유도된 — 두 개의 현대적 생을 갖는다. 명시적으로, 캡처 포인트는 MPC 비용 함수 내부에 terminal-state 페널티로 등장한다. 후퇴지평선 최적화가 각 지평선을 캡처 포인트가 지지 다각형 안에 있는 상태로 종료하도록 장려되는데, 이는 지평선이 짧을 때에도 원리적인 준-균형 조건이다. Koenemann 외 2015가 이 용법을 직접 예시한다 — HRP-2에서의 전신 reaching 실험이 "캡처 포인트를 지지 다각형 중앙에 유지" 비용 항을 포함하고 시간에 걸친 잔차 캡처 포인트 비용을 플롯한다 ^[6]. 패턴은 Wensing 서베이 ^[8]에 기록된 몇몇 프로덕션 MPC 구현에 살아남는다.

암묵적으로, 캡처 포인트는 학습된 정책이 향해 경향하는 것이다. 6장이 자세히 다루는 Siekmann 외의 2021년 Cassie 계단 오르기 RL 논문 ^[13]을 보자. 보상은 clock-phase 항을 포함했고, 속도 추종 항과 결합되어 LIPM에서 유도된 캡처 포인트가 지지 다각형 밖에 있을 상태를 효과적으로 페널티했다. 학습된 정책은 캡처 포인트에 대해 명시적으로 통지받지 않았지만, 보상 표면이 캡처 포인트 가해성 이탈을 페널티하도록 성형되었고, 결과 행동은 캡처 포인트 반응적 발걸음처럼 보였다. 근저의 동역학이 그것을 선택했기 때문이다. 마찬가지로, 2024년 이후 Digit에 대한 transformer-history-encoder 정책 ^[14]은 외란으로부터 회복하되, 통계적으로 캡처 포인트 계획기가 생산했을 것에 가까운 발 배치로 한다. 정책이 캡처 포인트를 계산해서가 아니라, 학습 분포가 충분히 넓어서 캡처 포인트 가해 정책이 더 높은 보상을 달성했기 때문이다.

이것이 이 책 전반에 걸쳐 재등장하는 패턴의 첫 사례다. 정통파 primitive는 런타임 알고리즘이 아니라 학습 목적이 된다. LIPM은 CoM 궤적을 생성하는 대신 보상을 성형하는 데 쓰이고, 캡처 포인트는 발걸음을 배치하는 대신 근사 낙하 상태를 페널티하는 데 쓰이며, ZMP는 ZMP 추종 명령을 발령하는 대신 정책을 지지 다각형 가해성을 향해 학습시키는 데 쓰인다. primitive들은 운영이 아니라 커리큘럼이다.

11장은 Boston Dynamics의 하이브리드 스택이 이 스펙트럼의 중간을 차지한다고 주장할 것이다. 캡처 포인트 추론은 MPC 내부에 운영적으로 유지되고, 그 위에 MPC가 다룰 수 없는 경우를 처리하기 위해 RL이 덧대어진다. 12장은 Figure의 스택이 스펙트럼의 학습 쪽으로 더 가깝게 있다고 주장할 것이다. 캡처 포인트 추론은 런타임이 아니라 학습에서만 유지된다. 둘 다 일관된 설계다. 둘 중 어느 것을 설명하기 위해서든 정통파 문헌이 필수다.

2.5 Hybrid zero dynamics와 clock-phase 보상

한 정통파 primitive가 특히 저평가된 두 번째 생을 가졌다. Hybrid zero dynamics(HZD) 다. Westervelt, Grizzle, Chevallereau의 2007년 책 ^[4]과 Reher, Ames의 2021년 서베이 ^[5]는 HZD를 저구동 biped 제어를 위한 형식 프레임워크로 기록한다. 핵심 아이디어는 가상 제약을 부과함으로써 고차원 전체 로봇 동역학을 저차원 "zero dynamics"로 환원하는 것이다 — 전형적으로 특정 관절 각도가 보행 주기를 진행하는 phase 변수의 함수를 추종하게 한다. 제어기는 그 가상 제약이 성립하도록 강제하고, 결과적인 폐루프 운동은 저차원 다양체 위에 산다. 그 다양체의 동역학은 특정 조건 하에서 안정하다.

HZD는 Oregon State의 Cassie 플랫폼 ^[11]의 지적 조상이다 — Jonathan Hurst의 실험실에서 개발되었고 — Cassie를 통해 Agility Robotics의 Digit의 조상이기도 하다. 수동 무릎 동역학으로 효율적으로 걸을 수 있는 이족 휴머노이드(Cassie, Digit, 관련 학술 플랫폼)는 대부분 HZD 정보에 의한 설계다. 설계의 에너지 효율성 — 수동 발목, 에너지적으로 조율된 보행 — 은 HZD 정보에 의한 것이다.

HZD의 두 번째 생은 RL의 보상 설계에 있다. Siekmann 외 2021은 RL 관측에 clock-phase 변수를 추가하고 그 clock phase로 매개된 참조 관절 궤적을 정책이 추종하도록 보상하면 Cassie 계단 오르기에서 sim-to-real 전이가 이루어짐을 보였다. clock-phase 보상은, 변장한 채로, HZD의 가상 제약의 학습된 완화다. 제약을 정확히 강제하는 대신 정책이 근사적으로 그 제약을 만족하면 보상하고, 이탈은 부드럽게 페널티한다. 결과적인 보행은 주기성에서 HZD-유사이지만 세부 관절 프로파일에서 적응적이다.

이것이 이 장의 두 번째 반복 패턴이다. 정통파 프레임워크는 보상으로 완화된다. 고전 HZD는 정확한 가상 제약을 강제하고, RL 버전은 강제를 페널티로 부드럽게 하며 정책이 제약 만족과 과제 성능 사이에 스스로의 평형을 고르게 한다. 결과는 Cassie, Digit, 여러 휴머노이드 플랫폼에 걸쳐 실증적으로 성공적이었다. 결과는 또한 RL 논문의 일반 독자에게는 보이지 않았다. HZD 계보는 거의 인용되지 않기 때문이다. 결과는 실무자들이 고전 프레임워크를 그 이름을 인식하지 못한 채 수입하는 것이다. 이 장은 부분적으로 그 비가시성을 교정하려는 시도다.

2.6 전신 목적의 언어로서의 centroidal dynamics

1장 전반에 걸쳐 이름 없이 흐른 실이 있다. centroidal dynamics다. Centroidal dynamics는 로봇의 질량중심에 대한 선형·각운동량의 진화를 기술하고, 100–200 Hz 스케일의 전신 제어 목적에 대한 올바른 언어를 이룬다. 2.3절의 전신 QP는 centroidal-momentum 제약을 부과하고, Koenemann 외 ^[6]의 MPC는 centroidal 궤적을 추종하며, LIPM은 CoM 높이 일정 가정 하의 centroidal dynamics의 퇴화 특수 사례다.

이 언어가 학습 시대에 왜 중요한가? 현대 휴머노이드 RL 정책의 관측 공간은 전형적으로 centroidal 양의 부분집합을 포함하기 때문이다 — base 선형·각속도, base frame에서의 중력 벡터, 명령된 전진 속도. 그 관측들은 정확히 centroidal dynamics가 전신 균형에 대해 정보적으로 충분한 통계로 식별하는 양이다. 관측 설계는 정책의 추론이 학습되었을 때조차 정통파 프레임워크로부터 상속된다. 이를 인식하지 못하는 독자는 정책이 무엇을 사용하고 있는지 오진하기 쉽고, 인식하는 독자는 아키텍처 선택을 반세기의 제어 직관에서 상속된 것으로 읽는다.

이 관측 공간 상속은 실용적 결과를 갖는다. base-velocity 중심의 관측에 학습된 RL 정책이 작은 휴머노이드 변종 사이에 왜 전이되는지를 설명한다. centroidal 양은 링크 질량·길이의 스케일링 하에서 근사적으로 불변이므로, 한 로봇에 학습된 정책은 학습한 것을 버리지 않고도 약간 다른 로봇에 대해 미세 조정될 수 있다. 교차 embodiment 전이(우리 분석의 Gap 4)는 여기서 시작한다. 관측 공간의 centroidal 기반이 전이를 가능하게 하지만, 10장이 논의할 것처럼, 전이를 자동적으로 만들지는 않는다.

2.7 2015년 이전의 강화학습

간단하지만 본질적인 우회. 딥 RL 이전의 강화학습-로보틱스 상태는 무엇이었고, Part II의 네 가지 기폭제가 실제로 무엇을 바꾸었는가? Kober, Bagnell, Peters의 IJRR 2013 서베이 ^[7]가 정통 참조다. 2015년 이전의 기술 상태는 이러했다.

전문가 설계 특성을 갖는 정책 검색. 대표적 방법 — PILCO, PI², relative entropy policy search — 은 세심히 엔지니어링된 특성을 사용하여 저차원 매개 정책(전형적으로 몇 십 개의 가중치) 위에서 작동했다. 딥 네트워크 정책은 실험적이었다.
샘플 효율성이 지배적 제약이었다. 대부분의 알고리즘은 학습된 기술당 수십에서 수백 번의 실제 로봇 시도를 필요로 했다. 시뮬레이션-현실 전이는 신뢰할 수 없었기 때문에 대부분의 학습은 실제 로봇에서 일어났다. 그 제약이 기술 복잡도를 심각하게 제한했다.
과제는 좁았다. 성공적 시연은 단일 기술(컵에 공 넣기, peg-in-hole, 특정 매니퓰레이터 궤적)이었다. 전신 휴머노이드 학습은 신뢰할 만하지 않았다.

2015년과 2019년 사이에 — 그리고 2024년까지 계속 — 이 모든 제약이 해제된 것이 변화다. 딥 네트워크가 기본 정책 클래스가 되고(TRPO, PPO, SAC와 그 후계자들을 경유), GPU 병렬 시뮬레이션이 시도당 비용을 여러 수십 배 떨어뜨렸고, 도메인 랜덤화와 history encoder가 보행에 대한 sim-to-real 전이를 일상화시켰다. 2013년 서베이에서 2019년 첫 실세계 휴머노이드 RL 시연 ^[12]까지의 간극이 정확히 Part II·III가 가로지르는 간극이다. 이 부분들을 Kober 2013과 나란히 읽는 것이 네 가지 기폭제가 실제로 도입한 것을 가장 빠르게 보정하는 방법이다.

2.8 운영 규칙 — 가능한 곳에는 증명, 그 외에는 분포

이 장의 재고는 이 책의 나머지를 조직하는 단일 운영 규칙을 지지한다. 증명 가능하게 옳은 곳에서는 정통파 primitive를 쓰고, 분포 커버리지가 유일한 가용 보장인 곳에서는 학습된 primitive를 써라. 구체적으로 확장하면.

System 0 (1 kHz 관절 추종): 고전 PD 또는 전신 QP, 정통파 보장을 유지한다. 학습된 버전은 무작위화된 제약을 갖는 QP를 근사하도록 학습되었을 때만 수용 가능하다(Figure의 10M-파라미터 S0 ^[17]는 이 계층의 학습 버전이다).
안전 모니터: 고전적, QP 기반, 증명 가능. Motor Cortex의 "always-on safety layer" ^[15]가 상용 인스턴스다.
System 1 (100–200 Hz 정책): LIPM, 캡처 포인트, HZD, centroidal dynamics primitive에서 유도된 템플릿 추종 보상으로 학습. 템플릿이 탐색을 가능하게 하고, 학습이 정책을 적응적으로 만든다.
System 2 (7–10 Hz 언어·계획): 학습, web-scale 데이터로 사전 학습, embodiment에 대해 미세 조정. 정통파 primitive는 여기에 살지 않는다. 이것은 순수한 2022년 이후 foundation model의 기여다.

이 분할이 9장이 형식적으로 전개하는 아키텍처 논제다. 2장의 역할은 분할이 왜 그런 모양을 갖는지를 확립하는 것이다. 정통파 primitive는 1 kHz 관절 스케일에서는 옳고, 100–200 Hz 스케일에서는 커리큘럼 신호로 가용하며, 그 위에서는 부재하다.

Gu 외의 2025년 휴머노이드 서베이 ^[9]는 이 책의 Part I–III에 대한 가장 직접적인 학술 대응물이며, 분할에 대한 귀중한 외부 검증을 제공한다. Gu 외는 제어, 계획, 학습을 중심으로 리뷰를 조직하며, 통합 절에서 본질적으로 호환되는 아키텍처 그림에 도달한다. 이 책이 Gu 외를 넘어 추가하는 것은 Part IV의 선두 기업 기술 분석과 Part V의 한국 제조피지컬AI 렌즈이고, 이 책이 Gu 외를 포함한 더 넓은 학술 코퍼스로부터 상속하는 것은 2장이 방금 명료화한 분할이다.

2.9 열린 질문

이 책의 나머지로 이어지는 세 질문이 남는다. 첫째, 정통파 비계가 System 1이 학습하는 것에 얼마나 깊이 침투하는가? LIPM 템플릿 보상으로 학습된 정책은 처음부터 학습된 정책과 같지 않다. 정통파 prior는 새 과제(동적 조작, CoM 높이 일정이 엄격하게 거짓인 경우)에 대해 역효과로 드러날 지문을 남길 수 있다. 7장의 sim-to-real 전략 논의가 이 질문을 재조우할 것이고, 10장의 VLA 장은 보행과 조작이 단일 정책을 공유할 때 이를 정면으로 마주한다.

둘째, QP가 진정으로 System 0에서 대체 불가능한가? Figure의 10M-파라미터 학습된 S0는 적어도 하나의 end-to-end 학습 시스템이 보행에 대해 QP를 대체할 수 있다는 실증적 존재 증명이다. 이 대체가 일반화될지 — 조작으로, 교차 embodiment로 — 는 열린 질문이다. 학습된 S0가 embodiment별 재학습이 필요한 것으로 드러나면 QP의 증명 가능한 옳음이 계속해서 그 자리를 정당화하고, 학습된 S0가 일반화되면 QP는 안전 필터 역할로만 물러설 수 있다.

셋째, 학습된 정책이 하는 일에 대한 올바른 형식 언어는 무엇인가? 고전 제어는 Lyapunov 이론, passivity, 도달 가능성을 제공한다. 학습된 정책은 이 도구들에 저항한다. 하이브리드 시스템 이론, control barrier function, safe RL, 미분 가능 MPC는 각각 후보 다리이며, 어느 것도 아직 지배적 프레임워크가 아니다. 이 질문에 대한 답이 다음 10년의 휴머노이드 배포가 안전 필수 영역에서 허용될지 아니면 케이지형 설비로 제한될지를 결정한다(우리 분석의 Gap 6). 15장의 한국 제조 배포 논의가 규제 측면에서 이 질문을 재개할 것이다.

3장은 이제 네 가지 기폭제와 그 상호의존성을 지도화한다. 2장의 재고를 손에 쥐고, 독자는 3장을 정통파 스택이 낡았다는 주장이 아니라, 정통파 스택의 역할이 이동했다는 주장으로 볼 수 있다. 휴머노이드 전체를 어깨에 짊어지던 역할에서, 각 계층이 다른 종류의 옳음에 답해야 하는 스택에서 세 개의 필수 계층 중 하나가 되는 역할로.

참고문헌

Kajita, S., Kanehiro, F., Kaneko, K., Fujiwara, K., Harada, K., Yokoi, K., & Hirukawa, H. (2003). Biped walking pattern generation by using preview control of zero-moment point. Proc. IEEE ICRA. doi:10.1109/ROBOT.2003.1241826.
Feng, S., Whitman, E., Xinjilefu, X., & Atkeson, C. G. (2014). Optimization-based full body control for the DARPA Robotics Challenge. Journal of Field Robotics. doi:10.1002/rob.21559.
Kajita, S., Hirukawa, H., & Harada, K. (2014). Introduction to Humanoid Robotics. Springer. doi:10.1007/978-3-642-54536-8.
Westervelt, E. R., Grizzle, J. W., & Chevallereau, C. (2007). Feedback Control of Dynamic Bipedal Robot Locomotion. CRC Press.
Reher, J., & Ames, A. D. (2021). Algorithmic foundations of dynamic bipedal robots with an emphasis on underactuated locomotion. Annual Review of Control, Robotics, and Autonomous Systems. doi:10.1146/annurev-control-071020-032422.
Koenemann, J., Del Prete, A., & Tassa, Y. (2015). A whole-body model predictive control framework for humanoid robots. Proc. IEEE/RSJ IROS. doi:10.1109/IROS.2015.7353596.
Kober, J., Bagnell, J. A., & Peters, J. (2013). Reinforcement learning in robotics: A survey. International Journal of Robotics Research. doi:10.1177/0278364913495721.
Wensing, P. M., Posa, M., & Hu, Y. (2024). Optimization-based control for dynamic legged robots. IEEE Transactions on Robotics. arXiv:2211.11644.
Gu, Z., Li, J., & Shen, W. (2025). Humanoid locomotion and manipulation: Current progress and challenges in control, planning, and learning. arXiv preprint 2501.02116.
Peng, X. B., Abbeel, P., Levine, S., & van de Panne, M. (2018). DeepMimic: Example-guided deep reinforcement learning of physics-based character skills. ACM Transactions on Graphics 37(4). arXiv:1804.02717.
Hurst, J. W. (2019). Cassie bipedal robot and the ATRIAS lineage. Agility Robotics / Oregon State University 기술 보고서.
Hwangbo, J., Lee, J., Dosovitskiy, A., Bellicoso, D., Tsounis, V., Koltun, V., & Hutter, M. (2019). Learning agile and dynamic motor skills for legged robots. Science Robotics 4(26). doi:10.1126/scirobotics.aau5872. arXiv:1901.08652.
Siekmann, J., Godse, Y., Fern, A., & Hurst, J. (2021). Blind bipedal stair traversal via sim-to-real reinforcement learning. Proc. RSS. arXiv:2105.08328.
Radosavovic, I., Xiao, T., Zhang, B., Darrell, T., Malik, J., & Sreenath, K. (2024). Real-world humanoid locomotion with reinforcement learning. Science Robotics 9(89). doi:10.1126/scirobotics.adi9579. arXiv:2303.03381.
Agility Robotics. (2025). Motor Cortex: An always-on safety layer for Digit. Agility Robotics 기술 발표. https://agilityrobotics.com
Boston Dynamics & RAI Institute. (2025). Electric Atlas reinforcement learning pipeline. BD–RAI 파트너십 발표, 2025년 2월. https://bostondynamics.com
Figure AI. (2026). Helix 02: Fully-onboard VLA with System 0. Figure AI 발표, 2026년 1/2월. https://figure.ai