Part I: 정통파 스택과 그 유산

Chapter 1: 2003–2015 정통파 스택의 전성기와 한계

집필일: 2026-04-24 최종수정일: 2026-04-24

1.1 왜 2003년부터 시작하는가

2015년, 세계 최고의 휴머노이드 로봇들은 DARPA Robotics Challenge 결승전에서 쓰러졌다 — 로봇을 보여주기 위해 설계된 바로 그 대회에서. 쓰러진 로봇은 모두 한 가지 아름다운 아이디어에서 파생된 소프트웨어를 돌리고 있었다. 로봇을 충분히 정밀하게 모델링하고, 충분히 빠르게 최적화를 풀 수 있다면, 균형은 따라온다. 이 책은 그 아이디어가 무엇으로 대체되었는지에 대한 이야기다.

대체된 것을 설명하려면 먼저 무엇이 대체되었는가를 설명해야 한다. 2015년 이전의 휴머노이드 스택은 임기응변의 집합이 아니었다. 지적 계보가 뚜렷한 하나의 일관된 제어 패러다임이었다 — 균형을 위한 저차원 템플릿, 지면 접촉의 가해성을 판정하는 명시적 조건, 전신 움직임을 조율하는 계층적 최적화기, 그리고 이산적 발걸음 계획을 수행하는 계획 계층. 각 구성 요소는 잘 정의된 질문에 대한 원리적 답이었다. 이 패러다임의 성취는 실재했다 — Honda의 ASIMO는 iPhone이 출시되기 10년 전에 이미 계단을 올랐고, 일본의 HRP 시리즈는 쓰쿠바에서 파리까지의 연구실에서 전신 동작을 시연했다. 이 패러다임이 결여한 것은 개방된 세계가 부과하는 종류의 놀람 — 미끄러운 표면, 예상치 못한 접촉, 센서 잡음, 통신 지연 — 을 흡수할 메커니즘이었다. 모델이 맞을 때 스택은 작동했다. 모델이 틀릴 때, 스택은 볼 만하고 구조적인 방식으로 무너졌다.

이 스택이 어떻게 무너졌는지를 이해하는 것은 Part II와 Part III가 다룰 네 가지 기폭제 — Quasi-Direct-Drive(QDD) 액추에이터, GPU 병렬 시뮬레이션, teacher-student 강화학습, 그리고 sim-to-real 보정 도구 — 가 각각 필수 조건이었고 어느 하나만으로는 충분하지 않았던 이유를 이해하기 위한 전제다. 이 장은 전성기의 정통파 스택을 압축적이고 정직하게 들여다본다. 이어지는 2장에서는 폐기할 것과, 현대 System 0/1/2 아키텍처까지 살아남을 것을 분리한다.

1.2 선형 역진자 모델

2003–2015년 휴머노이드 제어의 핵심 추상은 선형 역진자 모델(Linear Inverted Pendulum Model, LIPM) 이다. 로봇은 지면과 접촉한 질량 없는 가변 길이의 다리 위에 놓인 점질량 — 질량중심(Center of Mass, CoM) — 으로 모델링된다. CoM의 높이가 일정하게 유지된다면 수평 동역학이 수직 동역학에서 분리되어 선형이 된다. 이 선형화는 LIPM이 유용한 바로 그 이유다. 선형 동역학은 닫힌 형태의 해석, Lyapunov 증명, 그리고 (곧 보게 될) 선형-이차 최적 제어를 허용한다.

Kajita와 동료들은 현대 휴머노이드 제어 교과서의 첫 장을 여전히 여는 논문에서 전형적인 계획 레시피를 정식화했다. 제로모멘트점의 preview control을 이용한 이족보행 패턴 생성 ^[1]. 제로모멘트점(Zero-Moment Point, ZMP) — 지면 반력 모멘트가 0이 되는 지면 위의 점, 따라서 균형이 유지되려면 지지 다각형 안에 있어야 하는 점 — 의 기준 궤적이 주어지면, 제어기는 preview control 윈도우를 통해 그 ZMP 기준을 추종하는 CoM 궤적을 계산한다. 기법은 우아하다. 시뮬레이션 검증도 면밀하다. 원논문은 HRP-2P 모델 매개변수(키 154 cm, 질량 58 kg)를 이용한 시뮬레이션에서 이 접근을 시연하며, ZMP 추종 오차를 유계로 유지하기 위해서는 약 1.6 s(대략 1.5 스텝)의 preview 윈도우가 필요하고 0.8 s 같은 더 짧은 창은 눈에 띄는 over·under-shoot를 생산함을 보고한다 ^[1]. 200 Hz(5 ms 샘플링) 제어 루프가 추종을 닫는다. 실제 HRP-2P에의 하드웨어 검증은 2003년 논문에 보고된 것이 아니라 다음 단계 작업으로 제안되었다.

이 우아함에 대해 네 가지 가정을 지불해야 한다. 첫째, CoM 높이가 일정하게 유지된다 — 이것이 선형화 가정이며, 로봇이 쪼그려 앉거나 점프하거나 강하게 착지해야 할 때마다 깨진다. 둘째, ZMP 기준이 의도된 발걸음 순서를 정확히 알고 오프라인에서 계획된다. 셋째, 발과 지면의 접촉은 단방향이고 강체이며, 마찰이 미끄러짐을 방지하기에 충분하다고 가정된다. 넷째, 시스템의 내부 모델 — 질량, 링크 길이, 관성 행렬 — 이 정확하다고 가정된다. 각 가정은 개별적으로는 합리적이다. 네 가지가 결합된 조건이 개방 세계에서 무너지는 지점이다.

그림 1.1: 선형 역진자 모델(LIPM, 왼쪽)과 ZMP preview control 블록 다이어그램(오른쪽) — 저자 작성 일러스트, <sup><a class= — 그림 1.1: 선형 역진자 모델(LIPM, 왼쪽)과 ZMP preview control 블록 다이어그램(오른쪽) — 저자 작성 일러스트, ^[1] Figs. 2–3 (LIPM / cart-table 모델) 및 Fig. 4 (preview control 블록) 참조 (Gemini 보조 재현).

1.3 제로모멘트점과 지지 다각형

ZMP 개념은 1968년 Miomir Vukobratović가 도입했고 이후 수십 년에 걸쳐 정식화되었으며, 정통파 휴머노이드 균형의 핵심 도구다. ZMP는 접선 방향 지면 반력 모멘트가 0이 되는 점이다. 동등하게, 로봇에 작용하는 관성력과 중력이 뒤집는 모멘트를 만들어 내지 않는 지면 위의 점이다. 이 위에서 균형의 판정은 단순하게 진술된다. ZMP가 지면에 접촉 중인 발들로 정의되는 지지 다각형 내부에 엄밀히 존재하면, 로봇은 동역학적으로 균형 상태이다. ZMP가 지지 다각형의 경계에 도달하면 로봇은 넘어진다.

이 하나의 부등식 — ZMP ∈ 지지 다각형 — 이 LIPM 기반 보행이 애초에 작동하는 이유다. 계획기의 역할은 보행의 모든 단계(한 발에서 다른 발로의 지지 전환 포함)에 걸쳐 다각형 내부에 머무르는 ZMP 기준 궤적을 생성하는 것이 된다. Preview 제어기는 그 궤적을 로봇의 CoM을 통해 추종한다. 추상적으로 보면 정통파 스택은 고차원 균형 문제를 2차원 다각형 가해성 영역에 의해 제약되는 1차원 궤적 추종 문제로 변환한다. 이 변환이 2003년 시점에 정통파 스택을 계산 가능하게 만들었다.

ZMP 판정 기준에는 두 가지 대가가 따르며, 둘 다 6장에서 중요해진다. ZMP는 오직 CoM 높이 일정 가정 하에서만 타당하다. 로봇이 수직 CoM 운동을 허용하면 ZMP는 더 이상 뒤집힘 가해성 판정자가 아니며, centroidal moment pivot이나 완전한 contact-wrench 가해성 같은 더 일반적인 조건으로 물러서야 한다. 그리고 ZMP는 접촉이 단방향이고 강체라고 가정한다. 이 가정은 나무 바닥에는 잘 맞지만, 2015년 DARPA 결승전의 폼 뒷면이 붙은 카펫이나 유압유로 미끄러워진 통로에는 덜 맞는다.

1.4 캡처 포인트와 반응적 발걸음

ZMP 판정 기준은 로봇이 지금 균형 상태인지를 알려준다. 균형을 잃었을 때 무엇을 할지는 알려주지 않는다. 그 질문에 대해 IHMC의 Jerry Pratt과 동료들은 2006년 캡처 포인트(Capture Point, CP) 를 도입했다 ^[2]. CP는 로봇이 그 위로 발을 디딘다면 한 번의 발걸음으로 정지 상태에 이를 수 있는 지면 위의 점이다. CP는 LIPM의 궤도 에너지로부터 직접 유도된다 — CoM 위치, CoM 속도, LIPM 고유 진동수의 닫힌 형태 표현이 존재한다 — 그리고 N-스텝 일반화(N-step capture region)는 N회의 발걸음 이내에 정지할 수 있는 지면 위 점들의 집합을 정의한다.

반응적 발걸음은 진짜 진전이었다. 2006년 논문은 flywheel body(질량 25 kg, 관성 1.225 kg·m², CoM 높이 0.9375 m, 발목 최대 토크 100 Nm)를 갖는 평면 이족 모델에서 시뮬레이션으로 개념을 검증하며, 각운동량 lunge를 통해 0.2 m/s 전진 속도를 부여하는 충격 push로부터 회복한다 ^[2]. M2V2 이족 휴머노이드에서의 하드웨어 검증은 Pratt, Koolen 외의 2012년 IJRR 논문에서 뒤따랐다 ^[3]. 이 계보는 2006년 형식화 10년 후 Boston Dynamics가 Atlas가 밀림을 당하고 즉흥적인 뒷걸음으로 회복하는 바이럴 영상을 만들게 된다. 미리 계획된 발의 목표가 아니라, 캡처 포인트를 향해 디뎌라 라는 직관은 정통파 스택이 현장 외란에 대해 내놓을 수 있는 최선의 답이다.

그러나 반응적 발걸음은 LIPM의 가정을 물려받는다. CoM 이탈이 CoM 높이 일정 가정을 위반할 만큼 커지면 CP의 닫힌 형태 표현은 더 이상 로봇이 실제 있을 위치를 기술하지 않는다. 발걸음 지시는 유한한 시간이 걸리고, 명령된 발걸음의 스윙 단계 동안 LIPM 근사는 계속해서 현실로부터 멀어진다. 그리고 CP는 상태 추정으로부터 계산된다 — IMU 측정, 관절 엔코더, 때때로 비전을 조합한 필터링된 값이며, DRC 환경의 먼지·케이블 드래그·통신 지연 속에서 자주 틀렸다. 2006년 논문 자체가 이런 한계를 나열한다. 이 절의 서사적 요점은, 정통파 스택의 최고 반응 primitive조차 비선형 세계에 대한 국소 선형화라는 것이다.

그림 1.2: 무차원 좌표로 표현한 선형 역진자 모델의 위상 평면도 — 파란 곡선은 궤도 에너지 등고선, 빨간 점선 대각선은 LIPM 고유벡터 x˙ = ±x √(g/z₀) (안정·불안정), 안정 고유벡터 주변의 dotted band는 플라이휠 각운동량(τ′max = 0.5, θ′max = π/4)으로 확장된 캡처 영역(Capture Region), 녹색 곡선은 초기 조건 (x′₀ = −0.6, x˙′₀ = 0.8)에서 시뮬레이션한 균형 회복 궤적. <sup><a class= — 그림 1.2: 무차원 좌표로 표현한 선형 역진자 모델의 위상 평면도 — 파란 곡선은 궤도 에너지 등고선, 빨간 점선 대각선은 LIPM 고유벡터 x˙ = ±x √(g/z₀) (안정·불안정), 안정 고유벡터 주변의 dotted band는 플라이휠 각운동량(τ′max = 0.5, θ′max = π/4)으로 확장된 캡처 영역(Capture Region), 녹색 곡선은 초기 조건 (x′₀ = −0.6, x˙′₀ = 0.8)에서 시뮬레이션한 균형 회복 궤적. ^[2] Fig. 3 크롭.

1.5 전신 역동역학 QP

2010년에 이르러, 연구 공동체는 세 개의 뚜렷한 계층으로 이루어진 전신 제어 아키텍처로 수렴했다. 최상단에서는 task planner가 인간 시간 척도의 목표를 생성한다. 저 밸브로 걸어가서 1/4회전시키고, 저 문턱을 넘어라. 중간 계층에서는 궤적 생성기가 — 보행에는 LIPM 기반 preview control, 조작에는 operational-space 역기구학 — task-space 궤적을 생산한다. 최하단에서는 전신 역동역학 이차계획법(whole-body inverse-dynamics Quadratic Program, QP) 이 1 kHz로 관절 토크를 계산하되 마찰 원뿔, 관절 한계, 토크 한계, centroidal 동역학 제약을 모두 존중한다.

Christopher Atkeson 중심의 CMU 그룹은 이 아키텍처를 DARPA Robotics Challenge를 위해 성숙한 형태로 끌어올린 팀 중 하나였다. Feng 외가 Journal of Field Robotics에 게재한 논문은 그 성숙함의 정통 기록이다. 유압식 Atlas 플랫폼 위의 전신 QP는 약 1 kHz로 돌았고 약 30 ms의 계획 지연을 수반했으며, 논문은 DRC 과제 세트(문 열기·밸브 돌리기·전동공구 사용)에 대한 정성적 수행과 함께, DRC 서사를 결정지은 취약성 — DRC 2015의 동적 과제 중 다수의 낙하 — 을 보고한다 ^[4]. 저자들 스스로 다음 10년이 대체하는 데 쓰일 한계들을 나열한다. 접촉의 돌발에 대한 취약성, 정확한 동역학·마찰 모델에 대한 의존성, 시나리오당 감당 못할 엔지니어링 부담, 그리고 큰 외란 하에서 계획-제어 분리가 붕괴한다는 사실.

QP는 아름다운 대상이다. 우선순위가 있는 과제의 스택이 주어지면, QP는 과제 추종 오차의 가중합을 딱딱한 제약 하에서 최소화하는 관절 토크를 구한다. 마찰 원뿔은 다면체 근사로 선형화되어 선형 부등식으로 들어가고, 관절 한계와 토크 한계는 선형 박스 제약이 된다. centroidal 동역학 제약 — 로봇에 걸리는 전체 wrench가 측정된 지면 반력과 일치해야 한다 — 은 과제 궤적이 원하는 centroidal wrench를 지정하고 나면 결정 변수에 대해 선형이다. 전체 문제는 볼록이고, 현대 interior-point solver가 상용 하드웨어에서 1 ms 이하로 처리한다.

QP의 실패 모드는 계산적이지 않다. 의미론적이다. 로봇의 발이 모델되지 않은 기름띠 위에서 미끄러지면, QP는 자신의 내부 모델을 가장 잘 만족하는 관절 토크를 구한다 — 그러나 내부 모델은 이미 로봇을 기술하지 않는다. 유압 액추에이터가 케이블이 걸려 포화되면, QP는 하드웨어가 수행할 수 없는 명령을 내놓는다. 토크 명령 발송과 센서 스트림에서 그 효과를 관측하는 시점 사이의 시간이 운영체제 스케줄링·통신 버스 경합·유압 밸브 지연 때문에 들쑥날쑥해지면, 토크 명령은 이미 만료된 상태 추정에 대해 발령된다. 각 실패는 특정 가정의 특정 위반이다. 정통파 스택의 엔지니어링 부담은 실전에서 이 모든 가정을 시나리오별로 감사하고 강화하는 부담이었다.

1.6 발걸음 계획과 계획-제어 분리

정통파 아키텍처를 완성하는 한 조각이 더 있다. 발걸음 계획기(footstep planner) 다. 지형 지도와 목표가 주어지면 계획기는 기구학적으로 도달 가능하고, (LIPM/CP 추론으로) 동역학적으로 가해이며, 장애물과 충돌하지 않고, 로봇의 균형 제약과 양립하는 이산적 발 배치 시퀀스를 선택한다. 2010년대의 발걸음 계획은 주로 탐색으로 풀렸다 — 이산화된 도달 집합에 대한 A\* 탐색, 또는 지형의 다면체 분해에 대한 혼합정수 최적화. 여러 연구실에서 나온 표준 구현(Kuindersma, Deits, Fallon, Ratliff, Righetti 등)은 DRC 지형에 대해 수백 밀리초 수준에서 계획을 생산했다.

발걸음 계획기와 전신 QP는 분리된다. 계획기는 각 발이 어디에 떨어질지를 선택하고, QP는 그 계획을 관절 토크로 실현한다. 이 분리는 지적으로 깔끔하다 — 상위 계획기는 조합론적 결정을 다루고, 하위 제어기는 연속 동역학을 다룬다 — 그리고 그 시기의 모든 정통파 휴머노이드 스택이 조직된 방식이다.

이 분리가 정통파 패러다임의 가장 깊은 구조적 취약점이다. 큰 외란이 도달했을 때 — 푸시, 미끄러짐, 걸림 — 현재의 발걸음 계획은 무효가 되지만, 그 아래의 QP는 새 계획이 도착할 때까지 옛 계획에 대해 계속 집행된다. 2013–2014년의 Boston Dynamics 데모 영상에서 관찰할 수 있듯이, 계획기의 낡은 지시가 실제 로봇의 상태와 충돌하며 "머뭇거리는 발걸음"의 특유한 모습이 나타난다. 당시의 처방은 계획기를 더 빨리 돌리고 재계획을 더 공격적으로 하는 것이었다. 증상은 완화되었지만 치료되지는 않았다. 근본 문제는 계획은 이산적이고, 외란은 연속적이며, 두 영역은 서로 다른 시간 척도에 살고 있다는 것이다.

2019년 이후의 학습 기반 패러다임은 이 분리를 완전히 해소한다. 발걸음을 계획하고 나서 집행하는 대신, 학습된 정책은 매 제어 주기마다 관절 행동을 내놓고, 발걸음-유사 행동은 상태 이력에 대한 정책의 반응으로부터 창발한다. 이 지점은 6장에서 다시 다루며, 7장에서 정식으로 전개한다.

1.7 로봇 계보 — ASIMO, HRP, Atlas

세 가계의 로봇이 정통파 시대를 정의했다. 1996년 P2 프로토타입에서 내려온 Honda의 ASIMO는 거의 20년 동안 휴머노이드 연구의 공적 얼굴이었다. 2000년대 초반에 과학소설처럼 보이던 속도로 계단 오르기와 물건 주고받기를 시연했다. 일본의 HRP 시리즈(HRP-2, HRP-3, HRP-4)는 — AIST가 Kawada Industries와 Kajita 주변 연구 그룹과 함께 개발 — 학술 휴머노이드 연구의 대표 플랫폼이 되었고, 1.2절의 preview control 보행 기법의 검증대였다 ^[1]. Boston Dynamics의 Atlas는 — 초기에는 DRC를 위해 위탁된 유압식 플랫폼 — 같은 패러다임을 훨씬 더 동역학적인 영역으로 밀어붙였다. 어떤 이전 휴머노이드도 달성하지 못한 동력 밀도와 관절 속도를 갖추고.

이 로봇들은 실제 역량을 성취했다. ASIMO의 계단 작업은 충분한 엔지니어링 엄밀성을 갖춘 LIPM 기반 제어가 잘 특성화된 하드웨어 위에서 시각적으로 설득력 있는 휴머노이드 보행을 낼 수 있다는 정통 시연이다. DRC 시절 Atlas 로봇들은 잘 지원받은 팀의 손에서 — IHMC, MIT, WPI-CMU, KAIST의 DRC-HUBO 팀 등 — 심사관과 텔레비전 카메라 앞에서 다단계 조작 과제(문, 밸브, 드릴, 벽 뚫기)를 완수했다. 이는 실패가 아니었다. 정통파 스택이 최고 역량에 이른 모습이었다.

그러나 DRC는 동시에 이 패러다임의 천장을 노출했다. 과제 시도 사이 로봇들은 느리고 조심스럽게 움직였다. 외란 — 케이블 걸림, 모델보다 뻣뻣한 문, 발 아래서 움직이는 플랫폼 — 은 드물지 않고 회복 불가능한 낙하를 만들어 냈다. 그 낙하들은 특정 팀이 허술했다는 증거가 아니었다. 정통파 패러다임의 모델링 오차 처리가 구조적으로 불충분하다는 증거였다. 정통파 스택은 오차를 보상해야 할 외란으로 취급했지, 환경의 중심적 사실로 취급하지 않았다.

1.8 스택이 무너진 이유 — 구조적 감사

DRC와 그 전신들에서 다섯 개의 뚜렷한 실패 모드가 반복해 나타났고, 각각은 앞서 지명한 가정과 대응한다.

모델 오차는 시간에 걸쳐 누적된다. 전신 QP는 그것이 인코딩한 강체 동역학 모델만큼만 좋다. 실제 휴머노이드에는 harmonic drive의 backlash, 케이블 늘어남, 관절 마찰의 비대칭성, 열적으로 변하는 모터 상수가 있다. 각각은 몇 퍼센트이지만, 수 초 동안의 동적 과제 위에 누적되면 모델이 말하는 CoM 위치와 실제 CoM 위치 사이에 수 센티미터의 불일치를 만들며, 최악의 시나리오에서는 ZMP를 지지 다각형 밖으로 밀어낸다. 정통파의 처방은 식별이었다. 매 파라미터를 측정하고 모델을 갱신하라. 이것은 실험실에서 먹혔다. 현장에서는 일반화되지 않았다.

접촉은 매끄럽지 않다. LIPM의 타당성은 지면과의 단방향·강체·고마찰 접촉에 의존한다. 실제 접촉은 충격 전이(단단한 표면에서 발이 디디는 순간 그 어떤 200 Hz 제어기도 관측할 수 없는 고주파 진동을 유발), 접선 방향 미시 미끄러짐(마찰은 접촉면 거칠기에 대한 통계적 평균에 불과), 때로는 soft contact(매트, 카펫, 모래)를 포함한다. 각각은 LIPM을 서로 다른 방식으로 위반하며, 그 실패는 서로 조합된다. 카펫 러너가 깔린 가볍게 말린 DRC 플랫폼 위에서 LIPM의 타당성 영역은 실험실 버전의 그림자에 불과하다.

센서 잡음과 통신 지연은 상태 추정을 오염시킨다. QP는 상태가 아니라 상태 추정에 작용한다. 상태 추정은 IMU, 엔코더, 때로는 비전을 필터(extended Kalman, 보정, 최선 구현에서는 invariant-EKF)로 융합한다. 각 출처에는 고유한 잡음 스펙트럼과 지연이 있다. DRC의 통신 제약 조건 — 로봇과 조종자 사이의 의도적 대역폭 제한과 강제된 지연 — 하에서 상태 추정은 표류했고, QP의 해는 가상의 로봇에 대해 작용하기 시작했다.

계획-제어 분리는 큰 외란에서 붕괴한다. 이 내용은 1.6절에서 논했다. 현재 발걸음 계획을 무효화하는 외란은 탐지되고, 계획기로 전파되고, 재계획되고, 새 계획이 QP에 전달되어야 한다 — 제어기가 다음 접촉 이벤트에 커밋하기 전에. 시간 예산이 가용 반응 윈도우를 넘으면 로봇은 포기했어야 할 계획에 커밋한다.

모든 개선은 새 시나리오다. 정통파 스택은 규범적이기 때문에, 새로운 운용 조건은 모두 새로운 엔지니어링 문제다. 다른 바닥 표면은 새 마찰 계수를 요구하고, 다른 페이로드는 새 관성 추정을 요구하며, 다른 조명 조건은 새 비전 보정을 요구한다. 엔지니어링 노동은 배포 환경의 복잡도와 함께 확장되며, 그 확장 관계는 불리하다.

이 가운데 어느 것도 버그가 아니다. 각각은 패러다임의 지적 서약의 특징이다. 모델을 규범하고, 최적화를 풀고, 옳음을 증명하라. 이 패러다임의 대체물은 — Part II가 기폭제별로 소개할 것 — 첫 번째 서약을 놓고, 특정 모델에 대한 증명이 아니라 분포의 통계적 커버리지로부터 옳음을 유도한다. 이것이 바로 그 체제 전환이다. 아키텍처 수준에서의 전환은 3장이 기술한다.

1.9 DRC가 남긴 것

DARPA Robotics Challenge는 2015년 6월에 끝났다. 즉각적 여파는 눈에 띄는 공적 후퇴였다. 정통파 휴머노이드 연구에 대한 업계 자금이 줄었고, 유압식 Atlas 세대는 시연된 성능 천장에 이르렀으며, 여러 DRC 시절 플랫폼(KAIST의 DRC-HUBO와 NASA Valkyrie의 초기 구성 등)이 은퇴하거나 상당히 재설계되었다. 분야는 돌이켜보면 정통파 패러다임의 조용한 시기였던 구간으로 진입했다. 공적 시연은 느려졌지만, Part II·III의 근간이 될 연구는 이미 2019–2024 정전(正典)을 정의할 연구실들 — MIT(Cheetah), ETH(ANYmal과 Hutter 그룹), Berkeley(Malik/Sreenath/Darrell), Oregon State(Hurst, Cassie), AIST(Kajita 전통의 계승), 그리고 Boston Dynamics 자신 — 에서 진행 중이었다.

붕괴하지 않은 것은 정통파 패러다임의 지적 기여였다. LIPM은 RL의 보상 설계를 위한 저차원 템플릿으로 여전히 유용하다. ZMP 부등식은 학습된 제어기들이 암묵적으로 자주 존중하는 증명 가능한 안전 certificate이다. 전신 QP는 현대 모든 휴머노이드 내부에서 System 0 토크 수준의 fallback으로, 그리고 샘플링 기반 모델 예측 제어의 warm-start로 살아남는다. 2장은 이 유산을 조심스럽게 다룬다. 향수로서가 아니라, 새로운 아키텍처 하에서 재배치되어 다시 나타날 primitive들의 작동 재고(inventory)로서.

이 패턴은 기술 패러다임 전환을 관찰해 본 누구에게나 익숙해야 한다. 새 접근은 옛 접근을 절멸시키지 않는다. 유용한 구성 요소를 흡수하고 재프레임한다. 정통파 스택이 휴머노이드 제어의 전부를 기술한다는 주장은 2015–2026이 반증한 것이다. 그것이 휴머노이드 제어의 일부 — 관절에 가장 가까운 부분, 1 kHz로 도는 부분, 물리가 다루기 쉽고 보장이 증명 가능한 부분 — 를 기술한다는 주장은 온전히 남는다. 그 부분 주장이 2장의 주제다.

1.10 열린 질문

세 가지 질문이 이 장을 닫고 다음 장을 연다. 첫째, 정통파 스택의 어떤 부분이 계승할 가치가 있는가? 전신 QP의 수학적 구조는 분명히 유용하다. LIPM의 균형에 대한 1차원 템플릿도 분명히 유용하다. 캡처 포인트 추론을 안전 certificate로 쓰는 것도 유용할 가능성이 높다. 그러나 발걸음 계획을 별개의 이산 추론 계층으로 두는 것은, 2024년 기준으로, 학습된 정책이 매 주기 관절 명령을 방출하는 행위 속에 대체로 해소되어 있다. 2장은 생존자와 사상자를 분리한다.

둘째, 어떻게 학습된 정책이 더 잘할 수 있다는 주장이 신뢰할 만해졌는가? 전환은 필연이 아니었다. 2015년에는 "휴머노이드 균형에 딥러닝을 써라"가 신뢰할 만한 연구 프로그램이 아니었다. 2019년에는 그랬다. 서너 개의 기술적 발전 — 각각이 소수의 그룹에 의해 하드웨어에서 엄밀히 시연된 — 이 차이를 만들었고, Part II의 나머지는 그 경과를 기록한다. 3장이 상호의존성을 지도화한다.

셋째, 정통파 패러다임은 틀렸는가, 아니면 단지 불충분했는가? 구분이 중요하다. "틀렸다"는 분야가 그 교훈을 폐기해야 한다는 함의이고, "불충분했다"는 분야가 그 기반 위에 새 무언가를 얹어야 한다는 함의이다. 이 책의 입장은 후자다. 정통파 스택은 불충분했지 틀린 것은 아니었고, 현대 System 0/1/2 아키텍처는 새로운 역량을 고전 제어의 환원 불가능한 기반 위에 쌓는 것으로 이해하는 편이 가장 생산적이다. 2장이 이 입장을 세밀히 주장하고, 9장이 3-레이어 아키텍처가 탁자 위에 오른 뒤 이를 정식으로 재조우한다.

3장이 예고할 패러다임 전환은 결국 지능이 어디에 사는가의 재배치다. 정통파 스택은 지능을 모델에 두었다. 로봇을 모델하고, 환경을 모델하고, 최적화를 풀어라. 현대 스택은 지능을 분포에 둔다. 시뮬레이션에서 충분히 넓은 환경 분포를 커버하고, 이력으로부터 적응하는 정책을 학습시키고, 배포하라. 둘 다 일관된 엔지니어링 철학이다. 지금까지 한 주 동안의 야외 종일 테스트에서 광장·인도·트랙·잔디밭을 넘어지지 않고 걸어낸 휴머노이드를 만들어 낸 것은 두 번째뿐이다 ^[5]. 이 비교가 이 책의 나머지가 풀어낼 대상이다.

참고문헌

Kajita, S., Kanehiro, F., Kaneko, K., Fujiwara, K., Harada, K., Yokoi, K., & Hirukawa, H. (2003). Biped walking pattern generation by using preview control of zero-moment point. Proc. IEEE ICRA. doi:10.1109/ROBOT.2003.1241826.
Pratt, J., Carff, J., Drakunov, S., & Goswami, A. (2006). Capture point: A step toward humanoid push recovery. Proc. IEEE-RAS Humanoids. doi:10.1109/ICHR.2006.321385.
Pratt, J., Koolen, T., de Boer, T., Rebula, J., Cotton, S., Carff, J., Johnson, M., & Neuhaus, P. (2012). Capturability-based analysis and control of legged locomotion, Part 2: Application to M2V2, a lower-body humanoid. International Journal of Robotics Research.
Feng, S., Whitman, E., Xinjilefu, X., & Atkeson, C. G. (2014). Optimization-based full body control for the DARPA Robotics Challenge. Journal of Field Robotics. doi:10.1002/rob.21559.
Radosavovic, I., Xiao, T., Zhang, B., Darrell, T., Malik, J., & Sreenath, K. (2024). Real-world humanoid locomotion with reinforcement learning. Science Robotics. doi:10.1126/scirobotics.adi9579. arXiv:2303.03381.