Part III: 2026 표준 스택

Chapter 9: System 0/1/2 3-레이어 아키텍처

집필일: 2026-04-24 최종수정일: 2026-04-24

9.1 2025–2026 산업 lingua franca

"System 1"과 "System 2"라는 표현은 로보틱스가 아니라 인지과학을 통해 대중적 사용에 들어왔다. Daniel Kahneman의 2011년 저서 Thinking, Fast and Slow ^[1]이 인간 인지의 이중 과정 모델을 중심으로 수십 년의 심리학 연구를 조직했다. System 1은 빠르고, 병렬적이고, 패턴 매칭적이고, 직관적이다. System 2는 느리고, 순차적이고, 숙고적이고, 분석적이다. 이 명명은 발명이 아니라 종합이었다 — Stanovich와 West, Evans 등이 이전에 이중 과정 이론을 발전시켰다 — 그러나 Kahneman의 형식화가 정통 참조가 되었다.

2025년까지 세 프런티어 기업 휴머노이드 스택이 독립적으로 Kahneman의 이중 과정 프레이밍에 학습된 휴머노이드 정책의 조직 아키텍처로 수렴했다. Figure AI의 Helix ^[8]는 자신의 아키텍처를 "System 1"(200 Hz의 빠른 반응형 visuomotor)과 "System 2"(7–9 Hz의 온보드 VLM)로 기술했다. NVIDIA의 GR00T N1 ^[10]은 같은 명명으로 자신의 아키텍처를 기술했다. System 2 VLM (13.4억 매개변수) 플러스 System 1 diffusion transformer (9억 매개변수). AgiBot의 GO-2 ^[11]는 자신의 아키텍처를 "asynchronous dual-system"으로 기술했고, 다시 Kahneman의 S1/S2에 깨끗하게 매핑된다. 세 기업 각각이 12개월의 기간 동안 대략 독립적으로 이 명명에 도달했다. 수렴은 Kahneman의 지적 도달 범위와 근저의 구조적 압력 모두를 반영한다. 학습된 휴머노이드 스택은 이 분해를 원한다.

2026년 1월 Figure AI의 Helix 02 ^[9]가 추가한 것은 System 1 visuomotor 정책 아래의 세 번째 계층 — System 0 — 이다. 1 kHz에서 도는 10M 매개변수 전신 제어기로 위 계층에 대한 명시적 경계된 지연 계약을 갖는다. 명명된 주파수 계층과 인터페이스 계약을 갖는 3-레이어 스택은 특별히 Helix 02의 기여다. System 1 / System 2 명명은 Kahneman 2011로부터의 수렴 상속이다.

9장의 기여는 교차 스택 형식화다 — Figure의 Helix, AgiBot의 GO-2, NVIDIA의 GR00T, Boston Dynamics의 하이브리드 아키텍처가 3-레이어 분해를 어떻게 인스턴스화하는지, 그리고 그들의 인터페이스 계약이 무엇이 공통이고 무엇이 공통이지 않은지의 비교. 이 장은 3-레이어 명명에 대한 공로를 주장하지 않으며, 그 가치는 역사적^[1]이거나 마케팅적(Figure 2025/2026)이 아니라 구조적이다. 2026년의 네 프로덕션 휴머노이드 스택에 걸쳐 아키텍처가 어떻게 변하는지의 작동 재고. critical-analyst의 novelty_matrix §3가 이 장이 §9.7에 끌어오는 5축 표(결합 / 타이밍 / 실패 모드 / 적응 원천 / 인터페이스 계약)를 제공한다.

이 장은 세 계층을 진행하고(§§9.2–9.4), 비동기 통신(§9.5), 매개변수 규모(§9.6), 옛 전처리 파이프라인과의 구조적 비교(§9.7), 장애 허용성과 fallback 의미론(§9.8), 온보드 대 클라우드 추론(§9.9), 기업별 매핑(§9.10)을 논의한다. 2025년 이 아이디어의 학술 조직인 Behavior Foundation Model (BFM) 프레이밍 ^[14]이 §9.11에 동반 관점으로 나타난다.

9.2 System 0 — 1 kHz 전신 제어기

System 0은 로봇 하드웨어에서 관절 명령을 물리적으로 실행하는 토크 또는 위치 수준 제어기다. 구조적 역할은 정직한 기저층이다(4장이 물리적 전제 조건으로서의 QDD 하드웨어를 지명했다. System 0은 그 하드웨어 위의 소프트웨어다). 1 kHz 주파수는 모터 드라이버 하드웨어 제약에 의해 설정된다. 현대 BLDC 드라이버는 10–40 kHz에서 전류 명령을 업데이트하지만, 그 명령을 쓰는 제어기는 정책의 희망 관절 토크가 최소 지연으로 실현될 수 있는 1 kHz에 산다.

2026년 프로덕션에서 System 0의 세 인스턴스화가 존재한다.

고전 PD 또는 전신 QP (Boston Dynamics, Agility Robotics, 대부분의 학술 스택). 제어기는 구성상 증명 가능하게 옳다. 위 계층으로부터 희망 task-space wrench가 주어지면, 마찰 원뿔, 관절 한계, centroidal 동역학 제약을 존중하면서 이를 실현하는 관절 토크를 계산한다(2장 §2.3). Agility Motor Cortex "always-on safety layer" ^[12]가 이 slot의 고전 전신 QP이다.

학습된 10M 매개변수 네트워크 (Figure Helix 02). Figure 03은 Isaac Lab에서 200,000개 이상의 병렬 환경과 광범한 도메인 랜덤화로 학습된 학습된 System 0을 출하한다 ^[9]. 네트워크가 전신 QP의 구조적 역할을 가중치로 흡수한다 — 물리적 구성의 무작위화된 분포에 대한 QP의 함수 근사.

학습된 다중 모드 제어기 (HOVER ^[7]). 150만 매개변수 HOVER 제어기는 15+ 뚜렷한 제어 모드(관절 PD, 토크, 역기구학, 발걸음 명령, root 속도 등)를 지원하고 Jetson급 edge 하드웨어에서 200 Hz로 돈다. HOVER는 3-레이어 분류학에서 모호한 위치를 차지한다 — 주파수는 System 1에 가깝지만 인터페이스(다중 모드에 걸친 직접 관절 수준 출력)가 위의 정책에 대해 System 0 기능을 하게 한다. §9.7의 인터페이스 계약 논의에서 이 모호성으로 돌아간다.

System 0의 역할은 지능적이기 위한 것이 아니다. 위 계층의 명령을 정직하게, 빠르게, 증명 가능하게 실현하기 위한 것이다. 주요 실패 모드는 모델되지 않은 하드웨어 표류(1장의 고전 QP 간극), 수치 조건, 그리고 (학습된 변종에 대해) 하드웨어가 학습 분포 밖에 있을 때의 분포 시프트 아티팩트다. 7장의 sim-to-real 도구 키트가 학습된 System 0의 분포 간극을 닫는 것이다.

9.3 System 1 — 100–200 Hz visuomotor 정책

System 1은 관측(비전, proprioception, System 2 조건화)을 희망 관절 수준 명령으로 변환하는 빠른 반응형 계층이다. 100–200 Hz 주파수 범위는 두 경쟁 압력에 의해 설정된다. 높을수록 외란 거부에 더 좋지만 diffusion 정책 추론(8장 §8.6)과 Transformer history encoder 추론(6장 §6.7) 모두 더 높은 주파수에서 더 많이 든다. 100–200 Hz가 2026년 타협이다.

System 1은 구조적으로 6장 정전이 사는 곳이다. 다섯 논문 정전 레시피 — actuator network → teacher-student → RMA 암묵 적응 → biped LSTM → 풀사이즈 causal Transformer ^[6] — 가 System 1 정책을 생산한다. 현대 프로덕션 시스템은 정전 위에 세 가지를 추가한다.

비전 조건화. System 1은 전형적으로 proprioception과 함께 depth 또는 RGB 이미지를 직접 받는다. 이것이 Ch06 정전 정책(proprioception 전용)과 프로덕션 VLA 통합 시스템 사이의 주요 차이다.
System 2로부터의 언어 / 잠재 조건화. VLM이 위에서 돌 때(다음 절), System 1은 그 VLM이 방출하는 잠재 표현을 소비해야 한다. 소비 인터페이스는 전형적으로 S2가 100–150 ms마다 생산하는 저차원 잠재 벡터이며, S1은 100–200 Hz 제어 tick에 걸쳐 그것에 주목한다.
Diffusion 또는 flow-matching 행동 head. 조작 중심 과제에 대해 출력 분포는 출력 점 추정만큼 중요하다. diffusion policy ^[3]나 flow matching ^[4]은 행동당 추가 추론 스텝의 비용으로 다중 모드 행동 시퀀스를 생성한다.

Figure Helix System 1 ^[8]이 공개 참조 아키텍처다. 200 Hz로 도는 visuomotor 정책이 모든 센서(카메라, proprioception, S2 잠재)를 소비하고 모든 관절 명령을 출력한다. "모든 센서 들어가고 모든 관절 나옴" 프레이밍은 중간 추상화 없음에 대한 의도적 마케팅 약어다. trade-off는 정책이 과제별로 특화되는 대신 모든 입력 조합을 다루도록 학습되어야 한다는 것이다. Helix 02는 200 Hz S1을 유지하고 그 아래 1 kHz S0을 추가한다.

AgiBot의 GO-2 S1 ^[11]이 설계 공간의 보완적 지점이다. S2 조건화를 자체 스케줄로 소비하고 1 kHz에서 Genie Sim 3.0의 물리-렌더링-분리 파이프라인(5장 §5.3)에 행동을 방출하는 "asynchronous" S1. 비동기성이 GO-2가 S1의 실시간 루프를 차단하지 않고 전체 VLM backbone S2를 돌게 하는 것이다.

HOVER ^[7]는 generalist 방향을 대표한다. 과제에 걸쳐 System 1의 역할을 포괄하는 하나의 학습된 다중 모드 정책. 과제별 전문가-그다음-generalist 파이프라인 ^[13]이 학술 규모의 유사 패턴이다. 프로덕션 프런티어(Figure, AgiBot, GR00T)가 HOVER 스타일 generalism으로 수렴할지가 §9.10이 돌아오는 열린 질문이다.

9.4 System 2 — 7–10 Hz VLM backbone

System 2는 느린 숙고적 계층이다. 장면을 보고, 과제를 이해하고, System 1에 대한 고수준 조건화를 생산하는 사전 학습된 vision-language 모델. 7–10 Hz 주파수 범위는 임베디드 GPU에서의 VLM 추론 비용(70억 매개변수 모델에 대해)과 언어 수준 결정이 바뀌는 주파수 모두를 반영한다. 식기세척기를 싣는 휴머노이드는 100 Hz에서 과제 계획 업데이트가 필요하지 않다. 7–10 Hz가 장면 추론에 넉넉하다.

세 2025–2026 인스턴스화가 System 2를 고정한다.

Figure Helix S2 (2025): 장면 이해와 언어에 대해 7–9 Hz로 도는 온보드 인터넷 사전 학습된 VLM ^[8]. 특정 backbone은 공개되지 않았다. 공개 주장은 S2가 클라우드나 외부 compute 단위가 아니라 S1과 같은 임베디드 GPU에서 돈다는 것이다.

NVIDIA GR00T N1 S2 (2025): 8.6억 매개변수 System 1 diffusion transformer 위의 13.4억 매개변수 VLM으로, 총 22억 매개변수 ^[10]. GR00T의 S2는 Figure의 것보다 더 낮은 주파수에서 돈다 — 논문은 NVIDIA L40에서 16-행동 청크당 약 63.9 ms를 보고하며, VLM은 사실상 10 Hz 부근에서, diffusion head는 120 Hz 부근에서 돈다. GR00T N1의 공개 평가는 L40급 GPU에서 이루어졌고 (로봇 측 배포 구성은 보고서에 상술되지 않았다), Figure의 S2는 온보드 구동으로 명시된다.

AgiBot GO-2 S2 (2026): 1 kHz의 S1에 대한 비동기 통신을 갖는 저주파수 semantic 계획. 특정 매개변수 수와 backbone은 공개되지 않았다. "asynchronous dual-system" 프레이밍은 아키텍처 주장이다. S2는 S1의 실시간 루프를 차단하지 않고, 통신은 clock-synchronous가 아니라 event-driven이다.

Figure Helix 02는 S2에서 역량을 추가하는 한편(7–9 Hz의 70억 매개변수 VLM) 계산 부담을 온보드로 옮겼다 ^[9]. 특정 주장 — "저전력 임베디드 GPU에서 7–9 Hz의 7 B VLM" — 은 제3자 재현되지 않았고, 이 규모에서의 재현성은 gaps.md Gap 2에서 논의된 열린 프런티어 중 하나다.

System 2의 역할은 System 1이 센서만으로 추론할 수 없는 과제 수준 컨텍스트를 제공하는 것이다. 여기서 "과제 수준"은 개념을 담는 정보를 의미한다 — "사용자는 빨간 컵을 원한다" 또는 "이 과제는 흘린 것을 닦는 게 아니라 카운터를 청소하는 것이다" — 관절 공간 지정이 아니다. S2에서 S1으로의 조건화 인터페이스는 아키텍처적으로 중요한 접합부다. §9.7이 이에 돌아간다.

9.5 비동기 통신

3-레이어 아키텍처는 세 순차적 단계가 아니다. 다른 clock을 갖는 세 동시적 프로세스다. 이 비동기성이 현대 아키텍처와 2020년 이전의 planner-then-controller 파이프라인(§9.7) 사이의 가장 중요한 구조적 차이다.

Clock 비율. System 0은 1 kHz, System 1은 100–200 Hz, System 2는 7–10 Hz. 비율은 계층 사이 5–20×이다. 이 비율은 우연이 아니다. 다른 종류의 물리적 이벤트가 일어나는 시간 척도에 대략 일치한다. 관절 토크 변화는 밀리초 단위로 전파된다. 과제 관련 시각 이벤트는 수십 밀리초 단위로 전파된다. 과제 계획 변화는 수백 밀리초에서 초 단위로 전파된다.

통신 의미론. S2는 추론 pass를 마칠 때마다 잠재 표현을 S1에 방출한다. S1은 자신의 여러 제어 tick에 걸쳐 가장 최근 S2 잠재에 주목한다. S1은 자신의 100–200 Hz 속도로 S0에 관절 명령을 방출한다. S0는 1 kHz에서 그 명령을 추종한다. 계층 사이 통신은 엄밀한 의미에서 비동기다. 어느 쪽도 다른 쪽이 자신의 루프를 진행하기 전에 끝나기를 기다리지 않는다.

버퍼링과 보간. 200 Hz의 S1과 1 kHz의 S0 사이에 S1 tick당 다섯 S0 tick이 있다. S0는 다섯 tick 동안 S1 명령을 상수로 유지하는가, 보간하는가, 외삽하는가? 프로덕션 스택은 전형적으로 보간(부드러운 전이)하고/또는 다음 S1 명령을 예측하는 짧은 로컬 모델을 돈다. 이 버퍼링의 엔지니어링은 공개적으로 under-disclosed이다. 공개된 것만으로 Figure나 AgiBot 결과를 재현하기 어려운 한 곳이다.

Backpressure. S2가 느려지면(긴 추론 또는 경합되는 열 예산) S1이 우아하게 열화하는가? Figure의 공개된 기술은 그렇다고 시사한다 — S1은 많은 과제에 충분한 stale S2 조건화를 쓰는 것으로 되돌아간다. AgiBot의 "asynchronous" 프레이밍은 이를 아키텍처 선택으로 명시적으로 한다. 실패 모드는 S2가 확장된 기간 동안 어떤 업데이트도 생산하지 못하고 과제가 S2의 마지막 알려진 분포 밖으로 표류할 때다.

9.6 매개변수 규모

세 계층은 매개변수 수에서 각각 대략 한 자릿수 차이다.

System 0: 10M 매개변수(Figure Helix 02의 학습된 S0) 또는 ~0 매개변수(Boston Dynamics의 전신 QP). 가장 작거나 부재, System 0의 역할이 추론이 아니라 정직한 실현이기 때문.
System 1: 100M에서 1B 매개변수. HOVER는 1.5M(작음). Figure Helix S1은 공개되지 않았지만 수억을 함축. GR00T N1의 diffusion transformer는 860M. GR00T N1.5는 유사한 매개변수 수로 N1 대비 ~10% 개선을 보고한다.
System 2: 1B에서 10B 매개변수. Figure Helix 02의 S2는 7B. GR00T N1의 S2는 1.34B. π0(8장 §8.7)은 flow-matching head와 함께 총 3B. OpenVLA는 7B.

매개변수 규모 진행은 합리적 논리를 따른다. System 0의 물리적 실현은 언어 규모 매개변수로부터 이익을 얻지 않는다. System 1의 visuomotor 조율은 중간 매개변수 수로부터 이익을 얻는다 — 비전과 proprioception과 행동 다중 모드를 다루기에 충분한 정도. System 2의 과제 추론은 그것이 끌어오는 지식 영역에 맞추기 위해 언어 규모 매개변수를 필요로 한다.

매개변수 규모 진행의 결과: 세 계층은 온보드 compute에 다른 요구를 한다. System 0은 어떤 임베디드 제어기에도 편안하게 맞는다. 100–200 Hz의 System 1은 Jetson급 또는 작은 accelerator에 맞는다. 7B+ 매개변수의 System 2는 compute 프런티어다. 7–9 Hz에서의 Figure의 온보드 7B 주장이 바로 하중을 지탱하는 아키텍처 베팅이다.

9.7 옛 전처리 파이프라인 대 새 비동기 계층

1장 §1.6이 정통 planner-controller 분리를 기술했다. 발걸음 계획기가 느린 속도로 이산적 발 배치를 선택하고, 전신 QP가 1 kHz에서 그들을 실행했다. 아키텍처가 피상적으로 2-레이어 시스템처럼 보였고, 독자는 2026 System 0/1/2 스택이 구조적으로 어떻게 다른지 궁금해할 수 있다.

critical-analyst의 novelty_matrix §3이 5축 비교 표를 제공한다. 축은:

결합: 정통 = 순차적(계획기가 계획을 생산, 제어기가 실행). 현대 = 동시적(세 계층이 다른 clock에서 돔).

타이밍: 정통 = plan-to-commitment(계획기가 커밋, 제어기가 다음 계획까지 실행). 현대 = rolling latent(S2 잠재가 지속적으로 업데이트되고 소비됨. 엄밀히 커밋된 것이 없음).

실패 모드: 정통 = stale plan(제어기가 더 이상 현실에 일치하지 않는 계획을 실행. 머뭇거리는 발걸음, 낙하). 현대 = 분포 표류(정책이 학습 분포 밖 입력에 부딪힘. 우아한 열화 또는 안전 필터 개입).

적응 원천: 정통 = 재계획(실패 탐지, 계획기 재실행). 현대 = history encoder(정책이 학습된 가중치 안에서 state-action 이력으로부터 암묵적으로 적응).

인터페이스 계약: 정통 = typed task-space 궤적(계획기가 QP가 직접 추종하는 Cartesian 또는 관절 공간의 궤적 방출). 현대 = 잠재 조건화(S2가 S1이 고정 타입 서명이 아니라 학습된 attention을 통해 해석하는 과제 수준 잠재 방출).

5축 비교가 변화가 단순히 "VLM을 위에 추가"가 아님을 명료화한다. 시스템의 계층 사이 정보가 어떻게 흐르는지의 재아키텍처다. 정통 파이프라인은 순차적이고 강하게-타입되었다. 현대 아키텍처는 동시적이고 잠재-타입된다. 이것은 배포에 중요하다. 정통 파이프라인의 실패 모드는 진단적이었다(어떤 부분이 실패했는지 알 수 있었다). 현대 아키텍처의 실패 모드는 통계적이다(정책이 입력이 분포 밖이었기 때문에 나쁜 행동을 생산했다).

구조적 결과: BD의 하이브리드 MPC+RL 아키텍처(11장)가 MPC 계층에서 정통 스타일 typed 인터페이스를 보존하면서 적응성을 위해 RL을 위에 쌓는다. 하이브리드 아키텍처는 적응성의 일부 비용으로 정통 파이프라인의 진단적 명료성을 수용한다. end-to-end 학습 아키텍처(Figure, AgiBot, GR00T)는 적응성의 이익으로 잠재-타입된 불투명성을 수용한다. 어느 아키텍처 선택이 지배하는지가 살아있는 Part IV 질문이다.

9.8 장애 허용성과 fallback 의미론

인터페이스 계약은 아키텍처의 절반일 뿐이다. 나머지 절반은 인터페이스가 열화할 때 일어나는 일이다. 세 패턴이 문서화되었다.

S2 가용 불가: S1은 stale S2 조건화로 계속된다. 프로덕션 스택은 S2 잠재 지연에 robust하도록 S1을 설계한다 — 수 초까지. 라이브 S2를 요구하는 과제(새로운 장면 추론)는 보수적 모드로 기본값화하여 우아하게 실패한다.

S1 가용 불가: S0는 고전 fallback(명령된 관절 위치에 대한 PD, 또는 짧은 지평선 MPC)으로 떨어진다. Agility의 Motor Cortex "always-on safety layer" ^[12]가 이 fallback이다. Boston Dynamics의 MPC+RL 하이브리드가 fallback을 명시적으로 만든다. Figure는 S1 가용 불가 프로토콜을 공개하지 않았다.

S0 가용 불가: 로봇은 kHz 속도로 응답할 수 없고, 하드웨어 수준 인터록(토크 한계, watchdog timer, E-stop)이 인수한다. 이것이 가장 낮은 수준 안전 계층이고 거의 항상 고전적이다.

Fallback 계층 구조는 사치가 아니라 배포 전제 조건이다. 인간과 공유 작업 공간에서 작동하는 산업 휴머노이드(15장)는 안전 인증(ISO 10218, ISO/TS 15066)을 충족하기 위해 진단적 실패 모드를 필요로 한다. 고전 S0를 통해 우아하게 열화할 수 있는 학습된 System 1은 fallback이 없는 학습된 System 1과 안전 목적에서 질적으로 다르다. 15장의 제조피지컬AI 논의가 한국 규제 태도 맥락에서 이 점으로 돌아간다.

9.9 온보드 대 클라우드 추론

자주 under-discussed인 아키텍처 선택: System 2의 추론이 물리적으로 어디에서 일어나는가? 세 옵션.

완전 온보드: S0, S1, S2 모두 로봇의 로컬 compute에서 돈다. Figure Helix 02가 공개 모범 사례다 — 7–9 Hz의 온보드 7B VLM ^[9]. 제약: 공격적 전력과 열 예산의 임베디드 GPU, 전형적으로 50–200 W 지속.

분할 온보드 / 클라우드: S0와 S1은 온보드, S2는 가까운 edge compute 노드 또는 클라우드에. GR00T N1의 공개 평가가 L40급 GPU에서 이루어진 것은 적어도 일부 실험에서 분할 구성이 쓰였음과 일관된다. 제약: 클라우드로의 네트워크 지연, 이는 저연결성 환경(공장, 재난 현장)에서 무너진다.

S0 외에는 완전 클라우드: S0만 온보드. 어떤 휴머노이드 시스템에도 공개 문서화되지 않았지만 일부 teleoperation-bridge 개념에 존재한다.

온보드-대-클라우드 선택은 중립적 엔지니어링 결정이 아니다. 어느 배포 환경이 실행 가능한지 형성한다. 5G / WiFi 연결성을 갖는 공장은 분할 온보드/클라우드를 지원할 수 있다. 해상 석유 플랫폼, HIPAA 제약을 갖는 병원, 또는 데이터 잔류 규제를 갖는 공장(한국 반도체 fab이 전형적)은 완전 온보드 배포를 요구한다. 특화된 한국 칩(Rebellions, DEEPX)이 전략적이라는 15장의 주장은 이 제약에 근거한다. 한국 규제와 산업 환경이 완전 온보드 배포를 선호하고, 이것이 다시 특화된 accelerator에 대한 시장을 만든다.

9.10 기업별 매핑

Part IV에서 논의되는 네 아키텍처를 3-레이어 프레임워크에 간결하게 매핑.

기업	System 0	System 1	System 2	결합
Figure (Helix 02)	10M 학습, 1 kHz	visuomotor, 200 Hz	7B VLM, 7–9 Hz 온보드	end-to-end 학습, 타이트
NVIDIA (GR00T N1)	고전 PD / 외부	860M diffusion, ~120 Hz head	1.34B VLM	모듈러, 연구 지향
AgiBot (GO-2)	미지정 저수준	고주파수 비동기 S1	저주파수 semantic 계획	비동기, 기업 수직
Boston Dynamics	전신 QP + MPC	MPC 위의 RL 계층	TRI Large Behavior Model	하이브리드 MPC+RL (11장)
Agility (Motor Cortex)	전신 QP "always-on"	학습된 전신, 미지정	과제 수준 외부	안전 우선 계층화

표는 Part IV에 대한 읽기 scaffold이지, 9장의 관점이 각 기업이 분석되어야 하는 방법을 결정한다는 주장이 아니다. 각 행은 아키텍처를 맥락에서 전개하는 자체 Part IV 장을 갖는다. 여기의 매핑은 장들이 일관될 것이라는 약속이다.

9.11 Behavior Foundation Model 프레이밍

동일 영토의 동시 학술 프레이밍이 Behavior Foundation Model (BFM) 연구 라인이며, 2025년 Yuan 외에 의해 조사되었다 ^[14]. BFM은 언어로부터의 foundation-model 프레이밍의 유사체다. 하류 과제가 적응하는 사전 학습된 전신 제어기. BFM과 System 0/1/2 아키텍처 사이의 관계는 BFM이 S1이 무엇인지를 기술한다는 것이다. 사전 학습된 generalist 정책. System 0/1/2는 아키텍처 기술이다. BFM은 그 아키텍처를 먹이는 사전 학습 프레임워크다.

9장의 기여는 BFM 서베이와 경쟁적이 아니라 보완적이다. BFM 서베이의 강점은 사전 학습 파이프라인, 과제 지정, 하류 적응 방법의 분류학이다. 이 장의 강점은 §9.7과 §9.10의 교차 기업 인터페이스 계약 비교다 — 네 지배적 프로덕션 스택에서 세 계층이 서로 어떻게 대화하는지의 구조적 질문. BFM 중심 관점을 원하는 독자는 9장과 함께 서베이를 읽어야 한다. 두 관점은 본질에 대해 불일치하지 않는다.

Hierarchical RL은 더 넓게는 S1/S2 인터페이스 경계에서 BFM 프레이밍의 연구 측 형제다 — 고수준 모션 primitive 선택기(느림)와 저수준 모터 정책(빠름)으로의 분해가 System 0/1/2 아키텍처가 배포하는 사전 학습된 S1/S2 조합을 생산하며, BFM 서베이가 그 사전 학습 문헌을 기법 카탈로그 깊이에서 조직한다.

9.12 열린 질문

세 질문이 장을 닫는다.

첫째, 3-레이어 분해가 올바른 추상화인가, 아니면 2025–2026 compute 예산의 아티팩트인가? 임베디드 GPU 추론이 다음 5년에 10× 개선되면 주파수와 매개변수 수 모두 이동할 수 있다. 1 kHz의 System 0이 System 1이 1 kHz에서 직접 돌 수 있다면 불필요해질 수 있다. 7–10 Hz의 System 2는 50+ Hz 범위로 가속하여 그것이 서비스할 수 있는 과제를 바꿀 수 있다. compute 세대에 걸친 아키텍처의 지속성은 알려지지 않았다.

둘째, S1 ↔ S2에 올바른 인터페이스 계약 표준은 무엇인가? 각 기업이 자신의 형식을 쓴다. 교차 embodiment 이동성(gap 분석의 Gap 4)은 어떤 수렴에 의존한다. IEEE / ISO 표준화 노력이 시작되고 있다. 15장의 한국 산업 전략 주장이 표준 소유권 질문으로 이에 돌아간다.

셋째, 3-레이어 아키텍처는 반복적 / 도구 사용 행동을 갖는 추론 시스템을 어떻게 수용하는가? 현재 S2는 주로 feedforward VLM 호출이다. 확장된 다단계 계산(도구 사용, 검색과 계획, 시뮬레이션 롤아웃)을 요구하는 과제 수준 추론은 7–10 Hz 예산에 맞지 않는다. 추론을 위한 네 번째 "System 3"이 등장하는지 — 또는 S2가 단순히 범위를 확장하는지 — 가 2027–2030 구간에 대한 자연스러운 후계 질문이다.

9.13 10장으로의 다리

9장이 아키텍처를 확립했다. 10장이 무엇이 그것을 채우는지 살펴본다. 특히 System 2와 (일부 아키텍처에서) System 1도 차지하는 VLM-VLA 가계. OpenVLA, GR00T N1/N1.5, Figure Helix, AgiBot GO-1/GO-2, π0가 2024–2026 기술 수준 항목이다. 10장이 그들을 스택별로 비교하고, 교차 embodiment 일반화 질문을 전개하며, VLA 추동 loco-manipulation 통합에 대한 Part III 판결로 닫는다.

참고문헌

Kahneman, D. (2011). Thinking, Fast and Slow. Farrar, Straus and Giroux.
Vaswani, A., et al. (2017). Attention is all you need. Proc. NeurIPS. arXiv:1706.03762.
Chi, C., et al. (2023). Diffusion policy: Visuomotor policy learning via action diffusion. Proc. RSS.
Lipman, Y., et al. (2022). Flow matching for generative modeling. Proc. ICLR.
Radosavovic, I., et al. (2024). Real-world humanoid locomotion with reinforcement learning. Science Robotics. arXiv:2303.03381.
Radosavovic, I., et al. (2024). Humanoid locomotion as next token prediction. NeurIPS. arXiv:2402.19469.
He, T., et al. (2024). HOVER: Versatile neural whole-body controller for humanoid robots. Proc. IEEE ICRA 2025. arXiv:2410.21229.
Figure AI. (2025). Helix: A vision-language-action model for generalist humanoid control. Figure AI tech blog, February 2025.
Figure AI. (2026). Figure 03 + Helix 02: General-purpose humanoid system. Figure AI announcement, January/February 2026.
Bjorck, J., et al. (2025). GR00T N1: Open foundation model for generalist humanoid robots. NVIDIA technical report and arXiv preprint.
AgiBot. (2026). GO-2 asynchronous dual-system humanoid control architecture.
Agility Robotics. (2025). Motor Cortex: Whole-body control foundation model for Digit.
Cheng, X., et al. (2025). From experts to a generalist: Toward general whole-body control for humanoid robots. arXiv preprint 2506.12779.
Yuan, M., et al. (2025). A survey of behavior foundation model: Next-generation whole-body control system of humanoid robots. arXiv preprint 2506.20487.