Part I: 정통파 스택과 그 유산

Chapter 3: 패러다임 전환 개관

집필일: 2026-04-24 최종수정일: 2026-04-24

3.1 논제와 독자별 길잡이

이 장은 지도다. 휴머노이드 회사에서 일한다면, 이 책의 나머지는 항해 연습이다. 여러분의 스택은 이 지도 위 어딘가에 놓여 있고, 흥미로운 질문은 네 기폭제 의존성 그래프와 3-레이어 아키텍처에 대해 어디에 앉아 있는가다. 이후 장들은 튜토리얼이 아니다. 지도가 정확하게 그려졌다는 증거다.

이 지도가 예시하는 논제는 이렇다. 휴머노이드 제어는 규범적 모델 기반 최적화에서 분포 커버 학습 암묵 모델로 체제가 전환되었고, 새 체제는 이제 System 0/1/2 스택을 통해 조작과 언어를 흡수할 권리를 얻었다. 네 기폭제가 이 전환을 이끌었다 — Quasi-Direct-Drive(QDD) 액추에이터, GPU 병렬 시뮬레이션, history encoder를 갖춘 teacher-student 강화학습, 그리고 sim-to-real 보정 도구. 각각은 필수다. 어느 하나만으로는 충분하지 않다. 이 네 가지의 결합이 1장이 감사한 정통파 LIPM/ZMP/QP 파이프라인을 붕괴시켰고, 9장이 정식화할 아키텍처를 열었다.

3장은 네 가지를 한다. 첫째(§3.2), 네 기폭제 사이 상호의존성 그래프를 그린다 — 단일 기폭제만으로는 왜 충분하지 않았는지, 그리고 각 기폭제가 다른 것들을 어떤 특정 방식으로 떠받치는지. 둘째(§3.3), 2015년부터 2026년까지의 역사적 타임라인을 펼쳐서 각 기폭제가 언제 유효성 문턱을 넘었는지, 왜 2019–2021년과 2023–2026년이 두 결정적 구간인지 보인다. 셋째(§3.4), Part II 기폭제 판결 을 요약한다 — 각 기폭제에 대한 한 줄 "해결됨 / 부분 해결됨 / 여전히 열림" 판정으로, 이 책의 gap 분석에서 추출되어 4~7장의 말미에 재인용된다. 넷째(§3.5), 페르소나별로(엔지니어, 연구자, 제조 전략가, 정보 있는 기술 독자) 네 개의 독자 경로를 제공하여 책의 나머지가 네 경로 중 어느 것 위에서도 유용하게 읽힐 수 있게 한다.

3.2 네 기폭제와 그 상호의존성

네 기폭제 각각은 자족적인 지적 역사를 갖는다. 그러나 체제 전환은 네 가지를 동시에 요구했고, 의존성의 순서는 넷 중 셋이 나머지 하나 없이는 불충분했을 만큼 빽빽하다.

기폭제 1 — QDD 액추에이터 (4장). 외전형 BLDC 모터에 저기어비 유성기어를 결합하고 모터 전류 기반 토크 추정을 계측한 구성으로, backdrivability, 고제어 대역폭, proprioceptive 지면 반력 감지를 조합한다 ^[1]. QDD가 없었다면 학습된 정책은 명령된 관절 토크를 정직하게 실행하지 않는 하드웨어 위에서 돌았을 것이다. 모든 현대 System 0 안에 있는 PD 추종 가정이 실패하고, 학습-배포 간극이 닫히지 않았을 것이다. QDD는 정직한 기저층이다. 4장이 이 주장을 자세히 전개한다.

기폭제 2 — GPU 병렬 시뮬레이션 (5장). 정책 네트워크와 GPU 메모리를 공유하는 물리 시뮬레이터로, 수천에서 수백만 개의 환경이 병렬로 스텝하게 하고 CPU-GPU 전송 병목을 제거한다 ^[4]. GPU 병렬성이 없었다면 휴머노이드에 대한 심층 RL의 샘플 복잡도는 wall-time상 금지적이다. 정책은 중요해지기에 너무 좁거나, 각 ablation 전에 몇 주씩 학습해야 한다. GPU 시뮬은 샘플 엔진이다. 5장이 이 주장을 전개한다.

기폭제 3 — history encoder를 갖춘 teacher-student RL (6장). RL 정책을 시뮬 전용에서 하드웨어 배포 가능으로 끌어올리는 학습 레시피. 지면 진실, 페이로드, 동역학에 대한 특권적 접근을 갖는 teacher를 학습시키고, proprioceptive 관측만 갖고 최근 state-action 이력으로부터 특권 컨텍스트를 추론하는 학습된 history encoder (TCN → LSTM → Transformer)를 갖는 student로 그 행동을 증류한다 ^[8]. teacher-student 레시피가 없었다면 정책은 sim-to-real 루프를 닫을 수 없고, history encoder가 없었다면 재학습 없이 온라인으로 적응할 수 없다. history encoder를 갖춘 teacher-student는 적응 정책 클래스다. 6장이 이 주장을 전개한다.

기폭제 4 — Sim-to-real 보정 (7장). 시뮬레이션된 정책이 하드웨어에서 실행되게 하는 기법의 포트폴리오. 넓은 분포 도메인 랜덤화, 시스템 식별과 액추에이터 네트워크, 학습된 delta-action 모델을 통한 잔차 보정 ^[14]. sim-to-real 보정이 없었다면 GPU 학습된 teacher-student 구조 정책조차 실험실 유물일 뿐이다. Sim-to-real은 배포 계약이다. 7장이 이 주장을 전개한다.

네 기폭제 사이 의존성은 양방향으로 깨끗하게 읽힌다. 정방향 읽기: QDD가 GPU 시뮬된 정책이 학습할 수 있는 정직한 기저층을 제공하고, GPU 시뮬이 teacher-student 증류를 가능하게 하는 샘플 볼륨을 제공하며, history encoder를 갖춘 teacher-student가 sim-to-real 보정이 남은 간극을 닫을 만큼 robust한 정책을 생산하고, sim-to-real 보정이 학습된 정책을 실제 로봇 위에서 돌게 만든다. 역방향 읽기: 네 기폭제 중 어느 하나를 제거하면 전체 사슬은 특정 지점에서 끊어진다. QDD 제거: 정책이 하드웨어가 정직하게 실행할 수 없는 토크를 학습한다. GPU 시뮬 제거: teacher가 학습할 샘플 커버리지가 불충분하고, student는 그 간극을 상속한다. teacher-student 제거: 정책에 적응 컨텍스트가 없어지고, DR 단독으로는 환경 분포의 긴 꼬리에서 붕괴한다. sim-to-real 보정 제거: 정책은 시뮬에서 잘 돌고 배포에서 못 돈다.

이것이 2015년에서 2023년까지 전환이 걸린 이유다. 네 기폭제가 독립적 궤적으로 성숙했고, 이 넷의 동시 존재만이 휴머노이드 보행을 실제로 출하할 수 있는 패러다임을 생산했다. Hwangbo 외 2019년 논문 ^[8]이 다리형 로봇(ANYmal, 4족)에 결합된 스택의 첫 엄밀한 시연이다. Radosavovic 외의 2024년 Digit 작업 ^[13]은 풀사이즈 휴머노이드에 대한 첫 엄밀한 시연이며, 그의 Berkeley-EECS 내러티브 동반 ^[13]과 함께한다. Radosavovic의 박사학위 논문 프레이밍에 담긴 패러다임 전환의 thesis-level 설명은, 전환을 한 연구실의 관점에서 단일 서사로 읽고자 하는 독자에게 유용한 역사적 1차 소스다.

3.3 역사적 타임라인

체제 전환은 의존성 그래프보다 타임라인으로 더 판독 가능하다. 두 구간이 지배한다.

구간 A — 2015–2021: 기폭제가 독립적으로 유효해진다. 2015년에 네 기폭제 중 어느 것도 보편적으로 가용하지 않았다. MIT의 Cheetah ^[3]는 QDD 레퍼런스였지만 아직 소수의 연구실을 넘어 확산되지 않았다. GPU 병렬 시뮬레이션은 연구 프로토타입이었다. 로보틱스에 대한 심층 RL은 Kober 2013이 목록화한 좁은 과제 영역에서 살았다 ^[16]. Sim-to-real은 포부였다. 2015년 DARPA Robotics Challenge(1장)는 정통파 스택의 공적 천장으로 끝났다. 2015년과 2021년 사이에 각 기폭제는 대략 이 순서로 각자의 유효성 문턱을 넘었다. QDD는 Mini Cheetah 플랫폼 ^[2]과 Unitree의 초기 4족 로봇으로 학계에서 재현 가능해졌다. GPU 시뮬은 Isaac Gym ^[4]으로 표준이 되었다. history encoder를 갖춘 teacher-student는 Hwangbo 2019, Lee 2020, Kumar 2021, Siekmann 2021을 경유하여 지배적 RL 레시피가 되었다. Sim-to-real 보정은 DR과 액추에이터 네트워크 접근에 걸쳐 통합되었다.

구간 B — 2021–2026: 통합과 휴머노이드 배포. Rudin 외의 2021년 CoRL 논문 ^[5]이 네 기폭제가 단일 판독 가능 파이프라인 — "분 단위의 ANYmal" — 으로 결합될 수 있다는 시연이었고, 그 시점에서 분야의 관심은 "이게 될까?"에서 "얼마나 스케일할 수 있나?"로 선회했다. 2021년과 2023년 사이에 레시피는 embodiment 위계를 타고 올라갔다. 4족(ANYmal, Go1, A1)에서 작은 이족 플랫폼(Cassie, Digit)으로, 그리고 풀사이즈 휴머노이드로. Radosavovic 외의 2024년 Science Robotics 논문 ^[13]이 신호 사건이다 — Digit 위에서 완전 학습된 휴머노이드 보행, 낯선 지형에서 야외 1 km 걷기 포함. 2024–2026년까지 스택은 현재의 성숙도에 도달했다. Figure의 Helix와 Helix 02 ^[18] 프로덕션 시스템, AgiBot의 GO-1과 GO-2 ^[23], Agility의 Motor Cortex ^[25], Unitree의 공개 unitree_rl_gym ^[26], 그리고 보행에서 loco-manipulation 프런티어로의 확장(10장).

두 구간 중 어느 쪽에서도 일어나지 않은 것도 똑같이 교훈적이다. 어떤 단일 학술 그룹이 패러다임 전환을 "발명"하지 않았다. 그것은 적어도 열 개 이상의 그룹이 부분적으로 독립적으로 움직인 산물이며, Berkeley-Malik-Sreenath-Darrell 축, ETH Hutter 그룹, IHMC Hurst-Pratt 계보, MIT Kim 연구실, NVIDIA Isaac 팀, Boston Dynamics 내부 프로그램이 각각 대체 불가능한 조각들을 기여했다. Annual Reviews의 최근 서베이 작업 ^[17]과 Gu 외의 2025년 arXiv 서베이 ^[18]는 이 다중 그룹 수렴을 적절한 학술 고도에서 기록한다. 이 장의 기여는 타임라인 자체가 아니라, 타임라인이 왜 이런 모양을 가질 수밖에 없었는지를 설명하는 상호의존성 지도다.

3.4 Part II 기폭제 판결

이 절은 네 기폭제 각각에 대한 "해결됨 / 부분 해결됨 / 여전히 열림" 판결을 통합한다. 각 판결은 이 책의 Part II 말미 절들을 감싸는 gap 분석에서 나왔다. 같은 판결이 4, 5, 6, 7장의 말미에 압축된 형태로 등장한다. 아래 표는 산업 전략 토론에 인용 준비가 되어 있다.

판결 1 — QDD 액추에이터: 해결됨 (commodity). MIT Cheetah 설계 원리 — 외전형 BLDC, 저기어비 유성기어, 모터 전류 토크 추정, 지표로서의 Impact Mitigation Factor (IMF) ^[1] — 는 이제 상용 플랫폼 전반에 걸쳐 재현된다(Unitree G1: US$16,000; Berkeley Humanoid; 학술 ToddlerBot: US$6,000 미만). 하드웨어 primitive는 commoditized되었다. 남은 열린 것은 산업 duty cycle에서의 열·전류 보정, 그리고 핑거팁 촉각 센싱과의 커스텀 통합(Figure 03의 3그램 핑거팁 로드셀이 한 사례)이다. 열린 아키텍처 질문은 남지 않았다. 4장이 이 판결로 닫힌다.

판결 2 — GPU 대규모 병렬 시뮬레이션: 해결됨 (표준화). Isaac Gym ^[4], Rudin의 legged_gym 레시피 ^[5], Isaac Lab / Orbit ^[6], MuJoCo MJX와 Playground ^[7], Humanoid-Gym [Gu et al., 2024], Booster Gym, Genesis가 집합적으로 학습을 수일에서 수 분으로 단축시키며 초당 수백만 환경 스텝의 처리량을 낸다. Zakka 외 2025는 단일 GPU 학습 15분 내에 sim-to-real 보행을 보고한다. 남은 열린 것은 조작과 변형·유체 체제에 대한 접촉 정확도 충실도다 — RL 처리량 문제가 아니다. 미분 가능 시뮬레이션 ^[19]은 추가 샘플 효율성을 잠금 해제할 가능성이 있는 인접 연구 프런티어다. 5장이 이 판결로 닫힌다.

판결 3 — history encoder를 갖춘 teacher-student RL: 부분 해결됨. 정통 레시피 — Hwangbo 2019 액추에이터 네트워크, Lee 2020 teacher-student, Kumar 2021 RMA, Siekmann 2021 Cassie, Radosavovic 2024 causal Transformer — 는 Cassie, Digit, Unitree G1과 H1, Booster T1, Berkeley Humanoid에 걸쳐 재현·배포 가능하다. history encoder는 TCN → LSTM → Transformer로 이동했다. 남은 열린 것: (a) 온보드 추론에 대한 컨텍스트 길이와 지연의 trade-off, (b) Radosavovic의 단일-transformer 증류 범위를 넘어서는 다기술 통합, (c) 1 kHz 실시간 보장을 잃지 않고 System 0/1 정책에 언어 조건화. 6장이 이 판결로 닫힌다.

판결 4 — Sim-to-real 보정: 부분 해결됨. 세 전략이 공존하고 적층된다. 도메인 랜덤화(지배적 기본값), 시스템 식별과 액추에이터 네트워크(Hwangbo 2019 스타일), 잔차/delta-action 보정(ASAP ^[15] — 20분 실데이터 미세 조정으로 민첩한 동작에서 53% RMSE 감소). 경계 접촉 보행에 대해서는 문제가 닫혔다. 접촉 풍부 조작에 대해서는 부분적으로 다뤄졌다. ManipTrans ^[28]가 잔차 학습 기반 양손 민첩 조작 전이를 시연함으로써, 양손 잔차 행동이 전혀 탐색되지 않았다는 이전 주장에 대한 한 구체적 2025년 반례를 제공한다. OmniRetarget 스타일의 상호작용 메시 접근 [OmniRetarget, 2025]은 물체 메시가 가용할 때 여전히 가장 강력하다. 남은 프런티어는 사전 물체 메시 없이, 과제별 시연 데이터 없이 접촉 풍부 양손 조작이다 — 7장과 15장이 모두 가리키는 핵심 병목으로 남아 있고, Part V가 한국 제조가 공격하기에 이례적으로 좋은 위치에 있다고 주장하는 중심 열린 문제다. 7장이 이 판결로 닫힌다.

전략적 요지를 원하는 독자는 네 판결을 한 문장으로 받을 수 있다. 보행은 2024–2026년 기준으로 해결된 primitive이고, 남은 프런티어는 dexterous manipulation이며, 남은 프런티어의 경제적 가치는 산업 배포에 집중된다. 15장이 이 전략적 요지를 제조피지컬AI 렌즈를 통해 전개하고, 16장이 요지를 단계적 확산 시나리오로 전환한다.

3.5 페르소나별 독자 경로

이 책은 네 독자층을 위해 동시에 쓰였다. 각 페르소나는 뚜렷한 진입 궤적과 뚜렷한 take-away를 얻는다. 네 궤적은 Part II–IV를 가로지르며 의도적으로 비선형이다. 페르소나별로 가치 제안이 다르기 때문이다.

페르소나 A — 휴머노이드 엔지니어 (Figure, Agility, Unitree, AgiBot, Boston Dynamics, 1X, Fourier, Rainbow, 또는 차세대 프런티어 통합자의 실무자): 3장(이 지도)을 먼저 읽고, 9장(System 0/1/2 아키텍처), 11–13장(경쟁 정보를 위한 선두 기업 심층 분석), 이후 4–7장(기폭제 재근거화), 15장(전략 메뉴로서의 네 차별화 축) 순으로 돌아온다. Take-away: 내부 아키텍처 선택 중 수렴 경로에 있는 것과 추세에서 벗어나 정당화가 필요한 것의 보정된 판단, 그리고 내부 아키텍처 토론을 위한 구조적 어휘.

페르소나 B — 로보틱스 연구자 (로보틱스 또는 체화 AI PhD 학생, 박사후, 교수; 아마 CoRL/RSS/ICRA/IROS/Science Robotics/NeurIPS): 3장(개관), 8장(현대 이론 입문 — RL, Transformer, diffusion policy, VLA), 6장(학습 정전), 7장(sim-to-real), 10장(VLA), 그리고 학위 주제를 범위화하기 위한 동반 문서로 gap 분석을 사용한다. Take-away: 네 기폭제 각각이 해결되었는지, 부분 해결되었는지, 여전히 열려 있는지에 대한 논증된 평가, 단기·중기·장기 태그를 갖는 gap 인벤토리, 그리고 영어권 리뷰에서 체계적으로 과소 커버되는 한국 생태계 작업에 대한 노출.

페르소나 C — 제조 전략가 (한국 대기업, 정부 기관, VC 회사, 대형 연구 병원의 전략·정책·투자 전문가; 기술 문헌을 선택적으로 읽고, P&L, 5년 자본 투자 계획, 기술 준비도 평가로 살고 있음): 서문의 임원 요약, 3장(이 장, 한 자리에서), 14–16장(한국 + 차별화 + 확산), 11–13장(경쟁 맥락으로서의 프런티어 기업), 기술적 깊이는 Part II–III를 주문형으로. Take-away: 한국 생태계가 하드웨어 신뢰 가능하지만 VLA 데이터 뒤처져 있고 온보드 foundation model 뒤처져 있다는 진단, 한국이 US/중국 foundation model 공급업체에 대한 commodity 하드웨어 공급업체가 되지 않기 위해 소유해야 할 네 차별화 축을 규정하는 제조피지컬AI 프레임워크, 그리고 투자를 순서화하는 단계적 확산 시나리오.

페르소나 D — 정보 있는 기술 독자 (대중 AI 보도를 읽었지만 한 단계 더 깊이 가고 싶은 소프트웨어 엔지니어, ML 실무자, 과학 저널리스트, 기술적으로 소양 있는 의사결정자): 앞에서 뒤로 선형으로 읽는다. Part I–III는 내러티브이고, Part IV는 사례 연구이며, Part V는 정책과 미래다. Take-away: 2003년 Kajita에서 2026년 Figure Helix 02까지의 일관된 서술을 한 자리에서, 다음 NVIDIA GR00T 블로그 포스트나 Figure 발표를 맥락을 잃지 않고 읽을 수 있는 어휘, 그리고 시연된 것, 그럴듯하게 외삽된 것, 마케팅인 것 사이의 정직한 구분.

3.6 지도에 없는 것

지도에는 경계가 있다. 세 종류의 작업은 — 문헌에서 두드러지게 다뤄짐에도 — 패러다임 전환의 기폭제가 아니다. 이 제외를 이해하는 것이 논제를 날카롭게 한다.

텔레오퍼레이션으로부터의 imitation learning은 5번 기폭제가 아니다. 데이터 획득 전략이다 — 조작(10장)에 필수이고 Figure와 AgiBot의 프로덕션 스택에 중심적이지만 — 네 기폭제가 이미 정의하는 학습 정책 패러다임을 대체하지 않는다. 텔레오퍼레이션 데이터는 behavior-cloning 초기화 또는 보상 성형으로 스택에 들어간다. 기폭제에 대한 입력이지, 대안이 아니다.

Diffusion policy는 5번 기폭제가 아니다. 행동 디코더 아키텍처(8장)이며, 특히 조작에 생산적인 선택이다. System 1 안에 앉고, 3-레이어 아키텍처를 재구성하거나 기폭제를 대체하지 않는다. Chi 외 2023 작업 ^[20]은 이 디코더 패밀리에 대한 주목할 만한 기여다.

Vision-Language-Action (VLA) 모델은 5번 기폭제가 아니다. 패러다임 전환이 가능하게 한 것이다. 보행이 해결된 primitive가 되고 3-레이어 아키텍처가 자리를 잡으면, VLA는 System 2에 맞고 조작과 언어를 흡수하기 시작한다. 네 기폭제가 없었다면 VLA가 앉을 System 0/1 기저층이 없었을 것이다. 10장이 이를 전개한다.

이 구분이 중요한 이유는 이 책이 무엇을 위해 있는지를 명확히 하기 때문이다. 이 책은 2020년대 휴머노이드 연구의 모든 기법 카탈로그가 아니다. 특정 네 기폭제 결합이 체제 전환을 생산했고, 체제 전환의 결과가 여전히 세 가지 특정 방향(아키텍처, 기업 전략, 한국 배포)으로 펼쳐지고 있다는 주장이다. 2장은 옛 체제가 남긴 것을 감사했고, 3장은 이제 새 체제를 지도화했다. 4장부터 책은 각 기폭제를 차례로 살펴보고, Part III–V에서 기폭제들이 떠받친 것이 아니라 가능하게 한 것으로 돌아선다.

3.7 열린 질문

세 메타 질문이 이 장을 닫고 책 전반에 걸쳐 재등장한다.

첫째, 우리가 놓치고 있는 다섯 번째 기폭제가 있는가? 후보는 다음을 포함한다. 미분 가능 물리(4족에서 PPO 기준선 대비 10–100배 적은 시뮬레이션 스텝을 시연하는 Schwarke 외 2024 작업 ^[19] 참조), 신경 물리/보상 모델링, 자기 대전 또는 스케일 규모의 RL-from-human-feedback, 또는 인터넷 스케일 인간 동작에 사전 학습된 전신 foundation model의 성숙. 각각은 신뢰할 만한 후보다. 어느 것도 아직 네 본래 기폭제가 했던 교차 절단 필수성을 시연하지 못했다. 15장은 온보드 VLA, fleet learning, 교차 embodiment 전이가 2026–2030년 구간에 다섯 번째 기폭제를 생산할 가능성이 가장 높은 세 축이라고 주장한다.

둘째, 패러다임 변화가 영역을 가로질러 어떻게 이동하는가? 기폭제들은 보행을 위해 개발되었다. 조작 — 특히 dexterous 접촉 풍부 조작 — 은 보행과 일부 구조를 공유하지만(teacher-student, DR, history encoder, QDD 등가 손 액추에이터) 다른 측면에서 다르다(접촉 분포는 매개 prior에서 샘플링 가능하지 않고, 물체 기하는 유계가 없으며, 그립 topology는 이산적이다). 10장이 VLA에 대해 이 질문에 참여하고, 15장이 제조 배포에 대해 참여하며, 어느 쪽도 완전한 답을 찾지 못한다. 우리 분석의 Gap 1이 열린 문제의 가장 명료한 진술이다.

셋째, 패러다임이 기초 수준에서 무엇을 미해결로 남기는가? 안전과 형식 보장(Gap 6), 벤치마크 파편화(Gap 7), 에너지 효율성(Gap 8), 재현성(Gap 11), 아키텍처 인터페이스 표준화(Gap 13) 모두가 집필 시점에 미해결이다. 이 가운데 어느 것도 단일 기폭제의 결과가 아니다. 모두가 패러다임 전환의 빠르고 비조율된 산업적 채택의 결과다. 11–13장이 이 질문에 기업별로 참여하고, 14–16장이 국가별로 참여한다.

지도를 손에 쥐고, Part II는 이제 기폭제 각각으로 파고든다. 4장이 QDD 하드웨어로 시작한다. QDD가 그 위의 모든 것을 가능하게 하는 기저층이기 때문이다.

참고문헌

Wensing, P. M., Wang, A., Seok, S., Otten, D., Lang, J., & Kim, S. (2017). Proprioceptive actuator design in the MIT Cheetah: Impact mitigation and high-bandwidth physical interaction for dynamic legged robots. IEEE T-RO. (4장에서 상세.)
Katz, B., Di Carlo, J., & Kim, S. (2019). Mini Cheetah: A platform for pushing the limits of dynamic quadruped control. Proc. IEEE ICRA.
Seok, S., et al. (2013). Design principles for highly efficient quadrupeds and implementation on the MIT Cheetah robot. Proc. IEEE ICRA.
Makoviychuk, V., et al. (2021). Isaac Gym: High performance GPU-based physics simulation for robot learning. NeurIPS.
Rudin, N., Hoeller, D., Reist, P., & Hutter, M. (2021). Learning to walk in minutes using massively parallel deep reinforcement learning. Proc. CoRL.
Mittal, M., et al. (2023). Orbit: A unified simulation framework for interactive robot learning environments. (현재 Isaac Lab.)
Zakka, K., et al. (2025). MuJoCo Playground: A unified platform for robot learning.
Hwangbo, J., et al. (2019). Learning agile and dynamic motor skills for legged robots. Science Robotics.
Lee, J., Hwangbo, J., Wellhausen, L., Koltun, V., & Hutter, M. (2020). Learning quadrupedal locomotion over challenging terrain. Science Robotics.
Kumar, A., Fu, Z., Pathak, D., & Malik, J. (2021). RMA: Rapid motor adaptation for legged robots. Proc. RSS.
Siekmann, J., Godse, Y., Fern, A., & Hurst, J. (2021). Blind bipedal stair traversal via sim-to-real reinforcement learning. Proc. RSS.
Radosavovic, I., Xiao, T., Zhang, B., Darrell, T., Malik, J., & Sreenath, K. (2024). Real-world humanoid locomotion with reinforcement learning. Science Robotics.
Radosavovic, I. (2024). From catalysts to convergence: A paradigm shift in humanoid robotics. UC Berkeley EECS 박사학위 논문 및 공개 강연.
Tobin, J., et al. (2017). Domain randomization for transferring deep neural networks from simulation to the real world. Proc. IROS.
He, T., et al. (2025). ASAP: Aligning simulation and real-world physics for learning agile humanoid whole-body skills.
Kober, J., Bagnell, J. A., & Peters, J. (2013). Reinforcement learning in robotics: A survey. IJRR. doi:10.1177/0278364913495721.
Tang, C., Abbatematteo, B., & Hu, J. (2025). Deep reinforcement learning for robotics: A survey of real-world successes. Annual Review of Control, Robotics, and Autonomous Systems. doi:10.1146/annurev-control-030323-022510. arXiv:2408.03539.
Gu, Z., Li, J., & Shen, W. (2025). Humanoid locomotion and manipulation: Current progress and challenges in control, planning, and learning. arXiv preprint 2501.02116.
Schwarke, C., Klemm, V., & Tordesillas, J. (2024). Learning quadrupedal locomotion via differentiable simulation. Proc. CoRL. arXiv:2403.14864.
Chi, C., et al. (2023). Diffusion policy: Visuomotor policy learning via action diffusion. Proc. RSS.
Figure AI. (2025). Helix: A vision-language-action model for generalist humanoid control. Figure AI tech blog, 2025년 2월. https://figure.ai
Figure AI. (2026). Helix 02: Fully-onboard VLA with System 0. Figure AI 발표, 2026년 1/2월. https://figure.ai
AgiBot. (2025). AgiBot World Colosseo: A large-scale manipulation platform. arXiv preprint.
AgiBot. (2026). GO-2: Asynchronous dual-system humanoid control. ACL 2026.
Agility Robotics. (2025). Motor Cortex: An always-on safety layer for Digit. https://agilityrobotics.com
Unitree Robotics. (2024). Unitree G1 humanoid platform and `unitree_rl_gym`. Unitree 제품 출시.
Yang, H., et al. (2025). OmniRetarget: Interaction-preserving data generation for humanoid whole-body loco-manipulation and scene interaction. arXiv preprint 2509.26633.
Li, K., et al. (2025). ManipTrans: Efficient dexterous bimanual manipulation transfer via residual learning. Proc. CVPR. arXiv:2503.21860.