Part III: 2026 표준 스택

Chapter 8: 모던 이론 기본기

집필일: 2026-04-24 최종수정일: 2026-04-24

8.1 이 장의 목적

PPO, Transformer, diffusion policy, VLA를 다른 영역에서 이미 안다면 이 장은 30분 재보정이다. 모른다면 다리다. 다른 교과서로 넘나들지 않고 Part II와 III를 읽기에 충분한 형식 구조, 그 이상은 아님. 2017년 이후의 휴머노이드 문헌은 이 네 머신러닝 가계를 30–56-DoF, 1-kHz, 2-kW 하드웨어 현실로 수입하는 이야기이고, 이 책의 나머지는 그 수입을 감사한다.

2장이 옛 기본기를 다루었다. LIPM, ZMP, 전신 QP, MPC. 8장이 새 기본기를 다루며 그 짝 동반자다. 독자 경로: 고전 제어 훈련된 엔지니어는 2장(이미 친숙)을 8장(새 자료)과 짝지어야 한다. 딥러닝 훈련된 연구자는 8장(이미 친숙)을 2장(새 자료)과 짝지어야 한다. 어느 쪽이든 9장과 10장은 둘 다 가정한다.

이 장은 의도적으로 기법 카탈로그가 아니다. 2017년 이후 학습 기반 휴머노이드 스택의 포괄적 기법 커버리지를 원하는 독자는 Gu, Li, Shen의 2025년 arXiv 서베이 Humanoid Locomotion and Manipulation: Current Progress and Challenges in Control, Planning, and Learning ^[18]을 참조해야 한다 — 이 책의 4–10장에 대한 가장 가까운 학술 동반자로, 제어, 계획, 학습에 걸쳐 약 300편의 참고문헌을 갖는다. 현재 장은 다른 대상을 겨냥한다. Part II와 III를 따라가는 데 독자가 필요로 하는 최소 이론 어휘. 여섯 절이 충분하다. RL 예비(§8.2), policy gradient와 PPO(§8.3), off-policy 방법 TD3와 SAC(§8.4), in-context 적응으로서의 Transformer attention(§8.5), diffusion과 flow-matching 정책(§8.6), VLA 개념(§8.7). 일곱 번째 짧은 절(§8.8)이 6장이 호출한 특권 학습 패턴(teacher-student, DAgger, 비대칭 critic, HER)을 논의한다. 열린 질문(§8.9)이 닫는다.

8.2 강화학습 예비

강화학습은 Markov Decision Process(MDP)로 프레이밍된다. 튜플 $(S, A, P, r, \gamma)$ 이며, $S$ 는 상태 공간, $A$ 는 행동 공간, $P(s'|s,a)$ 는 전이 커널, $r(s,a)$ 는 보상, $\gamma \in [0,1)$ 은 할인율이다. 에이전트의 정책 $\pi(a|s)$ 가 행동을 생산한다. 목적은 기대 할인 수익 $J(\pi) = \mathbb{E}_\pi [\sum_t \gamma^t r(s_t, a_t)]$ 을 최대화하는 것이다. 값 함수 $V^\pi(s)$ 는 $\pi$ 하에서 $s$ 로부터 시작하는 기대 수익이다. 행동-값 $Q^\pi(s,a)$ 는 첫 행동을 추가한다. 이점 $A^\pi(s,a) = Q^\pi(s,a) - V^\pi(s)$ 는 상태 $s$ 에서 $a$ 가 평균보다 얼마나 더 좋은지를 측정한다.

휴머노이드 제어에 대해 $S$ 는 proprioception(관절 위치와 속도), base 상태(선형·각속도, base frame에서의 중력 벡터), 명령 입력(속도 명령 또는 목표 pose), 선택적으로 비전의 복합이다. $A$ 는 희망 관절 위치나 토크의 연속 벡터다(전형적으로 20–56차원). $P$ 는 로봇 플러스 환경 동역학이다. $r$ 은 속도 추종을 보상하고, 에너지 사용과 관절 한계 근접을 페널티하며, (참조 모션 정책에 대해) 참조 궤적 추종을 보상하는 다중 항 복합이다. $\gamma$ 는 전형적으로 0.99–0.995이다.

Kober, Bagnell, Peters의 2013년 IJRR 서베이 ^[1]가 딥 RL 이전의 강화학습-로보틱스 상태를 기록한다 — 전문가 설계 특성을 갖는 정책 검색, 학습된 기술당 수십에서 수백 번의 실 로봇 시도의 전형적 샘플 요구사항, 좁은 단일 기술 과제 커버리지. Tang, Abbatematteo, Hu의 2025년 Annual Review 서베이 ^[19]가 정통 현대 후계자로, 다리형 보행, 조작, 모바일 로보틱스를 포함한 2018–2024년 로보틱스의 딥 RL 성공 폭발을 기록한다. RL-in-robotics 전체 호를 원하는 독자는 Kober 2013과 Tang 2025를 연이어 읽어야 한다.

8.3 Policy gradient와 PPO

Policy gradient 정리는 $\nabla_\theta J(\pi_\theta) = \mathbb{E}_\pi [\nabla_\theta \log \pi_\theta(a|s) \, A^\pi(s,a)]$ 을 진술한다. 기대 수익의 gradient가 log-policy의 gradient와 이점의 기대 곱과 같다. REINFORCE는 가장 단순한 추정기(A 대신 Monte-Carlo 수익 사용)이다. Actor-critic 방법은 분산을 줄이기 위해 학습된 기준선을 쓴다. PPO는 gradient 스텝이 정책을 불안정하게 만드는 것을 막기 위해 clipping 트릭을 추가한다.

Proximal Policy Optimization (PPO) ^[3]가 휴머노이드 RL의 알고리즘 작업마다. 핵심 대상은 비율 $r_\theta(s,a) = \pi_\theta(a|s) / \pi_{\theta_{\text{old}}}(a|s)$ — 업데이트된 정책과 행동 정책 사이의 밀도 비율이다. PPO는 clipped surrogate 목적

L(\theta) = \mathbb{E} \left[ \min \big(r_\theta A^\pi, \text{clip}(r_\theta, 1-\epsilon, 1+\epsilon) A^\pi \big) \right]

을 $\epsilon \approx 0.1$ –$0.2$로 최적화한다. Clipping은 비율이 너무 멀리 움직이는 것을 막는데, 그렇지 않으면 중요도 샘플된 gradient 추정이 무효화된다. PPO는 on-policy(현재 정책의 롤아웃만 사용)이고, 구현이 직관적이며, 대규모 배치 GPU 학습 하에서 수치적으로 안정적이고, Isaac Gym / legged_gym / Humanoid-Gym과 6장 정전의 거의 모든 논문의 기본값이다.

PPO가 2018–2024년에 승리한 실용적 이유는 대규모 배치 시뮬레이션 하에서의 단순성-대-샘플-효율성 비율이다. 시뮬레이터가 초당 수백만 전이를 생산할 때(5장) PPO의 on-policy 제약 — 데이터가 현재 정책으로부터 와야 한다 — 은 비싸지 않다. 시뮬레이터가 느릴 때 PPO의 on-policy 제약은 금지적이고 off-policy 방법(다음 절)이 지배한다.

8.4 Off-policy 방법 — TD3와 SAC

Off-policy 방법은 on-policy 롤아웃만이 아니라 과거 전이의 리플레이 버퍼로부터 학습한다. trade-off는 알고리즘 복잡도 비용으로 증가된 샘플 효율성이다. 두 알고리즘이 연속 제어에 대한 2018–2024 off-policy 경관을 정의한다.

TD3 (Twin Delayed DDPG) ^[4]는 선행 DDPG를 신뢰할 수 없게 만든 Q-값 과대추정 편향을 공격한다. 세 트릭: (1) clipped double-Q 학습 — 두 Q-네트워크를 학습하고 target 계산에서 최소를 취함, (2) 지연된 정책 업데이트 — Q-네트워크보다 느린 속도로 정책 업데이트, (3) target policy 평활화 — 정책이 예리한 Q-값 피크를 활용하는 것을 막기 위해 target 행동에 작은 잡음 추가. TD3는 여러 MuJoCo 벤치마크에서 DDPG를 능가하고 DDPG 대비 과대추정 편향을 약 50% 감소시킨다 ^[4].

SAC (Soft Actor-Critic) ^[6]는 RL 목적에 최대 엔트로피 항을 추가한다. 기대 수익 플러스 온도 가중 엔트로피 보너스를 최대화한다. 엔트로피 보너스는 여전히 보상을 달성하면서 정책이 가능한 한 균일하도록 밀어 탐색을 장려한다. SAC는 자동 튜닝되고(온도가 학습됨), 연속 행동을 기본으로 처리하며, 가장 샘플 효율적인 연속 제어 알고리즘에 속한다. 연속 제어에서 SAC의 이론적 수렴이 분석되었다(예: ^[10] 엔트로피 보너스를 갖는 Soft-Actor-Critic에 대해). 실제로 SAC와 TD3는 가까운 경쟁자이며, 탐색이 더 중요할 때 SAC가 선호되고 안정성이 더 중요할 때 TD3가 선호된다.

TD3와 SAC 모두 FastTD3 Seo et al., 2025을 통해 휴머노이드 RL 주류로 돌아왔다. FastTD3는 병렬 시뮬레이션, 큰 배치 업데이트, distributional critic, 튜닝된 하이퍼파라미터를 결합한다. HumanoidBench에서 FastTD3는 단일 A100에서 3시간 미만에 locomotion-manipulation suite를 풀며, 험지 도메인 랜덤화 과제에서 PPO보다 2–5× 빠르다. off-policy의 귀환은 분야의 새롭게 감당 가능해진 알고리즘 선택을 반영한다. 초당 백만 환경 스텝 처리량으로 알고리즘 간 샘플 효율성 차이가 다시 나타난다.

두 중요한 off-policy 변종이 언급할 가치가 있다. Yarats 외의 DrQ-v2 [Yarats et al., 2021]은 시각 연속 제어를 위한 데이터 증강 RL을 밀어붙이며, off-policy RL + 이미지 증강이 시각-RL 벤치마크에서 지배함을 보인다. 조작에 대해, Zhao 외의 ACT (Action Chunking with Transformers) ^[14]은 모방 학습을 Transformer-over-action-chunks 정책과 결합한다. ACT는 저비용 하드웨어에서 세밀한 양손 조작을 시연하고 이후의 diffusion-policy 작업에 영향을 주었다.

8.5 Transformer와 in-context 적응

Vaswani 외의 Attention Is All You Need ^[2]이 이제 6장 §6.7의 휴머노이드 RL 정책 아키텍처를 포함한 현대 머신러닝을 지배하는 Transformer 아키텍처의 기원이다. 핵심 메커니즘은 스케일된 dot-product attention이다. 입력 토큰으로부터 유도된 query $Q$ , key $K$ , value $V$ 가 주어지면, 출력은 $\text{Attention}(Q, K, V) = \text{softmax}(QK^\top / \sqrt{d_k}) V$ 이다. Multi-head attention이 여러 학습된 투영에 걸쳐 이 메커니즘을 병렬로 돈다. Transformer 계층이 multi-head attention을 position-wise feedforward 네트워크와 layer normalization과 결합한다.

휴머노이드 정책에 대해 Transformer의 관련성은 과거 관측과 행동의 긴 컨텍스트에 주목할 수 있다는 것이다. 6장 §6.6이 더 긴 attention 창이 배포 robustness를 단조적으로 개선한다는 Radosavovic 2024의 발견을 기록했다 ^[23]. 이 발견 배후의 아키텍처 메커니즘은 Transformer attention이 in-context 시스템 식별과 기능적으로 동등하다는 것이다. 이력에 대한 attention 가중치가 "각 과거 시간스텝이 현재 상황과 얼마나 유사한지"를 인코딩하고, 가중 값 집계가 RMA(6장 §6.4)가 명시적 extrinsics 회귀를 통해 계산한 적응 신호가 된다.

실용적 제약은 추론 비용이다. Transformer attention은 시퀀스 길이 $L$ 에서 $O(L^2)$ 비용을 갖는다. 컨텍스트를 두 배로 하면 compute가 네 배가 된다. 100–200 Hz에서의 System 1 추론(9장)에 대해, 컨텍스트 길이는 정확도 천장이 아니라 하드웨어 추론 예산에 의해 경계된다. 긴 컨텍스트 온보드 Transformer 엔지니어링은 2026년 기준 활발한 연구 프런티어다. KV-캐싱(시간스텝에 걸쳐 과거 attention 계산 재사용)과 선형 attention 변종(FlashAttention 가계, Mamba 가계)이 지배적 최적화 접근이다.

휴머노이드 정책에 중요한 causal Transformer의 미묘한 속성: 위치 임베딩이 토큰의 시간 순서를 인코딩하지만, 모델은 관측 스트림을 엄격히 주기적으로 취급할 필요가 없다. 이것이 Radosavovic 외의 2024년 후속 ^[23]이 작동한 이유의 일부다. proprioception, 명령, 행동의 다중화된 스트림에 대한 autoregressive 다음 토큰 예측으로 제어를 재프레이밍하는 것이 Transformer의 시퀀스 모델링 추상화 하에서 자연스럽다.

8.6 Diffusion과 flow-matching 정책

Diffusion 모델 ^[8]은 점진적 noising 과정을 역전시키도록 학습하는 생성 모델 클래스를 지칭한다. 학습 목적은 주어진 시간스텝에 추가된 잡음을 예측하게 한다. 생성 시 모델은 순수 잡음에서 샘플로 반복적으로 denoise한다. Denoising Diffusion Probabilistic Models(DDPM)이 정통 참조다. 로보틱스에 대한 핵심 통찰은 행동이 생성되는 양이 될 수 있다는 것이다.

Diffusion Policy ^[13]가 이 메커니즘을 visuomotor 제어에 적용한다. 정책은 행동 궤적에 대한 noising 과정을 역전시킴으로써 현재 관측을 조건으로 미래 행동 시퀀스를 생성하도록 학습한다. 아키텍처는 전형적으로 관측 특성과 diffusion 시간스텝을 조건으로 하는 1D convolutional U-Net 또는 Transformer다. 직접 회귀(정책이 단일 행동을 출력) 대비 diffusion 정책은 다중 모드 행동 분포를 자연스럽게 포착한다 — 여러 유효한 해결책이 존재하는 조작 과제(이 모서리 또는 저 모서리 잡기; 왼손 또는 오른손)에 유용하다. Diffusion 정책은 §8.7의 여러 VLA 시스템을 포함한 조작 foundation model의 기본 행동 디코더가 되었다.

Flow matching ^[12]이 diffusion 프레임워크의 2022–2024 진화다. 잡음을 예측하도록 학습하는 대신, flow-matching 모델은 단순한 base 분포를 상미분방정식을 통해 데이터 분포로 운반하는 속도 장을 학습한다. Flow matching은 학습이 종종 더 단순하고, 샘플링이 더 빠르며, diffusion과 비슷하거나 더 나은 품질을 생산한다. Black 외의 π0 ^[16], §8.7의 VLA 시스템 중 하나가 flow-matching 행동 head를 쓴다.

Wolf와 동료들의 2025년 서베이 Diffusion Models for Robotic Manipulation ^[21]이 기법 카탈로그를 원하는 독자를 위해 이 공간을 포괄적 깊이로 다룬다. 현재 장의 프레이밍은 최소한이다. diffusion 계열 정책은 행동 다중 모드가 중요한 조작에 대한 기본 행동 디코더이고, flow matching이 효율성 이유로 2024+ 선호 형식화다.

휴머노이드에 대한 실용적 결과: diffusion 정책은 전형적으로 50–100 Hz에서 돈다(추론당 denoising 반복에 의해 제한됨). 이는 그것들을 System 1(9장) 주파수 계층에 위치시킨다. diffusion 행동 head를 포함하는 System 1 정책은 1 kHz에서 직접 돌 수 없다. 그것이 System 0(1 kHz 관절 수준 제어)이 아래 별개 계층으로 남는 이유다.

8.7 Vision-Language-Action (VLA) 모델

Vision-Language-Action(VLA) 모델은 이미지 관측과 언어 명령을 로봇 행동 시퀀스로 매핑하는 단일 네트워크다. 아키텍처 레시피는: 사전 학습된 vision-language 모델(전형적으로 LLaMA 계열, PaLM, PaLI backbone 위에 구축된 VLM)을 가져와 텍스트 생성 head를 행동 디코더(이산화된 토큰 head 또는 diffusion / flow-matching head)로 대체하고, 복합 네트워크를 로봇 행동 코퍼스에 미세 조정한다.

10장이 VLA 이야기를 자세히 전개한다. 이 절은 최소 어휘를 제공한다. 세 2024년 시스템이 범주를 고정한다.

OpenVLA ^[15]가 정통 오픈소스 VLA다. Llama-2에 구축된 70억 매개변수 모델로 비전 인코더와 토큰화된 행동 head를 갖는다. 22 로봇 embodiment에 걸친 970,000 episode를 포괄하는 Open X-Embodiment 데이터셋에 학습된다. OpenVLA는 소비자 GPU에서 행동당 약 100 ms로 돌며, 규모로 교차 embodiment 일반화를 시연한 첫 오픈 VLA였다.

π0 (pi-zero) ^[16]는 Physical Intelligence로부터 다른 아키텍처 선택을 쓴다. 50 Hz로 도는 flow-matching 행동 head를 갖는 30억 매개변수 VLM backbone. π0는 7 로봇 플랫폼과 68 과제의 혼합 코퍼스에 학습된다. 특정 기여는 VLA가 (초기 VLA의 전형적 sub-Hz 속도가 아니라) 조작 관련 주파수에서 돌 수 있음을 보이는 것이다.

NVIDIA GR00T N1 / N1.5 ^[24]가 VLA를 이중 시스템 아키텍처로 프레이밍한다. 저주파수 System 2 VLM(13.4억 매개변수) 플러스 고주파수 System 1 diffusion-transformer 행동 디코더(8.6억 매개변수), 합계 22억 매개변수. GR00T는 시뮬레이션 롤아웃, 인간 비디오, 실 로봇 teleoperation 데이터의 혼합에 학습되고, 논문의 실세계 평가에서는 Fourier GR-1 휴머노이드 로봇에 배치된다(시뮬레이션 벤치마크는 Franka Panda 팔 변종으로 확장).

VLA 개념의 핵심 속성 — 10장이 전개할 것 — 은 교차 embodiment 일반화다. 여러 로봇 body에 걸쳐 작동하는 단일 정책. 전체 프런티어 기업 VLA 프로그램(10장, 11–13장)의 경제적 전제가 이 속성이 상용 규모에서 유지되는지에 의존한다. 그것이 되는지가 주요 열린 질문이다.

8.8 특권 학습과 모방 패턴

2018–2026 휴머노이드 RL 문헌에서 여러 패턴이 재등장하며, 6장의 정전이 항상 명시적으로 정확히 설명하지 않고 그들을 가정했기 때문에 명시적으로 지명할 가치가 있다.

특권 정보를 갖는 teacher-student (6장 §6.3의 Lee 2020)가 가장 중요하다. teacher는 지면 진실 환경 상태에 접근한다. student는 실-로봇-이-보는-관측만으로 작동한다. student가 teacher를 흉내낸다. 이 구조는 거의 모든 프런티어 휴머노이드 RL 논문에 나타난다.

DAgger (Dataset Aggregation) 는 온라인 변종이다. teacher 시연을 한 번 수집하고 behavioral cloning을 통해 student를 학습시키는 대신, DAgger는 student 롤아웃을 teacher 쿼리와 교차시켜 student가 저지른 실수를 학습 집합에 추가한다. Lee 2020 파이프라인은 student에 대해 DAgger 스타일 업데이트를 쓴다.

비대칭 actor-critic 이 critic-에만-특권 변종이다. actor 네트워크는 proprioceptive 관측(실 로봇이 갖게 될 것)만 보는 반면, critic 네트워크는 특권 정보(시뮬레이터가 아는 것)를 본다. 이점은 배포 시 critic만 버리면 된다는 것이다. 비대칭 actor-critic은 프로덕션 휴머노이드 RL 스택에 널리 쓰인다.

Hindsight Experience Replay (HER) 가 실패한 rollout을 그 실패 상태가 의도된 목표였던 것처럼 보상을 재라벨링하여 retrofit한다. HER은 목표 조건 과제에 가장 관련성이 있고, 속도 명령이 이미 목표 조건인 보행에서는 덜 일반적이다.

Behavioral cloning mocap 또는 teleoperation으로부터가 많은 휴머노이드 정책의 시작점을 제공한다(6장 §6.9와 §6.10). 학습된 정책이 인간 동작을 흉내내도록 사전 학습된 다음 RL로 미세 조정된다. 조합은 전형적으로 처음부터의 RL보다 더 샘플 효율적이다.

이 패턴은 8장의 본질이 아니지만 어휘다. 6장이나 9장에서 "teacher-student"나 "비대칭 critic"에 부딪힌 독자는 한 단락 refresher를 위해 여기로 돌아올 수 있다.

8.9 열린 질문

세 메타 질문이 이 장을 닫고 Part III·IV에 걸쳐 주기적으로 표면에 나타난다.

첫째, 학습된 휴머노이드 정책에 올바른 이론 프레임워크 언어는 무엇인가? 고전 제어는 Lyapunov 이론, passivity, 도달 가능성을 제공한다. RL은 기대 수익 최적화를 제공한다. 어느 것도 배포된 정책이 해야 할 일의 완전한 기술이 아니다. 부상하는 후보들 — control barrier function, safe RL, 미분 가능 MPC — 각각은 부분 다리다. 15장이 한국 제조 배포 논의에서 규제 측에서 이 질문을 재방문한다.

둘째, 휴머노이드 정책에 올바른 스케일링 법칙은 무엇인가? 언어 모델은 Chinchilla 스타일 스케일링을 따른다. 비전 모델은 자기만의 것을 따른다. 휴머노이드 정책에 대해 스케일링 축은 학습 데이터, 모델 매개변수, 컨텍스트 길이, 시뮬-다양성, 실-데이터 비율이다. 어떤 스케일링 법칙도 아직 확립되지 않았다. Radosavovic 2024-nexttoken의 270억 토큰 결과는 시사적이지만 체계적이지 않다. 첫 신뢰할 만한 휴머노이드 정책 스케일링 법칙 논문은 열린 연구 기회다.

셋째, 이론이 sim-to-real 간극을 어떻게 연결하는가? 7장이 세 엔지니어링 전략을 기술했다. 이론적 질문 — 정책이 시뮬레이터에서 현실로 일반화한다는 것이 무엇을 의미하는지, 그리고 어떤 보장을 줄 수 있는지 — 는 열려 있다. Tang 외의 2025년 Annual Review 서베이 ^[19]가 실증적 경관을 조사한다. 이론적 답은 여전히 연구 프런티어다.

8.10 9장으로의 다리

2장의 고전 기본기와 8장의 현대 기본기를 손에 쥐고, 독자는 9장의 System 0/1/2 아키텍처를 위한 어휘를 갖는다. 9장은 두 질문을 다룬다. 세 계층이 구조적으로 어떻게 보이는지, 그리고 그들 사이 인터페이스 계약은 무엇인지. 답은 고전 primitive(System 0 PD 또는 QP)를 현대 primitive(System 1 정책 네트워크, System 2 VLM)와 2026 휴머노이드 제어의 lingua franca로 작곡한다.

참고문헌

Kober, J., Bagnell, J. A., & Peters, J. (2013). Reinforcement learning in robotics: A survey. IJRR. doi:10.1177/0278364913495721.
Vaswani, A., et al. (2017). Attention is all you need. Proc. NeurIPS.
Schulman, J., Wolski, F., Dhariwal, P., Radford, A., & Klimov, O. (2017). Proximal policy optimization algorithms. arXiv preprint 1707.06347.
Fujimoto, S., van Hoof, H., & Meger, D. (2018). Addressing function approximation error in actor-critic methods (TD3). Proc. ICML. arXiv:1802.09477.
Peng, X. B., Abbeel, P., Levine, S., & van de Panne, M. (2018). DeepMimic: Example-guided deep reinforcement learning of physics-based character skills. ACM SIGGRAPH. arXiv:1804.02717.
Haarnoja, T., Zhou, A., Abbeel, P., & Levine, S. (2018). Soft actor-critic: Off-policy maximum entropy deep reinforcement learning with a stochastic actor. Proc. ICML.
OpenAI et al. (2019). Learning dexterous in-hand manipulation. IJRR. arXiv:1808.00177.
Ho, J., Jain, A., & Abbeel, P. (2020). Denoising diffusion probabilistic models. Proc. NeurIPS.
Kroemer, O., Niekum, S., & Konidaris, G. (2021). A review of robot learning for manipulation: Challenges, representations, and algorithms. JMLR.
Pang, B., et al. (2021). Convergence analysis of soft-actor-critic + entropy bonus in continuous control.
Yarats, D., Fergus, R., Lazaric, A., & Pinto, L. (2022). Mastering visual continuous control: Improved data-augmented reinforcement learning (DrQ-v2).
Lipman, Y., Chen, R. T. Q., Ben-Hamu, H., Nickel, M., & Le, M. (2022). Flow matching for generative modeling. Proc. ICLR.
Chi, C., et al. (2023). Diffusion policy: Visuomotor policy learning via action diffusion. Proc. RSS.
Zhao, T. Z., Kumar, V., Levine, S., & Finn, C. (2023). Learning fine-grained bimanual manipulation with low-cost hardware (ACT). Proc. RSS.
Kim, M. J., et al. (2024). OpenVLA: An open-source vision-language-action model. arXiv preprint.
Black, K., et al. (2024). π0: A vision-language-action flow model for general robot control. arXiv preprint.
Luo, Z., et al. (2024). Universal humanoid motion representations for physics-based control (PHC/PULSE). Proc. ICLR.
Gu, Z., Li, J., & Shen, W. (2025). Humanoid locomotion and manipulation: Current progress and challenges in control, planning, and learning. arXiv preprint 2501.02116.
Tang, C., Abbatematteo, B., & Hu, J. (2025). Deep reinforcement learning for robotics: A survey of real-world successes. Annual Review of Control, Robotics, and Autonomous Systems. doi:10.1146/annurev-control-030323-022510. arXiv:2408.03539.
Seo, H., et al. (2025). FastTD3: Simple, fast, and capable reinforcement learning for humanoid control. arXiv preprint 2505.22642.
Wolf, R., Shi, Y., Liu, S., & Rayyes, R. (2025). Diffusion models for robotic manipulation: A survey.
Radosavovic, I., et al. (2024). Real-world humanoid locomotion with reinforcement learning. Science Robotics. arXiv:2303.03381.
Radosavovic, I., et al. (2024). Humanoid locomotion as next token prediction. NeurIPS. arXiv:2402.19469.
Bjorck, J., et al. (2025). GR00T N1: An open foundation model for generalist humanoid robots. NVIDIA 기술 보고서와 arXiv preprint.
NVIDIA. (2025). GR00T N1.5: Improved foundation model for generalist humanoid robots. NVIDIA 기술 발표.