Part II: 네 가지 기폭제

Chapter 5: GPU 대규모 병렬 시뮬레이션

집필일: 2026-04-24 최종수정일: 2026-06-18

5.1 시뮬레이션의 역할 — 전과 후

2021년 이전, 로보틱스에서 시뮬레이션은 배포 전 검증 단계였다. 실제 데이터로(또는 수작업으로) 학습된 정책을 물리 시뮬레이터 — Gazebo, Mujoco (CPU), PyBullet — 에서 테스트한 뒤 하드웨어에 업로드했다. 시뮬레이션은 마지막 점검이었지 학습장이 아니었다. 2021년 이후 시뮬레이션은 학습장 자체가 되었고, 하드웨어가 검증 단계가 되었다. 이 역전이 5장이 감사하는 것이다.

역전의 메커니즘은 구체적이다. 물리 시뮬레이터와 신경망 정책이 이제 GPU 메모리를 공유하고, 관측과 보상이 PyTorch 또는 JAX가 직접 소비하는 CUDA 텐서로 남는다. 이전 시뮬레이터를 제한했던 CPU–GPU 전송 병목이 제거되고, 단일 워크스테이션이 실시간 등가 초 단위에 수천 개의 병렬 환경을 스텝할 수 있다. 이것이 도메인 랜덤화(7장)와 teacher-student RL(6장)이 모두 의존하는 샘플 엔진이다. 이것이 없다면 Part II의 다른 곳에서 지명된 기폭제들은 이론적으로 매력적이지만 실용적으로 감당할 수 없다.

이 장은 네 주장으로 진행한다. 첫째(§5.2), Isaac Gym 변곡점 ^[2]과 Rudin 외의 "분 단위로 걷기 학습" ^[3]을 2021년 체제 전환으로 추적한다. 둘째(§5.3), 2026년 시뮬레이터 랜드스케이프 — Isaac Lab / Orbit, MuJoCo Playground, Humanoid-Gym, Booster Gym, Genie Sim, Genesis — 을 지도화하고 분야가 단일 승자가 아니라 소수의 표준에 정착한 이유를 설명한다. 셋째(§5.4), GPU 병렬성이 실제로 가능하게 하는 것을 연결한다. 통계적으로 의미 있는 규모의 도메인 랜덤화, 버그 필터로서의 sim-to-sim 검증, 그리고 실용적 2025년 벤치마크로서의 "배포 가능 정책까지 15분". 넷째(§5.5), 접촉 충실도 프런티어와 미분 가능 시뮬레이션 연구 프로그램 ^[9]을 열린 연구 방향으로 개관한다. 장은 Part II 판결로 닫힌다(§5.6). GPU 병렬 시뮬레이션은 보행 RL 처리량에 대해 해결·표준화되었다. 조작과 변형 체제에 대한 접촉 정확도가 남은 프런티어다.

5.2 Isaac Gym 2021 — 변곡점

NeurIPS 2021에서 소개된 NVIDIA의 Isaac Gym ^[2]이 2021년 변곡점이다. 기술적 기여는 알고리즘적이기보다 아키텍처적이다. PhysX 강체 물리와 PyTorch 신경망 추론이 단일 GPU에 공존한다. 환경 관측과 보상은 GPU 메모리를 떠나지 않고 정책이 직접 소비하는 CUDA 텐서다. 이전 시뮬레이터를 병목시킨 CPU–GPU 전송 지연 — 물리는 GPU에서 돌지만 학습 루프는 CPU에서 돌았던 GPU 가속 시뮬레이터까지 포함 — 이 단순히 제거된다.

처리량 수치가 체제 전환을 확립한다. Isaac Gym은 단일 NVIDIA A100에서 4,096개 병렬 환경의 Ant 벤치마크에 대해 초당 약 540,000 시뮬레이션 스텝을 보고한다 ^[2] — 등가 하드웨어상 이전 시뮬레이터 대비 2–3자릿수 더 빠르다. ANYmal 보행 과제에서는 정책이 단일 GPU에서 2분 미만의 wall-clock으로 수렴한다. Shadow Hand 큐브 재배향 과제에서는 정책이 단일 GPU에서 약 35분 안에 쓸 만한 수준으로 학습된다 — 2021년 이전 CPU 기반 스택에서는 수일이 필요했거나 완전히 포기되었을 과제.

Rudin, Hoeller, Reist, Hutter의 CoRL 2021 논문 ^[3]이 Isaac Gym의 아키텍처 용량을 RL 레시피로 전환시킨 동반 논문이다. Isaac Gym을 사용해 논문은 단일 워크스테이션에서 4,096개 병렬 로봇 인스턴스에 대해 ANYmal 보행을 학습하고, 학습에 따라 난이도를 진행시키는 지형 커리큘럼(평지, 경사, 계단, 틈)을 도입하며, 공동체 기본값이 된 특정 관측·보상 분해를 가진 PPO 기반 정책을 사용한다. 결과: 평지 보행은 약 4분의 wall-clock으로, 험지 정책은 단일 GPU에서 약 20분으로 학습된다. 동일 과제의 이전 CPU 기준선은 수일이 필요했다. 논문은 또한 legged_gym을 공개하는데, 이는 이후 3년간 4족 로봇과 궁극적으로 휴머노이드 RL의 사실상 기본 참조 스택이 된 과제 집합이다.

두 논문이 함께 2021년 변곡이다. 이후 작업은 GPU 병렬 시뮬레이션이 가능한가에 대한 것이 아니라, 어느 시뮬레이터를 쓸 것인가, 어느 과제 집합을 쓸 것인가, Isaac Gym / legged_gym 레시피의 어느 특정 변종을 재현할 것인가에 대한 것이다. 2019년 Hwangbo 외 액추에이터 네트워크 논문(6장)은 반복당 수 시간의 CPU 기반 스택에서 학습되었다. 2021년 이후의 등가 작업은 수 분 내에 돈다. 기폭제의 효과는 연구 사이클 시간에서 측정 가능하고, 거기서부터 연구 출력에서 측정 가능하다.

그림 5.1: 시뮬레이션 처리량 — CPU 대 GPU 병렬 (로그 스케일). 위에서부터 다섯 개 막대: 2021년 이전 CPU 단일 환경 (Gazebo / MuJoCo-CPU / PyBullet) 약 10³ steps/s; 2021년 이전 CPU 병렬 워커 (N ≈ 16) 약 10⁴; Isaac Gym 이전 GPU 부분 가속 약 3×10⁴; Isaac Gym 2021, Ant 벤치마크, 4 096 병렬 환경, 단일 A100 위 약 5.4×10⁵ steps/s Makoviychuk et al. 2021; MuJoCo Playground 2025 휴머노이드 약 2×10⁵. 막대 (2)와 (4) 사이의 약 2 차원 간극이 2021년 체제 전환이다. 저자 작성 일러스트 (Gemini 보조 재현).

5.3 2026년 시뮬레이터 랜드스케이프

2026년 GPU 병렬 시뮬레이션 랜드스케이프은 잘 이해된 trade-off를 갖는 소수의 프로덕션 스택으로 안정화되었다. 여섯 개를 자세히 지명할 가치가 있다.

그림 5.2: ANYmal 수천 병렬 시뮬레이션 — 단일 A100에서 4,096개 환경이 동시에 걷는다. 2021 Isaac Gym이 가능케 한 스케일이 '분 단위 학습'을 현실로 만들었다. — source: Rudin et al. 2022 Fig. 1, arXiv:2109.11978, academic fair use

Isaac Lab (NVIDIA, 이전 Orbit). Isaac Lab — Orbit ^[1]의 후계자 — 은 Isaac Sim 위에 구축된 NVIDIA의 프로덕션 등급 RL 플랫폼이고, Isaac Sim 자체는 PhysX 강체 엔진 위에 구축된다. Orbit은 환경 관리자, 보상 작곡기, 교차 시뮬레이터 에셋 파이프라인을 도입했고, Isaac Lab이 툴체인으로 정식화했다. 조작과 보행에 걸쳐 20개 이상의 과제가 지원되며, 단일 A100에서 1,000개 이상의 병렬 환경이 실현 가능하다 ^[1]. Isaac Lab은 프로덕션 프런티어 기업 스택의 기본 선택이다. Figure, Agility, NVIDIA 자체 GR00T 파이프라인이 모두 이를 상대로 구축한다. Isaac Lab의 세련도 대가는 NVIDIA의 SDK 생태계 — Isaac Sim, Omniverse, OpenUSD, Isaac Replicator — 에 대한 의존성이고, 학술 그룹은 때때로 이를 무겁게 느낀다.

MuJoCo Playground (Google DeepMind, 2025). Zakka, Tassa와 동료들의 MuJoCo Playground ^[7]는 MuJoCo의 JAX 포트인 MuJoCo MJX를 기반으로 하여 DM Control, legged_gym 스타일 과제, 조작 벤치마크를 결합한 GPU/TPU 가속 통합 프레임워크를 제공한다. 처리량은 휴머노이드 RL에 대해 단일 A100에서 초당 약 200,000 환경 스텝에 이른다. 4× TPU v3에서의 TPU 학습은 약 10분에 보행에 도달한다. Playground는 Unitree G1, H1, Booster T1, Apollo 등을 PPO와 SAC 레시피로 지원한다. 접촉 정확도는 특정 체제 — 특히 조작에 중요한 작은 시간 스텝의 강체 접촉 — 에서 PhysX보다 우수하고, JAX 네이티브 API는 JAX에 익숙한 연구자에게 Isaac Lab보다 가볍다. MuJoCo Playground는 Isaac Lab에 대한 MuJoCo 우선 대안으로 자리 잡고 있고, 인프라가 JAX / TPU 워크플로와 정렬되는 연구 그룹의 기본 선택이다.

Humanoid-Gym (2024). Gu, Zhang과 동료들의 Humanoid-Gym ^[4]은 legged_gym과 Isaac Gym 위에 구축된 휴머노이드 특화 오픈소스 RL 프레임워크다. 휴머노이드 특화 보상(자세, 스텝 주기, 상체 정규화)과 실 배포 전에 MuJoCo에서 Isaac Gym 정책을 검증하는 sim-to-sim 파이프라인을 추가한다 — 휴머노이드 정책 배포의 공동체 기본값이 된 Isaac Gym → MuJoCo → 하드웨어 패턴. Humanoid-Gym은 관절 토크의 sim-to-sim 표류가 8% 미만임을 보고하고, 평지에서 zero-shot으로 걷는 RobotEra XBot-S와 XBot-L에 대한 학습된 정책을 출하한다. Humanoid-Gym의 기여는 시뮬레이터 자체보다 레시피 — 휴머노이드 RL 실무자가 기본값으로 채택하는 특정 보상 항, 네트워크 아키텍처 선택, 배포 워크플로 — 에 있다.

Booster Gym (2025). Wang, Chen과 동료들의 Booster Gym ^[6]은 칭화대학교와 Booster Robotics의 중국 오픈소스 대응물로, Booster T1 플랫폼에 대한 학습-배포를 다룬다. Booster Gym은 T1에서 zero-shot sim-to-real 전방향 보행과 50 N 측면 푸시로부터의 회복을 시연한다. 생태계에서의 역할은 Humanoid-Gym 패턴을 Booster 특정 embodiment와 Booster 특정 하드웨어 매개변수로 확장하는 것이다. 각 새로운 휴머노이드 제조업체(Unitree, Fourier, Booster 등)는 이제 등가의 플랫폼별 gym repo를 생산했고, 플랫폼 전반의 패턴 일관성 자체가 기폭제 성숙의 표식이다.

Genie Sim 3.0 (AgiBot, 2026). AgiBot의 Genie Sim 3.0 ^[10]은 GO-1과 GO-2 정책 학습 파이프라인(10장)을 뒷받침하는 독점 프로덕션 시뮬레이터다. 아키텍처 주장은 분리된 물리(1 kHz)와 렌더링 파이프라인이다 — 물리 solver는 GPU에서 1 kHz로 돌고 photorealistic 렌더러는 병렬로 돌아, 대규모 RL 병렬성과 고충실도 시각 관측이 동시에 가능하다. 논문은 AgiBot의 이전 내부 스택 대비 5–10× 더 많은 photorealistic 초당 프레임을 보고한다. Genie Sim은 Genie Studio(배포 플랫폼)와 RLinf 프레임워크와 함께 AgiBot의 Isaac Lab + 실데이터 + 배포 파이프라인에 대한 수직 통합 답으로 자리 잡는다.

Genesis (2024). Genesis ^[11]는 2024–2026 시뮬레이터 출시 중 가장 야심찬 것이다. 단일 solver에서 강체·연체·유체·천·하이브리드 body를 지원하는 통합 물리 엔진을 주장하며, 소비자 하드웨어에서 Franka + 평면 장면에 대해 초당 4,300만 FPS — 약 430,000× 실시간 — 를 보고한다. Genesis는 또한 자연어 프롬프트를 상호작용 장면, 과제 제안, 보상 함수, 캐릭터 동작, 물리 비디오로 변환하는 생성 데이터 엔진을 포함한다. 처리량 주장은 집필 시점에 제3자에 의해 완전히 재현되지 않았고, 프로덕션 스택으로의 채택은 초기 단계다. Genesis는 논제 — 생성 장면 지정을 갖는 통합 강체/연체/유체 물리 — 가 2026–2028 연구 공동체에 의해 검증되거나 후퇴될 시뮬레이터다. 이 장은 Genesis를 여기서 지명하여 연구 베팅을 표시하지, 처리량 주장을 승인하지 않는다.

분야가 대략 이 여섯 시뮬레이터 — 하나의 NVIDIA 중심 프로덕션 스택, 하나의 JAX 중심 연구 스택, 두 개의 humanoid-gym-패턴 오픈소스 프레임워크, 하나의 기업 독점 수직 통합 스택, 하나의 야심찬 통합 물리 연구 스택 — 에 정착하는 것은 2015년과 2020년 사이에 딥러닝 프레임워크 생태계에서 일어난 일을 반영한다. 두세 개의 지배적 프로덕션 도구가 특화된 연구 도구의 긴 꼬리와 공존한다. 최고 등급 옵션 간의 처리량은 비슷하다. 선택은 처리량 델타보다 팀 기술과 배포 대상에 의해 추동된다. commoditization은 기폭제 성숙의 특징이지 연구 정체의 징후가 아니다.

5.4 샘플 엔진이 가능하게 하는 것

휴머노이드 RL에 대한 GPU 병렬 시뮬레이션의 측정 가능한 결과는 처리량 자체가 아니다. 통계적으로 의미 있는 도메인 랜덤화, sim-to-sim 검증, 빠른 반복의 실용적 도달 가능성이다. 세 구체적 예시.

그림 5.3: 분 단위 학습 곡선 — ANYmal 로코모션 정책이 20분 이내에 수렴한다. 2019년 대비 100배 학습 시간 단축, RL 연구의 반복 주기를 근본적으로 바꿨다. — source: Rudin et al. 2022 Fig. 3, arXiv:2109.11978, academic fair use

규모의 도메인 랜덤화. 7장이 도메인 랜덤화(DR)를 자세히 전개한다. 짧은 버전은, DR이 시뮬레이션된 환경의 분포를 실제 로봇이 높은 확률로 그 분포 안에 있을 만큼 넓게 학습시킴으로써 sim-to-real 간극을 덮는다는 것이다. DR의 샘플 요구사항은 무작위화된 매개변수의 차원과 함께 확장된다 — 보행에 대해 10에서 30개 매개변수(마찰, 질량, CoM, 모터 이득, 지형 높이, 지연, 잡음 스펙트럼 등). CPU에서 초당 10,000 환경 스텝으로 30차원 무작위 분포를 통계적으로 커버하려면 수 주가 걸린다. 단일 GPU에서 초당 1,000,000 환경 스텝으로 동일 커버리지는 수 시간이 걸린다. 수 주와 수 시간의 차이가 DR이 연구 아이디어인 것과 DR이 프로덕션 기본값인 것의 차이다.

버그 필터로서의 sim-to-sim. Humanoid-Gym의 Isaac-Gym → MuJoCo → 하드웨어 패턴 ^[4]은 공동체 표준 배포 레시피가 되었다. 근거: Isaac Gym의 PhysX 동역학에 대해 학습된 정책은 MuJoCo의 다른 접촉 모델로 전이하지 않을 것이다 — 정책이 환경 물리 표류에 robust하지 않다면. 그리고 그 robustness는 실제 로봇으로의 전이에도 필요한 것이다. Sim-to-sim 검증은 두 시뮬레이터 모두 GPU 가속되어 있기 때문에 저렴하다. 놀랍도록 효과적이기도 하다 — Humanoid-Gym은 잘 학습된 정책에 대해 Isaac Gym과 MuJoCo 사이 관절 토크 표류가 8% 미만임을 보고하고, sim-to-sim에서 실패하는 정책은 하드웨어에서도 실패한다. Sim-to-sim은 배포 시에만 드러날 버그에 대한 저렴한 필터다.

배포 가능 정책까지 15분. Seo와 동료들의 2025년 작업 ^[8]은 PPO 기본값이 아니라 off-policy FastSAC와 FastTD3를 사용해 단일 RTX 4090에서 약 15분에 휴머노이드 sim-to-real 보행 정책을 학습한다고 보고한다. 레시피는 의도적으로 간결하다. 수천 병렬 환경, 강한 도메인 랜덤화, 최소 보상, 그리고 off-policy 학습을 안정화하는 소수의 설계 선택. 중요성은 벽시계 시간만이 아니다. Unitree G1과 Booster T1 보행을 빠른 반복 루프로 다룰 수 있음을 보인다는 데 있다. MuJoCo Playground ^[7]는 여전히 JAX/MJX 인프라 참조점이지만, 15분 Unitree류 결과는 Seo et al.의 FastSAC/FastTD3 계열에 속한다.

공유 평가 대상으로서의 HumanoidBench. Sferrazza 외의 2024년 RSS 논문 ^[5]이 HumanoidBench를 도입했다. MuJoCo 위에 구축된 첫 오픈 휴머노이드 벤치마크로, Unitree H1 + 두 Shadow Hand와 결합된 14개 보행 + 17개 전신 조작 과제를 갖는다. 관측 차원은 151이고 행동 차원은 61이다. PPO, SAC, DreamerV3, TD-MPC2에 대해 참조 결과가 보고된다. HumanoidBench의 이 장에 관련된 주요 발견은 보행과 전신 조작 사이의 비대칭이다. 평평한 RL은 보행을 합리적으로 해결하지만 전신 조작 과제에서 50% 미만 성공률에 도달하는 반면, 보행 primitive 위의 계층적 정책은 80%+에 도달한다. 7장의 sim-to-real 판결 논의와 15장의 차별화 축 주장이 모두 이 비대칭을 참조한다. HumanoidBench는 그 비대칭이 통계적으로 판독 가능하게 만드는 평가 비계다.

5.5 접촉 충실도 프런티어와 미분 가능 시뮬레이션

보행에 대한 기폭제의 성공은 논쟁의 여지가 없다. 조작과 변형 접촉 체제에 대한 한계가 프런티어다.

그림 5.4: Genesis — 2024년 출시된 Python 네이티브 범용 시뮬레이터. MuJoCo·Isaac의 빈틈을 메우며 generative 2025 simulator 세대를 상징. — source: Genesis-Embodied-AI GitHub README, MIT-licensed project, fair use for academic review

조작을 위한 강체 접촉. PhysX와 MuJoCo 모두 접촉을 각 시간 스텝에서 풀리는 선형 상보성 문제(LCP)로 이산화한다. 시뮬레이션의 충실도는 접촉 기하, 접촉 강성, 마찰 원뿔 이산화, 시간 스텝 크기에 의존한다. 접촉이 대체로 평면적(발이 지면 위)이고 지속 시간이 밀리초 규모인 보행에 대해서는, 현재 시뮬레이터가 DR이 닫는 마진 내에서 정확하다. 조작 — 핑거팁이 물체 위, 작은 접촉 영역, 가변 표면 재질 — 에 대해서는 접촉 모델의 오차가 누적된다. HumanoidBench의 전신 조작 결과 ^[5]는 접촉 충실도 한계가 평평한 RL이 조작에서 부진한 주요 이유이지 RL 알고리즘 자체가 아님을 보인다.

변형·유체·연체 체제. 많은 실세계 제조 과제(케이블 라우팅, 직물 다루기, 액체 붓기, 거품 분사)가 PhysX도 MuJoCo도 기본 지원하지 않는 비강체 물리를 수반한다. Genesis ^[11]는 통합 강체/연체/유체 solver가 이 간극을 닫을 수 있다는 2024년의 베팅이다. 주장은 유망하지만 아직 프로덕션 검증되지 않았다. 특화된 도구들 — NVIDIA FleX, Taichi, DeepMind의 하이브리드 DM_Soft — 이 다양한 충실도로 이 공간의 부분집합을 다룬다.

미분 가능 시뮬레이션. 뚜렷한 연구 실이 묻는다. 시뮬레이터가 미분 가능하다면, RL의 샘플 집약적 gradient 추정을 직접적 해석적 gradient로 대체할 수 있는가? Schwarke, Klemm, Tordesillas의 2024 CoRL 논문 ^[9]은 4족 보행에 대한 접근을 시연하며, 비교 가능한 최종 정책 품질에서 PPO 기준선보다 10–100× 적은 시뮬레이션 스텝을 보고한다. 이것은 상당한 효율성 이득이지 혁명이 아니다. 현재의 장벽은 미분 가능 접촉이 어렵다는 것이다 — 접촉 불연속이 gradient를 불안정하게 만든다 — 그리고 대부분의 대규모 휴머노이드 RL이 여전히 비미분 가능 스택을 쓴다. 미분 가능 시뮬레이션은 3장이 다섯 번째 기폭제라고 언급한, 2026–2030 구간에 등장할 수 있는 가장 강한 후보다. 그것의 성공은 학습 시간 예산을 더 압축하고 샘플 기반 방법이 현재 도달할 수 없는 과제를 열 수 있다.

5.6 판결과 열린 질문

기폭제 2 판결: 해결됨 (표준화). Isaac Gym ^[2], legged_gym 레시피 ^[3], Isaac Lab / Orbit ^[1], MuJoCo MJX와 Playground ^[7], Humanoid-Gym ^[4], Booster Gym ^[6], Genesis ^[11]가 집합적으로 학습을 수일에서 수 분으로 감소시키며 초당 백만 환경 스텝 처리량을 낸다. Seo et al.의 off-policy FastSAC/FastTD3 레시피는 기준을 더 날카롭게 만든다. 단일 GPU에서 Unitree G1 / Booster T1 sim-to-real 보행을 약 15분에 학습한다 ^[8]. 처리량 문제는 해결되었고, 표준화는 잘 이해된 trade-off를 갖는 약 여섯 프로덕션 스택으로 안정화되었다.

남은 열린 것은 조작과 변형 체제에 대한 접촉 정확도 충실도다. HumanoidBench의 보행과 전신 조작 사이 시연된 비대칭 ^[5]이 이 주장을 정량적으로 고정시킨다. 세 특정 열린 방향.

핑거팁 조작에 대한 강체 접촉 충실도. 접촉 패치 기하, 법선-접선 결합, 재질 의존 마찰 모델이 현재 GPU 가속 시뮬레이터의 해상도 한계에 있다. 세밀한 접촉 모델 연구가 진행 중이다. 프로덕션 해결책은 존재하지 않는다.
비강체 물리. 케이블, 직물, 연부 조직, 유체, 거품은 주류 스택에 의해 적절히 시뮬레이션되지 않는다. Genesis의 통합 solver 베팅이 가장 야심찬 후보다. 특화된 도구들이 연구 환경에서 간극을 채운다.
접촉 풍부 체제에 대한 미분 가능 시뮬레이션. Schwarke 외 2024의 4족 보행에 대한 10–100× 샘플 효율성 이득은 연구 방향을 시사한다. 접촉 풍부 조작으로의 일반화가 미해결 단계다.

7장이 현재 시뮬레이터가 닫을 수 없는 잔차 간극을 다루는 sim-to-real 보정 전략을 전개한다. 15장은 한국 제조 과제(반도체 웨이퍼 다루기, 배터리 셀 적층, 자동차 조립에서의 케이블 라우팅)에 대한 접촉 충실도가 정확히 GPU 병렬 시뮬레이션이 아직 commoditized하지 못한 문제 군집이라고 주장한다.

5.7 6장으로의 다리

GPU 병렬 시뮬레이션은 샘플 엔진이다. 6장이 다루는 질문은 이렇다. 이 엔진 위에서 우리는 무엇을 학습시키고 있는가? 답은 history encoder를 갖는 teacher-student 레시피다 — GPU 병렬 시뮬레이션 처리량을 배포 가능한 휴머노이드 보행으로 전환시킨 특정 RL 알고리즘 정전(正典). Hwangbo 2019, Lee 2020, Kumar 2021, Siekmann 2021, Radosavovic 2024가 6장이 자세히 감사하는 다섯 논문 스택을 이룬다.

참고문헌

Mittal, M., et al. (2023). Orbit: A unified simulation framework for interactive robot learning environments. IEEE RA-L. doi:10.1109/LRA.2023.3270034. arXiv:2301.04195.
Makoviychuk, V., et al. (2021). Isaac Gym: High performance GPU-based physics simulation for robot learning. NeurIPS Datasets and Benchmarks. arXiv:2108.10470.
Rudin, N., Hoeller, D., Reist, P., & Hutter, M. (2021). Learning to walk in minutes using massively parallel deep reinforcement learning. Proc. CoRL. arXiv:2109.11978.
Gu, X., Zhang, Y., Wu, K., et al. (2024). Humanoid-Gym: Reinforcement learning for humanoid robot with zero-shot sim2real transfer. arXiv preprint 2404.05695.
Sferrazza, C., Huang, D.-M., Lin, X., Lee, Y., & Abbeel, P. (2024). HumanoidBench: Simulated humanoid benchmark for whole-body locomotion and manipulation. Proc. RSS. arXiv:2403.10506.
Wang, Y., et al. (2025). Booster Gym: An end-to-end reinforcement learning framework for humanoid robot locomotion. arXiv preprint 2506.15132.
Zakka, K., et al. (2025). MuJoCo Playground: An open-source framework for GPU-accelerated robot learning and sim-to-real. arXiv preprint 2502.08844.
Seo, Y., et al. (2025). Learning sim-to-real humanoid locomotion in 15 minutes. arXiv preprint 2512.01996.
Schwarke, C., Klemm, V., & Tordesillas, J. (2024). Learning quadrupedal locomotion via differentiable simulation. Proc. CoRL. arXiv:2403.14864.
AgiBot. (2026). Genie Sim 3.0: A high-fidelity comprehensive simulation platform for humanoid robot. arXiv preprint 2601.02078.
Genesis Team. (2024). Genesis: A generative and universal physics engine for robotics and beyond. Open-source release, December 2024.