강화학습을 통한 휴머노이드 보행 및 전신 제어 기술 보고서

1. 학습 기반 휴머노이드 제어의 기초 패러다임

휴머노이드 로봇의 보행 및 전신 제어 기술을 학습 기반으로 접근하는 방식은 크게 두 가지 패러다임으로 나눌 수 있다. 첫 번째는 아무런 사전 데이터 없이 순수하게 시행착오를 통해 최적의 행동을 탐색하는 것이고, 두 번째는 인간의 움직임 데이터를 모방하여 학습 과정을 안내하는 것이다. 이 두 접근법은 각각 뚜렷한 장단점을 가지며, 연구 목표와 가용 자원에 따라 적절한 패러다임을 선택하는 것이 중요하다.

1.1. 목표 기반 (참조 데이터 없는) 강화학습

목표 기반 강화학습(Objective-Driven Reinforcement Learning)은 참조 동작 데이터(reference motion data) 없이, 사전에 정교하게 설계된 보상 함수(reward function)를 최적화함으로써 정책(policy)을 처음부터 학습시키는 패러다임이다.1 이 방식에서 에이전트(로봇)는 수많은 시행착오를 통해 스스로 걷는 법을 "발명"하게 된다.

보상 함수 설계는 이 패러다임의 핵심이자 가장 어려운 부분이다. 연구자는 전진 속도, 에너지 효율, 상체 직립 자세 유지, 질량 중심(center-of-mass) 안정성, 그리고 좌우 다리의 대칭적 보행 패턴과 같은 물리적으로 타당하고 인간과 유사한 특성을 장려하는 보상 항들을 조합하여 보상 함수를 구성한다.1 이러한 목표들을 보상으로 제공함으로써, 제어기는 학습 과정에서 자연스럽게 안정적인 보행 패턴을 발현하게 된다.1 실제로 일부 연구에서는 참조 동작 없이 보상 함수 설계와 커리큘럼 학습만으로 대칭적인 이족 보행을 성공적으로 학습시킨 사례를 보여주었다.1

하지만 이 접근법은 심각한 도전에 직면한다. 보상 함수 설계는 매우 어렵고 민감한 작업으로, 최종 정책의 행동은 보상 항들의 선택과 가중치에 극도로 의존한다.1 이 과정은 종종 막대한 양의 수동 파라미터 튜닝과 전문 지식을 요구한다.1 또한, 아무리 신중하게 보상 함수를 설계하더라도, 모방할 "인간" 동작의 직접적인 템플릿이 없기 때문에 정책이 미묘하게 부자연스러운 동작이나 기이한 습관을 개발할 수 있다.1

이러한 어려움의 근본 원인은 최적화의 문제가 아니라 '명세(specification)'의 문제에 있다. "자연스럽게 걷기"라는 고수준의 질적 목표를 속도, 에너지, 자세 등 정량화 가능한 지표들로 분해하여 보상 함수로 표현하지만, 이 수학적 공식은 본래의 목표를 완벽하게 대변하지 못한다. 즉, 보상 함수는 "자연스러운 보행"이라는 목표에 대한 불완전한 대리인(proxy)에 불과하다. 강화학습 알고리즘은 주어진 수학적 함수를 완벽하게 최적화하는 데 성공하지만, 그 함수 자체가 결함을 가지고 있기 때문에 결과적으로 부자연스러운 행동이 나타나는 것이다.

이는 학습의 실패가 아니라, 인간의 의도를 기계에 정확히 전달하는 것의 실패이며, 이러한 "명세의 간극(specification gap)"이 참조 데이터 없는 강화학습의 본질적인 한계로 작용한다. 복잡한 과업을 처음부터 학습시키기 위해, 초기에는 균형 잡기와 같은 쉬운 과제부터 시작하여 점진적으로 난이도를 높이는 커리큘럼 학습(curriculum learning) 전략이 종종 병행된다.2

1.2. 모방 학습과 동작 사전 지식 활용

모방 학습(Imitation Learning)은 참조 데이터 없는 학습의 단점을 해결하기 위해 인간의 모션 캡처(MoCap) 데이터와 같은 참조 동작을 에이전트에게 제공하는 접근법이다.6 이 방식은 에이전트가 자연스러운 보행 패턴을 신속하게 학습하도록 돕고, 고된 보상 함수 설계를 회피할 수 있게 한다.

이 방법론에서 정책은 참조 동작(예: 관절 각도, 말단 장치 위치)을 잘 추종하도록 보상을 받음과 동시에, 외부 교란에 강인하고 속도와 같은 외부 명령을 따를 수 있도록 학습된다.7 이는 종종 목표 조건부 강화학습(goal-conditioned RL) 문제로 공식화된다.7 CMU MoCap 데이터셋과 같은 대규모 모션 캡처 데이터는 다양하고 표현력 있는 인간 동작의 풍부한 원천을 제공하여 학습에 활용될 수 있다.7

여기서 중요한 혁신은 '완화된 모방(relaxed imitation)'이라는 개념이다. 참조 동작을 정확하게 모방하는 것은 로봇의 동역학적 특성과 제약 조건이 인간과 다르기 때문에 오히려 강인성을 해칠 수 있다. Expressive Whole-Body Control (ExBody)와 같은 최신 연구들은 다리의 모방 제약을 완화하는 전략을 사용한다.7 즉, 다리는 정확한 관절 각도를 따라 하도록 보상받는 대신, 참조 동작이 제시하는 루트(root)의 움직임 목표(예: 목표 속도)를 강인하게 달성하도록 보상받는다. 반면, 상체는 표현력을 위해 참조 동작을 더 가깝게 모방할 수 있다.7

이러한 접근 방식은 단순한 행동 복제(behavioral cloning)를 넘어, 동작의 '스타일(style)'과 '기능(function)'을 분리하는 정교한 전략이다. 참조 동작은 인간과 같은 움직임의 '스타일'과 자연스러움을 제공하고, 강화학습 목표는 강인성, 목표 추종과 같은 '기능'을 부여한다. 다리 모방을 완화하는 ExBody의 접근법은 이러한 분리를 명확히 보여준다. 이는 로봇의 다리가 안정성을 유지하기 위해 인간과 다르게 기능해야 함을 인지하면서도, 상체는 인간의 스타일을 모방하여 표현력을 높일 수 있다는 깊은 이해를 바탕으로 한다. 즉, 어떤 동작 요소가 인간으로부터 로봇에게 성공적으로 전이될 수 있는지에 대한 통찰을 보여주는 것이다.

2. 강화학습 알고리즘 및 정책 아키텍처 비교 분석

휴머노이드 제어를 위한 학습 패러다임을 구체적으로 구현하기 위해서는 적절한 강화학습 알고리즘과 정책을 표현하는 신경망 아키텍처를 선택해야 한다. 최근 연구 동향은 특정 알고리즘의 우수성보다는 문제의 특성과 학습 환경에 따라 최적의 조합을 찾는 방향으로 나아가고 있다.

2.1. On-Policy 대 Off-Policy 알고리즘: PPO, SAC, TD3 비교

다리형 로봇 제어에 가장 널리 사용되는 심층 강화학습(DRL) 알고리즘들은 대부분 액터-크리틱(Actor-Critic) 계열에 속한다.5 이 중 대표적인 On-Policy 알고리즘인 Proximal Policy Optimization (PPO)와 Off-Policy 알고리즘인 Soft Actor-Critic (SAC), Twin Delayed Deep Deterministic Policy Gradient (TD3)를 비교 분석한다.

2.1.1. Proximal Policy Optimization (PPO)

PPO는 On-Policy 알고리즘으로, 안정성, 신뢰성, 그리고 튜닝의 용이성으로 널리 알려져 있다.5 정책 업데이트 시 변화의 폭을 제한하여 학습 과정에서 성능이 급격히 저하되는 것을 방지한다.10 이러한 특성 덕분에 하이퍼파라미터 변화에 상대적으로 덜 민감하며, 다양한 문제에서 강력한 베이스라인으로 사용된다.9 특히 시뮬레이션 비용이 저렴하여 대규모 병렬 처리가 가능한 환경에서 큰 장점을 보인다. 대량의 최신 경험 데이터를 활용하여 안정적으로 정책을 개선할 수 있기 때문이다.11 그러나 PPO의 치명적인 단점은 샘플 효율성(sample efficiency)이 낮다는 것이다. On-Policy 방식의 특성상, 한 번의 그래디언트 업데이트에 사용된 경험 데이터는 바로 폐기되므로, 학습을 위해 지속적으로 방대한 양의 새로운 샘플을 환경으로부터 수집해야 한다.10

2.1.2. Soft Actor-Critic (SAC) 및 Twin Delayed DDPG (TD3)

SAC와 TD3는 경험 리플레이 버퍼(replay buffer)를 사용하여 과거의 경험을 재사용하는 Off-Policy 알고리즘으로, PPO에 비해 월등히 높은 샘플 효율성을 자랑한다.10 이는 실제 로봇에서의 학습이나 시뮬레이션 속도가 느린 경우와 같이 환경과의 상호작용 비용이 높은 시나리오에서 결정적인 장점이 된다.11 SAC는 확률적(stochastic) 정책을 학습하며, 보상과 함께 정책의 엔트로피(entropy)를 최대화하는 목적 함수를 사용하여 탐험(exploration)을 장려한다.10 TD3는 DDPG 알고리즘의 가치 함수 과대평가(overestimation) 문제를 해결하여 성능을 개선한 알고리즘이다.12 이들 알고리즘은 복잡한 MuJoCo 제어 문제 등에서 PPO보다 더 높은 점근적 성능(asymptotic performance)을 달성하는 경우가 많다.11 반면, Off-Policy 알고리즘들은 PPO에 비해 하이퍼파라미터에 더 민감하고(예: SAC의 온도 파라미터), 안정적인 학습을 구현하기가 더 복잡할 수 있다.11

다음 표는 휴머노이드 제어 연구 관점에서 세 가지 주요 알고리즘의 특징을 요약한 것이다.

표 2.1: 휴머노이드 제어를 위한 RL 알고리즘 비교

알고리즘	유형	샘플 효율성	안정성 및 튜닝	주요 특징	최적 적용 환경
PPO	On-Policy	낮음	높음	정책 업데이트 크기를 제한하여 안정성 확보, 구현 및 튜닝 용이	시뮬레이션이 빠르고 대규모 병렬 학습이 가능한 환경 (예: Isaac Lab)
SAC	Off-Policy	높음	중간	엔트로피 최대화를 통한 탐험 장려, 확률적 정책	샘플 수집 비용이 높은 환경 (예: 실제 로봇, 느린 시뮬레이터), 복잡한 탐험 필요 과제
TD3	Off-Policy	높음	중간	DDPG의 가치 과대평가 문제 해결, 결정론적(deterministic) 정책	SAC와 유사하나, 결정론적 정책이 더 적합하거나 하이퍼파라미터 튜닝이 더 용이한 경우

2.2. 트랜스포머 기반 정책의 부상

최근 휴머노이드 제어 분야에서 가장 주목받는 혁신 중 하나는 인과적 트랜스포머(causal transformer) 아키텍처를 정책 신경망으로 사용하는 것이다.13 이 접근법은 제어 문제를 현재 상태에 대한 반응적인(reactive) 문제에서, 마치 문장에서 다음 단어를 예측하는 것처럼 자기회귀적인(autoregressive) 시퀀스 모델링 문제로 재정의한다.15

정책은 과거의 고유수용성 감각(proprioceptive observations)과 행동(actions)의 시퀀스를 입력으로 받아 다음 행동을 예측한다.13 트랜스포머의 핵심인 셀프-어텐션(self-attention) 메커니즘은 과거 시점의 데이터들 중 현재 행동 결정에 중요한 정보에 더 큰 가중치를 부여한다. 이를 통해 로봇은 카메라와 같은 외부 센서 없이도 과거의 상호작용 기록만으로 지면의 변화나 외부 힘과 같은 환경 정보를 암묵적으로 추론할 수 있게 된다.14

이 아키텍처의 가장 큰 장점은 '문맥 내 적응(in-context adaptation)' 능력이다. 즉, 로봇이 테스트 시점에 신경망의 가중치를 업데이트하지 않고도 최근 상호작용의 이력(문맥)을 바탕으로 자신의 행동을 동적으로 조절할 수 있다.13 이 능력은 시뮬레이션에서 대규모 강화학습으로 훈련된 단일 정책이 실제 환경의 보지 못했던 다양한 야외 지형에서 넘어지지 않고 보행하는 '제로샷(zero-shot)' 성능으로 입증되었다.14

트랜스포머 기반 정책은 사실상 자신의 컨텍스트 윈도우(context window) 내에서 암묵적인 단기 동역학 모델(short-term dynamics model)을 학습하는 것과 같다. 이는 단순히 현재 상태 $s_t$에서 행동 $a_t$로의 매핑을 배우는 것을 넘어, $P(a_t | s_{t-k:t}, a_{t-k:t-1})$를 학습하는 것이다. 로봇은 자신의 행동 $a$에 대한 상태 $s$의 변화를 관찰함으로써, 지면의 마찰 계수나 들고 있는 물체의 질량과 같이 직접 관측되지 않는 시스템의 속성을 추론할 수 있다. 예를 들어, 동일한 행동을 취했음에도 불구하고 예상보다 크게 미끄러졌다는 과거의 상호작용 기록은 현재 지면이 미끄럽다는 정보를 담고 있다. 트랜스포머의 어텐션 메커니즘은 이러한 시퀀스 내의 상관관계를 포착하여 미래 행동을 조절하도록 학습된다. 이는 온라인 시스템 식별(online system identification) 기능이 정책 내에 내장된 것으로, 단순한 반응형 정책을 뛰어넘는 중요한 발전이다.

2.3. 월드 모델과 모델 기반 강화학습

트랜스포머가 암묵적인 모델을 학습하는 반면, 일부 연구는 명시적인 월드 모델(explicit world model)을 학습하는 것을 목표로 한다. World Model Reconstruction (WMR) 프레임워크가 대표적인 예이다.17

WMR은 노이즈가 섞인 센서 이력으로부터 실제 세계 상태를 명시적으로 재구성하는 추정기(estimator)를 학습시킨다. 보행 정책은 원본 센서 데이터가 아닌, 이 정제되고 재구성된 상태를 입력으로 받는다.17 여기서 핵심적인 학습 기법은 정책과 추정기 사이의 그래디언트 흐름을 의도적으로 차단하는 것이다. 이는 추정기가 정책의 단기적인 필요와 무관하게 오직 정확한 세계 상태 재구성에만 집중하도록 만들어, 더 강인하고 정확한 상태 표현을 학습하게 한다.17 이 접근법은 센서 신호의 노이즈를 제거하고 시뮬레이션과 현실 세계 양쪽에서 일관된 상태 표현을 정책에 제공함으로써 '심투리얼(sim-to-real)' 간극을 줄이는 데 기여한다.17

이러한 학습 기반 접근은 시스템 동역학 모델에 의존하는 모델 예측 제어(Model Predictive Control, MPC)와 같은 전통적인 모델 기반 제어 기법과 맥을 같이 한다.9 일부 연구는 심층 강화학습과 MPC를 명시적으로 결합하여, 강화학습으로 예측하기 어려운 복잡한 외란을 예측하고 이를 MPC에 입력하여 최적 제어를 수행하는 하이브리드 방식을 제안하기도 한다.9

3. 현재 기술의 최전선과 주요 연구 과제

휴머노이드 로봇의 강화학습 기반 제어 기술은 빠르게 발전하고 있지만, 여전히 해결해야 할 여러 가지 근본적인 도전 과제들이 존재한다. 이러한 과제들은 현재 이 분야의 가장 활발한 연구 주제를 형성하고 있다.

3.1. 현실과의 간극 메우기: 심투리얼 전이

시뮬레이션에서 학습된 정책이 실제 로봇에 적용되었을 때 실패하는 현상, 즉 '현실과의 간극(reality gap)'은 이 분야의 가장 오래되고 핵심적인 문제다.6 이 간극은 시뮬레이터와 실제 세계 간의 동역학 모델 차이, 센서 노이즈, 시각적 외형의 불일치 등에서 비롯된다. 연구의 궁극적인 목표는 실제 로봇에서의 추가적인 미세 조정(fine-tuning) 없이 시뮬레이션 정책을 바로 적용하는 '제로샷 전이(zero-shot transfer)'를 달성하는 것이다.

이 문제를 해결하기 위한 가장 지배적인 기법은 '영역 무작위화(domain randomization)'이다.6 이는 학습 과정에서 로봇의 질량, 마찰 계수, 모터 강도, 지면의 거칠기 등 물리적 파라미터를 광범위하게 무작위로 변경하며 정책을 훈련시키는 방식이다. 이를 통해 정책은 다양한 변화에 강인해지도록 학습되며, 결과적으로 실제 세계를 이미 경험해 본 수많은 변형 중 하나로 인식하게 된다.

또한, 앞서 논의된 트랜스포머와 같은 정책 아키텍처는 과거 이력을 바탕으로 동적으로 적응하는 능력을 내재하고 있어 심투리얼 간극에 본질적으로 더 강인하다.13 WMR 접근법 역시 강인한 상태 추정기를 학습함으로써 이 간극을 최소화하는 것을 명시적인 목표로 한다.17

3.2. 일반화와 정밀도의 딜레마

심층 강화학습 기반 보행 제어의 근본적인 과제 중 하나는 높은 '일반화(generalization)' 능력과 높은 '정밀성(precision)'을 동시에 달성하는 것 사이의 상충 관계, 즉 딜레마이다.2 일반화는 단일 정책이 걷기, 달리기, 점프 등 다양한 기술을 구사하고 여러 종류의 지형을 통과할 수 있는 능력을 의미한다. 반면, 정밀성은 특정 지점에 밀리미터 단위로 정확하게 발을 딛거나, 주어진 속도를 최소한의 오차로 유지하는 등의 능력을 말한다.

현재 대부분의 연구는 둘 중 하나에 치우쳐 있다. 일반화된 정책들은 다재다능한 기술을 선보이지만, 정밀성이 요구되는 과업에서는 신뢰도가 떨어진다.2 반대로, 특정 좁은 영역에 특화된 제어기는 뛰어난 정밀성을 달성하지만, 그 능력을 다른 과업으로 확장하지 못한다.2 넓은 범위의 역량과 높은 충실도를 동시에 갖춘 통합된 프레임워크를 개발하는 것은 아직 해결되지 않은 중요한 과제로, 미래 연구의 핵심 방향 중 하나이다.2

3.3. 보행과 조작의 통합: 전신 제어의 도전

단순한 보행을 넘어 유용한 작업을 수행하기 위해서는 보행(locomotion)과 조작(manipulation)을 매끄럽게 통합하는 '로코-매니퓰레이션(loco-manipulation)' 기술이 필수적이다.18 전통적으로 이는 보행 제어기와 조작 제어기를 분리하여 계층적으로 구성하는 방식으로 해결되었으나, 두 모듈 간의 조율이 어렵고 부자연스러운 움직임을 초래할 수 있다.18

학습 기반 접근의 목표는 전신을 제어하는 단일 통합 정책(unified policy)을 학습하는 것이다.20 그러나 이는 행동 및 관측 공간의 차원을 기하급수적으로 증가시켜 강화학습 문제를 훨씬 더 어렵게 만든다. 보행 안정성과 조작 목표 달성 사이의 균형을 맞추는 보상 함수를 설계하는 것 또한 매우 복잡한 문제다. 최근 연구들은 고수준 정책이 걷기, 팔 뻗기 등 필요한 기술을 선택하고, 강인한 저수준 정책이 이를 실행하는 계층적 강화학습(hierarchical RL)과 같은 새로운 해법을 모색하고 있다.22 이 분야는 현재 가장 활발하게 연구가 이루어지고 있는 최전선 중 하나이다.21

3.4. 실제 환경 배포에서의 안전성과 강인성

모델 없는(model-free) 강화학습을 실제 로봇에 직접 적용하는 것은 매우 위험하다. 탐험 과정에서 로봇이 쉽게 넘어져 고가의 하드웨어가 파손될 수 있기 때문이다.23

이 문제를 해결하기 위해 '안전 강화학습(safe RL)' 프레임워크가 제안되었다. 한 가지 접근법은 두 개의 정책을 사용하는 구조이다. 하나는 과업 최적화를 위한 '학습자 정책(learner policy)'이고, 다른 하나는 로봇이 균형을 잃는 등 안전하지 않은 상태에 가까워질 때 제어권을 넘겨받는 '안전 복구 정책(safe recovery policy)'이다.23 복구 정책은 로봇을 안전한 상태로 되돌린 후, 다시 학습자 정책에게 제어권을 넘겨준다.

또한, 외부에서 밀거나 다양한 무게의 짐을 운반하는 등 외부 교란에 대한 강인성은 정책 성공의 핵심 척도이다. 이는 최근의 많은 연구에서 주요 평가 기준으로 사용되고 있다.13

4. 필수 도구: 휴머노이드 연구를 위한 시뮬레이터 비교 분석

성공적인 휴머노이드 강화학습 연구를 위해서는 적절한 시뮬레이션 도구를 선택하는 것이 매우 중요하다. 시뮬레이터는 학습 속도, 물리적 정확성, 접근성 등에서 각각 다른 장단점을 가지므로, 연구 목표와 환경에 맞는 최적의 도구를 선택해야 한다.

4.1. 대규모 병렬 시뮬레이션: NVIDIA Isaac Sim / Isaac Lab

NVIDIA Isaac Sim/Lab은 로봇 학습을 위해 특별히 설계된 고성능 시뮬레이터로, NVIDIA Omniverse 플랫폼 위에서 구동된다.24 이 시뮬레이터의 가장 큰 특징은 GPU 가속을 활용하여 물리 시뮬레이션과 신경망 연산을 GPU 상에서 직접 수행한다는 점이다. 이를 통해 수천, 수백만 개의 환경을 병렬로 시뮬레이션할 수 있어, 대규모 강화학습 정책을 훈련하는 데 필요한 시간을 획기적으로 단축시킨다.24 특히 앞서 언급된 트랜스포머 기반 정책을 수십억 번의 스텝(step)으로 학습시키는 것이 가능한 이유는 바로 이러한 대규모 병렬 처리 능력 덕분이다.25 Agility Robotics (Digit)나 Berkeley Humanoid와 같이 최첨단 성능을 목표로 하는 연구 그룹에서 주로 선택하는 시뮬레이터이다.25 다만, 고성능 NVIDIA GPU가 필수적이며, 고급 기능으로 인해 학습 곡선이 다소 가파를 수 있다.27

4.2. 고충실도 물리 엔진: MuJoCo

MuJoCo (Multi-Joint dynamics with Contact)는 복잡한 접촉 동역학(contact dynamics)을 빠르고 정확하게 시뮬레이션하는 것으로 유명한 물리 엔진으로, 오랫동안 강화학습 및 생체역학 커뮤니티에서 표준처럼 사용되어 왔다.24 다리형 로봇의 보행에서 매우 중요한 접촉 현상을 매우 정밀하고 안정적으로 시뮬레이션할 수 있다는 것이 가장 큰 장점이다. 연산 효율성이 뛰어나며, 현재는 DeepMind에 의해 오픈소스로 전환되어 강력한 커뮤니티 지원을 받고 있다.28 HumanoidBench와 같은 최신 벤치마크가 MuJoCo 기반으로 구축되었으며 22, 이 분야의 수많은 기초 연구 논문들이 MuJoCo를 사용하여 알고리즘을 검증했다.

4.3. 접근성 높은 오픈소스 옵션: PyBullet과 Gazebo

PyBullet은 로봇 시뮬레이션을 위한 오픈소스 파이썬 모듈이다. 설치와 사용이 간편하며, PyTorch, TensorFlow와 같은 머신러닝 라이브러리와의 통합이 용이하다.28 이로 인해 빠른 프로토타이핑과 교육 목적으로 널리 사용된다.24

Gazebo는 로봇 운영체제(Robot Operating System, ROS) 커뮤니티의 사실상 표준 시뮬레이터이다.30 Gazebo의 핵심 강점은 ROS와의 긴밀한 통합으로, 센서와 전체 소프트웨어 스택을 포함한 로봇 시스템 전체를 매끄럽게 시뮬레이션할 수 있다는 점이다.24 강화학습에 사용될 수는 있지만, Isaac Lab이나 MuJoCo처럼 대규모 병렬 훈련에 최적화되어 있지는 않다.30

4.4. 시뮬레이터 선택을 위한 권장 프레임워크

연구실의 목표, 계산 자원, ROS 통합 필요성 등에 따라 최적의 시뮬레이터 선택은 달라진다. 다음 표는 이러한 의사결정을 돕기 위한 비교 분석이다.

표 4.1: 휴머노이드 RL 연구를 위한 시뮬레이터 비교 분석

시뮬레이터	주요 강점	물리 충실도	훈련 속도 (병렬성)	ROS 통합	비용 및 접근성	최적 연구 분야
Isaac Lab	대규모 병렬 처리	높음 (PhysX)	매우 빠름 (GPU 가속)	제한적	무료 (고성능 GPU 필요)	대규모 모델(예: 트랜스포머) 훈련, 최첨단 성능 연구
MuJoCo	접촉 동역학 정확도	매우 높음	빠름	제한적	무료 (오픈소스)	신규 알고리즘 개발 및 벤치마킹, 고충실도 물리 기반 제어
PyBullet	사용 편의성, Python 통합	중간	중간	제한적	무료 (오픈소스)	빠른 프로토타이핑, 교육, 머신러닝 라이브러리와의 연동
Gazebo	ROS 생태계 통합	중간 (다양한 엔진 지원)	보통	매우 우수	무료 (오픈소스)	ROS 기반 시스템의 통합 시뮬레이션, 실제 로봇 배포 전 검증

5. 대학 연구실을 위한 하드웨어 플랫폼 선정

강화학습 연구를 실제 하드웨어에서 검증하기 위해서는 적절한 로봇 플랫폼을 선택하는 것이 필수적이다. 플랫폼의 선택은 연구의 범위와 방향을 결정하는 전략적인 의사결정이며, 성능, 비용, 개방성을 종합적으로 고려해야 한다.

5.1. 고성능 상용 플랫폼: Unitree H1 & Agility Robotics Digit

Agility Robotics의 Digit은 산업계와 최상위 연구 그룹에서 모두 사용되는 최첨단 휴머노이드 플랫폼이다.16 약 1.6m의 키와 45kg의 무게를 가지며, 주로 물류 및 자재 운반 작업을 위해 설계되었다.31 제어기 개발에 NVIDIA의 Isaac Lab을 긴밀하게 활용하며 25, 연구용으로 약 25만 달러로 추정되는 고가의 플랫폼으로, 일반적으로 서비스 모델의 일부로 판매된다.32

Unitree H1은 약 1.8m, 47kg의 풀사이즈 휴머노이드로, 달리기 속도 세계 기록을 보유하는 등 뛰어난 동적 성능으로 유명하다.34 다수의 저명한 연구 논문에서 이 플랫폼을 사용하고 있다.7 가격은 약 9만~9만 5천 달러 수준으로 Digit보다는 접근성이 높지만 여전히 상당한 투자가 필요하다.36

5.2. 학계를 위한 접근성 높은 상용 플랫폼: Unitree G1 & ROBOTIS OP3

Unitree G1은 Unitree 사에서 출시한 더 저렴한 신형 휴머노이드로, 시작 가격이 1만 6천 달러이다.38 H1보다 약간 작으며, 연구자를 위한 'EDU' 버전이 별도로 존재하여 더 많은 자유도와 2차 개발 옵션을 제공한다.38 이 플랫폼은 고성능 하드웨어에 대한 비용 장벽을 크게 낮추는 중요한 변화를 의미한다.

ROBOTIS OP3는 약 51cm 크기의 소형 휴머노이드로, 연구 및 교육용으로 특별히 설계된 오픈소스 기반 플랫폼이다.39 오랜 기간 검증된 플랫폼으로 강력한 커뮤니티를 보유하고 있으며 ROS와 완벽하게 통합된다.40 가격은 약 1만 2천~1만 4천 달러 수준이다.41 Unitree 로봇들보다 동적 성능은 낮지만, 완전한 개방성과 저렴한 비용으로 인해 강화학습 연구의 훌륭한 입문용 플랫폼이 될 수 있다.

5.3. 오픈소스의 최전선: AGILOped & 자체 제작 플랫폼

AGILOped는 고성능과 접근성 사이의 간극을 메우기 위해 최근 제안된 오픈소스 휴머노이드 로봇이다.43 1.1m의 키, 14.5kg의 가벼운 무게를 가지며, 상용 부품(off-the-shelf)과 3D 프린팅을 이용하여 약 6,500달러의 비용으로 제작할 수 있다.43 하드웨어와 소프트웨어 스택 전체에 대한 완전한 투명성과 제어권을 제공한다는 것이 가장 큰 장점으로, 심층적인 로보틱스 연구에 이상적이다.

Berkeley Humanoid는 UC 버클리에서 자체 개발한 저비용 연구 플랫폼이다.26 이 로봇은 학습 알고리즘에 특화되어 설계되었으며, 작은 심투리얼 간극과 넘어짐에 대한 높은 신뢰성에 초점을 맞추었다. 이는 특정 연구 목표에 맞춰 플랫폼을 직접 개발하는 경로를 보여주는 사례이다.

5.4. 대학 연구실을 위한 비용-편익 분석

휴머노이드 플랫폼의 선택은 단순히 사양과 가격을 비교하는 것을 넘어, "이 플랫폼이 어떤 종류의 연구를 가능하게 하는가?"라는 전략적 질문에 답하는 과정이다. 고가의 상용 플랫폼(Digit, H1)은 최첨단 동역학 성능을 제공하지만, 소프트웨어가 비공개일 수 있어 연구가 고수준 제어에 한정될 수 있다. 이는 주로 '응용 연구'에 해당한다. 반면, 저비용 오픈소스 플랫폼(OP3, AGILOped)은 전 스택에 대한 제어와 커스터마이징을 허용하여 저수준 제어, 하드웨어-소프트웨어 공동 설계 등 '핵심 로보틱스 연구'를 가능하게 하지만, 상용 플랫폼만큼의 원초적인 성능은 부족할 수 있다. 최근 출시된 Unitree G1은 OP3에 가까운 가격대($16,000)에 H1에 근접하는 하드웨어 성능을 제공함으로써, 고성능 동적 보행 연구의 대중화를 이끌 수 있는 새로운 최적점(sweet spot)에 위치하는 것으로 보인다.

표 5.1: 대학 연구용 휴머노이드 플랫폼 비교

플랫폼	크기 (키/무게)	주요 동적 성능	대략적 비용 (USD)	개방성 (H/W, S/W)	목표 연구 분야
Agility Digit	1.75m / 68kg (추정)	산업 환경에서의 강인한 보행	~$250,000	낮음	고수준 과업 계획, 물류 자동화 응용
Unitree H1	1.8m / 47kg	고속 달리기, 동적 기동	~$90,000	낮음	최첨단 동적 보행 제어, 고성능 전신 제어
Unitree G1	1.32m / 35kg	유연한 관절 가동 범위, 조작	$16,000+ (EDU 버전)	중간 (2차 개발 지원)	접근성 높은 고성능 동적 보행 및 로코-매니퓰레이션
ROBOTIS OP3	0.51m / 3.5kg	안정적인 보행, ROS 통합	~$12,000	높음 (오픈소스 기반)	알고리즘 개발, 인간-로봇 상호작용, ROS 기반 연구
AGILOped	1.1m / 14.5kg	점프, 충격 완화	~$6,500	매우 높음 (완전 오픈소스)	저수준 제어, 하드웨어 설계, 제어-설계 공동 최적화
Berkeley Humanoid	0.85m / 22kg	강인한 보행, 빠른 리셋	~$10,000 (자체 제작)	매우 높음 (자체 제작)	학습 알고리즘 특화 플랫폼, 심투리얼 전이 연구

6. 연구 시작을 위한 종합 및 전략적 제언

본 보고서의 분석 내용을 종합하여, 휴머노이드 보행 및 전신 제어 연구를 시작하는 연구실을 위한 구체적이고 실행 가능한 권장 사항을 제시한다.

6.1. 신규 연구실을 위한 추천 툴체인

연구실의 예산, 인력, 그리고 핵심 연구 목표에 따라 두 가지 시나리오를 제안할 수 있다.

시나리오 1: 최첨단 성능 중심 연구

알고리즘: PPO로 훈련된 트랜스포머 기반 정책.
시뮬레이터: NVIDIA Isaac Lab (상당한 GPU 투자 필요).
플랫폼: Unitree G1 EDU 또는 예산이 허락한다면 Unitree H1.
근거: 이 조합은 동적 보행 분야의 가장 최신 연구들을 재현하고 확장하는 데 필요한 모든 요소를 갖추고 있다. 대규모 병렬 시뮬레이션을 통해 복잡한 트랜스포머 정책을 훈련하고, 이를 고성능 하드웨어에서 검증함으로써 세계적인 수준의 연구를 수행할 수 있다.

시나리오 2: 알고리즘 개발 및 접근성 중심 연구

알고리즘: 베이스라인으로 PPO, 샘플 효율성 실험을 위해 SAC/TD3.
시뮬레이터: 고충실도 물리를 위해 MuJoCo 또는 사용 편의성을 위해 PyBullet.
플랫폼: 안정적인 ROS 통합 플랫폼으로 ROBOTIS OP3 또는 완전한 오픈소스 연구를 위해 AGILOped.
근거: 이 조합은 상대적으로 적은 예산으로 시작할 수 있으며, 새로운 강화학습 알고리즘 개발, 안전 강화학습, 제어 이론 접목 등 핵심 알고리즘 연구에 집중할 수 있는 환경을 제공한다. 플랫폼의 완전한 개방성은 연구의 자유도를 극대화한다.

6.2. 유망한 연구 방향 및 미해결 과제

본 보고서에서 논의된 기술적 과제들을 바탕으로, 다음과 같은 유망한 연구 방향을 제시할 수 있다.

통합 로코-매니퓰레이션: 3.3절에서 강조했듯이, 걷기와 조작을 매끄럽게 전환하거나 결합하는 단일 정책을 개발하는 것은 매우 중요한 미해결 과제이다.21
일반화와 정밀성의 조화: 3.2절의 딜레마를 해결하기 위해, 강인하고 일반적인 보행 능력과 고정밀 움직임을 모두 수행할 수 있는 새로운 아키텍처나 학습 프레임워크를 개발하는 연구.
제어를 위한 파운데이션 모델: '다음 토큰 예측' 아이디어를 확장하여 15, 강화학습, 모션 캡처, 비디오 등 다양한 종류의 데이터로 사전 훈련된 대규모 '보행 파운데이션 모델'을 구축하고, 이를 특정 과업에 미세 조정하는 연구는 유망한 미래 방향이다.18
에너지 효율과 수동적 동역학 활용: 대부분의 DRL 연구는 안정성과 과업 성공에 초점을 맞추고 있다. 생체역학적 원리를 명시적으로 통합하여 에너지 효율을 높이고 로봇의 수동적 동역학(passive dynamics)을 적극적으로 활용하는 연구는, 더 인간과 같고 장시간 자율적으로 작동하는 로봇을 만드는 데 필수적이다.3

참고 자료

Reduced-Order Model-Guided Reinforcement Learning for Demonstration-Free Humanoid Locomotion - arXiv, 10월 27, 2025에 액세스, https://arxiv.org/html/2509.19023v1
Deep Reinforcement Learning for Robotic Bipedal Locomotion: A Brief Survey - arXiv, 10월 27, 2025에 액세스, https://arxiv.org/html/2404.17070v5
Multimodal bipedal locomotion generation with passive dynamics via deep reinforcement learning - PMC - PubMed Central, 10월 27, 2025에 액세스, https://pmc.ncbi.nlm.nih.gov/articles/PMC9899902/
Making quadrupeds Learning to walk: Step-by-Step Guide | Federico Sarrocco, 10월 27, 2025에 액세스, https://federicosarrocco.com/blog/Making-Quadrupeds-Learning-To-Walk
A Multi-Agent Reinforcement Learning Method for Omnidirectional Walking of Bipedal Robots - PMC - PubMed Central, 10월 27, 2025에 액세스, https://pmc.ncbi.nlm.nih.gov/articles/PMC10741823/
Reinforcement Learning of Bipedal Walking Using a Simple Reference Motion - MDPI, 10월 27, 2025에 액세스, https://www.mdpi.com/2076-3417/14/5/1803
Expressive Whole-Body Control for Humanoid Robots, 10월 27, 2025에 액세스, https://www.roboticsproceedings.org/rss20/p107.pdf
Expressive Whole-Body Control for Humanoid Robots - arXiv, 10월 27, 2025에 액세스, https://arxiv.org/html/2402.16796v1
Deep Reinforcement Learning for Model Predictive Controller Based on Disturbed Single Rigid Body Model of Biped Robots - MDPI, 10월 27, 2025에 액세스, https://www.mdpi.com/2075-1702/10/11/975
Evaluating and Selecting Deep Reinforcement Learning Models for Optimal Dynamic Pricing: A Systematic Comparison of PPO, DDPG, a - The University of Liverpool Repository, 10월 27, 2025에 액세스, https://livrepository.liverpool.ac.uk/3176825/1/Evaluating%20and%20Selecting%20Deep%20Reinforcement%20Learning%20Models%20for%20Optimal%20Dynamic%20Pricing%20A%20Systematic%20Comparison%20of%20PPO,%20DDPG,%20and%20SAC__Camera%20Ready.pdf
DDPG vs PPO vs SAC: when to use? : r/reinforcementlearning - Reddit, 10월 27, 2025에 액세스, https://www.reddit.com/r/reinforcementlearning/comments/holioy/ddpg_vs_ppo_vs_sac_when_to_use/
Actor-Critic Methods: SAC and PPO | Joel's PhD Blog, 10월 27, 2025에 액세스, https://joel-baptista.github.io/phd-weekly-report/posts/ac/
[2303.03381] Real-World Humanoid Locomotion with Reinforcement Learning - arXiv, 10월 27, 2025에 액세스, https://arxiv.org/abs/2303.03381
Real-world humanoid locomotion with reinforcement learning - Hybrid Robotics, 10월 27, 2025에 액세스, https://hybrid-robotics.berkeley.edu/publications/ScienceRobotics2024_Learning_Humanoid_Locomotion.pdf
Humanoid Locomotion as Next Token Prediction - NIPS papers, 10월 27, 2025에 액세스, https://proceedings.neurips.cc/paper_files/paper/2024/file/90afd20dc776bc8849c31d61a0763a0b-Paper-Conference.pdf
Learning Humanoid Locomotion over Challenging Terrain - arXiv, 10월 27, 2025에 액세스, https://arxiv.org/html/2410.03654v1
Learning Humanoid Locomotion with World Model Reconstruction - arXiv, 10월 27, 2025에 액세스, https://arxiv.org/html/2502.16230v1
Humanoid Locomotion and Manipulation: Current Progress and Challenges in Control, Planning, and Learning *co-corresponding authors - arXiv, 10월 27, 2025에 액세스, https://arxiv.org/html/2501.02116v1
[2501.02116] Humanoid Locomotion and Manipulation: Current Progress and Challenges in Control, Planning, and Learning - arXiv, 10월 27, 2025에 액세스, https://arxiv.org/abs/2501.02116
Deep Whole-Body Control: Learning a Unified Policy for Manipulation and Locomotion (CoRL 2022) - YouTube, 10월 27, 2025에 액세스, https://www.youtube.com/watch?v=4-2j3L86ZL4
aCodeDog/awesome-loco-manipulation - GitHub, 10월 27, 2025에 액세스, https://github.com/aCodeDog/awesome-loco-manipulation
HumanoidBench, 10월 27, 2025에 액세스, https://humanoid-bench.github.io/
Safe Reinforcement Learning for Legged Locomotion - Google Sites, 10월 27, 2025에 액세스, https://sites.google.com/view/saferlleggedlocomotion/
Choose a Simulator - Robotics Knowledgebase, 10월 27, 2025에 액세스, https://roboticsknowledgebase.com/wiki/robotics-project-guide/choose-a-sim/
Humanoid Robot 'Digit' Powered by Whole-Body Control Foundation Model - NVIDIA, 10월 27, 2025에 액세스, https://www.nvidia.com/en-us/customer-stories/agility-robotics-digit-humanoid-robot/
Berkeley Humanoid: A Research Platform for Learning-based Control, 10월 27, 2025에 액세스, https://berkeley-humanoid.com/
Best physics engine for reinforcement learning with parallel GPU training? : r/reinforcementlearning - Reddit, 10월 27, 2025에 액세스, https://www.reddit.com/r/reinforcementlearning/comments/1ireyww/best_physics_engine_for_reinforcement_learning/
A Review of Nine Physics Engines for Reinforcement Learning Research - Powerdrill AI, 10월 27, 2025에 액세스, https://powerdrill.ai/discover/discover-A-Review-of-clyj6mwfm2sm401czd86wjawm
knmcguire/best-of-robot-simulators - GitHub, 10월 27, 2025에 액세스, https://github.com/knmcguire/best-of-robot-simulators
Why is Gazebo very famous in the ROS community? what about Webots?, 10월 27, 2025에 액세스, https://discourse.openrobotics.org/t/why-is-gazebo-very-famous-in-the-ros-community-what-about-webots/42459
Agility Robotics, 10월 27, 2025에 액세스, https://www.agilityrobotics.com/
Get a Digit Fleet - Agility Robotics, 10월 27, 2025에 액세스, https://www.agilityrobotics.com/get-started
Programming Agility | Mechanical Engineering at University of Delaware, 10월 27, 2025에 액세스, https://me.udel.edu/2022/05/05/programming-agility-2/
Research on deep learning analysis and optimization of humanoid robot based on Yushu Technology, 10월 27, 2025에 액세스, https://aber.apacsci.com/index.php/met/article/viewFile/3735/4109
Unitree H1 - Roboworks, 10월 27, 2025에 액세스, https://www.roboworks.net/store/p/unitree-h1-humanoid-robot
Unitree H1 Humanoid Robot - RobotShop, 10월 27, 2025에 액세스, https://www.robotshop.com/products/unitree-h1-humanoid-robot-us
Unitree H1（Contact us for the real price） - UnitreeRobotics, 10월 27, 2025에 액세스, https://shop.unitree.com/products/unitree-h1
Humanoid robot G1_Humanoid Robot Functions_Humanoid Robot Price | Unitree Robotics, 10월 27, 2025에 액세스, https://www.unitree.com/g1
ROBOTIS OP3 OPEN SOURCE HUMANOID ROBOT - Solvelight Robotics, 10월 27, 2025에 액세스, https://solvelight.com/product/robotis-op3-open-source-humanoid-robot/
ROBOTIS OP3 - ROBOTIS e-Manual, 10월 27, 2025에 액세스, https://emanual.robotis.com/docs/en/platform/op3/introduction/
ROBOTIS OP3[US], 10월 27, 2025에 액세스, https://www.robotis.us/robotis-op3-us/
ROBOTIS OP, 10월 27, 2025에 액세스, https://en.robotis.com/shop_en/list.php?ca_id=4020
AGILOped: Agile Open-Source Humanoid Robot for Research - arXiv, 10월 27, 2025에 액세스, https://arxiv.org/html/2509.09364v1

'과학기술' 카테고리의 다른 글

전술 정보 우위를 위한 자율 다중 위성 편대비행 (0)	2025.11.02
이종 위성군 우주 감시정찰 시스템 (0)	2025.11.01
휴머노이드 혁명을 이끄는 AI 및 하드웨어 기술 종합 분석 (0)	2025.10.30
대한민국 우주상황인식 역량 평가 및 전략적 발전 방향 (0)	2025.10.28
달 복합 임무형 위성군 궤도설계 기반기술 및 핵심 난제 분석 (0)	2025.10.25

파서스 리서치

강화학습을 통한 휴머노이드 보행 및 전신 제어 기술 보고서

1. 학습 기반 휴머노이드 제어의 기초 패러다임

1.1. 목표 기반 (참조 데이터 없는) 강화학습

1.2. 모방 학습과 동작 사전 지식 활용

2. 강화학습 알고리즘 및 정책 아키텍처 비교 분석

2.1. On-Policy 대 Off-Policy 알고리즘: PPO, SAC, TD3 비교

2.2. 트랜스포머 기반 정책의 부상

2.3. 월드 모델과 모델 기반 강화학습

3. 현재 기술의 최전선과 주요 연구 과제

3.1. 현실과의 간극 메우기: 심투리얼 전이

3.2. 일반화와 정밀도의 딜레마

3.3. 보행과 조작의 통합: 전신 제어의 도전

3.4. 실제 환경 배포에서의 안전성과 강인성

4. 필수 도구: 휴머노이드 연구를 위한 시뮬레이터 비교 분석

4.1. 대규모 병렬 시뮬레이션: NVIDIA Isaac Sim / Isaac Lab

4.2. 고충실도 물리 엔진: MuJoCo

4.3. 접근성 높은 오픈소스 옵션: PyBullet과 Gazebo

4.4. 시뮬레이터 선택을 위한 권장 프레임워크

5. 대학 연구실을 위한 하드웨어 플랫폼 선정

5.1. 고성능 상용 플랫폼: Unitree H1 & Agility Robotics Digit

5.2. 학계를 위한 접근성 높은 상용 플랫폼: Unitree G1 & ROBOTIS OP3

5.3. 오픈소스의 최전선: AGILOped & 자체 제작 플랫폼

5.4. 대학 연구실을 위한 비용-편익 분석

6. 연구 시작을 위한 종합 및 전략적 제언

6.1. 신규 연구실을 위한 추천 툴체인

6.2. 유망한 연구 방향 및 미해결 과제

참고 자료

'과학기술' 카테고리의 다른 글

티스토리툴바

강화학습을 통한 휴머노이드 보행 및 전신 제어 기술 보고서

1. 학습 기반 휴머노이드 제어의 기초 패러다임

1.1. 목표 기반 (참조 데이터 없는) 강화학습

1.2. 모방 학습과 동작 사전 지식 활용

2. 강화학습 알고리즘 및 정책 아키텍처 비교 분석

2.1. On-Policy 대 Off-Policy 알고리즘: PPO, SAC, TD3 비교

2.2. 트랜스포머 기반 정책의 부상

2.3. 월드 모델과 모델 기반 강화학습

3. 현재 기술의 최전선과 주요 연구 과제

3.1. 현실과의 간극 메우기: 심투리얼 전이

3.2. 일반화와 정밀도의 딜레마

3.3. 보행과 조작의 통합: 전신 제어의 도전

3.4. 실제 환경 배포에서의 안전성과 강인성

4. 필수 도구: 휴머노이드 연구를 위한 시뮬레이터 비교 분석

4.1. 대규모 병렬 시뮬레이션: NVIDIA Isaac Sim / Isaac Lab

4.2. 고충실도 물리 엔진: MuJoCo

4.3. 접근성 높은 오픈소스 옵션: PyBullet과 Gazebo

4.4. 시뮬레이터 선택을 위한 권장 프레임워크

5. 대학 연구실을 위한 하드웨어 플랫폼 선정

5.1. 고성능 상용 플랫폼: Unitree H1 & Agility Robotics Digit

5.2. 학계를 위한 접근성 높은 상용 플랫폼: Unitree G1 & ROBOTIS OP3

5.3. 오픈소스의 최전선: AGILOped & 자체 제작 플랫폼

5.4. 대학 연구실을 위한 비용-편익 분석

6. 연구 시작을 위한 종합 및 전략적 제언

6.1. 신규 연구실을 위한 추천 툴체인

6.2. 유망한 연구 방향 및 미해결 과제

참고 자료

'과학기술' 카테고리의 다른 글

관련글

티스토리툴바