1. 서론: 구현된 지능(Embodied Intelligence)의 새로운 지평
2023년 초부터 2025년 중반에 이르는 기간은 로봇 공학 및 인공지능 역사상 가장 급격한 패러다임 전환이 일어난 시기로 기록될 것이다. 이 시기는 물리적 AI(Physical AI), 즉 디지털 세계의 지능이 물리적 신체(Body)를 통해 현실 세계와 상호작용하는 기술이 실험실의 개념 증명을 넘어 범용적인 적용 가능성을 입증하기 시작한 "로봇 공학의 챗GPT 모멘트"로 정의할 수 있다. 과거의 로봇 제어가 정교한 수작업 프로그래밍과 제한된 환경에서의 상태 추정에 의존했다면, 이 시기의 연구들은 인터넷 규모의 데이터와 대규모 언어 모델(LLM)의 추론 능력을 로봇 제어와 결합하는 시각-언어-행동(Vision-Language-Action, VLA) 모델로의 거대한 전환을 이끌어냈다.

본 보고서는 RT-2, OpenVLA, Octo, Diffusion Policy 등 핵심 논문을 중심으로, 2025년의 최신 연구인 Pi-Zero, CogACT, Real-Time Chunking 등이 보여주는 고속·고효율 아키텍처로의 진화를 기술적 관점에서 심층 분석한다. 각 모델이 해결하고자 했던 병목 현상과 그 해결책이 남긴 기술적 유산을 3가지 핵심 축(이산화 vs 생성형 제어, 이중 시스템 아키텍처, 월드 모델 기반 시뮬레이션)으로 나누어 살펴본다.
2. 2023년: 거대 모델의 물리적 세계 진입과 패러다임의 전환
2023년은 로봇 학습 분야에서 "규모의 법칙(Scaling Law)"이 처음으로 입증된 해다. 연구자들은 인터넷상의 방대한 지식을 로봇 제어에 전이시키기 위해 대규모 언어 모델을 로봇에 이식하는 시도를 감행했다.
2.1. RT-2: 웹 지식의 물리적 전이와 VLA의 탄생
구글 딥마인드(Google DeepMind)가 발표한 RT-2(Robotic Transformer 2)는 VLA 모델의 효시이자 기술적 기준점을 제시한 기념비적인 연구다.1 RT-2의 핵심 가설은 "언어 모델이 학습한 방대한 의미론적 지식(Semantic Knowledge)이 로봇의 물리적 행동으로 번역될 수 있다"는 것이었다.
2.1.1. 기술적 메커니즘: 행동의 토큰화(Action Tokenization)
RT-2의 가장 중요한 기술적 기여는 로봇의 행동을 자연어와 동일한 '토큰'으로 처리했다는 점이다. 연속적인 실수값(Continuous Real Values)인 로봇 제어 신호를 256개의 균일한 구간(Bin)으로 이산화(Discretization)하여 정수형 토큰으로 변환했다.1 이를 통해 PaLI-X(55B)나 PaLM-E와 같은 기존 대규모 시각-언어 모델(VLM)을 로봇 제어에 거의 수정 없이 사용할 수 있었다.
2.1.2. 창발적 능력(Emergent Capabilities)과 한계
RT-2는 훈련 데이터에 없는 물체나 개념을 이해하고 조작하는 제로샷(Zero-shot) 일반화 능력을 보여주었다. 예를 들어, 훈련 데이터에 없던 "멸종된 동물(공룡)을 집어라"와 같은 명령을 웹 지식을 통해 수행할 수 있었다.1 그러나 550억 개에 달하는 파라미터 크기로 인해 추론 속도가 1~3Hz 수준에 머물러 동적인 움직임에는 제약이 따랐으며, 이산화로 인한 정밀도 저하 문제도 존재했다.
2.2. Diffusion Policy: 생성형 모델을 통한 정교한 제어
RT-2가 의미론적 확장에 집중했다면, Diffusion Policy는 제어의 정밀도와 다중 모드(Multi-modality) 대응 능력에서 혁명을 일으켰다.5
2.2.1. 확산 모델(Diffusion Model)의 로봇 제어 적용
Diffusion Policy는 로봇 행동 생성을 조건부 디노이징 확산 과정으로 재정의했다. 이는 여러 가지 유효한 해결책이 존재하는 상황(예: 장애물 회피 시 좌/우 경로 모두 가능)에서 평균값을 선택해 실패하는 기존 MSE 방식의 문제를 해결했다. 모델은 노이즈로부터 점진적으로 유효한 행동 궤적을 생성해낸다.7
2.2.2. 성능 및 영향
이 모델은 4개의 로봇 조작 벤치마크 12개 작업에서 기존 SOTA 모델들을 평균 46.9% 차이로 능가했다.5 특히 고차원 행동 공간을 가진 양팔 로봇 제어나 접촉이 빈번한 작업에서 탁월한 안정성을 보여, 이후 Octo, $\pi_0$ 등 생성형 정책 모델들의 기술적 토대가 되었다.
2.3. Open X-Embodiment: 로봇 데이터의 ImageNet
구글 딥마인드와 21개 기관이 협력하여 구축한 Open X-Embodiment (OXE) 데이터셋은 로봇 학습의 고질적인 데이터 부족 문제를 해결하고자 했다.4 22종의 로봇에서 수집된 100만 개 이상의 궤적을 포함하며, 이를 통해 학습된 RT-X 모델은 특정 로봇 데이터로만 학습된 모델보다 평균 50% 높은 성공률을 보여 교차 구현(Cross-Embodiment) 학습의 유효성을 입증했다.10
3. 2024년: 오픈 소스 생태계와 아키텍처의 분화
2024년은 효율적이고 접근 가능한 오픈 소스 모델들이 폭발적으로 성장한 시기다. '트랜스포머 백본 + 이산화 토큰' 방식과 '트랜스포머 백본 + 확산 헤드' 방식 간의 아키텍처 경쟁이 심화되었다.
3.1. Octo: 트랜스포머와 디퓨전의 결합
Octo는 OXE 데이터셋 기반의 최초 오픈 소스 범용 로봇 정책으로, 트랜스포머와 디퓨전의 장점을 결합했다.12 인지(Perception)는 트랜스포머가, 행동 생성은 디퓨전 헤드가 담당하는 구조로 설계되어 다양한 로봇 하드웨어에 유연하게 대응할 수 있었다. 하지만 디퓨전 특유의 반복적인 디노이징 과정으로 인해 추론 속도 면에서는 한계가 있었다.14
3.2. OpenVLA: 효율적인 Llama 기반 표준 모델
OpenVLA는 로봇 연구 커뮤니티의 표준(De facto standard)으로 자리 잡았다.2 Llama 2 (7B) 언어 모델을 백본으로 사용하며, 시각 처리를 위해 Prismatic (SigLIP + DINOv2) 방식을 채택해 공간적 이해도를 높였다. RT-2-X보다 파라미터 수가 7배 적음에도 불구하고 일반적인 조작 작업에서 16.5% 더 높은 성공률을 기록했으며, 소비자용 GPU에서도 구동 가능한 효율성을 갖췄다.2
3.3. Mobile ALOHA: Co-Training의 승리
Mobile ALOHA 연구는 하드웨어와 데이터 수집 측면에서 큰 반향을 일으켰다. 기존의 정적인 양팔 로봇 데이터와 소량의 이동 데이터를 함께 학습시키는 Co-Training 전략을 통해, 단 50회의 시연만으로도 복잡한 이동 조작 작업을 성공시켰다.16 이는 데이터 효율적인 로봇 학습의 새로운 방법론을 제시했다.
4. 2024년 후반 - 2025년: 속도, 정밀도, 그리고 지능의 분리
2024년 후반부터는 VLA 모델의 추론 지연(Latency)과 장기 기억(Long-horizon) 문제를 해결하기 위한 기술적 시도가 주를 이뤘다.
4.1. Pi-Zero: Flow Matching을 통한 연속 제어
Physical Intelligence사가 2025년 발표한 Pi-Zero는 확산 모델의 한계를 넘어 Flow Matching 기법을 도입했다.18 이는 노이즈 분포에서 데이터 분포로 가는 최적의 경로를 학습하여, 확산 모델보다 훨씬 적은 단계로 고품질 행동 궤적을 생성한다. 최대 50Hz의 고주파 제어를 실현하여 세탁물 개기, 박스 접기 등 정밀한 작업에서 압도적인 성능을 보였다.20
4.2. Real-Time Chunking (RTC): 지연 시간의 극복
Real-Time Chunking (RTC) 알고리즘은 모델의 추론 지연 문제를 해결하기 위해 제안되었다.22 로봇이 현재 행동을 실행하는 동안 백그라운드에서 다음 행동을 미리 생성하는 비동기 실행 방식을 취하며, 인퍼런스 타임 인페인팅(Inference-time Inpainting)을 통해 행동 간의 불연속성을 제거했다. 이를 통해 300ms 이상의 지연이 발생하는 상황에서도 매끄러운 움직임을 유지할 수 있게 되었다.24
4.3. PD-VLA 및 SemanticVLA: 가속과 경량화
- PD-VLA: 순차적인 토큰 생성이 아닌 병렬 디코딩(Parallel Decoding) 방식을 도입하여 추론 속도를 2.5배 이상 가속화했다.25
- SemanticVLA: 불필요한 시각 토큰을 제거(Pruning)하여 훈련 비용과 추론 속도를 획기적으로 개선했다.27
- BitVLA: 파라미터를 -1, 0, 1로 표현하는 1-bit 양자화를 통해 메모리 효율성을 극대화했다.29
5. 이중 시스템(Dual-System) 아키텍처의 부상
2025년에는 인지와 제어를 분리하는 이중 시스템(System 1 vs. System 2) 아키텍처가 주류로 부상했다.
5.1. CogACT: 인지와 행동의 시너지
CogACT는 거대 VLM(System 2)이 계획을 수립하고, 소형 디퓨전 트랜스포머(System 1)가 고주파로 모터 제어를 수행하는 구조다.31 이러한 분리는 각 모듈의 효율성을 극대화하여 단일 모델 대비 시뮬레이션 성공률을 35% 이상 향상시켰다.33
5.2. EvoVLA: 자가 진화하는 모델
EvoVLA는 장기 작업 수행 능력을 높이기 위해 장기 기억 모듈과 단계 정렬 보상(SAR)을 도입했다.35 특히 Gemini를 활용해 어려운 예시를 생성하고 스스로 학습하는 자가 진화 체계를 구축하여, 데이터 레이블링 없이도 복잡한 다단계 작업 성능을 대폭 개선했다.35
6. 시뮬레이션과 월드 모델: 무한한 데이터의 원천
물리적 데이터 수집의 한계를 극복하기 위해 현실 세계를 시뮬레이션하는 월드 모델 연구가 핵심 트렌드로 자리 잡았다.
6.1. Genie와 Genie 3
구글 딥마인드의 Genie 3는 텍스트 프롬프트만으로 물리 법칙이 적용되는 상호작용 가능한 3D 환경을 실시간으로 생성한다.38 이는 로봇이 현실의 위험 없이 무한한 시행착오를 겪으며 학습할 수 있는 환경을 제공한다.
6.2. NVIDIA Cosmos
엔비디아의 Cosmos는 물리적 AI를 위한 파운데이션 월드 모델 플랫폼이다.40 물리적 정합성과 인과 관계 추론에 특화되어 있으며, GR00T와 같은 휴머노이드 로봇 학습의 핵심 인프라로 활용되고 있다.42
7. 결론 및 향후 전망
2023년 RT-2가 쏘아 올린 '의미론적 로봇'의 신호탄은 2025년에 이르러 정교한 엔지니어링의 집약체로 진화했다. 향후 발전 방향은 다음과 같이 요약된다.
- 이중 시스템의 표준화: 고수준 추론(VLM)과 저수준 제어(Diffusion/Flow)의 결합이 표준 아키텍처가 될 것이다.
- 초저지연성(Ultra-low Latency): RTC, PD-VLA 등의 기술을 통해 엣지 디바이스에서의 실시간 AI 구동이 가속화될 것이다.
- 시뮬레이션 중심의 학습: Cosmos, Genie와 같은 월드 모델을 통해 생성된 합성 데이터가 로봇 학습의 주류가 될 것이다.
우리는 이제 "말귀를 알아듣는 로봇"을 넘어 "생각하며 반사적으로 움직이는 로봇"의 시대로 진입했다. 분석된 논문들은 이 거대한 변화를 가능하게 한 기술적 주춧돌이며, 미래 범용 로봇의 운영체제(OS)를 구성하는 핵심 알고리즘이 될 것이다.
참고 자료
- RT-2: New model translates vision and language into action - Google DeepMind, 12월 13, 2025에 액세스, https://deepmind.google/blog/rt-2-new-model-translates-vision-and-language-into-action/
- OpenVLA: An Open-Source Vision-Language-Action Model, 12월 13, 2025에 액세스, https://openvla.github.io/
- RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control, 12월 13, 2025에 액세스, https://robotics-transformer2.github.io/assets/rt2.pdf
- Open X-Embodiment: Robotic Learning Datasets and RT-X Models, 12월 13, 2025에 액세스, https://robotics-transformer-x.github.io/
- Visuomotor Policy Learning via Action Diffusion - arXiv, 12월 13, 2025에 액세스, https://arxiv.org/abs/2303.04137
- Diffusion Policy - arXiv, 12월 13, 2025에 액세스, https://arxiv.org/html/2502.12371v2
- Diffusion Policy: How Diffusion Models Are Transforming Robot Learning from Demonstration | by Isaac Kargar, 12월 13, 2025에 액세스, https://kargarisaac.medium.com/diffusion-policy-how-diffusion-models-are-transforming-robot-learning-from-demonstration-32c27ba829cf
- Visuomotor Policy Learning via Action Diffusion, 12월 13, 2025에 액세스, https://diffusion-policy.cs.columbia.edu/diffusion_policy_ijrr.pdf
- Open X-Embodiment: The ImageNet of Robot Learning? | by Fotios (Fotis) Lygerakis, 12월 13, 2025에 액세스, https://medium.com/@ligerfotis/open-x-embodiment-the-imagenet-of-robot-learning-e527e77de37c
- Scaling up learning across many different robot types - Google DeepMind, 12월 13, 2025에 액세스, https://deepmind.google/blog/scaling-up-learning-across-many-different-robot-types/
- [2310.08864] Open X-Embodiment: Robotic Learning Datasets and RT-X Models - arXiv, 12월 13, 2025에 액세스, https://arxiv.org/abs/2310.08864
- Octo: An Open-Source Generalist Robot Policy, 12월 13, 2025에 액세스, https://octo-models.github.io/
- An Open-Source Generalist Robot Policy - Octo, 12월 13, 2025에 액세스, https://octo-models.github.io/paper.pdf
- Octo: An Open-Source Generalist Robot Policy - arXiv, 12월 13, 2025에 액세스, https://arxiv.org/html/2405.12213v1
- OpenVLA: Open Source VLA for Robotics - Emergent Mind, 12월 13, 2025에 액세스, https://www.emergentmind.com/topics/openvla
- Mobile ALOHA: Learning Bimanual Mobile Manipulation with Low-Cost Whole-Body Teleoperation - arXiv, 12월 13, 2025에 액세스, https://arxiv.org/html/2401.02117v1
- Pushing the Limits of Cross-Embodiment Learning for Manipulation and Navigation - Robotics, 12월 13, 2025에 액세스, https://www.roboticsproceedings.org/rss20/p093.pdf
- $π_0$: A Vision-Language-Action Flow Model for General Robot Control | alphaXiv, 12월 13, 2025에 액세스, https://www.alphaxiv.org/overview/2410.24164
- π 0 : Our First Generalist Policy - Physical Intelligence, 12월 13, 2025에 액세스, https://www.physicalintelligence.company/blog/pi0
- π0, A Machine Learning System for Household Robotics - DeepLearning.AI, 12월 13, 2025에 액세스, https://www.deeplearning.ai/the-batch/p0-a-machine-learning-system-for-household-robotics/
- π0 and π0-FAST: Vision-Language-Action Models for General Robot Control, 12월 13, 2025에 액세스, https://huggingface.co/blog/pi0
- [2506.07339] Real-Time Execution of Action Chunking Flow Policies - arXiv, 12월 13, 2025에 액세스, https://arxiv.org/abs/2506.07339
- Real-Time Execution of Action Chunking Flow Policies - Physical Intelligence, 12월 13, 2025에 액세스, https://www.physicalintelligence.company/download/real_time_chunking.pdf
- Real-Time Action Chunking with Large Models - Physical Intelligence, 12월 13, 2025에 액세스, https://www.physicalintelligence.company/research/real_time_chunking
- H-GAR: A Hierarchical Interaction Framework via Goal-Driven Observation-Action Refinement for Robotic Manipulation - arXiv, 12월 13, 2025에 액세스, https://arxiv.org/html/2511.17079v1
- [Literature Review] Accelerating Vision-Language-Action Model Integrated with Action Chunking via Parallel Decoding - Moonlight, 12월 13, 2025에 액세스, https://www.themoonlight.io/en/review/accelerating-vision-language-action-model-integrated-with-action-chunking-via-parallel-decoding
- SemanticVLA: Semantic-Aligned Sparsification and Enhancement for Efficient Robotic Manipulation - arXiv, 12월 13, 2025에 액세스, https://arxiv.org/html/2511.10518v1
- CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models, 12월 13, 2025에 액세스, https://www.researchgate.net/publication/394511717_CoT-VLA_Visual_Chain-of-Thought_Reasoning_for_Vision-Language-Action_Models
- [PDF] BitVLA: 1-bit Vision-Language-Action Models for Robotics, 12월 13, 2025에 액세스, https://www.semanticscholar.org/paper/BitVLA%3A-1-bit-Vision-Language-Action-Models-for-Wang-Xiong/90aa07ab554e2d57440dc1cceccb11c5a113205b
- BitVLA: 1-bit Vision-Language-Action Models for Robotics Manipulation - arXiv, 12월 13, 2025에 액세스, https://arxiv.org/html/2506.07530v1
- CogACT: A Foundational Vision-Language-Action Model for Synergizing Cognition and Action in Robotic Manipulation - ResearchGate, 12월 13, 2025에 액세스, https://www.researchgate.net/publication/386335138_CogACT_A_Foundational_Vision-Language-Action_Model_for_Synergizing_Cognition_and_Action_in_Robotic_Manipulation
- Galaxea Open-World Dataset and G0 Dual-System VLA Model - arXiv, 12월 13, 2025에 액세스, https://arxiv.org/html/2509.00576v1
- Vision-Language-Action Models: Concepts, Progress, Applications and Challenges, 12월 13, 2025에 액세스, https://www.alphaxiv.org/overview/2505.04769v1
- A Review of Video-based Learning Approaches for Robot Manipulation - IEEE Xplore, 12월 13, 2025에 액세스, https://ieeexplore.ieee.org/iel8/6287639/6514899/11215739.pdf
- EvoVLA: Self-Evolving Vision-Language-Action Model - arXiv, 12월 13, 2025에 액세스, https://arxiv.org/html/2511.16166v1
- AIGeeksGroup/EvoVLA: EvoVLA: Self-Evolving Vision-Language-Action Model - GitHub, 12월 13, 2025에 액세스, https://github.com/AIGeeksGroup/EvoVLA
- [PDF] EvoVLA: Self-Evolving Vision-Language-Action Model | Semantic Scholar, 12월 13, 2025에 액세스, https://www.semanticscholar.org/paper/EvoVLA%3A-Self-Evolving-Vision-Language-Action-Model-Liu-Yang/108f12ee8575a97beb8c1bd5c3e5059d7452ece9
- Genie 3: A new frontier for world models - Google DeepMind, 12월 13, 2025에 액세스, https://deepmind.google/blog/genie-3-a-new-frontier-for-world-models/
- Genie 2: A large-scale foundation world model - Google DeepMind, 12월 13, 2025에 액세스, https://deepmind.google/blog/genie-2-a-large-scale-foundation-world-model/
- NVIDIA Cosmos - GitHub, 12월 13, 2025에 액세스, https://github.com/nvidia-cosmos
- Cosmos World Foundation Model Platform for Physical AI - Research at NVIDIA, 12월 13, 2025에 액세스, https://research.nvidia.com/publication/2025-01_cosmos-world-foundation-model-platform-physical-ai
- GR00T N1: An Open Foundation Model for Generalist Humanoid Robots - arXiv, 12월 13, 2025에 액세스, https://arxiv.org/abs/2503.14734
- NVIDIA Isaac GR00T N1: An Open Foundation Model for Humanoid Robots | Research, 12월 13, 2025에 액세스, https://research.nvidia.com/publication/2025-03_nvidia-isaac-gr00t-n1-open-foundation-model-humanoid-robots
'과학기술' 카테고리의 다른 글
| 우주탐사를 위한 온보드 딥러닝 모델 경량화 기술 개발 (0) | 2025.12.26 |
|---|---|
| Liquid Neural Networks 및 Closed-form Continuous-time Neural Networks (0) | 2025.12.15 |
| 인체모델 기반 고공낙하 및 낙하산 시뮬레이션 알고리즘 개발 심층 연구 (0) | 2025.12.07 |
| 방송 궤도력 기반 위성 간 거리 측정을 통한 GNSS 성능 향상: 기술적 분석 및 실험적 검증 프레임워크 (0) | 2025.12.06 |
| 우주에서 위성 간 촬영을 통한 위성형상 확보 체계 연구 계획서 (0) | 2025.12.06 |