1. 서론: 항공우주 AI의 'ChatGPT 모멘트'와 물리적 지능의 도래
2023년부터 2025년 사이의 기간은 항공우주 공학, 특히 무인항공기(UAV) 제어 시스템 분야에서 역사적인 변곡점으로 기록될 것이다. 이 시기는 인공지능(AI)이 단순한 데이터 분석이나 패턴 인식을 넘어, 물리적 세계와 직접 상호작용하고 복잡한 의사결정을 수행하는 물리적 AI(Physical AI)의 단계로 진입한 시점이다. 지상 로봇 분야에서 구글 딥마인드(Google DeepMind)의 RT-2(Robotic Transformer 2)나 OpenVLA와 같은 시각-언어-행동(Vision-Language-Action, VLA) 모델이 로봇에게 '상식'과 '추론 능력'을 부여했다면, 항공우주 분야에서는 3차원 공간의 복잡성과 실시간성의 제약을 극복하기 위한 독자적인 파운데이션 모델(Foundation Models)과 제어 아키텍처가 폭발적으로 등장했다.

과거의 드론 제어 기술이 고전적인 제어 이론(PID, LQR)이나 최적화 기반의 모델 예측 제어(MPC)에 의존하여 정해진 수학적 모델 내에서의 안정성을 추구했다면, 2023년 이후의 흐름은 데이터 기반의 학습(Learning-based) 접근법이 주류로 부상했음을 보여준다. 특히 2023년 네이처(Nature)에 게재된 Swift 시스템의 인간 챔피언 격파는 심층 강화학습(Deep Reinforcement Learning, DRL)이 시뮬레이션의 한계를 넘어 초고속, 고기동의 실제 환경에서도 인간의 직관을 넘어설 수 있음을 증명한 결정적 사건이었다.1 이 사건은 항공 AI 연구의 방향을 '안정적인 비행'에서 '극한의 민첩성과 인지적 판단'으로 전환시키는 기폭제가 되었다.
본 리포트는 2023년부터 2025년까지 발표된 핵심 논문들과 기술 트렌드를 심층적으로 분석한다. 분석의 범위는 거대 언어 모델(LLM)이 항공기 제어에 통합되는 FlightGPT와 SkyVLN 같은 항공 VLA 모델, Liquid Neural Networks(LNN)와 같은 신경망 아키텍처의 혁신, Swarm-GPT로 대변되는 인지적 군집 제어, 그리고 이 모든 학습을 가능하게 하는 NVIDIA Cosmos와 Genie 3 같은 월드 모델(World Model) 시뮬레이션 기술을 포괄한다. 우리는 이 기술들이 어떻게 항공우주 시스템의 자율성(Autonomy) 수준을 재정의하고 있는지, 그리고 이러한 발전이 국방, 물류, 도심 항공 모빌리티(UAM) 산업에 어떤 기술적 함의를 갖는지 상세히 논할 것이다.
2. 항공우주 파운데이션 모델과 VLA(Vision-Language-Action)의 부상
지상 로봇과 달리, UAV는 6자유도(6-DoF)의 복잡한 기동성을 가지며, 추락의 위험성과 배터리 및 연산 자원(SWaP: Size, Weight, and Power)의 제약이 극심하다. 따라서 지상용 VLA 모델을 그대로 적용하는 것은 불가능하며, 2023-2025년은 이러한 항공 도메인의 특수성에 맞춘 파운데이션 모델이 집중적으로 연구된 시기이다.
2.1 항공기 특화 VLA 모델의 아키텍처 진화
로봇 공학에서 RT-2가 시각적 관찰을 언어적 토큰과 로봇의 행동 토큰으로 통합하여 처리했듯, 항공 분야에서도 FlightGPT, SkyVLN, OpenVLN 등의 모델들이 등장하여 자연어 명령을 3차원 비행 궤적으로 변환하는 혁신을 이루었다.
2.1.1 FlightGPT와 다중 모달(Multimodal) 융합 및 추론
2025년 발표된 FlightGPT는 항공기 비전-언어 내비게이션(UAV-VLN)의 고질적인 문제인 '모호한 명령'과 '복잡한 환경 인식'의 괴리를 해결하기 위해 설계된 프레임워크이다. 기존의 드론은 "북쪽으로 50미터 이동하라"와 같은 명시적 명령에는 잘 반응했으나, "빨간 지붕 집 뒤에 숨겨진 트럭을 찾아가라"와 같은 추론이 필요한 명령에는 취약했다. FlightGPT는 이러한 한계를 극복하기 위해 연쇄적 사고(Chain-of-Thought, CoT) 메커니즘을 내비게이션 루프 안에 통합했다.3
- 아키텍처 혁신 (CoT Integration): FlightGPT는 단순히 시각 입력에 대한 행동을 출력하는 것이 아니라, <think> 태그와 <answer> 태그를 활용하여 내부적인 사고 과정을 생성한다. 예를 들어, 목표물이 현재 시야에 잡히지 않을 경우, 모델은 바로 이동 명령을 내리는 대신 "현재 목표물이 보이지 않음. 주변의 높은 랜드마크를 찾아 시야를 확보해야 함"이라는 중간 추론 단계를 거친다.5 이는 블랙박스로 여겨지던 신경망의 의사결정 과정을 인간이 이해할 수 있게(Interpretable) 만들었다는 점에서 안전이 최우선인 항공 분야에 큰 시사점을 준다.
- 2단계 학습 파이프라인 (SFT to RL): 모델의 학습은 두 단계로 정교하게 구성된다. 첫째, 지도 미세 조정(Supervised Fine-Tuning, SFT) 단계에서는 고품질의 인간 데모 데이터를 사용하여 기본적인 비행 규칙과 명령 해석 능력을 학습한다. 둘째, GRPO(Group Relative Policy Optimization) 알고리즘을 적용한 강화학습(RL) 단계로 넘어간다. 이 단계에서는 목표 정확도뿐만 아니라 추론 과정의 논리성, 출력 포맷의 준수 여부 등을 복합적으로 평가하는 보상 함수를 통해 모델을 최적화한다.3 이 과정을 통해 FlightGPT는 훈련 데이터에 없는 새로운 환경에서도 높은 일반화(Generalization) 성능을 확보하게 되었다.
2.1.2 SkyVLN과 도시 환경 내비게이션: 두뇌와 반사신경의 결합
2025년 IROS에서 주목받은 SkyVLN은 도심 빌딩 숲과 같은 복잡한 환경에서의 자율 비행을 목표로 한다. 이 연구의 핵심은 LLM이 가진 '상식적 추론 능력'과 전통적인 제어 이론이 가진 '물리적 안전성'을 결합하는 방식에 있다.7
- 공간 언어화(Spatial Verbalizer): 드론은 카메라로 들어오는 픽셀 정보를 그대로 처리하는 것이 아니라, 이를 텍스트 기반의 '공간적 맥락'으로 변환한다. 예를 들어, "전방 30미터에 장애물, 우측에 개방된 경로 있음"과 같은 형태로 시각 정보를 언어화하여 LLM에 전달한다. SkyVLN은 이를 위해 공간 언어화(Spatial Verbalizer) 모듈과 이력 경로 메모리(History Path Memory)를 도입했다. 이를 통해 드론은 "방금 지나온 길은 막혀 있었으니 다시 돌아가자"와 같은 시간적 맥락을 고려한 판단을 내릴 수 있게 된다.8
- NMPC(Nonlinear Model Predictive Control) 통합: SkyVLN의 가장 큰 기술적 특징은 LLM이 직접 모터의 RPM을 제어하지 않는다는 점이다. 대신 LLM은 상위 레벨의 웨이포인트(Waypoint)를 생성하고, 실제 비행 궤적 생성은 비선형 모델 예측 제어(NMPC) 모듈이 담당한다. NMPC는 드론의 동역학적 제약(속도 한계, 가속도 한계)과 동적 장애물 회피를 수학적으로 최적화하여 수행한다. 이는 AI가 '갈 곳'을 정하면, 제어 이론이 '가는 방법'을 안전하게 실행하는 구조로, LLM의 환각(Hallucination) 현상으로 인한 추락 사고를 방지하는 안전장치 역할을 한다.9
2.1.3 OpenVLN과 데이터 효율성: 자가 진화하는 비행 지능
항공 데이터, 특히 다양한 상황에서의 비행 데이터는 수집 비용이 매우 높고 위험하다. OpenVLN (2025)은 이러한 데이터 희소성 문제를 해결하기 위해 제안된 프레임워크이다. 이 모델은 기존의 대규모 데이터셋에 의존하는 방식 대신, 강화학습을 통해 VLM을 효율적으로 미세 조정하는 전략을 택했다.10
- 자가 진화(Self-evolving) 강화학습: OpenVLN은 작업 정렬 보상(Task-aligned Rewards) 시스템을 도입하여, 소량의 항공 데이터만으로도 모델이 스스로 성능을 개선할 수 있도록 설계되었다. 이는 드론이 시뮬레이션이나 제한된 실제 비행에서 얻은 경험을 바탕으로, 장거리 비행 시 발생할 수 있는 누적 오차를 스스로 보정하고 최적의 경로를 찾아내는 능력을 극대화한다. 특히, 지도 학습(Supervised Learning) 방식이 가지는 데이터 의존성을 탈피하여, 개방형 세계(Open-world)에서의 적응력을 높인 것이 핵심 기여로 평가받는다.11
2.2 범용 네비게이션과 크로스-임바디먼트(Cross-Embodiment)
2024-2025년의 또 다른 중요한 흐름은 드론뿐만 아니라 로봇 팔, 사족 보행 로봇 등 다양한 로봇의 데이터를 통합하여 학습하는 크로스-임바디먼트(Cross-Embodiment) 연구의 확산이다.
- NavFoM (Navigation Foundation Model): 2025년 발표된 NavFoM은 드론, 사족 보행 로봇, 바퀴형 로봇, 자율주행차 등 다양한 이동 로봇에서 수집된 800만 개의 내비게이션 샘플로 학습된 범용 모델이다.12 이 모델은 다양한 카메라 설정과 시점을 처리할 수 있는 통일된 아키텍처를 가지며, 드론이 지상 로봇의 내비게이션 데이터를 통해 장애물 회피나 경로 계획의 일반적인 원리를 학습할 수 있음을 보여주었다. 이는 특정 기체에 종속되지 않는 범용 내비게이션 지능의 가능성을 시사한다.14
- Open X-Embodiment의 확장: 구글의 Open X-Embodiment 프로젝트와 유사하게, 항공 분야에서도 다양한 기종의 드론과 비행 환경을 아우르는 데이터셋 구축이 활발히 이루어지고 있다. AeroVerse와 같은 벤치마크는 이러한 범용 모델의 성능을 평가하고 훈련시키는 표준으로 자리 잡고 있다.15
2.3 산업 특화 파운데이션 모델: AeroGPT
자율 비행뿐만 아니라 항공기의 유지보수(MRO) 및 예지 정비(PHM) 분야에서도 파운데이션 모델의 적용이 확대되고 있다.
- AeroGPT: 2025년 공개된 AeroGPT는 항공기 엔진 베어링의 고장 진단을 위해 개발된 모델이다. 이 모델은 일반적인 오디오 도메인에서 학습된 거대 오디오 모델의 지식을 항공기 엔진의 진동 및 소음 패턴에 맞게 전이(Transfer)시킨다. 진동 신호 정렬(VSA) 기술과 생성형 고장 분류(GFC)를 통해, 단순히 "고장 발생"이라는 경고를 띄우는 것을 넘어, "터빈 베어링의 마모로 인한 고주파 진동이 감지됨"과 같이 해석 가능한 자연어 진단을 제공한다.16 이는 숙련된 정비사의 청각적 진단 능력을 AI로 구현하려는 시도로, 항공 안전과 운영 효율성을 획기적으로 높일 수 있는 기술이다.
| 모델명 | 주요 특징 및 기술 | 핵심 아키텍처 요소 | 적용 분야 | 비고 |
| FlightGPT | 2단계 학습 (SFT -> RL) | CoT, GRPO | 자율 탐색, 복합 명령 수행 | 추론 과정의 투명성 확보 |
| SkyVLN | 하이브리드 제어 | Spatial Verbalizer, NMPC | 도심 환경 내비게이션 | 물리적 안전성 최우선 |
| OpenVLN | 데이터 효율성 | Self-evolving RL | 장거리/오지 비행 | 데이터 부족 문제 해결 |
| NavFoM | 범용성 (Cross-Embodiment) | Unified Token Architecture | 다기종 로봇 내비게이션 | 지상/공중 데이터 통합 학습 |
| AeroGPT | 청각 지능 전이 | VSA, GFC | 예지 정비 (PHM) | 설명 가능한 AI (XAI) |
3. 자율 비행의 정점: End-to-End 제어와 초고속 적응
2023년은 자율 비행 기술에 있어 기념비적인 해였다. 취리히 연방 공과대학교(ETH Zurich)와 취리히 대학교(UZH) 연구진이 개발한 Swift 시스템이 인간 드론 레이싱 챔피언들을 상대로 승리를 거두었기 때문이다. 이 사건은 심층 강화학습(Deep RL)이 더 이상 시뮬레이션 속의 장난감이 아니라, 극한의 물리적 한계 상황에서도 작동할 수 있는 성숙한 기술임을 입증했다. 이후 2025년까지의 연구는 Swift의 성과를 바탕으로 더 적은 연산 자원으로, 더 강건하게, 그리고 더 다양한 환경에 적응할 수 있는 신경망 구조를 탐구하는 방향으로 전개되었다.
3.1 Swift: 챔피언 레벨의 드론 레이싱과 하이브리드 접근의 승리
Swift 시스템(Nature, 2023)의 성공 요인은 완전한 블랙박스 방식의 End-to-End 학습이 아니라, 전통적인 제어 이론의 장점과 강화학습의 장점을 결합한 하이브리드 접근법에 있었다.1
- 잔차 물리 모델링(Residual Physics Modeling)과 Sim-to-Real: 시뮬레이션에서 학습된 정책을 현실에 적용할 때 가장 큰 문제는 '현실의 공기역학'을 시뮬레이터가 완벽히 모사하지 못한다는 점이다. Swift는 복잡한 공기역학적 항력, 모터의 비선형적 반응, 배터리 전압 강하 등을 시뮬레이터에 일일이 코딩하는 대신, 실제 비행 데이터와 시뮬레이션 데이터 사이의 차이(Residual)를 학습하는 방식을 사용했다. 이를 통해 시뮬레이터의 물리 엔진을 현실과 유사하게 보정함으로써 Sim-to-Real 격차를 최소화했다.1
- 인식(Perception)과 제어(Control)의 모듈화: Swift는 카메라 이미지를 직접 제어 신호로 바꾸는 대신, VIO(Visual Inertial Odometry) 알고리즘을 사용하여 드론의 위치와 속도를 추정하고, 이 상태 정보를 RL 에이전트에 입력으로 제공했다. 이는 시각 처리의 지연 시간을 제어 루프와 분리함으로써, 최대 100Hz 이상의 고속 제어 주기를 유지할 수 있게 했다. 결과적으로 Swift는 인간 챔피언보다 더 빠른 랩타임을 기록했을 뿐만 아니라, 충돌이나 외란 상황에서도 뛰어난 회복력을 보여주었다.18
3.2 Liquid Neural Networks (LNN): 시계열 데이터 처리의 패러다임 전환
Swift가 고성능 하드웨어와 정교한 센서 퓨전에 의존했다면, MIT CSAIL의 Ramin Hasani와 Daniela Rus 팀이 주도한 액체 신경망(Liquid Neural Networks, LNN) 연구는 신경망 자체의 구조적 효율성에 집중했다. 2024-2025년, LNN은 드론 제어용 경량 신경망의 표준으로 자리 잡아가고 있다.
- LTC(Liquid Time-Constant) 뉴런의 동역학: 기존의 RNN이나 LSTM은 고정된 시간 간격으로 데이터를 처리하는 반면, LNN은 미분 방정식(Differential Equation)으로 정의된 연속 시간(Continuous-time) 모델이다. LNN의 핵심인 LTC 뉴런은 입력 신호의 변화에 따라 자신의 시간 상수(Time-constant)를 적응적으로 변화시킨다(Liquid).20 이는 드론이 바람이 불거나 급격한 기동을 할 때와 같이 입력 데이터가 불규칙하거나 급변하는 상황에서 훨씬 더 안정적인 제어 성능을 발휘하게 한다.
- 인과성(Causality)과 OOD(Out-of-Distribution) 강건성: LNN의 가장 큰 장점은 학습 데이터에 없던 환경(Out-of-Distribution)에서의 적응력이다. 연구진은 맑은 날 숲에서 훈련된 LNN 드론이, 비 오는 날 도심 환경이나 노이즈가 심한 상황에서도 추가 학습 없이 목적지를 찾아가는 것을 시연했다.21 분석 결과, LNN은 이미지의 배경(하늘, 나무 등)보다는 비행 경로 결정에 필수적인 인과적 특징(장애물, 지평선 등)에 집중하는 경향을 보였다. 이는 수만 개의 파라미터를 가진 거대 모델보다 수십 개의 뉴런만으로 구성된 LNN이 엣지 디바이스에서의 비행 제어에 훨씬 효율적임을 시사한다.23
3.3 Decision Transformer와 궤적 생성의 유연성
2025년에는 강화학습(RL)을 시퀀스 모델링 문제로 재해석한 Decision Transformer(DT)가 드론 제어 분야에 도입되었다. 이는 "현재 상태에서 보상을 최대화하는 행동"을 찾는 기존 RL과 달리, "원하는 목표 보상을 달성하기 위한 행동 시퀀스"를 생성하는 방식이다.
- RTG(Return-to-Go) 기반의 동적 제어: DT 기반 드론 플래너는 RTG(Return-to-Go)라는 파라미터를 입력으로 받는다. 예를 들어, 사용자가 RTG를 높게 설정하면 드론은 위험을 감수하고 공격적인 최단 경로를 생성하며, RTG를 낮게 설정하면 안전하고 보수적인 경로를 생성한다.25 이는 하나의 학습된 모델로 정찰, 배송, 레이싱 등 다양한 임무 성격에 맞춰 드론의 비행 스타일을 실시간으로 조절할 수 있게 해준다. 기존의 다항식 기반 플래너가 전문가의 튜닝을 필요로 했던 것과 달리, DT 플래너는 비전문가도 직관적으로 안전-효율성 트레이드오프를 조절할 수 있다는 장점이 있다.27
3.4 End-to-End 학습의 진화: SkyDreamer와 이벤트 카메라
Swift와 달리, 인식과 제어를 하나의 신경망으로 통합하려는 완전한 End-to-End 시도들도 2025년에 큰 성과를 거두었다.
- SkyDreamer: 2025년 발표된 SkyDreamer는 모델 기반 강화학습(Model-based RL)을 활용하여 픽셀 입력에서 직접 제어 명령을 출력하면서도, 세계 모델(World Model)을 통해 물리적 상태를 내부적으로 추정하는 구조를 가졌다. 이를 통해 현실 세계에서 최대 6g의 가속도와 21m/s의 속도로 비행하며 기존의 모듈러 방식과 대등한 성능을 입증했다.28 특히, 시뮬레이션에서의 시각적 정보와 현실의 시각적 정보 차이를 극복하기 위해 잠재 공간(Latent Space)에서의 적응 기술을 사용하여 Sim-to-Real 성능을 극대화했다.
- 스파이킹 신경망(SNN)과 이벤트 카메라: 초고속 비행의 가장 큰 적은 카메라의 모션 블러(Motion Blur)와 연산 지연이다. 이를 해결하기 위해 2025년에는 이벤트 카메라(Event Camera)와 스파이킹 신경망(SNN)의 결합이 주목받았다. 이벤트 카메라는 픽셀의 밝기 변화만을 비동기적으로 감지하므로 데이터 양이 적고 반응 속도가 마이크로초(µs) 단위로 빠르다. SNN은 이러한 스파이크 신호를 뇌의 신경망처럼 처리하여, 기존 CNN 대비 연산량을 수십 배 줄이면서도 고속 장애물 회피를 가능하게 했다.29 연구 결과에 따르면 SNN 기반 제어기는 200Hz 이상의 제어 주기를 달성하며 마이크로초 수준의 지연 시간으로 동적 물체를 추적할 수 있음이 확인되었다.31
4. 군집 제어의 진화: 기하학적 대형에서 의미론적 협업으로
2023년 이전의 드론 군집(Swarm) 제어가 사전에 정의된 대형(Formation)을 유지하는 기하학적 제어에 집중했다면, 2023-2025년은 드론들이 서로 통신하고 상황을 인지하여 유기적으로 협력하는 인지적 군집(Cognitive Swarm)으로의 진화가 일어난 시기이다.
4.1 Swarm-GPT: 언어로 지휘하는 드론 군집
Swarm-GPT는 대형 언어 모델(LLM)을 군집 제어의 상위 레벨 플래너로 도입한 대표적인 사례이다. 이 시스템은 사용자가 자연어로 내린 명령(예: "음악의 리듬에 맞춰 파도타기 대형을 만들어라")을 해석하여 복잡한 드론 군집의 안무(Choreography)를 자동으로 생성한다.32
- 안전 필터와의 결합: LLM은 창의적인 패턴을 생성하는 데 뛰어나지만, 물리적인 충돌 가능성을 완벽하게 계산하지 못한다. Swarm-GPT는 이를 보완하기 위해 AMSwarm과 같은 최적화 기반의 안전 필터(Safety Filter)를 하위 레벨에 배치했다. LLM이 생성한 웨이포인트는 안전 필터를 거치며 충돌 없는 궤적으로 실시간 보정된다. 이는 생성형 AI의 창의성과 제어 이론의 안전성을 결합한 성공적인 사례로, 엔터테인먼트뿐만 아니라 재난 구조나 감시 정찰과 같은 임무에서도 드론 군집을 직관적으로 지휘할 수 있는 가능성을 열었다.33
- 음악 동기화 및 감정 표현: 오디오 분석을 통해 추출한 비트 정보와 음악의 분위기를 프롬프트에 포함시켜, 드론 군집이 음악에 맞춰 역동적으로 움직이는 예술적 표현까지 가능하게 했다. 이는 드론 군집이 단순한 작업 수행을 넘어 인간과 상호작용하는 매체로 확장될 수 있음을 보여준다.
4.2 AttentionSwarm과 Transformer 기반 협업
개별 드론 간의 통신 대역폭 제한과 통신 단절은 군집 제어의 오랜 난제였다. 이를 해결하기 위해 어텐션 메커니즘(Attention Mechanism)을 적용한 연구들이 2025년에 다수 발표되었다.
- AttentionSwarm: 이 알고리즘은 각 드론이 주변의 모든 드론과 통신하는 대신, 트랜스포머의 어텐션 메커니즘을 사용하여 현재 상황에서 가장 중요한(Attention Weight가 높은) 이웃 드론의 정보에만 집중하도록 한다.34 실험 결과, 동적 장애물이 많은 환경에서도 95-100%의 충돌 회피율을 달성했으며, 통신량이 제한된 상황에서도 군집의 응집력을 유지하는 데 탁월한 성능을 보였다.34
- Swarm Transformer: 통신 네트워크가 불안정한 재난 현장에서 드론 군집이 스스로 네트워크를 복구하고 통신 중계망을 형성하는 데 트랜스포머 구조가 적용되었다. 이 연구에서는 드론들이 네트워크 연결성(Connectivity)을 유지하는 보상을 최대화하도록 학습되어, 일부 드론이 탈락하더라도 전체 네트워크의 기능이 유지되는 자가 치유(Self-healing) 능력을 입증했다.36
4.3 그래프 신경망(GNN)과 확장성(Scalability)
그래프 신경망(GNN)은 군집 내 드론들의 관계를 그래프 구조로 모델링하는 데 여전히 강력한 도구로 사용되고 있다. 2025년 연구의 핵심 트렌드는 제로 샷 전이(Zero-shot Transfer)이다.
- 규모 가변성(Scale Variation): 기존의 강화학습 모델은 훈련된 드론의 수와 실제 투입되는 드론의 수가 다르면 성능이 급격히 저하되었다. 그러나 최신 GNN 기반 제어 정책은 10대로 훈련된 모델을 100대의 드론 군집에 적용하더라도 재학습 없이 협업 성능을 유지할 수 있음이 증명되었다.37 이는 군집의 규모를 임무에 따라 유연하게 조절해야 하는 실제 현장(예: 산불 진화, 광역 수색)에서 필수적인 기술이다.
- 보안과 프라이버시 (PrivLLMSwarm): 군집 드론이 수집한 데이터의 프라이버시 보호와 보안 통신을 위해 연합 학습(Federated Learning)이나 보안 다자간 계산(MPC)을 LLM과 결합하려는 시도인 PrivLLMSwarm 연구도 시작되었다.38 이는 국방이나 보안이 중요한 민간 시설 감시 임무에서 드론 군집의 도입을 가속화할 것이다.
5. 시뮬레이션과 월드 모델: 데이터 부족의 해결책
AI 모델의 성능은 데이터의 양과 질에 비례하지만, 항공 데이터는 수집이 어렵고 비용이 많이 든다. 이를 극복하기 위해 2023-2025년 사이 시뮬레이션 기술은 단순한 물리 엔진을 넘어, 현실을 생성하고 예측하는 월드 모델(World Model)로 진화했다.
5.1 NVIDIA Cosmos와 물리적 AI의 훈련장
NVIDIA Cosmos는 2025년 CES에서 공개된 물리적 AI(Physical AI) 개발을 위한 핵심 플랫폼이다. 이는 단순한 그래픽 렌더링을 넘어, 물리 법칙을 내재화한 파운데이션 모델이다.39
- 물리 토큰화(Physical Tokenization): Cosmos는 비디오와 센서 데이터를 토큰화하여 학습하며, 다음 프레임의 픽셀뿐만 아니라 객체의 물리적 상호작용(충돌, 마찰, 중력)까지 예측한다. 이를 통해 드론은 가상 환경에서 수백만 시간의 비행을 수행하며 "강풍이 불면 기체가 밀린다"거나 "배터리가 부족하면 모터 출력이 떨어진다"는 인과관계를 학습할 수 있다.
- Cosmos Transfer와 Sim-to-Real: Cosmos Transfer 기능은 시뮬레이션 데이터를 현실 데이터처럼 변환(Style Transfer)하거나, 반대로 현실 데이터를 다양한 날씨/조명 조건으로 증강(Augmentation)하는 데 사용된다. 이는 시뮬레이션에서 학습한 드론이 현실 세계의 복잡한 시각적 노이즈에 당황하지 않고 적응할 수 있게 하는 핵심 기술이다.40
5.2 Genie 3와 생성형 시뮬레이션 혁명
구글 딥마인드의 Genie 3는 텍스트 프롬프트만으로 상호작용 가능한 3D 가상 세계를 실시간으로 생성하는 모델이다.42
- 무한한 엣지 케이스 생성: 기존의 시뮬레이터(AirSim, Gazebo)는 맵을 제작하는 데 많은 인력과 시간이 소요되었다. 그러나 Genie 3를 사용하면 "강풍이 부는 산악 협곡"이나 "화재 연기로 가득 찬 도심"과 같은 극한의 환경(Edge Case)을 텍스트 입력만으로 즉시 생성할 수 있다. 이는 드론 에이전트에게 무한한 훈련 시나리오를 제공하는 것과 같으며, 특히 데이터 수집이 불가능에 가까운 재난 상황에 대한 대응 능력을 키우는 데 결정적인 역할을 한다.44
- AirScape: 항공 도메인에 특화된 월드 모델인 AirScape는 드론의 6자유도 움직임과 그에 따른 시각적 변화를 정밀하게 예측하도록 설계되었다. 11,000개 이상의 비디오-의도(Video-Intention) 쌍으로 학습된 이 모델은 드론의 행동 의도에 따라 미래의 환경 변화를 생성해내며, 드론이 자신의 행동 결과를 시뮬레이션 내부에서 미리 '상상'해보고 최적의 행동을 결정하는 모델 기반 강화학습의 성능을 획기적으로 높였다.45
5.3 Sim-to-Real 전이 기술의 고도화
시뮬레이션과 현실의 격차를 줄이기 위한 구체적인 알고리즘들도 2025년에 다수 발표되었다.
- RA3T (Region-Aligned 3D Transformer): 시뮬레이션 데이터로 학습된 모델이 현실의 조명이나 질감 차이로 인해 성능이 떨어지는 문제를 해결하기 위해 제안되었다. RA3T는 3D 기하학적 정보와 영역별 적대적 학습(Adversarial Learning)을 결합하여, 시뮬레이션 이미지의 특징을 현실 이미지의 특징과 정밀하게 정렬시킨다. 이를 통해 드론은 가상 데이터만으로 학습했음에도 불구하고 현실 세계의 작은 물체나 가려진 목표물을 정확하게 인식할 수 있게 되었다.46
- SimpleFlight: 복잡한 신경망 구조 대신, 강화학습의 학습 과정(입력 정규화, 보상 함수 설계 등)을 최적화하여 Sim-to-Real 성능을 높인 연구이다. SimpleFlight는 속도와 회전 행렬을 입력으로 사용하고, 행동의 부드러움을 유도하는 정규화 항을 추가하는 것만으로도 고가의 센서 없이 저가형 드론에서 정밀한 궤적 추종이 가능함을 보여주었다.48
6. 벤치마크 및 데이터셋: 항공 AI의 연료
항공우주 AI 연구의 가속화를 위해, 2024-2025년에는 대규모의 표준화된 벤치마크와 데이터셋이 공개되었다.
6.1 AeroVerse: 도시 규모의 항공 시뮬레이션
AeroVerse는 상하이, 선전 등 실제 대도시를 정밀하게 재구성한 대규모 시뮬레이션 환경과 데이터셋을 제공한다.15 단순한 비행뿐만 아니라 비전-언어 명령 수행, 객체 추적 등 다양한 임무를 평가할 수 있는 표준을 제시하여, 연구자들이 서로의 알고리즘을 객관적으로 비교할 수 있는 토대를 마련했다.
6.2 UAV-Flow Colosseo: 미세 제어의 평가
기존의 데이터셋이 'A지점에서 B지점으로 이동'하는 내비게이션에 집중했다면, UAV-Flow는 "자동차 주위를 맴돌아라", "다리 위에서 호버링하라"와 같은 미세한 비행 기술(Flow)을 평가하는 데 초점을 맞췄다.49 이는 VLA 모델이 단순 이동 명령뿐만 아니라 복잡하고 정교한 조종 기술을 얼마나 잘 학습하는지 평가하는 중요한 지표가 되고 있다.
7. 엣지 컴퓨팅의 혁신: 가볍고 빠른 '뇌'
거대해지는 AI 모델을 배터리로 구동되는 소형 드론에 탑재하기 위한 하드웨어 및 알고리즘 최적화 기술은 2025년 항공 AI의 상용화를 앞당기는 핵심 동력이다.
7.1 BitNet b1.58: 1비트의 혁명
BitNet b1.58은 거대 언어 모델의 파라미터를 16비트나 32비트 부동소수점이 아닌, -1, 0, 1의 삼진(Ternary) 값으로 표현하는 기술이다.50
- 에너지 효율성과 속도: BitNet 구조는 복잡한 행렬 곱셈 연산을 단순한 덧셈으로 대체하여 연산 비용과 메모리 사용량을 획기적으로 줄였다. 이는 고성능 GPU가 없는 소형 드론의 임베디드 CPU에서도 LLM급의 추론을 실시간으로 가능하게 하며, 전력 소모를 줄여 드론의 비행 시간을 연장하는 데 결정적인 기여를 한다. 이는 클라우드 연결 없이도 드론이 온보드(Onboard)에서 고수준의 인지 판단을 수행할 수 있게 함으로써, 통신이 불가능한 환경에서의 자율성을 보장한다.52
7.2 스파이킹 신경망(SNN)과 뉴로모픽 하드웨어
스파이킹 신경망(SNN)은 뇌의 신경 펄스 전달 방식을 모사하여, 데이터가 발생할 때만 전력을 소모하는 초저전력 아키텍처이다.
- FPGA 및 뉴로모픽 칩: 2025년 연구들은 SNN을 FPGA나 Loihi와 같은 뉴로모픽 칩에 구현하여, 기존 GPU 대비 수백 배 적은 전력으로 드론의 자세 제어와 장애물 회피를 수행하는 데 성공했다. 특히 이벤트 카메라와 결합된 SNN 시스템은 기존 프레임 기반 시스템이 따라올 수 없는 마이크로초 단위의 반응 속도를 보여주며, 고속 드론 제어의 미래로 평가받고 있다.31
8. 결론 및 향후 전망
2023년부터 2025년까지의 항공우주 AI 기술은 "인식된 자율성(Perceived Autonomy)"에서 "인지적 자율성(Cognitive Autonomy)"으로의 도약으로 요약할 수 있다. FlightGPT와 SkyVLN은 드론에게 맥락을 이해하는 '언어적 뇌'를 부여했고, Swift와 Liquid Neural Networks는 환경에 유동적으로 적응하는 '반사신경'을 제공했다. 또한 NVIDIA Cosmos와 Genie 3는 이러한 지능을 훈련시킬 수 있는 '무한한 가상 세계'를 열어주었으며, BitNet과 뉴로모픽 기술은 이 거대한 지능을 소형 드론의 '작은 몸체'에 담을 수 있게 만들었다.
향후 연구는 이러한 요소 기술들을 하나의 유기적인 '항공 브레인(Aerial Brain)'으로 통합하는 방향으로 나아갈 것이다. 특히 보안과 프라이버시가 강화된 군집 제어(PrivLLMSwarm), 산업 현장에 특화된 설명 가능한 AI(AeroGPT)의 확산, 그리고 뉴로-심볼릭(Neuro-symbolic) 접근을 통해 AI의 판단에 대한 신뢰성을 수학적으로 보증하려는 시도가 국방 및 UAM 산업의 핵심 경쟁력이 될 것으로 전망된다. 항공우주 AI는 이제 실험실을 벗어나, 우리의 머리 위 하늘을 가장 지능적이고 안전한 공간으로 변화시킬 준비를 마쳤다.
참고 자료
- Champion-Level Drone Racing Using Deep Reinforcement Learning, 12월 13, 2025에 액세스, https://contest.techbriefs.com/2024/entries/robotics-and-automation/12793-0609-054901-champion-level-drone-racing-using-deep-reinforcement-learning
- Champion-level drone racing using deep reinforcement learning - Vladlen Koltun, 12월 13, 2025에 액세스, http://vladlen.info/publications/champion-level-drone-racing-using-deep-reinforcement-learning/
- FlightGPT: Towards Generalizable and Interpretable UAV Vision ..., 12월 13, 2025에 액세스, https://arxiv.org/abs/2505.12835
- FlightGPT: Towards Generalizable and Interpretable UAV Vision-and-Language Navigation with Vision-Language Models - arXiv, 12월 13, 2025에 액세스, https://arxiv.org/pdf/2505.12835
- DAD-SFT: DUAL ATTENTION DISTILLATION FOR LIGHTWEIGHT UAV VISION-LANGUAGE NAVIGATION - OpenReview, 12월 13, 2025에 액세스, https://openreview.net/pdf?id=7wX5uL459y
- AeroVerse-Review: Comprehensive survey on aerial embodied vision-and-language navigation | Request PDF - ResearchGate, 12월 13, 2025에 액세스, https://www.researchgate.net/publication/397369304_AeroVerse-Review_Comprehensive_survey_on_aerial_embodied_vision-and-language_navigation
- SkyVLN: Vision-and-Language Navigation and NMPC Control for UAVs in Urban Environments - ChatPaper, 12월 13, 2025에 액세스, https://chatpaper.com/paper/162596
- SkyVLN: Vision-and-Language Navigation and NMPC Control for UAVs in Urban Environments - arXiv, 12월 13, 2025에 액세스, https://arxiv.org/html/2507.06564v1
- SkyVLN: Vision-and-Language Navigation and NMPC Control for ..., 12월 13, 2025에 액세스, https://www.researchgate.net/publication/398060199_SkyVLN_Vision-and-Language_Navigation_and_NMPC_Control_for_UAVs_in_Urban_Environments
- OpenVLN: Open-world aerial Vision-Language Navigation - arXiv, 12월 13, 2025에 액세스, https://arxiv.org/html/2511.06182v1
- (PDF) OpenVLN: Open-world aerial Vision-Language Navigation - ResearchGate, 12월 13, 2025에 액세스, https://www.researchgate.net/publication/397480536_OpenVLN_Open-world_aerial_Vision-Language_Navigation
- [2509.12129] Embodied Navigation Foundation Model - arXiv, 12월 13, 2025에 액세스, https://arxiv.org/abs/2509.12129
- Embodied Navigation Foundation Model - arXiv, 12월 13, 2025에 액세스, https://arxiv.org/html/2509.12129v1
- [Literature Review] Embodied Navigation Foundation Model - Moonlight, 12월 13, 2025에 액세스, https://www.themoonlight.io/en/review/embodied-navigation-foundation-model
- AeroVerse: UAV-Agent Benchmark Suite for Simulating, Pre-training, Finetuning, and Evaluating Aerospace Embodied World Models - arXiv, 12월 13, 2025에 액세스, https://arxiv.org/html/2408.15511v2
- Case-based reasoning system for fault diagnosis of aero-engines - ResearchGate, 12월 13, 2025에 액세스, https://www.researchgate.net/publication/360297091_Case-based_reasoning_system_for_fault_diagnosis_of_aero-engines
- Deep Joint Distribution Alignment: A Novel Enhanced-Domain Adaptation Mechanism for Fault Transfer Diagnosis | Request PDF - ResearchGate, 12월 13, 2025에 액세스, https://www.researchgate.net/publication/359934296_Deep_Joint_Distribution_Alignment_A_Novel_Enhanced-Domain_Adaptation_Mechanism_for_Fault_Transfer_Diagnosis
- Champion-level drone racing using deep reinforcement learning - PMC - NIH, 12월 13, 2025에 액세스, https://pmc.ncbi.nlm.nih.gov/articles/PMC10468397/
- Champion-level Drone Racing using Deep Reinforcement Learning (Nature, 2023), 12월 13, 2025에 액세스, https://www.youtube.com/watch?v=fBiataDpGIo
- UAV Cybersecurity with Mamba-KAN-Liquid Hybrid Model: Deep Learning-Based Real-Time Anomaly Detection - MDPI, 12월 13, 2025에 액세스, https://www.mdpi.com/2504-446X/9/11/806
- Robust Flight Navigation with Liquid Neural Networks - ResearchGate, 12월 13, 2025에 액세스, https://www.researchgate.net/publication/363088516_Robust_Flight_Navigation_with_Liquid_Neural_Networks
- Robust flight navigation out of distribution with liquid neural networks - ResearchGate, 12월 13, 2025에 액세스, https://www.researchgate.net/publication/370128262_Robust_flight_navigation_out_of_distribution_with_liquid_neural_networks
- “Liquid” Neural Network Adapts on the Go - IEEE Spectrum, 12월 13, 2025에 액세스, https://spectrum.ieee.org/liquid-neural-networks
- Robust flight navigation out of distribution with liquid neural networks | MIT, 12월 13, 2025에 액세스, https://cap.csail.mit.edu/sites/default/files/research-pdfs/Robust%20flight%20navigation%20out%20of%20distribution%20with%20liquid%20neural%20networks.pdf
- Decision Transformer-Based Drone Trajectory Planning with Dynamic Safety–Efficiency Trade-Offs - ResearchGate, 12월 13, 2025에 액세스, https://www.researchgate.net/publication/398059534_Decision_Transformer-Based_Drone_Trajectory_Planning_with_Dynamic_Safety-Efficiency_Trade-Offs
- Decision Transformer-Based Drone Trajectory Planning with Dynamic Safety–Efficiency Trade-Offs - arXiv, 12월 13, 2025에 액세스, https://arxiv.org/html/2507.21506v1
- Decision Transformer-Based Drone Trajectory Planning with ..., 12월 13, 2025에 액세스, https://www.researchgate.net/publication/394100776_Decision_Transformer-Based_Drone_Trajectory_Planning_with_Dynamic_Safety-Efficiency_Trade-Offs
- SkyDreamer: Interpretable End-to-End Vision-Based Drone Racing with Model-Based Reinforcement Learning - arXiv, 12월 13, 2025에 액세스, https://arxiv.org/html/2510.14783v1
- Spiking Neural Networks for Continuous Control via End-to-End Model-Based Learning, 12월 13, 2025에 액세스, https://arxiv.org/html/2509.05356v2
- Event-Camera Based UAV Autonomous Navigation Via Spiking Reinforcement Learning | Request PDF - ResearchGate, 12월 13, 2025에 액세스, https://www.researchgate.net/publication/395818405_Event-Camera_Based_UAV_Autonomous_Navigation_Via_Spiking_Reinforcement_Learning
- Spiking Neural Networks for High-Speed Continuous Quadcopter Control Using Proximal Policy Optimization - imavs.org, 12월 13, 2025에 액세스, https://www.imavs.org/papers/2025/17.pdf
- Swarm-GPT: Combining Large Language Models with Safe Motion Planning for Robot Choreography Design, 12월 13, 2025에 액세스, https://www.robot-learning.ml/2023/files/paper45.pdf
- Swarm-GPT: Combining Large Language Models with Safe Motion ..., 12월 13, 2025에 액세스, https://arxiv.org/abs/2312.01059
- AttentionSwarm: Reinforcement Learning with Attention Control Barrier Function for Crazyflie Drones in Dynamic Environments - arXiv, 12월 13, 2025에 액세스, https://arxiv.org/html/2503.07376v2
- AttentionSwarm: Reinforcement Learning with Attention Control Barier Function for Crazyflie Drones in Dynamic Environments - arXiv, 12월 13, 2025에 액세스, https://arxiv.org/pdf/2503.07376
- A Transformer-Based Self-Organizing UAV Swarm for Assisting an Emergency Communications System - MDPI, 12월 13, 2025에 액세스, https://www.mdpi.com/2504-446X/9/11/769
- Scaling Swarm Coordination with GNNs—How Far Can We Go? - MDPI, 12월 13, 2025에 액세스, https://www.mdpi.com/2673-2688/6/11/282
- arxiv.org, 12월 13, 2025에 액세스, https://arxiv.org/html/2512.06747v1
- NVIDIA Cosmos - Physical AI with World Foundation Models, 12월 13, 2025에 액세스, https://www.nvidia.com/en-us/ai/cosmos/
- How to Scale Data Generation for Physical AI with the NVIDIA Cosmos Cookbook, 12월 13, 2025에 액세스, https://developer.nvidia.com/blog/how-to-scale-data-generation-for-physical-ai-with-the-nvidia-cosmos-cookbook/
- CES 2025: NVIDIA launches Cosmos world foundation model, expands Omniverse, 12월 13, 2025에 액세스, https://www.robotics247.com/article/ces_2025_nvidia_launches_cosmos_world_foundation_model_expands_omniverse
- Genie 3: A new frontier for world models - Google DeepMind, 12월 13, 2025에 액세스, https://deepmind.google/blog/genie-3-a-new-frontier-for-world-models/
- How Genie 3 Builds Interactive 3D Scenes from Text - Labellerr, 12월 13, 2025에 액세스, https://www.labellerr.com/blog/genie-3/
- What Is the Genie 3 World Model? The Breakthrough Transforming AI as We Know It - remio, 12월 13, 2025에 액세스, https://www.remio.ai/post/what-is-the-genie-3-world-model-the-breakthrough-transforming-ai-as-we-know-it
- [2507.08885] AirScape: An Aerial Generative World Model with Motion Controllability - arXiv, 12월 13, 2025에 액세스, https://arxiv.org/abs/2507.08885
- RA3T: An Innovative Region-Aligned 3D Transformer for Self-Supervised Sim-to-Real Adaptation in Low-Altitude UAV Vision - MDPI, 12월 13, 2025에 액세스, https://www.mdpi.com/2079-9292/14/14/2797
- (PDF) RA3T: An Innovative Region-Aligned 3D Transformer for Self-Supervised Sim-to-Real Adaptation in Low-Altitude UAV Vision - ResearchGate, 12월 13, 2025에 액세스, https://www.researchgate.net/publication/393617870_RA3T_An_Innovative_Region-Aligned_3D_Transformer_for_Self-Supervised_Sim-to-Real_Adaptation_in_Low-Altitude_UAV_Vision
- What Matters in Learning a Zero-Shot Sim-to-Real RL Policy for Quadrotor Control? A Comprehensive Study - IEEE Xplore, 12월 13, 2025에 액세스, https://ieeexplore.ieee.org/iel8/7083369/11008675/11017653.pdf
- UAV-Flow Colosseo: A Real-World Benchmark for Flying-on-a-Word UAV Imitation Learning | OpenReview, 12월 13, 2025에 액세스, https://openreview.net/forum?id=fJMWkaT2HX&referrer=%5Bthe%20profile%20of%20Hongsheng%20Li%5D(%2Fprofile%3Fid%3D~Hongsheng_Li3)
- The Emergence of 1-bit Architectures: A Comprehensive Technical Report on the Next Generation of Efficient Large Language Models - Brain Illustrate Academy, 12월 13, 2025에 액세스, https://www.brainillustrate.com/2025/09/the-emergence-of-1-bit-architectures.html
- NEWMIND AI JOURNAL MONTHLY CHRONICLE, 12월 13, 2025에 액세스, https://www.newmind.ai/NEWMIND%20AI%20JOURNAL%20MONTHLY%20CHRONICLES%20-%20April.pdf
- Edge of Innovation: How AI is Reshaping Semiconductor Design and Fueling a New Era of On-Device Intelligence - FinancialContent, 12월 13, 2025에 액세스, https://markets.financialcontent.com/wral/article/tokenring-2025-10-16-edge-of-innovation-how-ai-is-reshaping-semiconductor-design-and-fueling-a-new-era-of-on-device-intelligence
- [PDF] BitNet b1.58 2B4T Technical Report - Semantic Scholar, 12월 13, 2025에 액세스, https://www.semanticscholar.org/paper/BitNet-b1.58-2B4T-Technical-Report-Ma-Wang/ff6f8ef8f24f5352c0fa73e2058921e8f34d8f60
- Event Camera Meets Resource-Aware Mobile Computing: Abstraction, Algorithm, Acceleration, Application - arXiv, 12월 13, 2025에 액세스, https://arxiv.org/html/2503.22943v3
'과학기술' 카테고리의 다른 글
| AI 기반 풍력발전단지 자율 제어 및 지능형 운영 기술의 기술적 고도화와 실증 전략 연구 (0) | 2026.01.31 |
|---|---|
| 재사용 무인 우주비행체 다목적 궤적설계 및 유도항법제어(GNC) 심층 기술 분석 (0) | 2026.01.13 |
| 지능형 로봇을 위한 인식, 추론, 행동의 연결: 최신 동향 및 전망 (0) | 2026.01.10 |
| 실시간 로봇 제어를 위한 강화학습: 현실 세계의 적용 (0) | 2026.01.09 |
| 폐루프 AI 시대로의 전환: 제어공학의 역할과 미래 (0) | 2026.01.08 |