섹션 1: 비행 제어의 패러다임 전환: 고전적 모델에서 학습 기반 자율성으로
이 서론 섹션에서는 드론 비행 제어 기술이 심층강화학습(DRL)으로 전환하게 된 근본적인 '이유'를 탐구한다. 드론 임무의 복잡성과 역동성이 증가함에 따라 전통적인 제어 방법이 직면한 한계를 명확히 하고, 환경과의 직접적인 상호작용을 통해 강인하고 비선형적인 제어 정책을 학습할 수 있는 강력한 대안으로서 DRL을 소개한다.
1.1. 동적 환경에서 전통적 제어 방식의 한계
비행 제어 시스템의 근간은 비례-적분-미분(PID) 제어기나 선형-이차 조절기(LQR)와 같은 고전적인 제어 기법에 의해 오랫동안 지배되어 왔다. 이러한 방법들은 잘 정의된 선형 시스템 모델에 대해 매우 효과적이며 안정적인 성능을 보장한다.1 쿼드콥터와 같은 무인 항공기(UAV)의 기본적인 호버링이나 정해진 경로 추종과 같은 임무에서는 PID 제어기가 여전히 널리 사용되며, 그 효과성 또한 입증되었다.

하지만 드론의 운용 환경이 복잡해지고 임무가 고도화되면서 이러한 고전적 제어 방식의 내재적 한계가 드러나기 시작했다. 드론이 급격한 기동을 하거나 예측 불가능한 강한 돌풍과 같은 외부 교란에 직면할 때, 시스템의 동역학은 강한 비선형성을 띠게 된다.2 PID나 LQR과 같은 선형 제어기는 이러한 비선형성과 모델링되지 않은 동역학(unmodeled dynamics)에 효과적으로 대응하기 어렵다. 제어기 이득(gain)을 조정하는 튜닝 과정은 종종 전문가의 경험에 의존하는 수동적이고 시간이 많이 소요되는 작업이고, 이렇게 튜닝된 값은 특정 비행 조건이나 페이로드 구성에서만 최적의 성능을 발휘한다.2 결과적으로, 장애물이 많고 급변하는 도시 환경이나 전술적 군사 작전과 같이 역동적인 시나리오에서 드론을 운용할 때 성능 저하가 발생하며, 이는 임무 성공률과 안전성에 직접적인 위협이 된다.3
1.2. 강화학습: 순차적 의사결정을 위한 새로운 프레임워크
고전적 제어 방식의 한계를 극복하기 위한 대안으로 강화학습(Reinforcement Learning, RL)이 주목받고 있다. 강화학습은 제어 문제를 순차적 의사결정 문제로 재정의하는 새로운 패러다임을 제시한다. 이 프레임워크는 마르코프 결정 과정(Markov Decision Process, MDP)으로 공식화되며, 상태(State, S), 행동(Action, A), 보상(Reward, R), 정책(Policy, π)이라는 핵심 요소로 구성된다.2 여기서 에이전트(드론)는 환경과 상호작용하며, 특정 상태에서 행동을 취하고 그 결과로 주어지는 보상을 통해 자신의 정책을 점진적으로 개선해 나간다. 에이전트의 목표는 장기적으로 누적 보상을 최대화하는 최적의 정책을 학습하는 것이다.7
강화학습의 가장 큰 장점 중 하나는 많은 알고리즘이 '모델-프리(model-free)'라는 점이다.6 이는 드론의 복잡한 공기역학적 모델이나 환경에 대한 정확한 수학적 모델 없이도 제어 정책을 학습할 수 있음을 의미한다. 에이전트는 오직 시행착오를 통해 얻는 경험 데이터만으로 학습을 진행한다. 이는 모델 기반 제어 방식이 시스템에 대한 정밀한 사전 지식을 요구하는 것과 근본적인 차이를 보이며, 모델링이 매우 어렵거나 불가능한 복잡한 시스템에 대한 제어기 설계의 가능성을 열어주었다.
1.3. 딥러닝과의 시너지: 복잡한 항공 역학에 DRL이 적합한 이유
고전적인 강화학습 방법론은 상태 공간이나 행동 공간이 작고 이산적일 때 효과적이지만, 실제 로봇 제어 문제에서는 '차원의 저주(curse of dimensionality)'라는 심각한 문제에 직면한다.2 드론의 상태는 온보드 카메라로부터 들어오는 고해상도 이미지처럼 매우 고차원적일 수 있으며, 모터에 전달되는 추력 명령과 같은 행동은 연속적인 값을 가진다. 이러한 고차원 연속 공간에서 최적의 정책이나 가치 함수를 테이블 형태로 저장하고 학습하는 것은 사실상 불가능하다.
이 문제를 해결한 것이 바로 딥러닝(Deep Learning)과의 융합, 즉 심층강화학습(Deep Reinforcement Learning, DRL)이다. DRL에서 심층 신경망(Deep Neural Networks, DNNs)은 강력한 비선형 함수 근사기(function approximator) 역할을 수행한다.8 신경망은 고차원의 센서 입력(예: 원본 이미지 픽셀)을 직접 받아들여 정책이나 가치 함수를 근사하고, 이를 통해 연속적인 제어 출력을 생성할 수 있다. 이러한 시너지는 기존의 방법으로는 다루기 어려웠던 복잡하고 비선형적인 제어 정책의 학습을 가능하게 만들었으며, 드론 비행 제어 분야에 혁신적인 변화를 가져왔다.
1.4. End-to-End 제어 철학: 원본 픽셀에서 액추에이터 명령까지
DRL의 등장은 'End-to-End' 제어라는 새로운 철학을 가능하게 했다. 이는 단일 신경망이 원본 센서 데이터(예: 카메라 이미지)를 입력받아 최종적인 액추에이터 명령(예: 각 모터의 속도)을 직접 출력하도록 학습하는 방식이다.12
전통적인 자율 비행 시스템은 인식(perception), 상태 추정(state estimation), 경로 계획(path planning), 제어(control) 등 여러 개의 독립적인 모듈로 구성된 파이프라인 구조를 가진다. 각 모듈은 개별적으로 최적화되며, 한 모듈의 오류가 다음 모듈로 전파될 수 있고, 전체 시스템 관점에서의 최적성을 보장하기 어렵다. 반면, End-to-End DRL 접근법은 이 모든 과정을 하나의 통합된 학습 문제로 단순화한다.12 이 방식은 각 모듈 간의 복잡한 인터페이스 설계 없이 전체 시스템을 총체적으로 최적화하므로, 더 빠르고 반응성이 높은 제어 성능을 기대할 수 있다. 예를 들어, 시각 기반 드론 레이싱에서 원본 카메라 이미지를 보고 직접 조종 명령을 내리는 정책을 학습하거나 15, 빠르게 움직이는 목표물을 시각적으로 추적하며 제어하는 정책을 학습하는 연구들이 이 철학을 잘 보여준다.12
이러한 패러다임의 전환은 단순히 기존 제어기를 대체하는 것을 넘어, 드론이 이전에 불가능했던 수준의 자율성과 적응성을 갖추게 하는 핵심 동력이다. DRL은 고전적 제어 이론이 가장 취약했던 비모델링, 비선형 동역학 문제에 대한 해법을 제시한다. 이러한 변화는 알고리즘의 발전만으로 이루어진 것이 아니다. Skydio 드론에 탑재된 NVIDIA Jetson GPU와 같이 강력하고 전력 효율적인 온보드 컴퓨팅 하드웨어의 발전이 DRL 정책을 실시간으로 실행할 수 있는 물리적 기반을 제공했다.16 즉, DRL 알고리즘과 임베디드 컴퓨팅 기술의 동반 성장이 이 분야 전체를 이끌어가는 핵심적인 추세라고 할 수 있다.
섹션 2: 핵심 방법론: 항공 로보틱스를 위한 DRL 알고리즘 분류
이 섹션에서는 드론 비행 제어에 가장 밀접하게 관련된 DRL 알고리즘들을 기술적으로 심층 분석한다. 각 알고리즘의 단순한 정의를 넘어, 단일 에이전트 제어부터 다중 에이전트 군집 비행에 이르기까지 다양한 임무에 대한 적합성과 장단점을 비교 분석한다.
2.1. 기초 접근법: 가치 기반 및 정책 경사 방법
DRL 알고리즘은 크게 가치 기반(value-based) 방법과 정책 경사(policy-gradient) 방법으로 나눌 수 있다.
- 가치 기반 방법 (DQN, DDQN): 심층 Q-네트워크(Deep Q-Networks, DQN)와 같은 알고리즘은 특정 상태에서 각 행동을 취했을 때 얻을 수 있는 미래 보상의 총합, 즉 Q-가치(Q-value)를 학습한다.10 학습이 완료되면 에이전트는 모든 가능한 행동 중에서 가장 높은 Q-가치를 갖는 행동을 선택한다. DQN은 Atari 게임과 같은 이산적인 행동 공간(discrete action space)을 가진 문제에서 큰 성공을 거두었으며, 드론 제어에서는 '좌회전', '직진'과 같은 상위 수준의 의사결정이나 경로 계획 문제에 적용될 수 있다.18 Dueling Double Deep Q-Networks (D3QN)와 같은 변형 알고리즘은 경로 계획 작업의 성능을 향상시키기 위해 사용되기도 한다.18
- 정책 경사 방법 (REINFORCE, PPO): 이와 대조적으로 정책 경사 방법은 상태를 입력받아 행동(또는 행동의 확률 분포)을 직접 출력하는 정책 함수 π를 학습한다.8 이 계열에서 가장 널리 사용되고 성공적인 알고리즘 중 하나는 근접 정책 최적화(Proximal Policy Optimization, PPO)이다. PPO는 학습 안정성과 데이터 효율성 사이의 균형을 잘 맞추어 많은 연속 제어 문제에서 강력한 성능을 보인다.7 드론의 자세 제어, 호버링 안정화, 내비게이션 등 다양한 분야에서 PPO가 활발히 적용되고 있다.18
2.2. 액터-크리틱 종합: 연속 제어를 위한 최신 기술
액터-크리틱(Actor-Critic) 아키텍처는 가치 기반 방법과 정책 경사 방법의 장점을 결합한 하이브리드 접근법이다. 이 구조는 '액터(actor)'와 '크리틱(critic)'이라는 두 개의 네트워크로 구성된다. 액터는 정책을 학습하여 실제 행동을 결정하고, 크리틱은 가치 함수를 학습하여 액터가 선택한 행동이 얼마나 좋았는지를 평가한다. 이 평가는 액터의 정책을 업데이트하는 데 사용되어 더 안정적이고 효율적인 학습을 가능하게 한다.2
- 심층 결정론적 정책 경사 (DDPG): DDPG(Deep Deterministic Policy Gradient)는 연속적인 행동 공간을 위해 특별히 설계된 모델-프리, 오프-폴리시(off-policy) 액터-크리틱 알고리즘이다.2 결정론적 정책(즉, 특정 상태에 대해 단일 행동을 출력)을 학습하며, 드론의 경로 추종, 자세 제어 등 미세한 연속 제어가 필요한 작업에 널리 사용된다.4
- 소프트 액터-크리틱 (SAC): SAC(Soft Actor-Critic)는 DDPG에서 한 단계 더 발전한 알고리즘으로, 보상 최대화와 함께 정책의 엔트로피(불확실성)를 최대화하는 것을 목표로 한다. 이는 에이전트가 더 넓은 범위의 행동을 탐험하도록 장려하여, 더 강인하고 안정적인 정책을 학습하게 만든다.8 SAC는 현재 연속 제어 문제에서 가장 성능이 좋은 최신 알고리즘 중 하나로 간주된다.
- 트윈 지연 DDPG (TD3): TD3(Twin Delayed DDPG)는 DDPG가 Q-가치를 과대평가하는 경향이 있다는 문제를 해결하기 위해 제안되었다. 한 쌍의 크리틱 네트워크를 사용하고 정책 업데이트를 지연시키는 등의 기법을 통해 학습 안정성과 성능을 크게 향상시켰다.8
이러한 액터-크리틱 알고리즘들의 발전은 DRL 연구의 초점이 추상적인 계획 문제에서 물리적 세계와의 실제적인 상호작용, 즉 드론의 자세와 속도를 정밀하게 제어하는 핵심적인 비행 제어 문제로 성숙했음을 보여준다. 이는 드론 제어 분야의 가장 중요한 미래 혁신이 고차원 연속 상태 및 행동 공간에서 뛰어난 성능을 보이는 알고리즘에서 나올 것임을 시사한다.
| 알고리즘 | 유형 | 정책 유형 | 행동 공간 | 주요 특징 | 대표적인 드론 적용 분야 |
| DQN | 가치 기반 | 오프-폴리시 | 이산적 | 개념이 간단하고 안정적이지만 연속 공간에 부적합 | 상위 수준 의사결정, 이산적 경로 계획 |
| PPO | 정책 경사 | 온-폴리시 | 이산적/연속적 | 구현이 비교적 간단하고 안정적인 성능, 샘플 효율성 보통 | 자세 제어, 내비게이션, 장애물 회피 |
| DDPG | 액터-크리틱 | 오프-폴리시 | 연속적 | 연속 행동 공간에 특화, 샘플 효율성 높음, 학습 불안정성 존재 | 경로 추종, 정밀 기동, 동적 목표물 추적 |
| SAC | 액터-크리틱 | 오프-폴리시 | 연속적 | 엔트로피 최대화를 통한 탐험 촉진, 높은 샘플 효율성 및 안정성 | 고난도 연속 제어, 복잡한 환경에서의 강인한 비행 |
| MADDPG | 다중 에이전트 액터-크리틱 | 오프-폴리시 | 연속적 | 중앙 집중식 학습 및 분산 실행(CTDE), 에이전트 간 협력 학습 | 군집 비행, 협력적 탐사 및 감시, 공중전 기동 |
2.3. 모델 기반 vs. 모델 프리 접근법: 샘플 효율성 딜레마
DRL 알고리즘은 환경의 동역학 모델 사용 여부에 따라 모델-프리(model-free)와 모델-기반(model-based)으로 나뉜다.6
- 모델-프리: PPO, DDPG, SAC와 같은 대부분의 알고리즘은 모델-프리에 속하며, 환경 모델 없이 순수한 시행착오를 통해 정책을 직접 학습한다. 구현이 비교적 간단하고 점근적으로 최적 정책에 수렴할 수 있지만, 학습에 수백만 번 이상의 상호작용이 필요한 극심한 데이터 비효율성(sample inefficiency)을 보일 수 있다.8 실제 드론 하드웨어에서 이 정도의 데이터를 수집하는 것은 비현실적이다.
- 모델-기반: 이 접근법은 먼저 환경과의 상호작용을 통해 환경의 동역학 모델(세계 모델)을 학습하고, 이 학습된 모델을 이용해 정책을 학습하거나 계획을 수립한다. DreamerV3와 같은 알고리즘이 대표적이며, 시각 기반 드론 레이싱에서 성공적으로 사용되었다.15 모델-기반 방법은 훨씬 적은 실제 환경 데이터로 학습이 가능하여 샘플 효율성이 높지만, 학습된 모델의 정확도가 전체 성능을 좌우하는 한계를 가진다.
2.4. 규모 확장: 군집 비행을 위한 계층적 및 다중 에이전트 RL
단일 드론의 제어를 넘어 여러 드론이 협력하는 시나리오에서는 더 고도화된 RL 프레임워크가 필요하다.
- 계층적 RL (HRL): 복잡하고 장기적인 임무를 해결하기 위해 HRL은 문제를 여러 계층으로 분해한다. 상위 수준 정책이 하위 목표(sub-goal)를 설정하면, 하위 수준 정책은 그 목표를 달성하는 방법을 학습한다.9 예를 들어, 실시간으로 비행 환경에 맞춰 궤적 생성 알고리즘의 최대 속도 및 가속도 파라미터를 동적으로 조절하는 데 HRL이 사용될 수 있다.22
- 다중 에이전트 RL (MARL): 여러 드론이 공유된 환경에서 동시에 임무를 수행할 때, 이 문제는 MARL의 영역이 된다.3 이는 단일 에이전트 RL에는 없는 새로운 도전을 야기한다. 각 에이전트의 입장에서 다른 에이전트들은 계속해서 정책을 바꾸는 '비정상성(non-stationarity)' 환경의 일부가 되며, 이들 간의 효과적인 협력과 경쟁을 조율해야 한다.3 이러한 문제를 해결하기 위해 '중앙 집중식 학습 및 분산 실행(Centralized Training with Decentralized Execution, CTDE)'과 같은 패러다임이 등장했다. 학습 단계에서는 모든 에이전트의 정보(관측, 행동)를 중앙에서 사용하여 크리틱을 학습시키고, 실행 단계에서는 각 에이전트가 자신의 지역적 관측만으로 독립적으로 행동한다. MADDPG, QMIX, MAPPO와 같은 알고리즘들이 군사적 군집 비행이나 협력적 탐사 임무에 필수적인 기술로 연구되고 있다.3
MARL의 부상은 단순히 학문적 호기심을 넘어, 군사 및 민간 분야 모두에서 중앙 집중식 시스템의 단일 장애점(single point of failure)을 극복하고 분산되고 회복력 있는 시스템으로 전환하려는 전략적 요구에 직접적으로 부응하는 결과이다. 군사 작전에서는 전술적 우위를 위해 군집 비행이 명시적으로 요구되고 26, 대규모 감시나 물류와 같은 민간 분야에서도 분산 접근법의 이점은 명확하다.3 MARL은 이러한 운영상의 필요를 충족시키는 핵심 기술 프레임워크를 제공한다.
섹션 3: 민간 및 상업 분야의 개척: 항공 기술로 산업을 혁신하다
이 섹션에서는 이론에서 실제 적용으로 초점을 옮겨, DRL 및 관련 AI 기술이 민간 부문에서 어떻게 활용되고 있는지 구체적인 사례를 통해 살펴본다. 상세한 사례 연구를 통해 자율 비행이 창출하는 실질적인 상업적 가치를 조명한다.
3.1. 사례 연구: Skydio와 AI 기반 촬영 감독
- 기술 개요: Skydio는 상업용 드론 자율성의 정점을 보여주는 대표적인 기업이다. 이들의 핵심 기술인 'Skydio Autonomy' 엔진은 6개의 360도 내비게이션 카메라와 강력한 온보드 NVIDIA Jetson GPU를 사용하여 여러 심층 신경망을 동시에 실행한다.17 이를 통해 실시간으로 3차원 세계를 재구성하고, 얇은 전선과 같은 미세한 장애물까지 회피하며, 지정된 피사체를 정밀하게 추적하는 것이 가능하다.17
- 'CEILing' 접근법: Skydio의 핵심 비행 제어는 순수한 End-to-End DRL이 아니라는 점이 매우 중요하다. 대신, 그들은 '계산 전문가 모방 학습(Computational Expert Imitation Learning, CEILing)'이라는 독창적인 모방 학습 기법을 사용한다.30 여기서 모방의 대상이 되는 '전문가'는 Skydio가 자체적으로 고도로 튜닝한 전통적인 모션 플래닝 시스템이다. 신경망은 단순히 전문가의 궤적을 복사하는 것이 아니라, 전문가가 특정 결정을 내리는 '이유', 즉 기저에 있는 비용 함수(예: 열린 공간에서의 이탈보다 장애물 근접에 더 큰 페널티를 부과)를 학습한다. 이 접근법은 표준적인 모방 학습보다 적은 데이터로도 훨씬 뛰어난 일반화 성능을 보여준다.30
- 시장 영향: 이 기술은 "지능적이고, 안전하며, 조작이 간단한" 드론을 만들어냄으로써 소비자 및 기업 시장을 혁신했다.28 복잡한 항공 촬영이나 시설 점검과 같은 전문적인 작업을 누구나 쉽게 수행할 수 있도록 하여 드론 기술의 대중화를 이끌고 있다.
3.2. 사례 연구: Verity Studios와 자율 군집 비행의 안무
- 기술 개요: Verity는 Metallica, Drake와 같은 세계적인 아티스트들의 라이브 공연에서 수십, 수백 대의 경량 드론을 이용한 실내 군집 조명 쇼를 전문으로 하는 기업이다.31
- 제어 아키텍처: 이들의 시스템은 중앙 집중식 제어 아키텍처에 기반한다. 각 드론은 사전에 계산된 정밀한 궤적을 중앙 컴퓨터로부터 전송받아 비행한다.33 핵심 혁신은 견고한 실내 위치 인식 시스템(Kedge™)과 부품 고장(예: 모터 하나가 멈추는 상황)이 발생해도 드론이 안정적인 비행을 유지할 수 있게 하는 페일세이프(failsafe) 알고리즘에 있다. 이는 살아있는 관객 위에서 비행해야 하는 공연 환경에서 안전을 보장하는 데 결정적인 역할을 한다.31
- 분석: Verity의 사례는 엄밀히 말해 DRL은 아니지만, 상업적인 군집 비행 애플리케이션에서 안전, 신뢰성, 그리고 시스템 수준의 엔지니어링이 얼마나 중요한지를 명확히 보여준다. 이는 군사 분야에서 추구하는 분산형 학습 기반 군집 비행과는 대조적인 접근법으로, 무대와 같이 예측 가능하고 통제된 환경에서는 중앙 집중식의 정교한 안무가 매우 효과적일 수 있음을 시사한다.
3.3. 정밀 농업: 자원 관리 최적화를 위한 DRL
- 문제 정의: 전통적인 농업 방식은 물, 비료, 농약을 밭 전체에 균일하게 살포하여 자원 낭비와 환경 오염을 유발하는 경우가 많다. 드론은 작물의 건강 상태에 대한 고해상도 데이터를 수집하여 이러한 문제를 해결할 수 있는 잠재력을 가지고 있다.35
- DRL 적용: 문제는 배터리가 제한된 드론으로 넓은 농경지를 효율적으로 정찰하는 것이다. DRL은 기존의 격자 기반 비행 패턴 대신, 밭의 일부 구역을 지능적으로 샘플링하여 전체 밭의 건강 상태를 높은 정확도로 예측하는 자율 정찰 정책을 학습하는 데 사용될 수 있다. 연구에 따르면 이 방식은 비행 시간을 단축하고 비용을 절감하면서도 작물 건강 지도의 정확도를 유지할 수 있다.39 한 연구에서는 이러한 접근법을 통해 노동 비용을 4.8배 절감하고 농업 수익을 1.36배 증가시켰다고 보고했다.39 미래 연구는 센서 데이터를 기반으로 실시간으로 비행 경로를 조정하는 적응형 DRL 알고리즘 개발에 초점을 맞추고 있다.40
3.4. 자율 인프라 점검 및 물류
- 점검: 드론은 전력선 41, 교량, 건설 현장 42 등 중요 인프라를 점검하는 데 점점 더 많이 사용되고 있다. DRL은 이러한 복잡하고 GPS 신호가 약한 환경에서 자율적인 내비게이션을 가능하게 하여, 드론이 장애물을 피하면서 점검 대상 전체를 완벽하게 커버하는 최적의 경로를 스스로 계획하도록 할 수 있다.17
- 물류: Verity와 같은 기업들은 실내 내비게이션 기술을 창고 재고 관리에 적용하고 있다. 자율 드론이 팔레트를 스캔하여 재고 오류를 줄이고 효율성을 높인다.43 DRL은 창고 내에서 최대 효율을 위한 비행 경로를 최적화하는 데 적용될 수 있다.
이러한 민간 분야의 성공 사례들은 중요한 공통점을 보여준다. 현재 가장 성공적인 상업용 애플리케이션들은 '순수 DRL' 시스템이 아니라, 머신러닝을 고전적인 로보틱스 및 견고한 시스템 엔지니어링과 융합한 하이브리드 시스템이라는 점이다. Skydio는 고전적 모션 플래너를 전문가로 삼아 모방 학습을 수행하고 30, Verity는 분산 학습 대신 시스템 엔지니어링의 정수인 페일세이프와 중앙 집중식 제어에 의존한다.33 이는 안전과 신뢰성이 법적 책임으로 직결되는 상업 분야에서 기업들이 아직 순수한 End-to-End DRL 에이전트를 전적으로 신뢰하지 않음을 보여준다. 대신, 검증 가능한 전통적인 엔지니어링 프레임워크 내에서 인식이나 상위 수준 경로 계획과 같은 특정 하위 문제를 해결하기 위해 AI/DRL을 사용하는 'AI 보조(AI-assisted)' 모델이 현재 지배적인 상업적 패러다임이다. 또한, 이러한 기술 도입의 핵심 경제적 동인은 숙련된 인간 조종사와 같은 고가의 전문 인력을 대체하거나 보조하여 노동 비용을 절감하고 생산성을 극대화하는 데 있다.3
섹션 4: 새로운 전장: 군사 및 국방 시스템에서의 DRL
이 섹션에서는 국방 분야에서의 DRL 도입을 분석한다. 국방 분야의 운영 동인은 민간 부문과는 근본적으로 다르다. 전술적 우위 확보, 적대적 환경에서의 작전 수행 능력, 그리고 의사결정 속도의 극대화가 핵심 목표이다.
4.1. 사례 연구: Shield AI와 AI 전투기 조종사의 등장
- 기술 개요: Shield AI의 주력 제품은 소형 쿼드콥터부터 F-16 전투기에 이르기까지 다양한 군용 항공기를 위한 AI 조종사 '하이브마인드(Hivemind)'이다.44 이 시스템은 GPS 신호나 통신이 두절된 적대적 환경(denied environments)에서 작전 수행이 가능하도록 명시적으로 설계되었다.27
- DRL 적용: Hivemind는 "승리 전략의 발견, 학습, 실행"을 위해 강화학습을 사용한다.44 이는 시뮬레이션 환경에서 Hivemind가 제어하는 F-16이 인간 조종사와 근접 공중전(dogfight)을 벌이는 시연을 통해 입증되었다.45 학습은 '포지(Forge)'라는 자체 시뮬레이션 환경에서 이루어지며, 이는 군사적 응용에서 Sim-to-Real 전환의 중요성을 강조한다.44
- 임무 자율성: Shield AI는 기본적인 비행 및 내비게이션을 의미하는 '플랫폼 자율성'과 전술적 의사결정을 의미하는 '임무 자율성'을 구분한다. Hivemind는 후자에 초점을 맞춰, 항공기가 인간의 개입 없이 복잡한 기동을 수행하고, 팀(군집)으로 협력하며, 지휘관의 의도를 실행할 수 있도록 한다.27
4.2. 사례 연구: Anduril Industries와 AI 중심의 지휘 통제
- 기술 개요: Anduril의 접근 방식은 AI 기반 지휘 통제(C2) 시스템인 '래티스(Lattice)' 소프트웨어 플랫폼을 중심으로 이루어진다. Lattice는 감시 타워, 드론, 지상 센서 등 방대한 네트워크로부터 수집된 데이터를 단일 작전 상황도에 통합한다.26
- 시스템의 시스템 접근법: Lattice는 엣지(edge) 단에서 AI/ML을 사용하여 위협을 자율적으로 탐지, 분류, 추적하고, 필요한 경우에만 인간 운용자에게 경고한다.26 이후 시스템은 자율적으로 자산을 할당하여, 예를 들어 '앤빌(Anvil)' 요격 드론을 출격시켜 적대적 UAV를 무력화할 수 있다.26
- 분석: Anduril의 전략은 개별 드론의 DRL 정책보다는, 이종의 자율 시스템 군집 전체를 관리하기 위해 AI를 사용하는 데 중점을 둔다. 지능이 개별 플랫폼이 아닌 네트워크 전체에 존재하는 것이다. 이는 DRL이 단일 기체의 비행 경로가 아닌, 전체 시스템의 임무 할당 및 협력 전략을 최적화하는 더 높은 추상화 수준에서 사용될 수 있음을 보여준다.
4.3. 적대적 환경에서의 전술적 우위를 위한 자율 군집 비행
- 운영상의 필요성: 군집 비행의 주된 군사적 동인은 적의 방어 체계를 압도하고, 지속적인 통신 연결 없이도 작전할 수 있는 회복력 있는 분산형 감지 및 타격 능력을 구축하는 것이다.27
- MARL 적용: 이것이 바로 다중 에이전트 강화학습(MARL)의 핵심 영역이다. MADDPG, MAPPO와 같은 알고리즘은 협력적 감시, 표적 할당, 공중전과 같은 임무를 위해 군집을 훈련시키는 데 사용되며, 여기서 분산 실행은 필수적이다.3 목표는 개별 유닛의 합을 뛰어넘는 지능적인 집단 행동을 창발시키는 것이다.
4.4. 대드론(Counter-UAS) 및 위협 요격을 위한 DRL
- 문제 정의: 우크라이나 전쟁에서 볼 수 있듯이, 소형 상업용 드론이 무기로 확산되면서 효과적인 대드론(cUAS) 시스템에 대한 시급한 필요성이 대두되었다.26
- DRL 적용: DRL은 '요격' 드론을 훈련시키는 데 사용되고 있다. 이는 목표물을 물리적으로 요격하기 위한 공격적인 추격 정책을 학습하는 것을 포함할 수 있다.49 또한, 적 드론의 충돌 방지 시스템을 '스푸핑'하거나 '하이재킹'하여 물리적 파괴 없이 경로를 이탈시키는 등 더 미묘한 방식으로도 사용될 수 있다.49
군사 분야에서의 DRL 개발은 민간 분야와는 근본적으로 다른, '적대적 환경'에서의 자율성 확보라는 더 어렵고 본질적인 문제에 의해 주도되고 있다. 민간 드론은 일반적으로 신뢰할 수 있는 GPS와 통신을 기반으로 작동하지만, 군사 시나리오는 이러한 시스템이 적극적으로 방해받거나 사용할 수 없는 상황을 가정한다.27 이로 인해 군용 DRL 시스템은 상태 추정, 항법, 의사결정을 전적으로 온보드 센서(비전, IMU 등)에 의존해야만 한다. 이러한 제약 조건이 Shield AI의 Hivemind와 같은 기술 개발의 핵심 동인이다. 또한, 군집 제어 철학에서도 민간과 군사 분야 간의 전략적 분기가 나타난다. Verity Studios의 라이트 쇼는 예측 가능한 환경에서 중앙 집중식, 사전 계획된 제어의 성공 사례를 보여주지만 33, 군사 군집은 미지의, 역동적, 적대적 환경에서 작전해야 하므로 중앙 제어는 단일 장애점이 된다. 따라서 군사 분야에서는 각 에이전트가 지역 정보만으로 지능적으로 반응할 수 있는 분산 정책을 학습하기 위해 MARL이 필수적으로 요구된다.3 이는 '군집 비행'이라는 개념이 단일 기술이 아니며, 최적의 제어 전략이 운용 환경의 예측 가능성과 적대성에 따라 결정됨을 보여준다.
섹션 5: 현실과의 간극 메우기: Sim-to-Real 전환의 중대한 과제
이 섹션에서는 로보틱스에 DRL을 적용하는 데 있어 가장 큰 실질적인 장애물 중 하나를 다룬다. 즉, 시뮬레이션에서 훈련된 정책이 실제 하드웨어에 배포되었을 때 종종 실패하는 문제이다. 이러한 '현실과의 간극(reality gap)'이 왜 존재하는지, 그리고 이를 극복하기 위한 최신 기술들을 탐구한다.
5.1. 시뮬레이션의 필요성과 '현실과의 간극'
- 시뮬레이션이 필수적인 이유: DRL 에이전트를 훈련시키기 위해서는 수백만 번의 시행착오적 상호작용이 필요하다. 이를 실제 하드웨어에서 수행하는 것은 시간과 비용이 많이 들고, 특히 학습 초기 단계에서 에이전트가 필연적으로 여러 번 충돌하기 때문에 매우 위험하다.8 따라서 빠르고 병렬화가 가능한 시뮬레이터에서의 훈련은 필수적이다.
- 간극의 정의: '현실과의 간극'은 시뮬레이션 환경과 실제 세계 사이의 불일치를 의미한다.50 이는 시각적 외관(텍스처, 조명), 센서 노이즈, 물리적 동역학(모터 응답, 마찰, 공기역학)의 차이로 나타날 수 있다.51 완벽한 시뮬레이션에 최적화된 정책은 이러한 실제 세계의 불완전성에 직면했을 때 취약하고 실패할 수 있다.
5.2. 고충실도 시뮬레이터: 첫 번째 방어선
- Unreal Engine (AirSim): Unreal Engine을 기반으로 구축된 인기 있는 시뮬레이터인 AirSim을 분석한다.53 AirSim의 핵심 장점은 사진처럼 사실적인 렌더링(photorealistic rendering)으로, 시각적 현실 간극을 줄이는 데 큰 도움이 된다. 고충실도 카메라 및 깊이 센서를 제공하며, 데이터 생성 및 드론 제어를 위한 API를 통해 ML 연구자들이 쉽게 접근할 수 있도록 설계되었다.24
- Gazebo: AirSim을 종종 RotorS 확장 기능과 함께 사용되는 또 다른 널리 사용되는 시뮬레이터인 Gazebo와 비교한다.53 Gazebo는 유연성이 높고 강력한 물리 엔진을 갖추고 있지만, 일반적으로 Unreal Engine의 사실적인 시각적 품질에는 미치지 못하여 비전 기반 정책 훈련에는 덜 적합할 수 있다.53 시뮬레이터의 선택은 모든 DRL 프로젝트에서 중요한 설계 결정이다.
5.3. 도메인 랜덤화: 예측 불가능성에 대한 훈련
- 핵심 개념: 완벽한 시뮬레이션 하나를 만드는 대신, 도메인 랜덤화(domain randomization)는 수천 개의 약간씩 다른 시뮬레이션을 생성하는 기법이다. 훈련 중 각 에피소드가 시작될 때마다 물리적 파라미터(질량, 마찰, 모터 상수), 시각적 속성(텍스처, 조명, 카메라 위치), 환경 레이아웃(장애물 위치, 모양) 등이 무작위로 변경된다.14
- 분석: 이 과정은 DRL 에이전트가 이러한 변화에 강인하고 불변하는 정책을 학습하도록 강제한다. 다양한 분포의 시뮬레이션 세계에 노출됨으로써, 에이전트는 실제 세계를 이미 경험해 본 또 다른 변형으로 인식하게 된다. 이는 실제 세계에서의 미세 조정 없이 시뮬레이션에서 학습된 정책을 하드웨어에 직접 배포하는 '제로샷(zero-shot)' Sim-to-Real 전환을 성공적으로 이끌 수 있다.14
5.4. 고급 기법: 시스템 식별 및 도메인 적응
- 시스템 식별 (System Identification): 소량의 실제 세계 데이터를 사용하여 시뮬레이터의 파라미터를 실제 하드웨어와 더 잘 일치하도록 조정하는 과정이다. 이를 통해 더 정확한 '디지털 트윈'을 생성할 수 있다.57
- 도메인 적응 (Domain Adaptation): 이 기법들은 도메인에 불변하는 표현(domain-invariant representation)을 학습하는 것을 목표로 한다. 예를 들어, 변이형 오토인코더(VAE)를 사용하여 시뮬레이션 깊이 이미지에서 압축된 잠재 표현을 추출한 다음, 이를 실제 스테레오 카메라의 깊이 이미지에서 추출한 표현과 정렬시킬 수 있다. RL 정책은 원본 센서 데이터 대신 이 정렬된 추상적 표현을 기반으로 훈련되어, Sim-to-Real 인식 격차에 더 강인해진다.52
Sim-to-Real 문제는 DRL 커뮤니티와 전통적인 로보틱스 및 컴퓨터 그래픽스 커뮤니티 간의 융합을 촉진하는 계기가 되었다. DRL을 물리적인 드론에 적용하면서 현실과의 간극은 피할 수 없는 주요 장애물이 되었고 8, 이를 해결하기 위해서는 순수 RL 이론을 넘어서는 전문 지식이 필요하게 되었다. 고충실도 물리 및 그래픽 렌더링(컴퓨터 그래픽스의 영역)과 시스템 식별(고전 제어 이론의 영역)과 같은 기술이 필수적이 된 것이다.53 따라서 이 분야의 최첨단 연구는 본질적으로 학제 간의 협력을 통해 이루어지고 있다. 궁극적으로 '제로샷' Sim-to-Real 전환은 DRL의 진정한 확장성을 여는 열쇠이다. 시뮬레이션의 가장 큰 이점은 저비용으로 대규모 병렬 훈련을 수행할 수 있다는 점인데 8, 만약 훈련된 정책이 실제 로봇에서 광범위한 미세 조정을 필요로 한다면 이 이점은 크게 퇴색된다. 제로샷 전환을 달성한다는 것은 이론적으로 거대한 드론 부대를 위한 정책을 전적으로 클라우드에서 훈련하고, 각 드론을 물리적으로 테스트할 필요 없이 즉시 배포할 수 있음을 의미한다. 이는 로봇 시스템 개발 및 확장 방식의 근본적인 변화이며, Sim-to-Real 문제에 대한 집중적인 연구의 궁극적인 경제적, 물류적 명분을 제공한다.
섹션 6: 자율 비행의 최전선: 안전, 신뢰, 그리고 미래 전망
이 마지막 섹션에서는 안전이 중요한 애플리케이션에서 DRL 기반 비행 제어의 광범위한 채택을 가로막는 가장 큰 장벽, 즉 시스템이 안전하고, 신뢰할 수 있으며, 믿을 수 있도록 보장하는 문제를 다룬다.
6.1. 안전 강화학습: 보상 극대화를 넘어서
- 표준 RL의 문제점: 전통적인 DRL 에이전트는 보상 함수를 극대화하도록 훈련된다. 이들은 안전에 대한 내재적인 개념이 없다. 에이전트는 높은 보상을 얻지만 때때로 치명적인 행동을 수행하는 정책을 학습할 수 있으며, 이는 실제 세계에서는 용납될 수 없다.23
- 안전 RL 기법: 이 문제를 해결하기 위해 안전 강화학습(Safe RL) 분야가 등장했다. 안전 RL은 안전 제약 조건을 만족시키면서 높은 성능의 정책을 학습하는 것을 목표로 한다. 여기에는 제약된 정책 최적화(Constrained Policy Optimization)와 같은 방법이 포함되는데, 이는 '비용' 함수(예: 장애물과의 근접성)에 대한 제약 하에 정책을 최적화한다.58 또 다른 접근법은 '실딩(shielding)'으로, 공식적으로 검증된 안전 모니터가 DRL 에이전트의 행동이 안전하지 않은 상태로 이어질 것이라고 판단될 때 이를 기각하고 안전한 행동으로 대체하는 방식이다.
6.2. 인증의 도전: 신경망 정책을 위한 형식 검증
- 블랙박스 문제: 여객기나 도심 항공 모빌리티와 같이 안전이 중요한 애플리케이션을 위해 DRL 시스템을 인증하는 데 있어 핵심적인 어려움은 신경망의 '블랙박스' 특성이다.59 모든 가능한 입력에 대해 신경망의 행동을 수학적으로 보장하는 것은 매우 어렵다.23
- 형식 검증 (Formal Methods): 시스템이 특정 속성(예: "드론은 장애물에 5미터 이내로 접근하지 않는다")을 만족함을 증명하기 위해 엄격한 수학적 기법을 사용하는 형식 검증 방법의 적용이 연구되고 있다.60 그러나 이러한 방법들은 '차원의 저주'에 직면하며, DRL에 사용되는 크고 복잡한 신경망에 적용하기가 극도로 어렵다.60 이는 아직 해결되지 않은 주요 연구 분야이며 인증을 향한 중요한 장벽이다.
6.3. 설명가능 AI (XAI): '블랙박스' 열기
- 신뢰의 필요성: 인간 운용자, 규제 기관, 그리고 대중이 자율 드론을 신뢰하기 위해서는 시스템이 자신의 결정을 설명할 수 있어야 한다.59 "왜 드론이 갑자기 경로를 변경했는가?", "어떤 요인들이 이곳에 착륙하기로 한 결정에 영향을 미쳤는가?"와 같은 질문에 답할 수 있어야 한다.
- XAI 기법: DRL과 관련된 XAI 기법들을 살펴본다. 여기에는 LIME, SHAP과 같은 사후(post-hoc) 방법이 포함되는데, 이들은 복잡한 모델을 국소적으로 근사하거나 입력 특징의 기여도를 계산하여 개별 결정을 설명한다.63 또 다른 접근법은 신경망 내의 어텐션 메커니즘을 사용하여, 결정을 내릴 때 드론이 입력 이미지의 어느 부분에 '주의'를 기울이고 있는지 시각화하는 것이다.20 XAI는 신뢰 구축뿐만 아니라 DRL 모델의 디버깅 및 개선에도 매우 중요하다.55
6.4. 종합 분석: 널리 신뢰받는 자율 비행으로 가는 길
- 종합: 이 마지막 하위 섹션에서는 보고서의 핵심 내용을 종합한다. DRL이 연구적 호기심에서 차세대 자율성을 가능하게 하는 핵심 기술로 이동하고 있다는 궤적은 분명하다.
- 미래 전망: 핵심 과제는 여전히 안전, Sim-to-Real 전환, 그리고 샘플 효율성에 남아 있다. 앞으로는 DRL과 고전 제어의 장점을 결합한 하이브리드 시스템, 더 효율적인 모델 기반 및 오프라인 RL 방법, 그리고 검증 가능하고 설명 가능한 AI 아키텍처 개발에 대한 노력이 계속될 것이다. 궁극적인 목표는 신뢰할 수 있는 지능형 자율 드론을 우리 삶의 모든 측면에 인증하고 널리 보급할 수 있게 하는 완전한 'End-to-End 설명 가능 파이프라인'을 구축하는 것이다.63
DRL의 기술적 과제(성능, 샘플 효율성)는 사회-기술적 과제(안전, 검증, 신뢰)보다 빠르게 해결되고 있다. 이러한 '신뢰의 간극(trust gap)'은 이제 고위험 분야에서 DRL의 광범위한 채택을 가로막는 주요 병목 현상이 되었다. 드론 레이싱과 같은 특정 작업에서는 이미 초인적인 성능이 시연되었지만 66, 이러한 정책을 공식적으로 검증하는 방법은 아직 초기 단계에 머물러 있으며 규모의 문제에 직면해 있다.60 설명가능성(XAI)에 대한 요구는 이러한 공식적인 보증의 부재에서 비롯된 직접적인 결과이다. 시스템이 안전하다는 것을 증명할 수 없다면, 최소한 스스로를 설명하기라도 해야 한다는 것이다.63 따라서 규제된 공역이나 안전이 중요한 군사 작전에 DRL을 배치하기 위한 핵심 경로는 더 이상 보상 곡선을 개선하는 것만이 아니라, 시스템을 인증하는 데 필요한 검증, 확인 및 설명 도구의 생태계를 구축하는 것이다.
또한, End-to-End DRL 철학의 힘은 인간이 설계한 중간 표현을 우회하여 픽셀을 직접 토크로 매핑하는 총체적인 정책을 학습하는 데서 나온다.12 그러나 바로 이 중간 표현의 부재가 시스템을 '블랙박스'로 만들고 분석을 어렵게 한다.59 검증 및 설명 방법은 종종 잘 정의된 인터페이스와 상징적 규칙을 가진 모듈식 시스템 분석에 의존한다.61 따라서 End-to-End DRL을 강력하게 만드는 바로 그 특성이 역설적으로 시스템을 신뢰하기 어렵게 만든다. 이 분야의 미래는 아마도 타협점을 찾는 데 있을 것이다. 즉, 성능을 일부 희생하더라도 분석에 더 용이하도록 어느 정도의 모듈성이나 상징적 추론(예: 신경-상징 AI) 63을 통합하는 '구조화된' DRL 시스템을 개발하는 것이다. 이는 순수한 End-to-End 패러다임에서 한발 물러나 실용적이고 인증 가능한 자율성을 선호하는 방향으로의 전환을 의미할 수 있다.
참고 자료
- What is the difference between a PID and LQR controller? Which is better for controlling a slow varying system? - Quora, 9월 12, 2025에 액세스, https://www.quora.com/What-is-the-difference-between-a-PID-and-LQR-controller-Which-is-better-for-controlling-a-slow-varying-system
- Deep Reinforcement Learning for Trajectory ... - Lirias - KU Leuven, 9월 12, 2025에 액세스, https://lirias.kuleuven.be/retrieve/68061699-5d02-4894-8e3d-2acdb6f11f1f
- A Survey on UAV Control with Multi-Agent Reinforcement Learning - MDPI, 9월 12, 2025에 액세스, https://www.mdpi.com/2504-446X/9/7/484
- (PDF) Reinforcement Learning-Based PD Controller Gains ..., 9월 12, 2025에 액세스, https://www.researchgate.net/publication/394556226_Reinforcement_Learning-Based_PD_Controller_Gains_Prediction_for_Quadrotor_UAVs
- [Literature Review] Reinforcement Learning Based Prediction of PID Controller Gains for Quadrotor UAVs - Moonlight, 9월 12, 2025에 액세스, https://www.themoonlight.io/en/review/reinforcement-learning-based-prediction-of-pid-controller-gains-for-quadrotor-uavs
- A Survey on Reinforcement Learning in Aviation Applications - arXiv, 9월 12, 2025에 액세스, https://arxiv.org/html/2211.02147v3
- A Survey of Offline and Online Learning-Based Algorithms for Multirotor UAVs - arXiv, 9월 12, 2025에 액세스, https://arxiv.org/html/2402.04418v1
- (PDF) Reinforcement learning-based drone simulators: survey, practice, and challenge, 9월 12, 2025에 액세스, https://www.researchgate.net/publication/383790896_Reinforcement_learning-based_drone_simulators_survey_practice_and_challenge
- Modular Reinforcement Learning for Autonomous UAV Flight Control - MDPI, 9월 12, 2025에 액세스, https://www.mdpi.com/2504-446X/7/7/418
- 드론 제어를 위한 심층 강화 학습의, 9월 12, 2025에 액세스, http://icros.org/Newsletter/202301/3.%EA%B8%B0%EC%88%A0%ED%8A%B9%EC%A7%91_%EA%B9%80%ED%95%9C%EC%86%94.pdf
- Review of Deep Reinforcement Learning - ResearchGate, 9월 12, 2025에 액세스, https://www.researchgate.net/publication/367467717_Review_of_Deep_Reinforcement_Learning
- Deep Reinforcement Learning-Based End-to-End Control for UAV Dynamic Target Tracking - PMC - PubMed Central, 9월 12, 2025에 액세스, https://pmc.ncbi.nlm.nih.gov/articles/PMC9680462/
- End-to-End Deep Reinforcement Learning for Image-Based UAV Autonomous Control, 9월 12, 2025에 액세스, https://www.researchgate.net/publication/354517060_End-to-End_Deep_Reinforcement_Learning_for_Image-Based_UAV_Autonomous_Control
- Sim-to-Real Deep Reinforcement Learning for Safe End-to-End ..., 9월 12, 2025에 액세스, https://www.mdpi.com/2218-6581/11/5/109
- [논문 리뷰] Dream to Fly: Model-Based Reinforcement Learning for Vision-Based Drone Flight - Moonlight, 9월 12, 2025에 액세스, https://www.themoonlight.io/ko/review/dream-to-fly-model-based-reinforcement-learning-for-vision-based-drone-flight
- Deep reinforcement learning for drone navigation using sensor data - White Rose Research Online, 9월 12, 2025에 액세스, https://eprints.whiterose.ac.uk/id/eprint/162402/1/Hodge2020_Article_DeepReinforcementLearningForDr.pdf
- Skydio Autonomy: AI-driven expert pilot skills in aerial robotics, 9월 12, 2025에 액세스, https://www.skydio.com/skydio-autonomy
- Drone Deep Reinforcement Learning: A Review - Semantic Scholar, 9월 12, 2025에 액세스, https://www.semanticscholar.org/paper/Drone-Deep-Reinforcement-Learning%3A-A-Review-Azar-Koub%C3%A2a/bd2bbf71a57cbe3dd03256739ae87e0013214411
- Quadrotor motion control using deep reinforcement learning - Canadian Science Publishing, 9월 12, 2025에 액세스, https://cdnsciencepub.com/doi/10.1139/juvs-2021-0010
- Autonomous UAV Navigation with Adaptive Control Based on Deep Reinforcement Learning - MDPI, 9월 12, 2025에 액세스, https://www.mdpi.com/2079-9292/13/13/2432
- Path Following Control for UAV Using Deep Reinforcement Learning Approach, 9월 12, 2025에 액세스, https://www.worldscientific.com/doi/10.1142/S2737480721500059
- 실시간 계층적 심층강화학습 기반 드론 궤적 생성 알고리즘 파라미터 제어 - J-KICS, 9월 12, 2025에 액세스, https://journal.kics.or.kr/digital-library/manuscript/file/56112/08.pdf
- (PDF) Development and validation of a safe reinforcement learning drone controller, 9월 12, 2025에 액세스, https://www.researchgate.net/publication/395189620_Development_and_validation_of_a_safe_reinforcement_learning_drone_controller
- Reinforcement Learning-Based Autonomous Landing of AirSim Simulated Quadcopter in Unreal Engine - ResearchGate, 9월 12, 2025에 액세스, https://www.researchgate.net/publication/385540216_Reinforcement_Learning-Based_Autonomous_Landing_of_AirSim_Simulated_Quadcopter_in_Unreal_Engine
- 심층강화학습 기반 EGO-Swarm 파라미터 제어 Deep Reinforcement Learning-Based Control of EGO-Swarm Parameters - JATR, 9월 12, 2025에 액세스, http://jatr.org/digital-library/manuscript/file/55944/journal_jatr_8-1_15.pdf
- CounterUAS | Anduril, 9월 12, 2025에 액세스, https://www.anduril.com/capability/counter-uas/
- AI for Maneuver - Shield AI, 9월 12, 2025에 액세스, https://shield.ai/ai-maneuver/
- Pushing the Limits of Drones with Skydio Autonomy, 9월 12, 2025에 액세스, https://www.skydio.com/blog/pushing-the-limits-of-drones-with-skydio-autonomy
- Introducing the Skydio Autonomy Engine - YouTube, 9월 12, 2025에 액세스, https://www.youtube.com/watch?v=Gh5pAT1o2V8
- Deep Neural Pilot on Skydio 2 | Skydio, 9월 12, 2025에 액세스, https://www.skydio.com/blog/deep-neural-pilot-skydio-2
- Verity Studios, 9월 12, 2025에 액세스, https://veritystudios.com/
- "Creating magic with technology": How U of T alumnus Raffaello D'Andrea uses drones in live shows | University of Toronto Alumni, 9월 12, 2025에 액세스, https://alumni.utoronto.ca/news/creating-magic-technology-how-u-t-alumnus-raffaello-dandrea-uses-drones-live-shows
- Predictive Control of Aerial Swarms in Cluttered Environments 1 Introduction, 9월 12, 2025에 액세스, https://aerial-core.eu/wp-content/uploads/2021/11/soria_predictive_2021.pdf
- Verity Studios drone failsafe technologies - YouTube, 9월 12, 2025에 액세스, https://www.youtube.com/watch?v=3h1Kh152ygU
- DJI Agriculture - Drones Better Growth, Better Life, 9월 12, 2025에 액세스, https://ag.dji.com/
- Top 5 Commercial Drones Uses For Precision Farming - Farmonaut, 9월 12, 2025에 액세스, https://farmonaut.com/precision-farming/top-5-ways-commercial-drones-boost-precision-farming
- Deep Learning & Drones in Precision Agriculture - ZenaDrone 1000, 9월 12, 2025에 액세스, https://www.zenadrone.com/deep-learning-and-drones-in-precision-agriculture/
- UAV Precision Agriculture | Soar to Higher Yields - Saiwa, 9월 12, 2025에 액세스, https://saiwa.ai/sairone/blog/uav-precision-agriculture/
- Whole-Field Reinforcement Learning: A Fully Autonomous Aerial Scouting Method for Precision Agriculture - PMC, 9월 12, 2025에 액세스, https://pmc.ncbi.nlm.nih.gov/articles/PMC7698769/
- Transforming Farming: A Review of AI-Powered UAV Technologies in Precision Agriculture, 9월 12, 2025에 액세스, https://www.mdpi.com/2504-446X/8/11/664
- Powering the Future: National Grid Rolls Out Centralised Autonomous Drone Inspections across its network, 9월 12, 2025에 액세스, https://www.nationalgrid.com/powering-future-national-grid-rolls-out-centralised-autonomous-drone-inspections-across-its-network
- To analysis of construction site inspection & progress with drone technology: An alternative to human examiners - Civil Engineering Journals, 9월 12, 2025에 액세스, https://www.civilengineeringjournals.com/ijcec/article/36/4-1-5-701.pdf
- Verity: AI-powered Autonomous Drone Systems for Inventory Management, 9월 12, 2025에 액세스, https://www.verity.net/
- Report: Shield AI Business Breakdown & Founding Story | Contrary ..., 9월 12, 2025에 액세스, https://research.contrary.com/company/shield-ai
- Shield AI Looks To Unleash Its Hivemind Autonomy Software On Multiple Platforms, 9월 12, 2025에 액세스, https://shield.ai/shield-ai-looks-to-unleash-its-hivemind-autonomy-software-on-multiple-platforms/
- anduril.pdf - AWS, 9월 12, 2025에 액세스, https://sacra-pdfs.s3.us-east-2.amazonaws.com/anduril.pdf
- Anduril's Lattice: a trusted dual use — commercial and military — platform for public safety, security, and defense, 9월 12, 2025에 액세스, https://www.anduril.com/article/anduril-s-lattice-a-trusted-dual-use-commercial-and-military-platform-for-public-safety-security/
- Existing Gaps In Reinforcement Learning For Drone Warfare - ORBi, 9월 12, 2025에 액세스, https://orbi.uliege.be/bitstream/2268/331713/1/Existing_Gaps_In_Reinforcement_Learning_For_Drone_Warfare.pdf
- Autonomous drone interception with Deep Reinforcement Learning - CEUR-WS, 9월 12, 2025에 액세스, https://ceur-ws.org/Vol-3173/8.pdf
- Zero-Shot Sim-to-Real Transfer - Emergent Mind, 9월 12, 2025에 액세스, https://www.emergentmind.com/topics/zero-shot-sim-to-real-transfer
- DRAL: Deep Reinforcement Adaptive Learning for Multi-UAVs Navigation in Unknown Indoor Environment - arXiv, 9월 12, 2025에 액세스, https://arxiv.org/html/2409.03930v1
- Depth Transfer: Learning to See Like a Simulator for Real-World Drone Navigation - arXiv, 9월 12, 2025에 액세스, https://arxiv.org/html/2505.12428v1
- AirSim Drone Racing Lab - Multi-Robot Systems Lab - Stanford ..., 9월 12, 2025에 액세스, https://msl.stanford.edu/papers/madaan_airsim_2020.pdf
- Training UAV Teams with Multi-Agent Reinforcement Learning Towards Fully 3D Autonomous Wildfire Response - Clemson OPEN, 9월 12, 2025에 액세스, https://open.clemson.edu/cgi/viewcontent.cgi?article=5399&context=all_theses
- Explainability of Deep Reinforcement Learning Method with Drones - UPCommons, 9월 12, 2025에 액세스, https://upcommons.upc.edu/bitstream/handle/2117/399125/3152.pdf;jsessionid=0392E5D3A5E01B9B3D815925DF53FE9A?sequence=1
- UNDERSTANDING DOMAIN RANDOMIZATION FOR SIM-TO-REAL TRANSFER, 9월 12, 2025에 액세스, https://collaborate.princeton.edu/en/publications/understanding-domain-randomization-for-sim-to-real-transfer
- Robotics control : DRL vs classical approaches : r/reinforcementlearning - Reddit, 9월 12, 2025에 액세스, https://www.reddit.com/r/reinforcementlearning/comments/tk00hv/robotics_control_drl_vs_classical_approaches/
- Online Safe Flight Control Method Based on Constraint Reinforcement Learning - MDPI, 9월 12, 2025에 액세스, https://www.mdpi.com/2504-446X/8/9/429
- The Need for Explainability in Autonomous Systems: Enhancing Transparency and Trust with Explainable AI (XAI) | by Siddhartha Pramanik | Medium, 9월 12, 2025에 액세스, https://medium.com/@siddharthapramanik771/the-need-for-explainability-in-autonomous-systems-enhancing-transparency-and-trust-with-83336b6640bd
- A Verification Framework for Certifying Learning-Based Safety-Critical Aviation Systems - Content Delivery Network (CDN), 9월 12, 2025에 액세스, https://bpb-us-w2.wpmucdn.com/web.seas.gwu.edu/dist/9/15/files/2022/05/aviation22_verification_Pouria.pdf
- Safe reinforcement learning framework. The safety reinforcement... | Download Scientific Diagram - ResearchGate, 9월 12, 2025에 액세스, https://www.researchgate.net/figure/Safe-reinforcement-learning-framework-The-safety-reinforcement-learning-framework-is_fig2_390093043
- A Review of Safe Reinforcement Learning: Methods, Theories and Applications - arXiv, 9월 12, 2025에 액세스, https://arxiv.org/html/2205.10330v5
- Explainable AI Models for Autonomous UAV Decision Making in Complex Terrains: A Comparative Analysis - ResearchGate, 9월 12, 2025에 액세스, https://www.researchgate.net/publication/393503143_Explainable_AI_Models_for_Autonomous_UAV_Decision_Making_in_Complex_Terrains_A_Comparative_Analysis
- Explainable AI in Autonomous Systems: Understanding the Reasoning Behind Decisions for Safety and Trust - IJFMR, 9월 12, 2025에 액세스, https://www.ijfmr.com/papers/2022/6/29704.pdf
- A Novel Hybrid XAI Solution for Autonomous Vehicles: Real-Time Interpretability Through LIME–SHAP Integration - MDPI, 9월 12, 2025에 액세스, https://www.mdpi.com/1424-8220/24/21/6776
- Autonomous Drone Racing with Deep Reinforcement Learning - Robotics and Perception Group, 9월 12, 2025에 액세스, https://rpg.ifi.uzh.ch/docs/IROS21_Yunlong.pdf
'과학기술' 카테고리의 다른 글
| 재사용 우주발사체 유도항법제어(GNC) 핵심 기술 및 연구 동향 (0) | 2025.09.30 |
|---|---|
| 재사용 우주발사체용 메탄 엔진 기술에 대한 심층 분석 보고서 (0) | 2025.09.29 |
| C-UAS 요격체계용 터보제트 기반 신속 기동 추진시스템: 제어 및 강화학습 기술 적용을 중심으로 (0) | 2025.09.27 |
| 각도 전용 항법: 이론적 기초부터 자율 군집 운용까지 (0) | 2025.09.26 |
| 무인기 군집 임무 계획 방법론 비교 분석: 전통적 최적화에서 다중 에이전트 강화학습까지 (0) | 2025.09.24 |