제 1부: 무인기 군집 임무 계획 문제의 서론
1.1. 임무 할당과 경로 계획의 공생적 과제 정의
무인 항공기(Unmanned Aerial Vehicle, UAV) 군집 운용의 핵심은 복수의 UAV를 효과적으로 조정하여 공동의 목표를 달성하는 데 있으며, 이는 본질적으로 임무 할당(Task Allocation)과 경로 계획(Path Planning)이라는 두 가지 상호 의존적인 문제로 귀결된다.1 임무 할당은 "어떤 UAV가 어떤 임무를 수행할 것인가"를 결정하는 문제이며, 경로 계획은 "할당된 임무를 수행하기 위해 각 UAV가 어떤 경로로 이동할 것인가"를 결정하는 문제이다. 이 두 문제는 순차적으로 해결될 수 있는 독립적인 과제가 아니라, 하나의 해가 다른 하나에 직접적인 영향을 미치는 강력하게 결합된(coupled) 최적화 문제이다.1
예를 들어, 수학적으로 최적의 임무 할당이 도출되었다 하더라도, 실제 지형지물이나 동적 장애물, 연료 제약 등으로 인해 해당 임무 지점까지의 실행 가능한 경로가 존재하지 않는다면 그 할당은 무의미해진다. 반대로, 개별 UAV의 최단 경로만을 고려한 경로 계획은 군집 전체의 임무 완료 시간이나 자원 소모 측면에서 비효율적인 결과를 초래할 수 있다. 따라서 두 문제를 통합적으로 고려하여 최적의 해를 찾는 것이 군집 임무의 성공률을 극대화하는 관건이다.1

이러한 통합적 임무 계획 문제는 조합 최적화(Combinatorial Optimization) 문제의 한 형태로, UAV의 수와 임무의 수가 증가함에 따라 해 공간(solution space)이 기하급수적으로 팽창하는 NP-난해(NP-hard) 문제의 특성을 가진다.3 이는 제한된 시간 내에 모든 가능한 조합을 탐색하여 최적해를 찾는 것이 계산적으로 불가능함을 의미한다. 따라서 고차원적인 상태 및 행동 공간을 효율적으로 관리하고, 다양한 제약 조건 하에서 준최적(near-optimal) 해를 도출할 수 있는 정교한 알고리즘의 필요성이 대두된다.
1.2. 군집 시스템의 전략적 이점: 강인성, 확장성, 효율성
UAV 군집 시스템은 단일의 고성능 UAV 시스템을 넘어서는 혁신적인 기술 패러다임으로, 그 핵심적인 전략적 이점은 강인성(Robustness), 확장성(Scalability), 그리고 효율성(Efficiency)에서 비롯된다.6
첫째, 강인성은 시스템의 생존성과 임무 완수 능력을 극대화한다. 단일 UAV 시스템은 기체 고장이나 외부 위협에 의한 단일 실패점(single-point failure)에 매우 취약하다. 하나의 UAV가 임무 수행 불능 상태에 빠지면 전체 임무가 실패로 돌아갈 수 있다. 반면, 군집 시스템에서는 일부 UAV가 손실되더라도 나머지 UAV들이 동적으로 임무를 재할당하고 대형을 재구성하여 임무를 지속할 수 있는 내결함성(fault tolerance)을 지닌다.3 이러한 특성은 특히 적대적인 환경이나 예측 불가능한 재난 현장에서 군집의 생존성을 비약적으로 향상시킨다.
둘째, 확장성은 임무의 규모와 복잡성에 유연하게 대응할 수 있는 능력을 의미한다. 군집 시스템은 모듈식으로 설계되어 필요에 따라 UAV의 수를 쉽게 늘리거나 줄일 수 있다.6 광범위한 지역을 동시에 감시하거나, 다수의 표적을 동시에 타격해야 하는 임무에서 군집 시스템은 단일 시스템으로는 불가능한 수준의 동시성과 광역성을 제공한다.9 이러한 확장성은 임무 요구사항의 변화에 따라 비용 효율적으로 시스템을 운용할 수 있게 한다.
셋째, 효율성은 병렬 처리(parallelism)를 통한 임무 수행 시간 단축과 자원 활용의 최적화에서 나타난다. 다수의 UAV가 동시에 각기 다른 위치에서 임무를 수행함으로써 전체 임무 완료 시간을 획기적으로 줄일 수 있다.8 예를 들어, 넓은 지역의 수색 및 정찰 임무에서 군집은 지역을 분할하여 동시에 탐색함으로써 단일 UAV가 순차적으로 탐색하는 것보다 훨씬 빠른 시간 내에 목표를 달성할 수 있다. 이는 감시, 물류 배송, 재난 대응 등 다양한 분야에서 운영 효율성을 극대화하는 핵심 요소로 작용한다.
1.3. 핵심 아키텍처 패러다임: 중앙 집중형, 분산형, 계층형 제어
UAV 군집의 임무 계획 및 제어 방식은 크게 중앙 집중형(Centralized), 분산형(Decentralized), 그리고 이 둘을 절충한 계층형(Hierarchical) 아키텍처로 구분된다. 각 아키텍처는 정보 흐름, 계산 부하, 시스템의 강인성 측면에서 뚜렷한 장단점을 가지며, 이는 적용 가능한 알고리즘의 종류를 결정하는 근본적인 제약 조건으로 작용한다.
중앙 집중형 아키텍처는 하나의 중앙 통제소(Ground Control Station, GCS)나 리더 UAV가 군집 내 모든 UAV의 상태 정보와 임무 환경 데이터를 수집하여 전역적인(global) 임무 계획을 수립하고, 개별 UAV에게 구체적인 명령을 하달하는 방식이다.8 이 구조의 가장 큰 장점은 모든 정보를 통합하여 시스템 전체의 최적해를 계산할 수 있다는 점이다. 전역적인 시야를 바탕으로 자원 배분을 최적화하고 UAV 간의 충돌을 사전에 완벽하게 방지하는 계획을 수립할 수 있다. 하지만 이는 명백한 한계를 내포한다. 중앙 통제소는 단일 실패점으로 작용하여, 파괴되거나 통신이 두절될 경우 전체 군집이 마비될 수 있다. 또한, 군집의 규모가 커질수록 중앙 노드에 가해지는 통신 및 계산 부하가 기하급수적으로 증가하여 실시간 대응 능력이 저하되고 확장성에 심각한 제약을 받는다.8
분산형 아키텍처는 각 UAV가 독립적인 의사결정 능력을 보유하고, 자신의 센서로 수집한 지역적(local) 정보와 이웃 UAV와의 통신을 통해 스스로 행동을 결정하는 방식이다.8 이 구조는 중앙 통제소에 대한 의존성이 없어 단일 실패점 문제가 발생하지 않으며, 개별 UAV의 고장이 전체 시스템에 미치는 영향이 제한적이다. 따라서 매우 높은 강인성과 유연성을 자랑하며, 새로운 UAV가 군집에 합류하거나 이탈하는 상황에 쉽게 적응할 수 있어 확장성이 뛰어나다. 그러나 각 UAV는 제한된 정보만을 가지고 의사결정을 내리기 때문에, 군집 전체의 행동이 전역 최적(global optimum)에 도달한다는 보장이 어렵다는 단점이 있다.
계층형 아키텍처는 중앙 집중형과 분산형의 장점을 결합한 하이브리드 방식이다.13 이 구조에서는 상위 계층의 중앙 지휘부(또는 리더 UAV)가 전역적인 목표 수립, 대규모 임무 분할 등 거시적인 전략을 담당하고, 하위 계층의 개별 UAV나 소규모 그룹(sub-swarm)은 할당된 부 임무 내에서 분산적으로 자율적인 의사결정을 통해 임무를 수행한다. 예를 들어, 중앙 지휘부가 "A 구역 수색"이라는 상위 임무를 하달하면, A 구역에 배정된 UAV 그룹은 내부적으로 협의하여 최적의 수색 패턴을 자율적으로 형성하는 식이다. 이러한 구조는 전역적인 목표 달성과 지역적인 환경 변화에 대한 유연한 대응을 동시에 가능하게 하여, 복잡하고 대규모인 임무에서 효과적인 균형을 제공한다.16
이러한 아키텍처의 선택은 단순한 기술적 선호의 문제가 아니다. 이는 군집 운용 철학의 근간을 이루며, 적용 가능한 알고리즘의 범위를 근본적으로 결정한다. 예를 들어, 전역적 정보를 요구하는 전통적인 최적화 기법(예: 정수 선형 계획법)은 중앙 집중형 아키텍처에 자연스럽게 부합하는 반면, 확장성과 강인성을 중시하는 다중 에이전트 강화학습(MARL)은 분산형 실행 모델을 거의 필수적인 전제 조건으로 삼는다. 따라서, 시스템 설계자는 알고리즘을 선택하기에 앞서 아키텍처 및 통신 철학에 대한 전략적 결정을 내려야 하며, 이 결정이 후속 기술 선택의 방향을 좌우하게 된다.
1.4. 군집 운용의 핵심 제약 조건과 최적화 목표
UAV 군집의 임무 계획은 다수의 복잡한 제약 조건 하에서 특정 목표를 최적화하는 과정이다. 이러한 제약과 목표는 임무의 성격과 운용 환경에 따라 다양하게 정의되며, 성공적인 임무 계획 알고리즘은 이를 모두 효과적으로 고려해야 한다.
핵심 제약 조건은 크게 세 가지 범주로 나눌 수 있다.
- UAV 플랫폼 제약 (UAV Constraints): 각 UAV는 물리적, 기능적 한계를 가진다. 여기에는 한정된 연료 또는 배터리로 인한 비행 시간 및 거리 제한, 탑재할 수 있는 센서나 무장의 종류와 무게(payload capacity), 최소 선회 반경이나 최대 속도와 같은 기동학적 제약(kinematic limitations), 그리고 센서의 탐지 거리 및 시야각 등이 포함된다.3
- 임무 제약 (Task Constraints): 수행해야 할 임무 자체에 내재된 요구사항이다. 특정 시간 내에 임무를 완료해야 하는 마감 시한(deadline), 임무 수행을 위해 방문해야 하는 정확한 지리적 위치, 특정 임무를 수행하기 위해 요구되는 자원(예: 고해상도 카메라, 특정 통신 장비), 그리고 임무들 간의 선후 관계(temporal dependencies) 등이 여기에 해당한다.1
- 환경 제약 (Environmental Constraints): UAV가 운용되는 외부 환경으로부터 발생하는 제약이다. 건물, 산악 지형과 같은 정적 장애물과 다른 항공기나 차량과 같은 동적 장애물, 군사 시설이나 공항과 같은 비행 금지 구역(no-fly zones), 그리고 임무 수행에 영향을 미치는 악천후 조건 등이 포함된다. 또한, UAV 간 또는 UAV와 통제소 간의 통신 거리, 대역폭, 데이터 손실률과 같은 통신 제약도 중요한 환경 제약 요소이다.3
이러한 제약 조건 하에서 달성하고자 하는 최적화 목표는 다음과 같다.
- 시간 최소화: 전체 임무를 완료하는 데 걸리는 총 시간(makespan)을 최소화하는 것을 목표로 한다. 이는 신속한 대응이 중요한 군사 작전이나 재난 구조 상황에서 최우선 순위가 될 수 있다.1
- 에너지/이동 거리 최소화: 모든 UAV의 총 비행 거리를 최소화하여 연료 소모를 줄이는 것을 목표로 한다. 이는 UAV의 체공 시간을 연장하고 운영 비용을 절감하는 데 중요하다.3
- 보상 최대화: 각 임무에 부여된 가치나 보상(reward)의 총합을 최대화하는 것을 목표로 한다. 임무마다 중요도가 다를 경우, 더 높은 가치를 지닌 임무를 우선적으로, 그리고 더 많이 수행하도록 유도한다.8
- 안전성 및 강인성 최대화: UAV 간의 충돌이나 장애물과의 충돌을 회피하고, 외부 위협으로부터의 생존 확률을 높이는 것을 목표로 한다. 이는 모든 임무의 기본적인 전제 조건이다.3
성공적인 임무 계획 시스템은 이러한 다중 목표(multi-objective)를 동시에 고려하여, 주어진 제약 조건 내에서 최적의 균형점을 찾는 정교한 의사결정 능력을 갖추어야 한다.
제 2부: 전통적 임무 계획 기법 총람
UAV 군집 임무 계획을 위해 오랫동안 연구되어 온 전통적인 기법들은 크게 수학적 최적화, 휴리스틱 및 메타휴리스틱, 그리고 분산 시장 및 연합 메커니즘으로 분류할 수 있다. 이 기법들은 학습 기반 접근법과 달리, 시스템에 대한 명시적인 모델을 기반으로 해를 탐색한다.
2.1. 수학적 최적화 접근법
수학적 최적화는 임무 계획 문제를 엄밀한 수학적 모델로 공식화하고, 이를 해결하여 최적해를 찾는 접근법이다. 이 방법론의 가장 큰 특징은 해의 최적성을 보장할 수 있다는 점이다.
2.1.1. 정수 선형 계획법 (ILP/MILP)
정수 선형 계획법(Integer Linear Programming, ILP) 및 혼합 정수 선형 계획법(Mixed-Integer Linear Programming, MILP)은 임무 할당과 경로 계획 문제를 통합적으로 모델링하는 강력한 프레임워크를 제공한다.1 이 접근법은 문제를 세 가지 핵심 요소로 구성한다.
- 결정 변수 (Decision Variables): 문제의 해를 나타내는 변수로, 주로 이진(binary) 변수가 사용된다. 예를 들어, 변수 $x_{ijk}$를 'UAV i가 임무 j를 k번째 순서로 수행하면 1, 아니면 0'으로 정의하거나, 'UAV i가 노드 j에서 노드 k로 이동하면 1, 아니면 0'으로 정의하여 임무 할당과 경로를 동시에 표현할 수 있다.1
- 목표 함수 (Objective Function): 최소화하거나 최대화하고자 하는 목표를 결정 변수들의 선형 결합으로 표현한 식이다. 예를 들어, 총 비행 거리를 최소화하는 목표 함수는 각 UAV가 이동하는 모든 경로 segment의 거리를 합산하는 형태로 구성될 수 있다.2
- 제약 조건 (Constraints): 문제의 모든 제약사항을 결정 변수들의 선형 부등식 또는 등식으로 표현한다. 여기에는 '각 임무는 정확히 한 번만 수행되어야 한다', '각 UAV는 자신의 출발점으로 돌아와야 한다', 'UAV의 총 비행 거리는 최대 비행 가능 거리를 초과할 수 없다'와 같은 조건들이 포함된다.1
ILP/MILP의 가장 큰 장점은 주어진 모델 하에서 전역 최적해(globally optimal solution)를 찾을 수 있다는 수학적 엄밀함에 있다.1 상용 솔버(예: Gurobi, CPLEX)를 사용하면 복잡한 제약 조건 하에서도 최적의 임무 계획을 도출할 수 있다.21
그러나 이 접근법은 치명적인 단점을 가진다. 임무 계획 문제는 본질적으로 NP-난해하기 때문에, UAV와 임무의 수가 조금만 증가해도 해를 찾는 데 필요한 계산 시간이 기하급수적으로 늘어난다.4 이로 인해 대규모 군집이나 실시간으로 상황이 변하는 동적 환경에서는 사실상 적용이 불가능하다.22 또한, 정확한 해를 얻기 위해서는 환경과 UAV에 대한 완벽한 정보가 필요하며, 이를 처리하기 위한 중앙 집중형 통제 구조가 필수적이다.
2.2. 휴리스틱 및 메타휴리스틱 알고리즘
수학적 최적화의 계산적 한계를 극복하기 위해, 최적성 보장을 포기하는 대신 합리적인 시간 내에 '충분히 좋은' 해를 찾는 휴리스틱(Heuristic) 및 메타휴리스틱(Metaheuristic) 알고리즘이 널리 사용된다. 이 알고리즘들은 경험적 규칙이나 자연 현상에서 영감을 얻은 탐색 전략을 사용한다.
2.2.1. 진화적 접근법
- 유전 알고리즘 (Genetic Algorithm, GA): 생물의 진화 과정을 모방한 알고리즘으로, 해(chromosome)의 집단(population)을 생성하고 선택(selection), 교차(crossover), 변이(mutation) 연산을 반복하여 점진적으로 더 좋은 해를 탐색한다.23 UAV 임무 계획에서는 염색체를 각 UAV의 임무 수행 순서나 경로점으로 인코딩할 수 있다. GA는 복잡한 다중 목표 최적화 문제에 강점을 보이며, 다양한 제약 조건을 처리하기 용이하다.25
- 입자 군집 최적화 (Particle Swarm Optimization, PSO): 새 떼나 물고기 떼의 사회적 행동을 모방한 알고리즘이다. 해 공간 내의 각 해(입자, particle)는 자신의 경험(개인 최적해)과 군집 전체의 경험(전역 최적해)을 바탕으로 자신의 위치와 속도를 조절하며 더 좋은 해를 탐색한다.14 PSO는 구현이 비교적 간단하고 일부 문제에서 빠른 수렴 속도를 보이는 것으로 알려져 있다.28
2.2.2. 생체 모방 기법
- 개미 군집 최적화 (Ant Colony Optimization, ACO): 개미가 먹이를 찾을 때 페로몬을 남겨 최단 경로를 찾는 원리를 모방한 알고리즘이다. 문제를 그래프로 모델링하고, 가상의 개미들이 해를 구성하며 지나간 경로에 페로몬을 남긴다. 페로몬이 많이 쌓인 경로일수록 다른 개미들에게 선택될 확률이 높아져, 결국 최적 경로에 수렴하게 된다. 특히 경로 탐색 문제에 효과적이다.28
2.2.3. 샘플링 기반 경로 계획
- 빠른 탐색 임의 트리 (Rapidly-exploring Random Tree, RRT/RRT*): 고차원의 복잡한 공간에서 경로를 효율적으로 탐색하기 위한 알고리즘이다. 시작점에서부터 무작위로 샘플링된 점 방향으로 트리를 점진적으로 확장해 나가며 목표점에 도달하는 경로를 찾는다.28 특히 장애물이 많은 복잡한 환경에서 실행 가능한 경로를 빠르게 찾는 데 매우 효과적이다. RRT*는 RRT에 경로 최적화 개념을 추가하여, 더 좋은 경로가 발견되면 기존 트리의 연결을 재구성하여 점진적으로 해의 질을 향상시킨다.14
2.3. 분산 시장 및 연합 메커니즘
중앙 집중형 제어의 한계를 극복하고 분산 환경에서의 협력을 구현하기 위해, 사회나 경제 시스템에서 영감을 얻은 분산 조정 전략이 개발되었다. 이 접근법들은 각 UAV가 자율적인 행위자로서 상호작용을 통해 전역적인 질서를 형성하도록 유도한다.
2.3.1. 경매 기반 알고리즘
경매 기반 알고리즘은 시장 경제 원리를 임무 할당에 적용한 것이다. 각 UAV는 수행 가능한 임무에 대해 자신의 비용(예: 예상 비행 거리, 소요 시간)이나 효용(예: 임무 보상)을 계산하여 '입찰(bid)'하고, 일종의 경매 메커니즘을 통해 가장 효율적인 UAV에게 임무가 낙찰된다.1
- 합의 기반 번들 알고리즘 (Consensus-Based Bundle Algorithm, CBBA): 대표적인 분산 경매 알고리즘으로, 각 UAV는 자신이 수행할 임무 목록(번들)을 가지고 반복적으로 입찰 과정에 참여한다. UAV들은 지역적인 통신을 통해 서로의 입찰 정보와 임무 할당 상태를 공유하며, 충돌이 발생하면 합의 과정을 통해 해결한다. 이 과정을 통해 전체 군집은 점진적으로 충돌 없는 임무 할당 상태에 수렴하게 된다.33
- 적응형 샘플링 기반 임무 합리성 검토 알고리즘 (ASTRRA): 전통적인 경매 방식의 한계를 개선하기 위해 제안된 고급 변형 알고리즘이다. 이 알고리즘은 임무의 중요도에 따라 샘플링 확률을 동적으로 조절하는 '적응형 샘플링'과, 초기 할당 결과에서 비효율적인 경로(예: 급격한 방향 전환)를 식별하여 재경매를 붙이는 '임무 합리성 검토' 단계를 도입하여 해의 질을 향상시킨다.33
2.3.2. 연합 형성
연합 형성(Coalition Formation)은 단일 UAV가 독립적으로 수행하기 어려운 복잡한 임무를 해결하기 위해, 여러 UAV가 동적으로 임시 그룹(연합)을 형성하여 협력하는 방식이다.10 예를 들어, 특정 목표물을 파괴하기 위해 여러 대의 공격 UAV와 한 대의 정찰 UAV가 하나의 연합을 구성할 수 있다.
연합 형성 방법은 임무를 순차적으로 해결하는 직렬 방식과 여러 임무를 동시에 고려하는 병렬 방식으로 나눌 수 있으며, 하나의 연합이 단일 임무를 수행할지 또는 여러 임무를 묶어(클러스터링) 수행할지에 따라 구분되기도 한다.17 이 접근법은 UAV들의 자원을 유연하게 결합하여 군집 전체의 임무 수행 능력을 극대화하는 데 효과적이다.10
전통적 기법들의 발전 과정은 중요한 패러다임의 전환을 보여준다. 초기에는 정적이고 잘 정의된 문제에 대해 이론적 최적성을 보장하는 수학적 최적화(ILP)에 집중했다. 그러나 이러한 방법들이 실제 동적 환경에서 계산적 한계에 부딪히면서, 실용성과 속도를 중시하는 휴리스틱 기법으로 관심이 옮겨갔다. 더 나아가, 분산화와 실시간 적응성의 필요성이 대두되면서 경매 및 연합 기반 메커니즘이 등장했다. 이는 '최적'의 정의 자체가 변화했음을 시사한다. 더 이상 오프라인에서 계산된 수학적 최저 비용 경로가 아니라, 예측 불가능하고 대규모이며 적대적인 환경에서 임무 성공을 극대화하는 강인하고 빠른 해가 진정한 의미의 '최적해'로 인식되기 시작한 것이다. 이러한 인식의 전환은 다음 장에서 다룰 학습 기반 접근법의 등장을 위한 토대를 마련했다.
제 3부: 다중 에이전트 강화학습(MARL)의 부상
전통적인 임무 계획 기법들이 명시적인 모델과 규칙에 의존하는 반면, 다중 에이전트 강화학습(Multi-Agent Reinforcement Learning, MARL)은 데이터 기반의 학습을 통해 복잡한 협력 정책을 스스로 터득하는 새로운 패러다임을 제시한다. 특히, 환경이 불확실하고 동적으로 변화하여 정확한 모델링이 어려운 실제 상황에서 MARL은 강력한 대안으로 부상하고 있다.
3.1. 군집 제어를 위한 MARL의 기본 원리
3.1.1. MARL의 필요성
전통적인 기법들은 사전에 정의된 환경 모델에 크게 의존한다. 만약 예측하지 못한 장애물이 나타나거나, 아군 UAV가 갑자기 손실되거나, 새로운 임무가 동적으로 발생하는 경우, 기존 계획은 쓸모없게 되며 처음부터 다시 계산해야 하는 경직성을 보인다.35 반면, MARL 에이전트(UAV)는 환경과의 수많은 상호작용(시행착오)을 통해 보상을 최대화하는 행동 정책(policy)을 학습한다.36 이 정책은 특정 상태에서 어떤 행동을 취해야 하는지를 나타내는 일종의 '반응 함수'로, 예측하지 못한 상황에 대해서도 학습된 경험을 바탕으로 유연하고 강인하게 대처할 수 있는 능력을 제공한다.
3.1.2. 환경 모델링
단일 에이전트 강화학습은 일반적으로 마르코프 결정 과정(Markov Decision Process, MDP)으로 환경을 모델링한다. 그러나 다수의 에이전트가 상호작용하는 환경은 더 복잡한 모델을 필요로 한다.
- 확률적 게임 (Stochastic Game / Markov Game): 이는 MDP를 다중 에이전트 환경으로 확장한 것이다. 이 모델에서 다음 상태와 각 에이전트가 받는 보상은 현재 상태와 모든 에이전트가 동시에 취한 공동 행동(joint action)에 의해 결정된다.35
- 분산형 부분 관찰 마르코프 결정 과정 (Dec-POMDP): 실제 군집 운용 환경을 더 현실적으로 모델링한다. 이 모델에서는 각 에이전트가 전역 상태(global state)를 모두 관찰할 수 없고, 자신의 센서를 통해 얻는 제한적인 지역적 관찰(local observation)에만 의존하여 의사결정을 내려야 한다. 모든 에이전트는 이 부분적인 정보를 바탕으로 협력하여 공동의 목표(공유된 보상)를 달성해야 한다.38
3.1.3. CTDE 패러다임
현대 MARL 연구의 핵심적인 돌파구 중 하나는 중앙 집중식 훈련 및 분산식 실행(Centralized Training with Decentralized Execution, CTDE) 패러다임이다.35 이는 MARL의 고질적인 문제들을 해결하기 위한 매우 실용적인 접근법이다.
- 훈련 단계 (Centralized Training): 훈련 과정에서는 시뮬레이터 상에서 모든 에이전트의 관찰, 행동, 상태 등 전역적인 정보에 접근할 수 있는 중앙 집중적인 '비평가(critic)'를 사용한다. 이 비평가는 공동의 행동이 전역적으로 어떤 결과를 낳았는지 평가하고, 각 에이전트의 행동이 팀의 성공에 얼마나 기여했는지(신용 할당 문제)를 더 정확하게 판단하여 학습 과정을 안정적으로 이끈다.
- 실행 단계 (Decentralized Execution): 훈련이 완료된 후, 실제 환경에 배치될 때는 중앙 비평가를 제거한다. 각 에이전트는 오직 자신의 지역적 관찰 정보만을 입력으로 받아, 잘 훈련된 '행위자(actor)' 정책 네트워크를 통해 독립적으로 행동을 결정한다. 이로써 실제 운용 시에는 중앙 통제 없이 분산적으로 빠르고 유연하게 대응할 수 있게 된다.
CTDE는 순수 분산 학습의 불안정성과 순수 중앙 집중 학습의 비확장성이라는 양극단의 문제를 해결하는 독창적인 공학적 타협점이다. 초기 MARL 연구에서 시도된 독립적 학습자(각 UAV가 독립적으로 Q-러닝을 수행) 방식은, 다른 에이전트들의 정책이 계속 변하기 때문에 한 에이전트 입장에서 환경이 비정상적(non-stationary)으로 보여 학습이 불안정해지는 문제를 겪었다.35 CTDE는 훈련 단계에서 '전지전능한 교사(비평가)'를 도입하여 이러한 비정상성 문제를 완화하고 안정적인 협력 정책 학습을 가능하게 한 반면, 실행 단계에서는 분산 구조의 강인성과 확장성을 그대로 유지한다.
3.1.4. MARL의 핵심 과제
- 비정상성 (Non-Stationarity): 한 에이전트의 입장에서 볼 때, 다른 에이전트들도 동시에 학습하며 정책을 바꾸기 때문에 환경의 전이 확률이 고정되지 않고 계속 변하는 것처럼 보인다. 이는 강화학습의 기본 가정인 마르코프 속성을 위반하여 학습을 불안정하게 만든다. CTDE는 이 문제를 완화하는 데 도움을 준다.35
- 신용 할당 (Credit Assignment): 팀이 공동으로 보상을 받았을 때, 어떤 에이전트의 어떤 행동이 그 보상에 긍정적 또는 부정적으로 기여했는지를 구분하기 어려운 문제이다. 이 문제 역시 중앙 집중식 비평가를 통해 해결의 실마리를 찾을 수 있다.
3.2. 주요 MARL 알고리즘 계열 분석
UAV 군집에 적용되는 MARL 알고리즘은 크게 가치 기반, 정책 경사, 그리고 이 둘을 결합한 행위자-비평가 방식으로 나뉜다.
3.2.1. 가치 기반 기법
가치 기반 기법은 특정 상태에서 특정 행동을 했을 때 미래에 얻을 수 있는 보상의 기댓값, 즉 Q-가치(Q-value)를 학습하는 데 중점을 둔다.
- 다중 에이전트 심층 Q-네트워크 (MADQN): 가장 단순한 형태로, 각 에이전트가 독립적으로 자신만의 DQN을 학습하는 방식이다. 구현은 간단하지만 에이전트 간의 명시적인 협력 메커니즘이 없어 복잡한 협동 임무에는 한계를 보인다.35
- QMIX: 현재 가장 성공적인 가치 기반 MARL 알고리즘 중 하나이다. QMIX는 각 에이전트의 Q-가치 함수를 학습하되, 이를 '믹싱 네트워크(mixing network)'라는 신경망을 통해 비선형적으로 결합하여 팀 전체의 전역 Q-가치를 추정한다. 이 믹싱 네트워크는 개별 Q-가치가 증가하면 전역 Q-가치도 단조적으로 증가하도록 설계되어, 각 에이전트가 지역적으로 탐욕적인(greedy) 행동을 선택하는 것이 전역적으로도 최적이 되도록 보장한다(Individual-Global-Max 원칙). 이는 이산적인 행동 공간을 가진 협력적 임무에 매우 효과적이다.35
3.2.2. 정책 경사 및 행위자-비평가 기법
정책 경사 기법은 가치 함수를 거치지 않고, 상태를 입력받아 행동 확률을 직접 출력하는 정책(policy) 자체를 최적화한다. 행위자-비평가(Actor-Critic) 구조는 정책(행위자)과 가치 함수(비평가)를 모두 학습하여 안정성과 효율성을 높인 방식으로, 현대 MARL의 주류를 이룬다.
- 다중 에이전트 심층 결정론적 정책 경사 (MADDPG): 연속적인 행동 공간(예: UAV의 속도, 각속도)에 적합한 DDPG 알고리즘을 다중 에이전트 환경으로 확장한 것이다. 전형적인 CTDE 구조를 따르며, 각 에이전트는 자신만의 행위자 네트워크를 가지지만, 훈련 시에는 모든 에이전트의 상태와 행동을 입력받는 중앙 집중적 비평가 네트워크의 도움을 받는다. 이를 통해 복잡한 물리적 환경에서의 협력적 항법, 표적 추적 등에 널리 적용된다.35
- 다중 에이전트 근접 정책 최적화 (MAPPO): PPO 알고리즘을 다중 에이전트 환경에 적용한 것으로, 안정적인 학습과 높은 샘플 효율성으로 유명하다. PPO는 정책 업데이트 폭을 제한하여 학습 과정이 급격하게 변하는 것을 막아주는데, MAPPO 역시 중앙 집중적 비평가를 활용하는 CTDE 프레임워크를 기반으로 한다. 다양한 협력적 임무에서 강력한 성능을 보여주어 현재 가장 널리 사용되는 MARL 알고리즘 중 하나이다.15
3.2.3. 연합 강화학습 (MAFRL)
연합 강화학습(Multi-Agent Federated Reinforcement Learning, MAFRL)은 MARL에 연합 학습(Federated Learning, FL)의 개념을 접목한 것이다. 이 패러다임에서는 각 UAV가 자신의 경험 데이터를 외부로 전송하지 않고 로컬에서 모델(정책)을 훈련한다. 그 후, 주기적으로 중앙 서버(또는 지정된 리더)에 모델의 파라미터(가중치)만을 전송하여 이를 종합(aggregate)하고, 다시 개선된 글로벌 모델을 내려받아 자신의 로컬 모델을 업데이트한다.9 이 방식은 각 UAV의 데이터 프라이버시를 보호하고, 대규모 군집에서 발생하는 통신 대역폭 문제를 완화할 수 있어, 분산화된 대규모 학습에 유망한 접근법으로 평가받는다.35
제 4부: 비교 분석 및 하이브리드 모델의 통합
전통적 최적화 기법과 MARL은 UAV 군집 임무 계획이라는 동일한 문제를 해결하기 위한 서로 다른 철학적 접근법을 대표한다. 이 장에서는 두 패러다임을 직접적으로 비교 분석하고, 두 접근법의 장점을 결합하려는 하이브리드 모델의 최신 동향을 탐구한다.
4.1. 정면 비교: 전통적 최적화 대 MARL
두 패러다임의 장단점을 명확히 이해하기 위해, 실제 운용 환경에서 중요한 다수의 성능 지표를 기준으로 비교 분석할 수 있다. 아래 표는 두 접근법의 핵심적인 차이점을 요약한 것이다.
표 4.1: 임무 계획 패러다임 비교 프레임워크
| 성능 지표 | 전통적 기법 (Mathematical Optimization) | 전통적 기법 (Heuristics/Metaheuristics) | 다중 에이전트 강화학습 (MARL) |
| 동적 환경 적응성 | 매우 낮음. 환경 변화 시 전면 재계산 필요. | 중간. 일부 알고리즘은 동적 재계획 가능하나, 사전 정의된 규칙에 의존. | 매우 높음. 학습된 정책을 통해 예측 불가능한 상황에 실시간으로 반응. |
| 확장성 | 낮음. 에이전트/임무 수 증가 시 계산 복잡도 폭발. | 중간 ~ 높음. 알고리즘에 따라 다르나, 대규모 문제에 적용 가능. | 높음. 분산 실행 모델(CTDE)을 통해 대규모 군집으로 확장 용이. |
| 실시간 성능 | 낮음. 오프라인 계획에 적합하며, 실시간 의사결정에 부적합. | 높음. 빠른 시간 내에 준최적해 도출 가능. | 매우 높음. 훈련된 신경망의 추론(inference)은 매우 빠름. |
| 최적성 보장 | 높음. 전역 최적해 또는 최적해 근사 보장. | 낮음. 지역 최적해에 빠질 위험이 있으며, 최적성 보장 불가. | 낮음. 최적성 보장 불가. 시행착오를 통해 좋은 정책을 학습. |
| 데이터 의존성 | 없음. 명시적인 시스템 모델에 의존. | 없음. 명시적인 시스템 모델 및 휴리스틱 규칙에 의존. | 매우 높음. 정책 학습을 위해 방대한 양의 시뮬레이션 또는 실제 데이터 필요. |
| 계산 프로파일 | 온라인 계산 부하가 매우 높음. | 온라인 계산 부하가 비교적 낮음. | 오프라인 훈련 부하가 매우 높으나, 온라인 추론 부하는 매우 낮음. |
| 모델 의존성 | 높음. 환경과 에이전트에 대한 정확한 수학적 모델 필수. | 중간. 문제 구조나 비용 함수에 대한 모델 필요. | 낮음. 명시적인 모델 없이 환경과의 상호작용을 통해 학습 가능 (Model-free). |
| 설명가능성 | 높음. 결정 과정이 수학적으로 명확하게 추적 가능. | 중간. 휴리스틱 규칙은 직관적이나, 메타휴리스틱의 탐색 과정은 복잡. | 매우 낮음. 심층 신경망의 의사결정 과정은 '블랙박스'에 가까워 해석이 어려움. |
이 표는 두 패러다임 간의 근본적인 트레이드오프를 명확하게 보여준다. 전통적인 수학적 최적화는 정적이고 잘 정의된 환경에서 '최적성'과 '설명가능성'을 제공하는 데 탁월하다. ILP/MILP는 계획된 결과가 왜 최적인지를 수학적으로 증명할 수 있다는 점에서 신뢰성이 매우 높다.1 반면, MARL은 동적이고 불확실한 환경에서 '적응성'과 '실시간 반응성'을 제공하는 데 압도적인 강점을 보인다. MADDPG와 같은 알고리즘은 훈련된 정책을 통해 이전에 겪어보지 못한 상황에서도 합리적인 행동을 즉각적으로 생성할 수 있다.39 휴리스틱 기법들은 이 두 극단 사이에서 실용적인 절충안을 제공하며, 특히 빠른 계산 속도가 요구될 때 유용하다. 결국, 어떤 기법이 우월하다기보다는 주어진 임무의 특성(정적인가 동적인가), 시스템의 요구사항(최적성 보장이 필수적인가), 그리고 개발 환경(데이터 확보의 용이성)에 따라 적합한 패러다임이 달라진다고 할 수 있다.
4.2. 경계를 허무는 접근: 하이브리드 모델의 부상
최근 연구 동향은 어느 한 패러다임이 모든 문제를 해결할 수 없다는 인식 하에, 두 접근법의 장점을 결합하는 하이브리드 시스템으로 나아가고 있다. 이는 '알고리즘 순수주의'에서 벗어나 주어진 문제를 가장 효과적으로 해결하려는 실용적인 공학적 접근의 결과이다. 하이브리드 모델의 핵심 철학은 각 기법이 가장 잘하는 영역에 집중하도록 문제를 계층적으로 분해하는 것이다.
이러한 접근은 UAV 군집 제어가 단일 문제가 아니라 여러 계층의 문제들로 구성되어 있다는 깊은 이해에서 출발한다. 거시적인 수준의 전략 계획은 최적화 기법에 더 적합할 수 있으며, 미시적인 수준의 실시간 반응 제어는 학습된 정책이 더 효과적일 수 있다.
4.2.1. 하이브리드화의 논리
하이브리드 시스템은 한 기법의 강점으로 다른 기법의 약점을 보완한다. 예를 들어, MARL은 탐색 공간이 너무 넓으면 학습에 비효율적일 수 있고 안전성을 보장하기 어렵다. 이때 전통적인 경로 계획 알고리즘(예: RRT*)을 사용하여 먼저 안전하고 실행 가능한 초기 경로(또는 경로의 복도)를 생성한 후, MARL 에이전트가 이 경로 주변에서 동적 장애물 회피나 에너지 소모 최소화와 같은 미세 조정을 학습하게 할 수 있다.19 이는 MARL의 학습 문제를 더 작고 다루기 쉬운 문제로 변환하여 학습 효율과 안정성을 크게 높인다.
4.2.2. 하이브리드 시스템 사례 연구
- 휴리스틱 + MARL: 메타휴리스틱 알고리즘과 강화학습을 결합하여 수렴 속도와 탐색 능력을 향상시키는 연구가 활발하다. 예를 들어, 고래 알고리즘(Whale Algorithm)의 탐색 패턴을 심층 Q-네트워크(DQN)의 행동 선택 과정에 통합하여 탐험(exploration)과 활용(exploitation)의 균형을 맞추거나(WDQN), 입자 군집 최적화(PSO)를 Q-러닝과 결합하여 시스템 성능을 개선하는(AQLPSO) 방식이 있다.3
- 고전적 경로 계획 + MARL: 보로노이 다이어그램(Voronoi diagram)과 같은 고전적 기법으로 전체 공간을 의미 있는 구역으로 분할하고, MARL 에이전트가 이 구조화된 환경 내에서 더 쉽게 정책을 학습하도록 돕는 방식이다. 이는 복잡한 연속 공간 문제를 이산적인 의사결정 문제로 단순화하여 학습의 효율을 높인다.3
- 최적화 + MARL: MARL을 사용하여 전통적인 탐색 알고리즘을 안내할 좋은 휴리스틱 함수를 학습하거나, 더 큰 최적화 문제 내의 특정 하위 문제를 MARL로 해결하는 접근법이 있다.5 반대로, MARL 에이전트가 생성한 정책이 안전 제약 조건을 만족하는지 형식적 검증(formal verification) 기법을 통해 확인하여 시스템의 신뢰성을 높이는 연구도 진행 중이다.
이러한 하이브리드 접근법의 등장은 이 분야가 성숙해지고 있음을 보여주는 중요한 지표이다. 복잡한 실제 임무는 구조적인 계획(예: 초기 수색 패턴 수립)과 비구조적인 반응(예: 발견된 표적에 대한 동적 추적)을 모두 요구한다. 하이브리드 시스템은 전통적 알고리즘을 통해 임무의 '뼈대' 또는 '거친 계획'을 제공하고, MARL 에이전트가 그 계획의 틀 안에서 지역적 동역학과 불확실성을 처리하는 방식으로 문제를 효과적으로 분해한다. 이러한 계층적 분해는 학습 알고리즘이 직면하는 문제 공간을 제약하여 샘플 효율성을 높이고 행동을 더 예측 가능하게 만들면서도, 실제 운용에 필요한 적응성을 유지하는 매우 정교한 공학적 해결책이다.
제 5부: 글로벌 및 국내 기술 동향과 적용 사례
UAV 군집 기술은 이론적 연구를 넘어 국방 및 상업 분야에서 실질적인 기술 개발과 적용이 활발하게 이루어지고 있다. 이 장에서는 글로벌 R&D 생태계를 조망하고, 특히 대한민국의 기술 개발 현황을 심층적으로 분석하며, 미래 적용 분야를 탐색한다.
5.1. 글로벌 연구 개발 현황
UAV 군집 지능 기술은 전 세계적으로 학계, 국방, 산업계가 긴밀하게 협력하며 발전하고 있다.
- 선도적 학계 및 연구 기관: 기초 연구는 대학 연구실을 중심으로 이루어지고 있다. 미국 MIT의 컴퓨터 과학 및 인공지능 연구소(CSAIL), 펜실베이니아 대학의 GRASP 연구소, 영국의 브리스톨 로보틱스 연구소(Bristol Robotics Laboratory), 네덜란드의 델프트 공과대학교(TU Delft) 등은 군집 로보틱스, 분산 제어, 인공지능 분야에서 선구적인 연구를 수행하며 기술 발전을 이끌고 있다.45 이들 기관은 새로운 알고리즘 개발뿐만 아니라, 실제 로봇 플랫폼을 이용한 실험을 통해 이론을 검증하는 데 중요한 역할을 한다.
- 국방 분야의 핵심 주체: 군집 기술의 가장 큰 수요처이자 투자처는 국방 분야이다. 미국 국방고등연구계획국(DARPA)은 'OFFSET(OFFensive Swarm-Enabled Tactics)'과 같은 프로그램을 통해 소규모 보병 부대가 250개 이상의 UAV 및 지상 로봇 군집을 운용하는 기술을 개발하고 있다.51 보잉(Boeing), 노스롭 그루먼(Northrop Grumman), 레이시온(Raytheon)과 같은 대형 방산업체들은 물론, Shield AI와 같은 신흥 기업들도 AI 기반의 자율 군집 기술 개발에 적극적으로 참여하고 있다.52 이들의 목표는 유인 전투기를 호위하는 협력 전투기(Collaborative Combat Aircraft, CCA)부터 적 방공망을 무력화하는 소모성 군집 드론에 이르기까지 다양하다.
- 상업 분야의 선두 주자: 상업 분야에서는 물류 및 배송 혁신을 중심으로 군집 기술이 적용되고 있다. 아마존의 '프라임 에어(Prime Air)', 구글의 모회사 알파벳의 '윙(Wing)', 그리고 '집라인(Zipline)'과 '매터넷(Matternet)'과 같은 기업들은 드론을 이용한 빠르고 효율적인 라스트 마일 배송 서비스를 상용화하기 위해 노력하고 있다.56 이들은 개별 드론의 자율 비행 기술을 넘어, 다수의 드론을 효율적으로 관제하고 경로를 최적화하는 군집 운용 기술을 개발하고 있다.
국방과 상업 분야의 기술 개발 동향은 뚜렷한 차이를 보인다. 국방 분야는 적의 방해(재밍, 스푸핑)가 존재하는 적대적 환경에서의 임무 성공을 최우선으로 하므로, 완전 자율성, 탈중앙화, 강인성에 초점을 맞춘 MARL 기반 기술 개발이 주를 이룬다.35 반면, 상업 분야는 안전, 규제 준수, 그리고 배송 건당 비용과 같은 경제적 효율성을 중시한다. 따라서 이 분야에서는 행동을 예측하고 검증할 수 있는 전통적 최적화 기법이나 엄격하게 제약된 학습 시스템이 선호되는 경향이 있다. 이처럼 서로 다른 목표 함수와 제약 조건은 두 분야가 단일한 '군집 기술'이 아닌, 각기 다른 철학과 아키텍처를 가진 두 개의 평행한 기술 트랙으로 발전하게 만들고 있다.
5.2. 심층 분석: 대한민국의 R&D 현황
대한민국 역시 미래 국방 및 산업 경쟁력 확보를 위해 UAV 군집 기술 개발에 적극적으로 나서고 있다. 정부 주도의 정책과 국방과학연구소(ADD)를 중심으로 한 핵심 기술 개발이 활발히 진행 중이다.
- 국가적 이니셔티브 및 학계 연구: 정부는 해외 의존도를 낮추고 국내 드론 산업 생태계를 강화하기 위해 'K-드론 이니셔티브'와 같은 정책을 추진하고 있다.63 이를 통해 핵심 부품 국산화, 기체 개발, 운용 시스템 구축 등 자립적인 산업 기반을 마련하고자 한다. 학계에서는 KAIST와 같은 선도 대학들이 군집 자율 비행, 인공지능 기반 제어 등 첨단 기술 연구를 이끌고 있다.63
- 국방과학연구소(ADD)의 역할과 집중 분야: ADD는 대한민국 군집 기술 개발의 핵심적인 역할을 수행하고 있다.
- 전략적 R&D 착수: ADD는 2017년 '군집(Swarming) 기술 TF'를 구성하여 군집 무인체계 연구개발 전략을 수립하며 본격적인 기술 개발에 착수했다.64 ADD는 군집 기술을 '다수 무인체가 정보 교환을 바탕으로 스스로 협력하며 동일 목적을 위해 통합 운용될 수 있는 군집 지능'으로 정의하고, 이를 구현하기 위한 4대 핵심 기술로
군집 제어, 군집 네트워크, 군집 정보, 군집 협업 기술을 도출했다.64 - AI 기반 군집 제어 기술: ADD는 AI를 활용한 군집 제어 기술 개발에 집중하고 있다. 수십 대의 드론이 편대를 이루어 정찰 및 공격 임무를 수행하는 기술 시연을 성공적으로 마쳤으며, 병사 한 명이 100대의 군집 드론을 통제하고, 향후 1,000대 동시 운용을 목표로 기술을 고도화하고 있다.65
- 첨단 운용 개념 연구: 공중에서 모기(母機)가 군집 드론을 투하하는 공중 발사 기술, 다수의 드론을 지상에서 동시에 발사하는 기술 등 미래 전장을 대비한 혁신적인 운용 개념 연구도 병행하고 있다.66 또한, 위협적인 환경 변화에 무인기가 자율적으로 대응하여 비행 경로를 수정하고 임무 순서를 재결정하는 자율 임무 관리 기술 개발에도 성공했다.67
- 영역 확장: 최근에는 AI 강화학습 알고리즘을 적용한 군집 무인수상정(USV)의 해상 운용 시연에 성공하며, 공중을 넘어 해상 영역으로 군집 기술의 적용 범위를 넓히고 있다.68
- 종합 평가: 전 세계적으로 무인기가 AI 기반 군집 자율 비행, 유무인 복합 운용 기술로 발전하는 추세에 발맞추어, 국내 기술 수준이 아직 선도국에 비해 다소 미흡하다는 평가도 존재한다.69 그러나 방위사업청과 ADD를 중심으로 군집객체 AI 학습 프레임워크, AI 기반 군집 통제 기술, 유무인 협업 기술 등을 확보하기 위한 집중적인 노력이 이루어지고 있어 기술 격차는 빠르게 줄어들 것으로 전망된다.69
5.3. 현재 및 미래 적용 분야
UAV 군집 기술은 국방과 민간을 아우르는 광범위한 분야에서 혁신을 가져올 잠재력을 지니고 있다.
- 국방 분야:
- 정보·감시·정찰 (ISR): 광범위한 지역을 24시간 끊김 없이 감시하고, 고가치 표적을 지속적으로 추적하는 임무에 활용된다.
- 협력적 전투: 유인 전투기와 협력하여 적기를 탐지·추적하거나, 미끼 역할을 수행하여 유인기의 생존성을 높이는 협력 전투기(CCA) 개념이 대표적이다.11
- 방공망 제압 (SEAD/DEAD): 다수의 저가 소모성 드론을 동시에 투입하여 적의 레이더와 방공 시스템을 포화시키고 무력화한다.
- 전자전 및 통신 중계: 적의 통신을 교란하거나, 아군 부대를 위한 임시 통신 네트워크를 구축하는 데 활용될 수 있다.
- 군수 지원: 고립된 부대에 탄약, 의약품 등 보급품을 신속하게 수송한다.
- 민간 및 상업 분야:
- 물류 및 배송: 도심 및 도서산간 지역에 상품을 신속하게 배송하는 라스트 마일 딜리버리 서비스의 효율을 극대화한다.1
- 정밀 농업: 대규모 농경지에 비료나 농약을 정밀하게 살포하고, 작물의 생육 상태를 모니터링하여 생산성을 향상시킨다.
- 인프라 점검: 교량, 송전탑, 풍력 발전기 등 접근이 어려운 대규모 시설물을 안전하고 효율적으로 점검한다.
- 재난 관리 및 수색 구조 (SAR): 산불, 홍수, 지진 등 재난 현장의 피해 상황을 신속하게 파악하고, 실종자를 수색하는 데 결정적인 역할을 한다.35
- 엔터테인먼트: 수백, 수천 대의 드론이 밤하늘에 대형을 이루며 빛을 내는 드론 라이트 쇼는 이미 상용화된 군집 기술의 대표적인 사례이다.
이처럼 UAV 군집 기술은 미래 사회의 안보와 산업 지형을 근본적으로 바꿀 '게임 체인저'로서, 그 적용 범위는 앞으로 더욱 확장될 것이다.71
제 6부: 미래 전망 및 미해결 과제
UAV 군집 지능 기술은 엄청난 잠재력을 가지고 있지만, 완전한 자율성과 광범위한 적용을 위해서는 여전히 해결해야 할 중요한 기술적, 제도적 과제들이 남아있다. 이 장에서는 분야의 발전을 가로막는 핵심적인 장애물들을 분석하고, 미래 연구가 나아가야 할 방향을 제시한다.
6.1. 핵심 기술적 장애물 극복
- 확장성 (Scalability): 현재 수십 대 수준에서 이루어지는 연구를 수백, 수천 대 규모의 군집으로 확장하는 것은 단순한 계산 능력의 문제를 넘어선다. 대규모 군집 내에서 모든 UAV가 효율적으로 통신하고, 충돌 없이 협력하며, 공동의 목표를 유지하기 위한 새로운 통신 프로토콜과 분산 조정 알고리즘이 필요하다.6
- 시뮬레이션-현실 간극 (Sim-to-Real Gap): 특히 MARL 기반 접근법의 가장 큰 난관 중 하나이다. 시뮬레이션 환경에서 완벽하게 작동하도록 학습된 정책이 실제 환경에서는 예측하지 못한 물리 현상(예: 바람, 공기 저항), 센서 노이즈, 통신 지연 등으로 인해 실패하는 경우가 많다.35 이 간극을 줄이기 위해, 실제 환경의 불확실성을 시뮬레이션에 반영하는 영역 무작위화(domain randomization)나, 시뮬레이션에서 학습한 지식을 실제 환경에 효과적으로 이전하는 전이 학습(transfer learning)과 같은 연구가 필수적이다.
- 안전, 보안, 그리고 윤리적 준수: 군집 드론이 민간 공역에서 안전하게 운용되기 위해서는 절대적인 수준의 신뢰성과 안전성이 보장되어야 한다. 또한, 적대적인 행위자로부터의 사이버 공격(예: GPS 스푸핑, 통신 재밍, 하이재킹)에 대응할 수 있는 강력한 보안 체계가 필요하다.6 특히 군사적 목적으로 사용될 경우, 인명 살상과 관련된 의사결정을 AI가 자율적으로 내리는 것에 대한 심각한 윤리적 문제가 제기된다. 이를 위해 AI의 의사결정 과정을 인간이 이해하고 검증할 수 있는 설명가능 AI(Explainable AI, XAI) 기술의 발전이 시급하다.
6.2. 군집 지능 연구의 최전선
미래의 군집 지능 연구는 다음과 같은 혁신적인 방향으로 나아가고 있다.
- 계층적 및 설명가능 AI: 인간 지휘관이 "이 지역을 수색하여 생존자를 찾아라"와 같은 추상적이고 높은 수준의 명령을 내리면, AI 시스템이 이를 구체적인 하위 임무들로 자동 분해하여 개별 UAV에게 할당하는 계층적 제어 구조가 연구되고 있다.16 이는 군집의 행동을 인간이 더 쉽게 이해하고 통제할 수 있게 하여, 설명가능성과 신뢰성을 높인다.
- 거대 언어 모델(LLM)과의 통합: ChatGPT와 같은 거대 언어 모델을 군집 제어의 자연어 인터페이스로 활용하려는 시도가 나타나고 있다. 인간 운용자가 자연어로 내린 복잡한 의도를 LLM이 이해하고, 이를 군집이 수행할 수 있는 정교한 임무 계획으로 변환하는 기술은 인간-군집 상호작용의 패러다임을 바꿀 수 있다.75
- 완전 자율, 자기 조직, 회복탄력적 군집: 궁극적인 목표는 마치 자연의 벌 떼나 새 떼처럼, 외부의 지시 없이 스스로 임무에 맞게 조직을 구성하고(self-organizing), 일부 개체의 손실로부터 스스로 회복하며(self-healing), 장기간 인간의 개입 없이 자율적으로 임무를 수행하는 군집을 구현하는 것이다.7 이는 단순한 알고리즘의 개선을 넘어, 군집 전체를 하나의 살아있는 유기체처럼 기능하게 만드는 새로운 설계 원리를 요구한다.
6.3. 종합 분석 및 전략적 제언
본 보고서에서 분석한 바와 같이, UAV 군집 임무 계획은 전통적 최적화 기법과 최신 다중 에이전트 강화학습 기법 간의 뚜렷한 트레이드오프 관계를 보인다. 전통적 기법은 정적 환경에서의 최적성과 신뢰성을, MARL은 동적 환경에서의 적응성과 자율성을 제공한다. 미래의 가장 유망한 경로는 이 두 패러다임의 장점을 결합한 계층적 하이브리드 시스템이 될 것으로 강력하게 시사된다.
이러한 미래를 실현하기 위한 전략적 R&D 투자는 다음과 같은 핵심 병목 현상 해결에 집중되어야 한다.
- 시뮬레이션-현실 간극 해소: 강인한 전이 학습 알고리즘과 고충실도(high-fidelity) 시뮬레이션 환경 구축에 대한 집중적인 투자가 필요하다. 이는 특히 MARL의 실용화를 위한 가장 시급한 과제이다.
- 강인한 분산 통신 기술: 대규모 군집이 적대적 전자전 환경에서도 연결성을 유지할 수 있는 저지연, 고신뢰성, 저피탐 특성의 통신 기술 개발이 필수적이다.
- 검증가능하고 설명가능한 AI: 군집 시스템의 안전성과 신뢰성을 보장하고, 사회적·윤리적 수용성을 확보하기 위해, AI의 행동을 수학적으로 검증하고 인간이 이해할 수 있도록 설명하는 기술에 대한 연구가 병행되어야 한다.
이러한 과제들은 독립적이지 않고 깊이 상호 연결되어 있다. 예를 들어, 시뮬레이션-현실 간극을 해결하는 것은 안전성을 검증하기 위한 전제 조건이며, 안전성 확보는 윤리적 규범 준수와 대중의 수용을 위한 필수 요건이다. 또한, 수천 대 규모로의 확장성은 통신 기술의 강인성에 의해 제한되며, 이는 곧 보안 문제와 직결된다. 이 복잡한 의존성 그래프는 미래의 발전이 단일 알고리즘의 개선이 아닌, 시뮬레이션, 하드웨어, 네트워킹, AI 알고리즘을 아우르는 총체적이고 시스템 수준의 접근을 통해서만 이루어질 수 있음을 보여준다. 이것이 바로 UAV 군집 지능 분야가 직면한 궁극적인 전략적 과제이다. 이 과제들을 성공적으로 해결한다면, UAV 군집은 국방, 산업, 공공 안전 등 사회 전반에 걸쳐 혁신적인 변화를 가져오는 변혁적 기술로 자리매김할 것이다.
참고 자료
- Task assignment and path planning of multiple ... - PaperCept, 9월 10, 2025에 액세스, https://conf.papercept.net/images/temp/TENCON/files/0213.pdf
- Task assignment and path planning of multiple unmanned aerial vehicles using Integer Linear Programming - Chula Digital Collections, 9월 10, 2025에 액세스, https://digital.car.chula.ac.th/cgi/viewcontent.cgi?article=11190&context=chulaetd
- A Survey on Multi-UAV Path Planning: Classification, Algorithms ..., 9월 10, 2025에 액세스, https://www.mdpi.com/2504-446X/9/4/263
- Group-based Distributed Auction Algorithms for Multi-Robot Task Assignment, 9월 10, 2025에 액세스, https://autonomousrobots.nl/assets/files/publications/22_Bai_TASE.pdf
- A Review of Path-Planning Approaches for Multiple Mobile Robots - MDPI, 9월 10, 2025에 액세스, https://www.mdpi.com/2075-1702/10/9/773
- (PDF) UAV swarms: research, challenges, and future directions - ResearchGate, 9월 10, 2025에 액세스, https://www.researchgate.net/publication/388449261_UAV_swarms_research_challenges_and_future_directions
- Advancement Challenges in UAV Swarm Formation Control: A Comprehensive Review, 9월 10, 2025에 액세스, https://www.mdpi.com/2504-446X/8/7/320
- Distributed Task Allocation for Multiple UAVs Based on Swarm Benefit Optimization - MDPI, 9월 10, 2025에 액세스, https://www.mdpi.com/2504-446X/8/12/766
- Distributed Machine Learning for UAV Swarms: Computing, Sensing, and Semantics - arXiv, 9월 10, 2025에 액세스, https://arxiv.org/pdf/2301.00912
- A Survey of UAV Swarm Task Allocation Based on the Perspective of Coalition Formation - IRMA-International.org, 9월 10, 2025에 액세스, https://www.irma-international.org/viewtitle/311499/?isxn=9781683181514
- Swarm Clouds on the Horizon? Exploring the Future of Drone Swarm Proliferation - Modern War Institute, 9월 10, 2025에 액세스, https://mwi.westpoint.edu/swarm-clouds-on-the-horizon-exploring-the-future-of-drone-swarm-proliferation/
- A comprehensive review of the latest path planning developments for multi-robot formation systems | Robotica | Cambridge Core, 9월 10, 2025에 액세스, https://www.cambridge.org/core/journals/robotica/article/comprehensive-review-of-the-latest-path-planning-developments-for-multirobot-formation-systems/C29368A0385A4D57425ABCCC94DED1A1
- (PDF) Application of Deep Reinforcement Learning to UAV Swarming for Ground Surveillance - ResearchGate, 9월 10, 2025에 액세스, https://www.researchgate.net/publication/388068141_Application_of_Deep_Reinforcement_Learning_to_UAV_Swarming_for_Ground_Surveillance
- UAV Swarm Path Planning - Semantic Scholar, 9월 10, 2025에 액세스, https://www.semanticscholar.org/paper/UAV-Swarm-Path-Planning-James-Raheb/6d0dbeb388ecaf3dab12a83c6ae9637cd2f8654c
- [2501.08655] Application of Deep Reinforcement Learning to UAV Swarming for Ground Surveillance - arXiv, 9월 10, 2025에 액세스, https://arxiv.org/abs/2501.08655
- UAV Swarm Intelligence: Recent Advances and Future Trends - SciSpace, 9월 10, 2025에 액세스, https://scispace.com/pdf/uav-swarm-intelligence-recent-advances-and-future-trends-4b1e401t4o.pdf
- A Survey of UAV Swarm Task Allocation Based on the Perspective of Coalition Formation, 9월 10, 2025에 액세스, https://www.researchgate.net/publication/364037068_A_Survey_of_UAV_Swarm_Task_Allocation_Based_on_the_Perspective_of_Coalition_Formation
- Task Assignment of UAV Swarms Based on Auction Algorithm in Poor Communication Environments | Request PDF - ResearchGate, 9월 10, 2025에 액세스, https://www.researchgate.net/publication/375767663_Task_Assignment_of_UAV_Swarms_Based_on_Auction_Algorithm_in_Poor_Communication_Environments
- PPSwarm: Multi-UAV Path Planning Based on Hybrid PSO in Complex Scenarios - MDPI, 9월 10, 2025에 액세스, https://www.mdpi.com/2504-446X/8/5/192
- (PDF) UAV path planning using MILP with experiments - ResearchGate, 9월 10, 2025에 액세스, https://www.researchgate.net/publication/316958628_UAV_path_planning_using_MILP_with_experiments
- Real-time trajectory planning for UAVs using MILP - ResearchGate, 9월 10, 2025에 액세스, https://www.researchgate.net/publication/224627299_Real-time_trajectory_planning_for_UAVs_using_MILP
- Multi-UAV task allocation and path planning in emergency rescue scenarios with uncertain requirements - American Institute of Mathematical Sciences, 9월 10, 2025에 액세스, https://www.aimsciences.org/article/doi/10.3934/jimo.2025124
- Genetic Algorithm Based Approach for Multi-UAV Cooperative ..., 9월 10, 2025에 액세스, https://www.researchgate.net/publication/225232005_Genetic_Algorithm_Based_Approach_for_Multi-UAV_Cooperative_Reconnaissance_Mission_Planning_Problem
- A Multi-population Genetic Algorithm for UAV Path Re-planning under Critical Situation - Research, 9월 10, 2025에 액세스, https://groups.csail.mit.edu/mers/publication_uploads/Publications/2015/07372174.pdf
- MULTI-UAV Task Allocation Based on Improved Genetic Algorithm - Semantic Scholar, 9월 10, 2025에 액세스, https://www.semanticscholar.org/paper/MULTI-UAV-Task-Allocation-Based-on-Improved-Genetic-Wu-Yin/0916a1e82a656a7eab16c6edd8950b300f846428
- [2402.06504] Solving Complex Multi-UAV Mission Planning Problems using Multi-objective Genetic Algorithms - arXiv, 9월 10, 2025에 액세스, https://arxiv.org/abs/2402.06504
- Multi-UAV Optimal Mission Assignment and Path Planning for Disaster Rescue Using Adaptive Genetic Algorithm and Improved Artificial Bee Colony Method - MDPI, 9월 10, 2025에 액세스, https://www.mdpi.com/2076-0825/11/1/4
- Multi-UAV Mission Planning Method - ResearchGate, 9월 10, 2025에 액세스, https://www.researchgate.net/publication/347430746_Multi-UAV_Mission_Planning_Method
- Hybrid particle swarm algorithm for multi-UAV cooperative task allocation - 航空学报, 9월 10, 2025에 액세스, https://hkxb.buaa.edu.cn/EN/10.7527/S1000-6893.2021.26011
- Application of Hybrid Swarming Algorithm on a UAV Regional Logistics Distribution - PMC, 9월 10, 2025에 액세스, https://pmc.ncbi.nlm.nih.gov/articles/PMC10046609/
- Real-time Path Replanning for Unmanned Aerial Vehicles: Considering Environmental Changes using RRT* and LOSPO - Korea Science, 9월 10, 2025에 액세스, https://koreascience.kr/article/JAKO202325149129156.pub?orgId=kni
- Greedy Decentralized Auction-based Task Allocation for Multi-Agent Systems - Martin Braquet, 9월 10, 2025에 액세스, https://martinbraquet.com/wp-content/uploads/Greedy-Decentralized-Auction-based-Task-Allocation-for-Multi-Age_2021_IFAC-P.pdf
- Enhancing Unmanned Aerial Vehicle Task Assignment with the ..., 9월 10, 2025에 액세스, https://www.mdpi.com/2504-446X/8/9/422
- A Two-Stage Distributed Task Assignment Algorithm Based on Contract Net Protocol for Multi-UAV Cooperative Reconnaissance Task Reassignment in Dynamic Environments - PubMed Central, 9월 10, 2025에 액세스, https://pmc.ncbi.nlm.nih.gov/articles/PMC10537739/
- A Survey on UAV Control with Multi-Agent Reinforcement Learning - MDPI, 9월 10, 2025에 액세스, https://www.mdpi.com/2504-446X/9/7/484
- Research on Efficient Multiagent Reinforcement Learning for Multiple UAVs' Distributed Jamming Strategy - MDPI, 9월 10, 2025에 액세스, https://www.mdpi.com/2079-9292/12/18/3874
- A Reinforcement Learning Approach for Wildfire Tracking with UAV Swarms - arXiv, 9월 10, 2025에 액세스, https://arxiv.org/html/2407.05473v1
- UAV Swarm Rounding Strategy Based on Deep Reinforcement Learning Goal Consistency with Multi-Head Soft Attention Algorithm - MDPI, 9월 10, 2025에 액세스, https://www.mdpi.com/2504-446X/8/12/731
- [2303.01799] Multi-Target Pursuit by a Decentralized Heterogeneous UAV Swarm using Deep Multi-Agent Reinforcement Learning - arXiv, 9월 10, 2025에 액세스, https://arxiv.org/abs/2303.01799
- Multi–Agent Reinforcement Learning–Based UAV Pathfinding for Obstacle Avoidance in Stochastic Environment - arXiv, 9월 10, 2025에 액세스, https://arxiv.org/html/2310.16659v2
- Distributed Reinforcement Learning Algorithm for Multi-UAV Applications, 9월 10, 2025에 액세스, https://naira.mechse.illinois.edu/research-2/machine-learning-2/distributed-reinforcement-learning-algorithm-for-multi-uav-applications/
- MW-MADDPG: a meta-learning based decision-making method for ..., 9월 10, 2025에 액세스, https://pmc.ncbi.nlm.nih.gov/articles/PMC10551453/
- A Hierarchical Reinforcement Learning Framework for Multi-UAV Combat Using Leader-Follower Strategy - arXiv, 9월 10, 2025에 액세스, https://arxiv.org/html/2501.13132v1
- Combining Planning with Reinforcement Learning for Multi-robot Task Allocation, 9월 10, 2025에 액세스, https://www.semanticscholar.org/paper/Combining-Planning-with-Reinforcement-Learning-for-Strens-Windelinckx/79af4beae26f54634e51d7a8b906fba768694d35
- Swarm Robotics - ADAMS Laboratory, 9월 10, 2025에 액세스, https://adams.eng.buffalo.edu/algorithms/multi-robot-algorithms/
- Research - Texas Robotics, 9월 10, 2025에 액세스, https://robotics.utexas.edu/research
- Research - Swarm Systems Lab, 9월 10, 2025에 액세스, https://www.swarmsystemslab.eu/research
- Unmanned Aerial Vehicle Multi-Agent Systems Technology Research (UAV MASTER) Lab | University of Cincinnati, 9월 10, 2025에 액세스, https://ceas.uc.edu/research/centers-labs/uav-master-lab.html
- Swarm Robotics - TU Delft, 9월 10, 2025에 액세스, https://www.tudelft.nl/en/robotics-institute/themes/swarm-robotics
- Swarm Robotics - Bristol Robotics Laboratory, 9월 10, 2025에 액세스, https://www.bristolroboticslab.com/swarm-robotics
- DARPA OFFSET: Autonomous Drone Swarms for Warfighters - DSIAC - dtic.mil, 9월 10, 2025에 액세스, https://dsiac.dtic.mil/articles/darpa-offset-autonomous-drone-swarms-for-warfighters/
- Swarm: Redefining Air Power, 9월 10, 2025에 액세스, https://www.swarm.aero/
- Drone (UAV) Swarm Technology: Transforming Military Potential - Maris Tech, 9월 10, 2025에 액세스, https://www.maris-tech.com/blog/drone-swarm-its-impact-at-the-military-scene-maris-tech/
- Drone Wars: Developments in Drone Swarm Technology - Defense Security Monitor, 9월 10, 2025에 액세스, https://dsm.forecastinternational.com/2025/01/21/drone-wars-developments-in-drone-swarm-technology/
- Department of Defense Announces Successful Micro-Drone Demonstration, 9월 10, 2025에 액세스, https://www.defense.gov/News/Releases/Release/Article/1044811/department-of-defense-announces-successful-micro-drone-demonstration/
- Outrider deploys reinforcement learning AI to enhance distribution yard throughput, 9월 10, 2025에 액세스, https://www.outrider.ai/press-releases/outrider-deploys-reinforcement-learning-ai-to-enhance-distribution-yard-throughput/
- Top Autonomous Drone Companies - AI-Driven Aerial Solutions - FlyPix AI, 9월 10, 2025에 액세스, https://flypix.ai/blog/autonomous-drone-companies/
- The Transformative Impact of Drones and Automated Technologies on Logistics, 9월 10, 2025에 액세스, https://www.park.edu/blog/the-transformative-impact-of-drones-and-automated-technologies-on-logistics/
- The Use of AI Technology in Drone Delivery - AIFT, 9월 10, 2025에 액세스, https://hkaift.com/the-use-of-ai-technology-in-drone-delivery/
- Top Drone Delivery Companies Revolutionizing Logistics | by Sulman Khan - Medium, 9월 10, 2025에 액세스, https://medium.com/@sulmanofficial/top-drone-delivery-companies-revolutionizing-logistics-1160f3ebeff0
- Beyond ground transportation: The rise of drone logistics - The Robot Report, 9월 10, 2025에 액세스, https://www.therobotreport.com/beyond-ground-transportation-the-rise-of-drone-logistics/
- Research on UAV Swarm Network Modeling and Resilience Assessment Methods, 9월 10, 2025에 액세스, https://www.researchgate.net/publication/376670800_Research_on_UAV_Swarm_Network_Modeling_and_Resilience_Assessment_Methods
- 국내 방산기업과 KAIST의 군집 자율비행 드론 현황 및 기술 역량 분석 - Goover, 9월 10, 2025에 액세스, https://seo.goover.ai/report/202507/go-public-report-ko-0e407015-8c6c-4a35-bb5c-8f91aa933a75-0-0.html
- S-9 지능형 군집 소형무인기 - 메일리, 9월 10, 2025에 액세스, https://maily.so/sheldon/posts/10z3620jzlw
- 군사비밀 은밀한 그곳, ADD···영화처럼 '드론떼' 1000대 온다 | 중앙일보, 9월 10, 2025에 액세스, https://www.joongang.co.kr/article/23730067
- ADD, 무인기 공중 발사 및 지상 다연장 발사 기술 연구 - SPN 서울평양뉴스, 9월 10, 2025에 액세스, https://www.spnews.co.kr/news/articleView.html?idxno=64328
- 국방과학연구소, 무인기 스스로 대응하는 무인기 자율화 기술 개발 - 대한민국 정책브리핑, 9월 10, 2025에 액세스, https://www.korea.kr/briefing/pressReleaseView.do?newsId=156451254
- 군집 무인수상정 운용기술 시연 성공…적 유인정 침투 대응 - 뉴시스, 9월 10, 2025에 액세스, https://mobile.newsis.com/view/NISX20241010_0002915617
- AI 무기체계 현황 및 시사점: AI 드론을 중심으로 - 국회예산정책처, 9월 10, 2025에 액세스, https://www.nabo.go.kr/system/common/JSPservlet/download.jsp?fBid=68&fCode=33318391&fMime=application/pdf&flag=bluenet
- 국방 드론 운용과 기술개발 동향 - BEMIL 군사세계, 9월 10, 2025에 액세스, https://bemil.chosun.com/nbrd/bbs/view.html?b_bbs_id=10008&pn=1&num=378&pan
- Multi-Agent Reinforcement Learning for Unmanned Aerial Vehicle Coordination by Multi-Critic Policy Gradient Optimization | Request PDF - ResearchGate, 9월 10, 2025에 액세스, https://www.researchgate.net/publication/348079120_Multi-Agent_Reinforcement_Learning_for_Unmanned_Aerial_Vehicle_Coordination_by_Multi-Critic_Policy_Gradient_Optimization
- Mixed Human-UAV Reinforcement Learning: Literature Review and Open Challenges - SciTePress, 9월 10, 2025에 액세스, https://www.scitepress.org/Papers/2022/119551/119551.pdf
- An analysis of trends in UAV swarm implementations in current research: simulation versus hardware, 9월 10, 2025에 액세스, https://cdnsciencepub.com/doi/full/10.1139/dsa-2023-0099
- Assignment: Safe Multi-Agent Reinforcement Learning (MARL) for UAV Swarm Communications | Pervasive Systems group | University of Twente, 9월 10, 2025에 액세스, https://www.utwente.nl/en/eemcs/ps/education/master%20theses/Alex-7/
- A Comprehensive Survey on Multi-Agent Cooperative Decision-Making: Scenarios, Approaches, Challenges and Perspectives - arXiv, 9월 10, 2025에 액세스, https://arxiv.org/html/2503.13415v1
- Scientists Find Curvy Answer to Harnessing “Swarm Intelligence” - NYU, 9월 10, 2025에 액세스, https://www.nyu.edu/about/news-publications/news/2025/september/scientists-find-curvy-answer-to-harnessing--swarm-intelligence--.html
'과학기술' 카테고리의 다른 글
| C-UAS 요격체계용 터보제트 기반 신속 기동 추진시스템: 제어 및 강화학습 기술 적용을 중심으로 (0) | 2025.09.27 |
|---|---|
| 각도 전용 항법: 이론적 기초부터 자율 군집 운용까지 (0) | 2025.09.26 |
| 휴머노이드의 부상: 개발, 핵심 플레이어, 시장 전망에 대한 종합 분석 (0) | 2025.09.21 |
| 미국 항공우주 GNC 인재 요구사항 분석 및 전략 로드맵 (0) | 2025.09.19 |
| FAA MOSAIC 규정 분석 (0) | 2025.09.18 |