차세대 항공우주 시스템을 위한 GNN 기반 Safe RL 연구 동향 및 발전 방안

1. 서론: 항공우주 자율성의 패러다임 전환과 새로운 도전

현대 항공우주 공학은 결정론적 제어(Deterministic Control)와 최적화 기반의 시스템에서, 데이터 기반의 학습형 자율 시스템(Learning-enabled Autonomous Systems)으로의 근본적인 패러다임 전환을 겪고 있다. 도심항공교통(UAM), 고밀도 무인항공기 군집(UAV Swarms), 수만 기의 위성으로 구성된 지구 저궤도(LEO) 메가 콘스텔레이션(Mega-Constellation) 등 다개체 시스템(Multi-Agent Systems, MAS)의 규모와 복잡성이 기하급수적으로 증가함에 따라, 전통적인 모델 예측 제어(MPC)나 규칙 기반(Rule-based) 알고리즘은 연산 지연(Latency)과 확장성(Scalability)의 한계에 직면했다.1

이러한 한계를 극복하기 위한 핵심 기술로 심층 강화학습(Deep Reinforcement Learning, DRL)이 대두되었다. 심층 강화학습은 대규모 데이터셋과 시뮬레이터, 고성능 컴퓨팅 자원을 활용하여 확률론적이고 비선형적인 동적 의사결정 문제에서 탁월한 확장성과 런타임 효율성을 보여준다.3 그러나 보상 극대화에 치중하는 표준 RL의 특성상, 탐색(Exploration) 과정이나 미지의 환경에서 치명적인 안전 규정 위반을 초래할 수 있다는 근본적인 약점이 존재한다.4 작은 제어 오류 하나가 천문학적인 비용 손실이나 인명 피해로 직결되는 항공우주 시스템의 특성상, 엄격한 안전성 보장(Safety Guarantee)이 결여된 자율성은 실제 물리적 환경에 배포될 수 없다.6 기존의 강화학습 방법론들은 보상 함수에 페널티를 부여하는 방식을 취했으나, 이는 안전 사양을 완벽히 보장하기 어렵고 탐색 중의 안전성을 담보하지 못하는 한계가 명확했다.7

이를 해결하기 위해 등장한 안전 강화학습(Safe Reinforcement Learning, Safe RL)은 알고리즘의 학습 및 실행 단계 모두에서 시스템이 물리적, 운영적 제약 조건을 엄격히 준수하도록 보장하는 프레임워크이다.8 나아가, 동적이고 비유클리드(Non-Euclidean)적인 상호작용을 모델링하는 데 한계를 보이는 기존 다층 퍼셉트론(MLP)이나 합성곱 신경망(CNN)의 약점을 극복하기 위해, 최근 연구의 최전선에서는 그래프 신경망(Graph Neural Networks, GNN)을 Safe RL과 결합하는 시도가 활발히 이루어지고 있다.10

GNN과 Safe RL의 융합은 다차원적이고 동적인 항공우주 시스템의 자율성을 인간의 제어 한계 너머로 이끄는 가장 강력한 기술적 돌파구이다. 센서 데이터가 환경 내 요소들을 노드와 간선으로 하는 그래프 구조로 변환된 뒤, GNN을 통해 공간적 상호작용 특징으로 임베딩되며, Safe RL(Actor-Critic 구조 및 CBF 등 안전 필터 포함) 모듈이 제약 조건을 준수하는 최적의 행동을 산출하는 전체적인 제어 흐름은 복잡한 군집 비행이나 궤도 최적화의 핵심 파이프라인으로 자리매김하고 있다. 본 보고서는 세계 최고 수준의 연구 성과를 목표로 하는 관점에서, GNN과 Safe RL이 결합된 최신 알고리즘의 이론적 배경을 해부하고, 항공우주 분야의 핵심 적용 사례, 하드웨어 및 인증(Certification) 측면의 한계, 그리고 이를 돌파하기 위한 미래 연구 전략을 심층적으로 분석한다.

2. GNN과 Safe RL 통합의 이론적 배경 및 상호보완적 메커니즘

멀티 에이전트 환경이나 동적 장애물이 존재하는 항공우주 임무에서, 시스템의 상태(State)를 어떻게 표현하고 안전을 어떻게 수학적으로 강제할 것인가는 자율 제어의 핵심 난제이다. 다수의 무인기가 편대를 이루거나 동적 우주 쓰레기가 존재하는 환경은 본질적으로 그 구조가 시시각각 변하는 그래프 특성을 지닌다. 이 맥락에서 GNN과 Safe RL은 각각 표현 학습(Representation Learning)과 제약 최적화(Constrained Optimization)의 관점에서 완벽한 상호보완적 시너지를 창출한다.12

2.1. 안전 강화학습(Safe RL)의 수학적 공식화

Safe RL은 에이전트가 환경과 상호작용하며 누적 보상을 최대화하는 동시에, 특정 비용(Cost)이나 위험 지표가 사전 정의된 임계값을 초과하지 않도록 정책(Policy)을 제어한다. 이를 구현하는 주류 이론적 접근은 크게 세 가지로 분류된다.15

제약 조건부 마르코프 결정 과정 (Constrained MDP, CMDP): Safe RL의 가장 표준적인 공식화 방식으로, 목적 함수(보상)를 최대화하면서 기대 누적 비용이 한계치 이하가 되도록 제약한다.9 대표적으로 쌍대 경사 하강법(Dual Gradient Descent)을 이용해 라그랑주 승수(Lagrange Multiplier)를 동적으로 업데이트하여 제약 조건을 충족시키는 방식(PPO-Lagrangian, SACL 등)이 널리 활용된다.18 CMDP 기반 접근법은 CPO(Constrained Policy Optimization)와 같이 성능 최적화와 제약 만족을 동시에 강제하는 신뢰 영역(Trust Region) 기반 알고리즘으로 발전해왔다.12
제어 장벽 함수 (Control Barrier Functions, CBF) 및 리아프노프(Lyapunov) 방법론: 시스템의 상태 공간 내에 불변의 '안전 집합(Safe Set)'을 정의하고, 시스템 상태가 이 집합의 경계를 넘어 위험 영역으로 진입하지 않도록 제어 입력을 수학적으로 강제하는 형식적 기법이다.21 CBF는 전진 불변성(Forward Invariance)을 보장하여 시스템이 항상 안전한 상태에 머무르도록 유도하며, 제어 리아프노프 함수(CLF)와 결합하여 안정성(Stability)과 목표 도달성을 동시에 확보한다.24 이는 모델 기반 제어의 강점과 데이터 기반 학습의 강점을 결합하는 핵심 기제이다.
안전 실드 및 행동 투영 (Safety Shielding & Action Projection): RL 에이전트가 탐색 중 제안한 행동이 안전 제약을 위반할 것으로 예측될 경우, 외부의 안전 필터(Safety Filter)가 개입하여 가장 가까운 실현 가능(Feasible) 행동으로 궤적을 수정하는 구조이다.21 이 접근법은 훈련 단계뿐만 아니라 실제 배포(Deployment) 시에도 물리적 피해를 방지하는 강력한 보호막 역할을 한다.28

2.2. 그래프 신경망(GNN)을 통한 상태 공간의 혁신적 구조화

전통적인 강화학습의 다층 퍼셉트론(MLP) 구조는 고정된 크기의 벡터를 입력으로 받기 때문에, 편대 비행 중인 드론의 수가 바뀌거나 탐지된 우주 쓰레기(Debris)의 개수가 실시간으로 변하는 동적 환경에 극히 취약하다.30 GNN은 이러한 문제를 근본적으로 해결하며 강화학습에 다음과 같은 혁신을 제공한다.

순열 불변성(Permutation Invariance) 및 크기 일반화(Size Generalization): GNN은 시스템을 노드(예: 드론, 위성, 장애물)와 간선(예: 통신 링크, 상대 거리)으로 구성된 비유클리드 데이터인 그래프로 처리한다.10 이웃 노드 간의 정보를 집계(Aggregation)하는 메시지 패싱(Message Passing) 메커니즘을 통해, 에이전트는 자신을 둘러싼 환경의 전역적, 국소적 위상을 내재화한다. 이 덕분에 훈련 시 입력되는 에이전트의 순서나 개수에 구애받지 않고 배포 시 다른 규모의 시스템으로 제로샷 전이(Zero-shot transfer)가 가능하다.30
관계형 어텐션(Relational Attention) 및 어텐션 매커니즘: 그래프 어텐션 네트워크(GAT)는 노드 간의 상호작용을 처리할 때 균일한 가중치를 부여하는 것이 아니라, 동적 환경에서 자신에게 가장 큰 위협이 되거나 가장 중요한 협력 대상인 노드에 동적으로 더 높은 가중치(Attention)를 계산하여 부여한다.33 예를 들어, 충돌 궤적에 있는 인접 드론이나 장애물에는 높은 어텐션을, 안전 거리를 벗어난 객체에는 낮은 어텐션을 할당하여 불필요한 연산을 줄이고 충돌 회피 성능을 극대화한다.18
시공간 특성 결합(Spatiotemporal Modeling): 최근 연구에서는 과거의 상태 지연(K-hop delayed states)이나 순환 신경망(RNN, LSTM, GRU)의 변형을 결합한 시공간 GNN(ST-GNN)을 도입하여, 시계열적 궤적 변화와 공간적 상호작용을 동시에 모델링함으로써 노이즈에 대한 강건성을 비약적으로 높이고 있다.34

2.3. 통합 아키텍처 설계 패러다임: GNN-Safe RL 프레임워크

이러한 두 기술이 융합된 아키텍처에서 GNN은 환경의 복잡한 시공간적 관계와 동적 토폴로지를 인코딩하여 저차원의 조밀하고 의미 있는 특징(Feature) 벡터를 추출하는 고성능 '관측기(Observer)' 역할을 수행한다. 이어서 Safe RL 모듈은 추출된 구조적 임베딩을 바탕으로 CMDP 또는 CBF 기반의 정책 네트워크(Actor)와 가치 네트워크(Critic)를 업데이트하며, 제약 조건 내에서 최적의 결정을 내리는 '의사결정자(Decision Maker)' 역할을 한다.18 이는 확장성(Scalability)과 안전성이 필수적인 대규모 다개체 자율 비행이나 복잡한 위성 네트워크 최적화에서 필연적인 설계 표준이 되고 있다.14

3. 현재 주류를 이루는 GNN-Safe RL 알고리즘 심층 분석

학계 및 산업계에서 성능의 한계를 돌파하며 주류를 이루고 있는 통합 알고리즘들은 각기 다른 안전 제약 처리 방식과 그래프 통신 방식을 채택하고 있다. 주요 알고리즘들의 아키텍처와 혁신성은 다음과 같다.

3.1. 대규모 분산 제어를 위한 GCBF 및 GCBF+ (Graph Control Barrier Functions)

다수의 에이전트(예: 수백 대의 드론 군집)가 밀집된 환경에서 상호 충돌 없이 이동해야 하는 확장성(Scalability) 문제를 해결한 가장 혁신적인 프레임워크 중 하나이다.32

배경과 한계 극복: 기존의 중앙 집중형 CBF나 수학적으로 수작업(Hand-crafted)된 제어 모델은 혼합 정수 선형 계획법(MILP) 등을 사용하지만, 에이전트 수가 증가할수록 연산량이 기하급수적으로 폭발하는 차원의 저주(Curse of Dimensionality)에 빠져 대규모 시스템에 적용이 불가능했다.38 또한 일반적인 다개체 강화학습(MARL)은 보상과 페널티 간의 충돌로 인해 실질적인 성능과 안전성 사이에서 타협(Trade-off)해야 하는 문제가 있었다.32
GCBF+ 아키텍처의 혁신: GNN을 사용하여 잠재적 제어 장벽 함수(Candidate GCBF)와 분산 충돌 회피 제어 정책을 함께(Jointly) 학습시킨다.40 완전한 전역 상태 정보가 아닌, LiDAR 포인트 클라우드나 이웃 노드의 로컬 관측 데이터만을 입력받아 동적인 그래프 위상 변화에 적응한다. 특히 획기적인 점은, 8기 또는 16기와 같은 소규모 에이전트로 학습된 단일 GCBF가 이론적 증명을 바탕으로 1000기 이상의 임의의 규모를 가진 다개체 시스템에서도 완벽한 안전성 인증(Safety Certificate)을 제공한다는 것이다.39 GCBF+는 이차 계획법(QP) 기반의 명목 제어기(Nominal Controller)를 참조하는 새로운 손실 함수 설계를 통해, 안전을 강제하면서도 목표 도달율을 희생시키지 않는 구조를 갖추고 있다.23
실증 성과: 경쟁 베이스라인 대비 GCBF+는 Crazyflie 드론과 같은 비선형 동역학 환경에서 최고 성능의 수작업 CBF 방법보다 256기 환경에서 최대 20%, 1024개 에이전트 환경에서 선도적인 강화학습 기법보다 최대 40% 높은 성공률을 기록했다. 특히 혼잡한 2D/3D 장애물 환경에서 초기 GCBF 버전이 20% 미만의 성공률을 보인 데 반해, GCBF+는 95% 이상의 충돌 회피 성공률을 입증하였다.32

3.2. 부분 관측 환경의 우주 작전을 위한 GAT-SACL (Graph Attention Network - SACL)

우주선의 궤도 내 서비스(On-orbit Servicing)나 랑데부(Rendezvous), 근접 비행(Proximity Operations) 임무에 특화된 고도화 알고리즘이다.18 이러한 임무는 동적인 우주 쓰레기와 대상 우주선이 공존하는 부분 관측성(Partial Observability)의 극한 환경에서 수행된다.

그래프 인코딩 메커니즘: 시스템은 서비스 우주선(Service Spacecraft), 도달 예상 지점(Expected Point), 그리고 관측 범위 내의 장애물(우주 파편 등)을 각각 상이한 노드 속성(One-hot encoding)으로 구분하여 차원 텐서 인덱스로 매핑한다. 목표 지점은 우주선을 이끄는 '끌개(Attractor)'로, 장애물은 '밀어내는 점(Repulsive points)'으로 기능한다.18
어텐션 기반 특징 추출: GAT 모듈은 은닉 그래프 구조 정보와 노드의 위치 특징을 추출한다. 거리 역학을 반영하여 우주선에 가까운 장애물에는 궤도 기동에 큰 영향을 미치도록 높은 가중치를 주며, 25미터 관측 범위를 벗어난 장애물은 연산에서 배제하여 훈련의 복잡도를 낮춘다.18
비제약 최적화 변환: SACL(Soft Actor Critic with Lagrange) 모듈은 충돌 회피라는 제약 최적화 문제를 라그랑주 승수를 도입해 비제약 최적화 문제로 변환한다. 국소 은닉 특징에 집중하는 액터(Actor) 네트워크와 달리, 크리틱(Critic) 네트워크는 서비스 우주선, 목표점, 모든 장애물의 위치와 속도를 포함하는 글로벌 상태 정보(Global State Information)를 활용하여 현재 행동을 정확히 평가한다.18 시뮬레이션에서 몬테카를로 슈팅 기법으로 검증한 결과, 높은 파편 밀도 하에서도 우회 기동과 안정적인 접근 목표 달성을 모두 완벽히 밸런싱하는 탐색적 지능을 확보하였다.18

3.3. CTDE 기반의 다개체 그래프 강화학습 (MAGRL 및 G-MADDPG)

대규모 UAV 군집이나 위성 네트워크에서는 단일 중앙 서버가 모든 연산과 제어 명령을 내리는 것이 통신 지연과 병목 현상으로 인해 불가능하다. 이를 해결하기 위해 중앙 집중식 훈련 및 분산 실행(CTDE, Centralized Training with Decentralized Execution) 패러다임이 필수적으로 적용된다.30

최신 연구인 G-MADDPG(Graph-Convolutional MADDPG) 알고리즘은 훈련 단계에서 그래프 합성곱 네트워크(GCN)와 라플라시안 합성곱 커널을 통합한 크리틱 네트워크를 사용한다. 이는 글로벌 상태 정보의 불완전성 문제를 로컬 노드 간의 상호작용 강화를 통해 완화하고, 다중 에이전트의 행동을 전역적으로 평가한다.44
실행(Execution) 단계에서는 훈련된 액터(Actor) 네트워크가 주변 이웃 드론들의 제한된 로컬 관측 데이터와 메시지만으로 최적의 분산 전술 의사결정을 독립적으로 내린다. 이 접근은 에이전트의 소멸(Attrition)이나 통신 교란(Communication Disturbance)이 발생하는 전장 상황이나 재난 구호 상황에서도 매우 높은 시스템 복원력(Resilience)을 제공한다.14 특정 모의 전투 시나리오에서는 전이 학습(Transfer Learning) 메커니즘을 결합하여 훈련 수렴 속도를 3배 단축하고 기준 모델 대비 23.4% 향상된 97.4%의 효과성을 달성했다.44

주요 알고리즘	적용 도메인	핵심 GNN 아키텍처	Safe RL 메커니즘 / 특장점	참고 문헌
GCBF+	대규모 다개체 로봇, UAV 군집	동적 그래프 구축, LiDAR 포인트 클라우드 처리	GNN으로 매개변수화된 제어 장벽 함수(CBF). 크기 무관한 제로샷 확장성 및 1024기 95%+ 성공률.	32
GAT-SACL	우주선 랑데부 및 능동형 파편 회피	Graph Attention Network (GAT), 원-핫 인코딩	제약 조건부 MDP(CMDP) 기반 Soft Actor-Critic과 라그랑주 승수법. 동적 노드 수 적응형.	18
MAGRL (G-MADDPG)	전술 UAV 군집 및 군사적 대항 작전	Graph Convolutional Network (GCN) + 라플라시안 커널	중앙 훈련 및 분산 실행(CTDE). 통신 두절 및 불완전 정보 하에서의 강건성, 전이 학습 통합.	44
IPSO-RL	에너지 제한 환경 3D 궤적 계획	입자 군집 최적화(PSO)와 그래프 속성 하이브리드 결합	충돌 방지뿐 아니라 비행 시간 연장을 위한 에너지 소비 최소화에 특화.	45
GDRL-SFCR	LEO 메가 콘스텔레이션 라우팅	동적 그래프 임베딩을 통한 시변 토폴로지 추출	서비스 기능 체인(SFC) 제약 준수 및 다목적 보상(네트워크 부하, 지연) 함수 적용.	46

4. 항공우주 분야 집중 적용 사례 (Aerospace Applications)

GNN이 결합된 Safe RL은 시공간적 역동성이 극도로 높은 항공우주 산업의 코어 문제들을 해결하며 개념 증명(PoC)을 넘어 실질적인 응용 단계로 접어들고 있다.

4.1. 고밀도 도심 환경 및 전장 환경에서의 자율 다수 UAV 제어 (UAV Swarms)

재난 구호, 전장 정찰, 도심항공교통(UAM) 지원 등의 분야에서 드론 군집 자율 제어는 가장 활발히 적용되는 영역이다. 기존의 인지-계획-제어 모듈이 분리된 계층적 파이프라인은 누적 지연 시간(Cumulative Latency)을 발생시켜 고속 비행 시 엄격한 충돌 회피 요구를 만족하지 못한다.1

협력적 그래프 기반 예측 충돌 회피 (CGPCA): 분산형 U-space 트래픽 관리를 위한 접근으로, 각 UAV가 V2X 통신을 통해 위치와 속도, 의도된 궤적을 브로드캐스팅하여 '트래픽 그래프(Traffic Graph)'를 동적으로 구축한다. GNN은 이 다중 모달 데이터를 처리해 수 초 후의 근미래 위치를 예측하고 충돌 위험도를 점수화한다. 이후 드론 내부에 탑재된 Safe RL 또는 분산형 모델 예측 제어(DMPC) 모듈이 예측된 위험을 바탕으로 실시간 안전 궤적을 최적화하여 맹목적인 기하학적 규칙 기반 시스템을 압도하는 융통성을 보인다.2
이종 로봇 군집 협업 (Heterogeneous Swarms): 공중의 무인항공기(UAV)와 지상의 무인지상차량(UGV)이 협력하는 하이브리드 시스템에서, 두 기체의 이질적인 동역학 및 임무 제약을 GNN이 관계형으로 모델링한다. 예를 들어 GATAR(Graph Attention Task Allocator) 프레임워크는 U자형 장애물 지형에서 비행하여 이를 뛰어넘을 수 있는 UAV와 우회해야 하는 UGV 간의 최적 역할을 분산 환경에서 지능적으로 할당하며, 중앙 집중식 시스템의 단일 장애점(Single point of failure) 문제를 해결한다.47

4.2. LEO 메가 콘스텔레이션 및 위성 네트워크 최적화 (Satellite Constellations)

Starlink 등 수천~수만 기 규모의 저궤도(LEO) 메가 위성 네트워크의 상용화로 인해, 초저지연 광대역 통신을 보장하기 위한 라우팅, 충돌 회피, 핸드오버(Handover) 문제가 핵심 기술 장벽이 되었다.49 위성의 고속 이동에 따른 빈번한 성형 토폴로지 변경은 기존의 OSPF나 다익스트라(Dijkstra)와 같은 정적 라우팅 프로토콜로는 대처가 불가능하다.49

동적 라우팅 및 부하 분산 (GDRL-SFCR 등): 위성망을 시변 그래프(Time-varying Graph)로 모델링하여 GNN이 위성 간의 통신 링크 상태(간섭, 대역폭, 노드 부하 등)를 실시간으로 임베딩한다. 이를 바탕으로 DRL 에이전트는 3GPP가 제안한 서비스 기능 체인(SFC) 제약 조건을 만족하면서, 종단 간 지연 시간(End-to-end Delay)을 최소화하는 라우팅 정책을 학습한다. 시뮬레이션 결과, 기존 그래프 이론 기반 방식 대비 전송 지연을 11.3% 이상 단축하고, 네트워크 부하를 14.1% 감소시키며, 트래픽 접근 성공률 및 전체 네트워크 용량을 약 두 배 증가시키는 성능 도약을 달성했다.46
핸드오버 및 실시간 충돌 위험 관리: 지구국(Ground Cell)이나 다른 위성 간의 핸드오버 결정을 최적화하기 위해 메시지 패싱 신경망과 Deep Q-Network를 결합한 MPNN-DQN 모델이 개발되어, 기존 통신 단절을 크게 줄이고 로드 밸런싱을 확보하고 있다.51 아울러 위성 개수 증가에 따른 궤도 내 교차(Conjunction) 확률을 평가하는 데 있어, GNN 아키텍처는 충돌 분석 시간을 기존의 시간/일 단위에서 10분 이내의 실시간 주기로 획기적으로 단축하여 메가 콘스텔레이션 환경에서의 자율 회피 기동 자동화의 길을 열었다.52

4.3. 능동형 우주 쓰레기 제거 및 근접 작전 (ADR & Proximity Operations)

임무 수행 중인 우주선이 고장 난 인공위성이나 소형 우주 쓰레기 밀집 구역에 접근하여 처리하는 능동형 잔해 제거(Active Debris Removal, ADR) 임무는 극도의 정밀성과 우주 자산 보호를 위한 엄격한 안전을 요한다.4 앞서 설명한 GAT-SACL 구조를 활용하면, 온보드 LiDAR와 같은 센서를 통해 실시간으로 변하는 주변 파편들의 양과 위치를 탐지하여 그래프 노드로 즉각 반영한다. RL 에이전트는 연료 효율을 최적화하는 다중 대상 호만 전이(Hohmann Transfer)나 랑데부 궤적을 계획함과 동시에, 라그랑주 제약 조건(Safety Shield)에 의해 어떠한 상황에서도 대상 및 파편과의 최소 안전 거리(예: 5미터)를 침범하지 않도록 기동 명령을 강제 제어받는다. Iridium 33 잔해 데이터셋을 활용한 시뮬레이션 등에서 다중 대상 랑데부 시퀀스 결정의 효율성이 증명되었다.18

4.4. 추진 시스템 및 열 제어 고도화 (Propulsion & Thermal Control)

GNN과 Safe RL은 항공기 및 로켓 추진 엔진의 열역학적 최적화 영역으로도 응용이 확장되고 있다. 예를 들어 GraphSLA 프레임워크는 연료 소비, 열 동역학(Thermal dynamics), 엔진 성능 간의 복잡한 물리적 비선형 관계를 GNN으로 파악하여 98%의 예측 정확도와 98.43%의 열 관리 효율성을 확보했다.55 로켓 엔진 제어(예: LUMEN 엔진)에서도 센서 노이즈와 모델링 오류를 극복하고 열역학적, 기계적 제약 내에서 연료 효율적 추력을 유지하기 위한 Safe RL 연구가 진행 중이다.56

5. 우주/항공 환경 도입을 위한 실무적 장벽: 인증 체계와 하드웨어 한계

세계 최고 수준의 연구는 단순히 시뮬레이션 환경(Python 기반 등)에서의 성능 우위를 넘어, 이 복잡한 신경망 알고리즘이 실제 물리적 비행체(Real-world Systems)의 임베디드 컴퓨터에 탑재되어 보수적인 항공우주 규제를 어떻게 통과할 것인가에 대한 공학적 비전을 명확히 제시해야 한다.

5.1. 규제 기관의 인증(Certification)과 DO-178C의 본질적 한계

상업용 항공기 및 안전 필수(Safety-critical) 우주 시스템의 소프트웨어 인증 표준인 DO-178C와 시스템 개발 지침인 ARP4754B는 철저한 화이트박스(White-box) 테스트, 구조적 커버리지 분석, 그리고 요구사항에서 코드로 이어지는 명시적이고 세분화된 추적성(Granular Traceability)을 강력히 요구한다.57 그러나 심층 신경망(GNN, RL)은 가중치(Weight)로 구성된 블랙박스(Black-box) 특성을 지니며, 데이터에 의해 기능이 결정되기 때문에 전통적인 설계 요구사항 검증 체계와 호환되지 않는다. 더욱이 RL은 학습 데이터의 편향성이나 훈련되지 않은 예외 상황(Out-of-Distribution, OOD)에 직면했을 때 예측 불가능한 치명적 행동을 할 수 있어 기존 규정만으로는 인증이 불가능하다.57

FAA 및 EASA의 AI 인증 로드맵: 규제 당국(미국 연방항공청 FAA 및 유럽항공안전청 EASA)은 AI 시스템을 자율성 개입 정도에 따라 레벨 1(인간 보조), 레벨 2A/2B(인간-AI 협업), 레벨 3(완전 자율)으로 분류하고 점진적 접근(Incremental Approach)을 강조하는 로드맵(EASA AI Roadmap 2.0 등)을 발표했다.60 이들은 기계 학습 기술이 기존의 소프트웨어/하드웨어 보증 프로세스로는 불충분함을 인정하고, 데이터 검증, 의도 검증, 일반화 한계 증명 등의 새로운 가이드라인을 수립 중이다.62
형식적 검증(Formal Verification) 기반 솔루션 제안: 항공우주공학 연구로서 규제를 뚫기 위해서는 신경망의 절대적 안전성을 수학적으로 입증하기 위한 도구의 결합이 필수적이다. 신경망 검증기인 Marabou나 이산 구간 대수학 기반의 ProVe를 활용해 도달 가능성 분석(Reachability Analysis)을 수행하거나, 수학적 모델링 환경인 Lean 4 기반의 TorchLean 등을 활용하여 실행 시맨틱과 검증 시맨틱 간의 격차를 없애는 연구가 대두되고 있다.63 교수가 주도하는 연구팀이 GNN의 메시지 패싱 시 발생할 수 있는 이상 행동 상한을 통제하는 '형식 검증이 결합된 GNN-Safe RL'을 구축한다면 규제 승인의 결정적 돌파구가 될 것이다.

5.2. 심투리얼(Sim-to-Real) 간극과 온보드 하드웨어 컴퓨팅 제약

시뮬레이션에서 훈련된 정책이 센서 노이즈, 통신 교란, 물리적 동역학의 불완전성이 존재하는 현실 세계에서 실패하는 'Sim-to-Real Gap'은 여전히 뼈아픈 장벽이다.66 나아가 위성이나 소형 드론 시스템에서는 하드웨어 측면의 강력한 제약이 존재한다.

심투랩투리얼(Sim-to-Lab-to-Real): 단일 전이를 넘어 확률적으로 보장된 안전 인식 정책 분포를 확보하기 위해, 해밀턴-야코비(HJ) 도달 가능성 분석을 통한 백업(안전) 정책과 PAC-Bayesian 프레임워크를 활용해 미지의 환경에서도 성능 및 안전 하한을 제공하는 훈련 방법론이 모색되고 있다.68
우주 등급 하드웨어 연산 제약: 우주 방사선에 견딜 수 있도록 설계된 내방사선(Radiation-hardened) 프로세서는 지상의 상용 GPU와 비교할 때 연산 능력(SWaP: Size, Weight, and Power)이 극도로 제한적이다.69 GNN의 복잡한 그래프 생성 및 메시지 패싱 연산은 이러한 임베디드 기기에서 실시간 제어 주기를 맞추는 데 치명적인 병목 현상을 일으킨다.71
FPGA 등 하드웨어 가속 기반 실시간 처리: 이를 극복하기 위해 hls4ml과 같은 오픈소스 자동화 변환 도구를 활용하여, 훈련된 GNN 및 RL 모델을 AMD-Xilinx Versal AI Core 시리즈나 Kintex Ultrascale과 같은 스페이스 그레이드 FPGA(Field Programmable Gate Array)의 하드웨어 논리 회로로 직접 합성(Synthesis)하는 연구가 필수적이다.71 스페인 UPM 연구팀은 소프트웨어/하드웨어 인더루프(Processor-in-the-Loop) 시스템에서 XtratuM 하이퍼바이저를 통해 200ms의 엄격한 제어 주기를 달성하며 온보드 임베디드 시스템에서의 실시간 추론 가능성을 입증한 바 있다.75

6. 연구 평가를 위한 표준화된 벤치마크 (Benchmarks)

초기 알고리즘의 성과를 세계 학계에 각인시키기 위해서는, 자의적으로 구성된 시뮬레이터가 아닌 전 세계 연구자들이 인정하는 공신력 있고 재현 가능한 벤치마크 위에서 베이스라인 모델(MAPPO, CPO 등) 대비 비교 우위(높은 샘플 효율성, 충돌 제로 보장)를 입증해야 한다.76

벤치마크 프레임워크	타겟 도메인 및 특화 환경	주요 특징 및 시뮬레이션 물리 엔진	참고 문헌
OrbitZoo	위성 자율 제어 및 궤도 역학	Orekit 엔진 기반 다개체 위성 환경. Starlink 실제 에페메리스 데이터와 0.16% 오차율로 검증. 충돌 확률(POC), 가변 추력 등 물리적 제약 모델링.	77
UAVBench	무인항공체(UAV) 인지 및 제어	대형언어모델(LLM)을 이용해 생성된 50,000개의 비행 시나리오 포함. 공기 역학, 다개체 협업, 윤리적 의사결정 등 자율 에이전트 평가 특화.	79
Safety Gym	일반 고차원 연속 제어	OpenAI Gym과 MuJoCo 기반. 18가지 이상의 로봇 환경에서 복잡도 높은 제약 조건 회피 및 이동 제어 성능을 측정하는 표준 환경.	7
GUARD	Safe RL 종합 검증 프레임워크	자율 주행, 다개체 충돌 방지 등 광범위한 도메인에서 CPO, PPO-Lagrangian 등 최신(SOTA) Safe RL 알고리즘들을 통합 구현하여 제공.	81
HASARD	3D 시각 기반 안전 네비게이션	에고센트릭(Egocentric) 시각 데이터를 활용한 복잡한 장애물 회피 및 공간 탐색 임무 벤치마크. 보상-비용(Cost) 상충관계 분석 특화.	82

7. 세계 최고 수준의 성과를 위한 전략적 제언 및 미래 전망

미국 내 주요 명문 대학과 연구소들은 이 분야에서 치열한 기술 선점을 벌이고 있다. MIT의 REALM 연구실(Chuchu Fan 교수)은 GCBF 등 신경망 기반 인증 및 리아프노프 배리어 다개체 제어 연구를 선도하고 있으며 83, 스탠포드의 NAV Lab(Grace Gao 교수) 및 SISL(Mykel Kochenderfer 교수)은 사이버 보안, 항법 시스템 및 충돌 방지에서의 AI 신뢰성을 집중 연구하고 있다.85 프린스턴의 Safe Robotics Lab(Jaime Fisac 교수)은 Sim-to-Lab-to-Real 보증 방법론을, 조지아 공대(Kyriakos Vamvoudakis 교수) 등은 NSF의 SLES(Safe Learning-Enabled Systems) 그랜트를 바탕으로 모델 기반 제어와 Safe RL을 결합한 수학적 아키텍처를 연구 중이다.87

이들 선도 그룹과 경쟁하고 글로벌 리더십을 확보하기 위해, 본 분석관은 다음과 같은 세 가지 혁신적이고 아직 개척되지 않은 미래 연구 방향을 제언한다.

7.1. 하드웨어-알고리즘 공동 설계형(Hardware-Aware Co-design) GNN-Safe RL

대부분의 최신 강화학습 알고리즘 연구는 여전히 클라우드나 무제한의 하이엔드 GPU(Nvidia H100 등) 자원을 전제로 수행되는 맹점을 안고 있다. 제한된 SWaP를 가진 드론용 임베디드 보드나 인공위성용 우주 등급 FPGA 상에서 실시간(Real-time)으로 추론 가능한 '경량화된 GNN 결합형 Safe RL' 구조를 세계 최초로 규명한다면 그 파급력은 지대할 것이다.70 단순히 모델을 프루닝(Pruning)하는 것을 넘어, 희소(Sparse) 그래프 어텐션 아키텍처를 설계 단계부터 하드웨어 친화적으로 구축하고, hls4ml을 통한 최적화 파이프라인과 통합하여 "극미세 지연시간을 보장하는 GNN Safe RL 반도체 구현 연구"로 특화할 것을 권장한다.

7.2. 대형언어모델(LLM)과 GNN, Safe RL의 하이브리드 인지-추론-제어 체계 구축

최근 자율 시스템 분야에서는 다중 모달(Multimodal) LLM을 활용하여 고차원적인 인간의 윤리적, 작전적 임무 목표(예: "재난 구역에서 민간인 밀집 구역의 비행 소음 및 낙하 위험을 최소화하며 접근하라")를 하위 제어 명령으로 하향식 파싱(Top-down parsing)하는 초기 단계의 연구가 태동하고 있다.79 GNN을 통해 환경의 기하학적·물리적 상호작용 토폴로지를 공간적으로 모델링하고, LLM을 통해 이러한 비정형 안전 제약사항(언어적 명령)을 Safe RL이 소화할 수 있는 수학적 제약 조건(CMDP 비용 함수 또는 CBF 경계)으로 동적 변환하는 하이브리드 아키텍처 설계는 현재 아무도 완벽히 선점하지 않은 거대한 블루오션이다.

7.3. 입증 가능한 절대적 안전성을 향한 리아프노프-GNN(Lyapunov-GNN) 융합

FAA 및 EASA의 보수적인 AI 인증 장벽(DO-178C의 확장)을 극복하기 위해서는, 단순한 '확률적(Probabilistic) 안전'을 넘어 수학적으로 증명 가능한 '절대적 하드 안전(Provable Hard Safety)' 체계를 구축해야 한다.68 기존의 제어 리아프노프 함수(CLF) 및 장벽 함수(CBF) 등 제어 이론의 엄밀한 수학적 경계(Boundary)를 GNN의 메시지 패싱 네트워크의 가중치 업데이트 손실 함수에 근원적으로 병합하여, 훈련 단계부터 절대적 불변성(Invariance)을 보장하는 차세대 Lyapunov-GNN 알고리즘을 도출하는 것이 핵심적인 해결책이 될 수 있다.21

8. 결론

그래프 신경망(GNN)과 안전 강화학습(Safe RL)의 융합은 다차원적이고 동적인 항공우주 시스템의 자율성을 인간의 인지와 제어 한계 너머로 이끄는 가장 유망한 기술적 돌파구이다. GNN은 변화하는 다수 에이전트 간의 위상적 관계와 비유클리드 공간 특성을 통찰하는 '지능형 눈'을 제공하며, Safe RL은 어떠한 미지의 영역에서도 치명적인 물리적 실패를 막아내는 '수학적 방패'로 작용한다.

GCBF+와 GAT-SACL로 대표되는 알고리즘의 최신 진보는 대규모 드론 군집의 예측형 충돌 회피와 부분 관측 환경하의 위성 궤도 근접 작전 등에서 이미 그 파괴적인 실효성을 입증하고 있다. 향후 항공우주공학 분야에서 세계 최고의 성과를 창출하기 위해서는, 단편적인 알고리즘 성능 개선 지표에 매몰되지 않아야 한다. 우주 등급 FPGA 탑재를 고려한 하드웨어 인지 최적화, DO-178C 등 엄격한 항공 안전 규제 준수를 위한 신경망의 형식적 검증(Formal Verification), 그리고 OrbitZoo와 같은 고충실도 물리 벤치마크 기반의 철저한 Sim-to-Real 극복이라는 세 가지 축을 통합하는 시스템 공학적 융합 접근이 반드시 병행되어야 한다. 본 연구 방향의 성공적인 수행은 차세대 우주 항공 자율비행 및 제어 분야에서 획기적이고 기념비적인 학술적, 산업적 표준을 제시하게 될 것이다.

참고 자료

High-Speed Vision-Based Flight in Clutter with Safety-Shielded Reinforcement Learning - arXiv, 3월 6, 2026에 액세스, https://arxiv.org/html/2602.08653v1
Cooperative Graph-Based Predictive Collision Avoidance (CGPCA): A Decentralized Framework for Safe Drone Traffic Management - IEEE Xplore, 3월 6, 2026에 액세스, https://ieeexplore.ieee.org/iel8/6287639/10820123/11096570.pdf
A Survey on Reinforcement Learning in Aviation Applications - arXiv, 3월 6, 2026에 액세스, https://arxiv.org/html/2211.02147v3
Space Processor Computation Time Analysis for Reinforcement Learning and Run Time Assurance Control Policies - arXiv, 3월 6, 2026에 액세스, https://arxiv.org/pdf/2405.06771
Roadmap to AI/ML at the FAA, 3월 6, 2026에 액세스, https://www.faa.gov/about/office_org/headquarters_offices/ang/redac/REDAC-Roadmap-to-AI-ML-at-the-FAA-SAS-Briefing-202302
Safe and Reliable Training of Learning-Based Aerospace Controllers - NSF PAR, 3월 6, 2026에 액세스, https://par.nsf.gov/servlets/purl/10584627
Comparison of Safe Reinforcement Learning Algorithms in Safety Gym - Ambuj Tewari, 3월 6, 2026에 액세스, https://www.ambujtewari.com/stats701-winter2021/student%20presentation%20slides/Jang-Moug.pdf
A Review of Safe Reinforcement Learning: Methods, Theories and Applications - arXiv, 3월 6, 2026에 액세스, https://arxiv.org/html/2205.10330v5
A Review of Safe Reinforcement Learning: Methods, Theories and Applications, 3월 6, 2026에 액세스, https://www.researchgate.net/publication/383918955_A_Review_of_Safe_Reinforcement_Learning_Methods_Theories_and_Applications
Survey of Graph Neural Networks and Applications - NIST, 3월 6, 2026에 액세스, https://www.nist.gov/publications/survey-graph-neural-networks-and-applications
Survey on Graph-Based Reinforcement Learning for Networked Coordination and Control, 3월 6, 2026에 액세스, https://www.mdpi.com/2673-4052/6/4/65
Platform-Agnostic Reinforcement Learning Framework for Safe Exploration of Cluttered Environments with Graph Attention - arXiv, 3월 6, 2026에 액세스, https://arxiv.org/html/2511.15358
Spacecraft Safe Proximity Policy Based on Graph Neural Network Safe Reinforcement Learning - ResearchGate, 3월 6, 2026에 액세스, https://www.researchgate.net/publication/401290551_Spacecraft_Safe_Proximity_Policy_Based_on_Graph_Neural_Network_Safe_Reinforcement_Learning
Graph Neural Network-based Multi-agent Reinforcement Learning for Resilient Distributed Coordination of Multi-Robot Systems - arXiv.org, 3월 6, 2026에 액세스, https://arxiv.org/html/2403.13093v1
A Survey of Safe Reinforcement Learning Methods in Robotics | ITM Web of Conferences, 3월 6, 2026에 액세스, https://www.itm-conferences.org/articles/itmconf/abs/2025/09/itmconf_cseit2025_01014/itmconf_cseit2025_01014.html
[1805.07708] A Lyapunov-based Approach to Safe Reinforcement Learning - arXiv.org, 3월 6, 2026에 액세스, https://arxiv.org/abs/1805.07708
A Survey of Safe Reinforcement Learning and Constrained MDPs: A Technical Survey on Single-Agent and Multi-Agent Safety - arXiv, 3월 6, 2026에 액세스, https://arxiv.org/html/2505.17342v1
Spacecraft Safe Proximity Policy Based on Graph Neural Network Safe Reinforcement Learning - MDPI, 3월 6, 2026에 액세스, https://www.mdpi.com/2226-4310/13/3/210
Safe exploration in model-based reinforcement learning using control barrier functions | Request PDF - ResearchGate, 3월 6, 2026에 액세스, https://www.researchgate.net/publication/365289265_Safe_exploration_in_model-based_reinforcement_learning_using_control_barrier_functions
Taxonomy and Trends in Reinforcement Learning for Robotics and Control Systems: A Structured Review - arXiv, 3월 6, 2026에 액세스, https://arxiv.org/html/2510.21758v3
Safe and Efficient Reinforcement Learning Using Disturbance-Observer-Based Control Barrier Functions - Illinois Experts, 3월 6, 2026에 액세스, https://experts.illinois.edu/en/publications/safe-and-efficient-reinforcement-learning-using-disturbance-obser/
Learning Control Barrier Functions and their application in Reinforcement Learning: A Survey - arXiv.org, 3월 6, 2026에 액세스, https://arxiv.org/html/2404.16879v1
GCBF+: A Neural Graph Control Barrier Function Framework for Distributed Safe Multi-Agent Control - DSpace@MIT, 3월 6, 2026에 액세스, https://dspace.mit.edu/bitstream/handle/1721.1/158072/GCBF_.pdf?sequence=1&isAllowed=y
Temporal Logic Guided Safe Reinforcement Learning Using Control Barrier Functions - Xiao Li, 3월 6, 2026에 액세스, https://xli4217.github.io/assets/pdf/publications/Temporal%20%20Logic%20%20Guided%20%20Safe%20%20Reinforcement%20%20Learning%20%20Using%20%20ControlBarrier%20%20Functions.pdf
Learning Control Barrier Functions and their application in Reinforcement Learning: A Survey - arXiv, 3월 6, 2026에 액세스, https://arxiv.org/pdf/2404.16879
A Graph-Based Reinforcement Learning Approach with Frontier Potential Based Reward for Safe Cluttered Environment Exploration - arXiv, 3월 6, 2026에 액세스, https://arxiv.org/html/2504.11907v2
SAFE REINFORCEMENT LEARNING BASED MULTI-ROTOR COLLISION AVOIDANCE WITH UNEXPECTED OBSTACLES - pure.kaist.ac.kr., 3월 6, 2026에 액세스, https://pure.kaist.ac.kr/en/publications/safe-reinforcement-learning-based-multi-rotor-collision-avoidance/
Towards Safe, Strategic Multi-Agent Autonomy: A Game-Theoretic Perspective - UC Berkeley, 3월 6, 2026에 액세스, https://escholarship.org/content/qt33b5c6f6/qt33b5c6f6.pdf
Probabilistic Shielding for Safe Reinforcement Learning, 3월 6, 2026에 액세스, https://ojs.aaai.org/index.php/AAAI/article/view/33767/35922
Scaling Swarm Coordination with GNNs—How Far Can We Go? - MDPI, 3월 6, 2026에 액세스, https://www.mdpi.com/2673-2688/6/11/282
Scaling Swarm Coordination with GNNs—How Far Can We Go? - Unibo, 3월 6, 2026에 액세스, https://cris.unibo.it/retrieve/6e6efa1c-c54c-4cc9-bb2c-7b521c05f9f4/ai-06-00282%20%281%29.pdf
GCBF+: A Neural Graph Control Barrier Function Framework for Distributed Safe Multi-Agent Control - arXiv.org, 3월 6, 2026에 액세스, https://arxiv.org/html/2401.14554v1
Multi-Agent Reinforcement Learning of Swarm Behaviours with Graph Neural Networks: prototype and first experiments - AMS Laurea, 3월 6, 2026에 액세스, https://amslaurea.unibo.it/id/eprint/33685/1/Master_Thesis.pdf
Spatial Temporal Graph Neural Networks for Decentralized Control of Robot Swarms (Demo Paper) - VTechWorks, 3월 6, 2026에 액세스, https://vtechworks.lib.vt.edu/bitstreams/a99274d8-4263-4f40-979e-7d5ac15e9f06/download
Survey on Graph Neural Networks - IEEE Xplore, 3월 6, 2026에 액세스, https://ieeexplore.ieee.org/iel8/6287639/6514899/10670406.pdf
Hierarchical RNNs with graph policy and attention for drone swarm - Oxford Academic, 3월 6, 2026에 액세스, https://academic.oup.com/jcde/advance-article-pdf/doi/10.1093/jcde/qwae031/57265964/qwae031.pdf
US20220124543A1 - Graph neural network and reinforcement learning techniques for connection management - Google Patents, 3월 6, 2026에 액세스, https://patents.google.com/patent/US20220124543A1/en
GCBF+: A Neural Graph Control Barrier Function Framework for Distributed Safe Multi-Agent Control - arXiv, 3월 6, 2026에 액세스, https://arxiv.org/html/2401.14554v3
[Literature Review] GCBF+: A Neural Graph Control Barrier Function Framework for Distributed Safe Multi-Agent Control - Moonlight | AI Colleague for Research Papers, 3월 6, 2026에 액세스, https://www.themoonlight.io/en/review/gcbf-a-neural-graph-control-barrier-function-framework-for-distributed-safe-multi-agent-control
[2401.14554] GCBF+: A Neural Graph Control Barrier Function Framework for Distributed Safe Multi-Agent Control - arXiv.org, 3월 6, 2026에 액세스, https://arxiv.org/abs/2401.14554
GCBF+: A Neural Graph Control Barrier Function Framework for Distributed Safe Multi-Agent Control - GitHub Pages, 3월 6, 2026에 액세스, https://mit-realm.github.io/gcbfplus/
Neural Graph Control Barrier Functions Guided Distributed Collision-avoidance Multi-agent Control - Proceedings of Machine Learning Research, 3월 6, 2026에 액세스, https://proceedings.mlr.press/v229/zhang23h.html
Spacecraft Safe Proximity Policy Based on Graph Neural Network Safe Reinforcement Learning | Semantic Scholar, 3월 6, 2026에 액세스, https://www.semanticscholar.org/paper/Spacecraft-Safe-Proximity-Policy-Based-on-Graph-Zhou-Wang/eea78cfc9ddfff3a053ae54013f44e420cca5b8b
Graph Neural Network-Enhanced Multi-Agent Reinforcement Learning for Intelligent UAV Confrontation - MDPI, 3월 6, 2026에 액세스, https://www.mdpi.com/2226-4310/12/8/687
Energy-Efficient Online Path Planning for Internet of Drones Using Reinforcement Learning, 3월 6, 2026에 액세스, https://www.mdpi.com/2224-2708/13/5/50
Deep Reinforcement Learning-Based Routing Method for Low Earth Orbit Mega-Constellation Satellite Networks with Service Function Constraints - PMC, 3월 6, 2026에 액세스, https://pmc.ncbi.nlm.nih.gov/articles/PMC11861639/
Graph-based Decentralized Task Allocation for Multi-Robot Target Localization - arXiv.org, 3월 6, 2026에 액세스, https://arxiv.org/html/2309.08896v2
A Comprehensive Review of UAV-UGV Collaboration: Advancements and Challenges, 3월 6, 2026에 액세스, https://www.mdpi.com/2224-2708/13/6/81
Graph Neural Networks for Routing Optimization: Challenges and Opportunities - MDPI, 3월 6, 2026에 액세스, https://www.mdpi.com/2071-1050/16/21/9239
Deep Reinforcement Learning-Based Routing Method for Low Earth Orbit Mega-Constellation Satellite Networks with Service Function Constraints - MDPI, 3월 6, 2026에 액세스, https://www.mdpi.com/1424-8220/25/4/1232
A Graph Reinforcement Learning-Based Handover Strategy for Low Earth Orbit Satellites under Power Grid Scenarios - MDPI, 3월 6, 2026에 액세스, https://www.mdpi.com/2226-4310/11/7/511
(PDF) Graph Neural Networks for Real-Time Collision Risk Assessment in Large Satellite Constellations - ResearchGate, 3월 6, 2026에 액세스, https://www.researchgate.net/publication/398286171_Graph_Neural_Networks_for_Real-Time_Collision_Risk_Assessment_in_Large_Satellite_Constellations
Optimizing Satellite Constellations with Graph Neural Networks | by Joe Hoeller | Medium, 3월 6, 2026에 액세스, https://medium.com/@joehoeller/optimizing-satellite-constellations-with-graph-neural-networks-6ce87d50a29f
[2602.05075] Optimizing Mission Planning for Multi-Debris Rendezvous Using Reinforcement Learning with Refueling and Adaptive Collision Avoidance - arXiv, 3월 6, 2026에 액세스, https://arxiv.org/abs/2602.05075
AI-driven propulsion optimization with a graph neural network-based framework for service level agreement prediction and performance enhancement in aerospace systems - ResearchGate, 3월 6, 2026에 액세스, https://www.researchgate.net/publication/391011983_AI-driven_propulsion_optimization_with_a_graph_neural_network-based_framework_for_service_level_agreement_prediction_and_performance_enhancement_in_aerospace_systems
Rocket Engine Control with Deep Reinforcement Learning Forschungsbericht 2025-16 - electronic library -, 3월 6, 2026에 액세스, https://elib.dlr.de/219040/1/DLR-FB-2025-16.pdf
Toward Certification of Machine-Learning Systems for Low Criticality Airborne Applications, 3월 6, 2026에 액세스, https://ntrs.nasa.gov/api/citations/20210019093/downloads/main.pdf
DO-178 Compliance Considerations for Artificial Intelligent Software | AIAA SciTech Forum, 3월 6, 2026에 액세스, https://arc.aiaa.org/doi/full/10.2514/6.2025-2511
Recommendations on Evidence and Process for Certification of Learning-enabled Components in Aerospace Systems, 3월 6, 2026에 액세스, https://ntrs.nasa.gov/api/citations/20240006865/downloads/sws-tc4-2024milestone.pdf
EASA Concept Paper: guidance for Level 1 & 2 machine learning applications Issue 02, 3월 6, 2026에 액세스, https://horizoneuropencpportal.eu/sites/default/files/2024-06/easa-concept-paper-guidance-for-level-1-and-2-machine-learning-applications-2024.pdf
Challenges, Research, and Opportunities for Human–Machine Teaming in Aviation - NASA Technical Reports Server, 3월 6, 2026에 액세스, https://ntrs.nasa.gov/api/citations/20250002888/downloads/NASA-TM-20250002888.pdf
ML meets aerospace: challenges of certifying airborne AI - Frontiers, 3월 6, 2026에 액세스, https://www.frontiersin.org/journals/aerospace-engineering/articles/10.3389/fpace.2024.1475139/full
Formal Verification of Neural Networks for Safety-Critical Tasks in Deep Reinforcement Learning, 3월 6, 2026에 액세스, https://www.auai.org/uai2021/pdf/uai2021.144.pdf
[R] TorchLean: Formalizing Neural Networks in Lean : r/MachineLearning - Reddit, 3월 6, 2026에 액세스, https://www.reddit.com/r/MachineLearning/comments/1riqzme/r_torchlean_formalizing_neural_networks_in_lean/
Marabou 2.0: A Versatile Formal Analyzer of Neural Networks, 3월 6, 2026에 액세스, https://faculty.ecnu.edu.cn/_upload/article/files/02/b2/1aeec1444b148556e72b872c483c/b0d7da67-dbc5-4935-b95f-f07efd8440d5.pdf
Bridging the Sim-to-Real Gap from the Information Bottleneck Perspective - arXiv.org, 3월 6, 2026에 액세스, https://arxiv.org/html/2305.18464v2
Sim-to-Real Deep Reinforcement Learning for Safe End-to-End Planning of Aerial Robots, 3월 6, 2026에 액세스, https://www.mdpi.com/2218-6581/11/5/109
Sim-to-Lab-to-Real: Safe Reinforcement Learning with Shielding and Generalization Guarantees (Abstract Reprint) | Proceedings of the AAAI Conference on Artificial Intelligence, 3월 6, 2026에 액세스, https://ojs.aaai.org/index.php/AAAI/article/view/30599
Artificial Intelligence-augmented Edge Processing for the Physical Layer on Telecommunication Satellites, 3월 6, 2026에 액세스, https://d-nb.info/1371133654/34
Onboard AI: Constraints and Limitations | Center for Security and Emerging Technology, 3월 6, 2026에 액세스, https://cset.georgetown.edu/publication/onboard-ai-constraints-and-limitations/
Distance-Weighted Graph Neural Networks on FPGAs for Real-Time Particle Reconstruction in High Energy Physics - DSpace@MIT, 3월 6, 2026에 액세스, https://dspace.mit.edu/bitstream/handle/1721.1/142102/fdata-03-598927.pdf?sequence=2&isAllowed=y
SPARTAN: Space Particle Tracking with Neural Networks - Nuclear Instruments, 3월 6, 2026에 액세스, https://www.nuclearinstruments.eu/projects/spartan/
Graph Neural Networks for Anomaly Detection in Spacecraft - Big Geospatial Data Management, 3월 6, 2026에 액세스, https://www.bgd.ed.tum.de/pdf/2024_GNN_AD_SpaceHardware_Kiprit.pdf
Distance-Weighted Graph Neural Networks on FPGAs for Real-Time Particle Reconstruction in High Energy Physics - Frontiers, 3월 6, 2026에 액세스, https://www.frontiersin.org/journals/big-data/articles/10.3389/fdata.2020.598927/full
Flying Smarter and Safer: Real-Time Reinforcement Learning for Collision-Avoidant Drones, 3월 6, 2026에 액세스, https://iptc.upm.es/flying-smarter-and-safer-real-time-reinforcement-learning-for-collision-avoidant-drones/
Benchmarking Safe Exploration in Deep Reinforcement Learning - OpenAI, 3월 6, 2026에 액세스, https://cdn.openai.com/safexp-short.pdf
OrbitZoo: Multi-Agent Reinforcement Learning Environment for Orbital Dynamics - arXiv.org, 3월 6, 2026에 액세스, https://arxiv.org/html/2504.04160v2
OrbitZoo: Real Orbital Systems Challenges for Reinforcement Learning - arXiv, 3월 6, 2026에 액세스, https://arxiv.org/html/2504.04160v3
UAVBench: An Open Benchmark Dataset for Autonomous and Agentic AI UAV Systems via LLM-Generated Flight Scenarios - arXiv, 3월 6, 2026에 액세스, https://arxiv.org/html/2511.11252v1
LLM and AI Agents for Autonomous Systems: A Survey of Applications, Datasets, and Security Challenges - IEEE Xplore, 3월 6, 2026에 액세스, http://ieeexplore.ieee.org/iel8/8784355/11300375/11397656.pdf
GUARD: A Safe Reinforcement Learning Benchmark - arXiv, 3월 6, 2026에 액세스, https://arxiv.org/html/2305.13681v4
HASARD: A Benchmark for Vision-Based Safe Reinforcement Learning in Embodied Agents, 3월 6, 2026에 액세스, https://openreview.net/forum?id=5BRFddsAai
REALM - MIT AeroAstro, 3월 6, 2026에 액세스, https://aeroastro.mit.edu/realm/
Discrete GCBF Proximal Policy Optimization for Multi-agent Safe Optimal Control - arXiv, 3월 6, 2026에 액세스, https://arxiv.org/html/2502.03640v1
Conference Papers | Navigation and Autonomous Vehicles (NAV) Lab, 3월 6, 2026에 액세스, https://navlab.stanford.edu/publications/conference-articles
Labs and Centers | Aeronautics and Astronautics, 3월 6, 2026에 액세스, https://aa.stanford.edu/research-impact/labs-and-centers
AE Professor's Research Aims to Improve Decision-Making in Artificial Intelligence, 3월 6, 2026에 액세스, https://dev5.ae.gatech.edu/news/2024/10/ae-professors-research-aims-improve-decision-making-artificial-intelligence
Sim-to-Lab-to-Real: Safe Reinforcement Learning with Generalization Guarantees, 3월 6, 2026에 액세스, https://saferobotics.princeton.edu/research/sim-to-lab-to-real
Real-time Graph Building on FPGAs for Machine Learning Trigger Applications in Particle Physics - arXiv, 3월 6, 2026에 액세스, https://arxiv.org/html/2307.07289v2
Spatial-Temporal-Aware Safe Multi-Agent Reinforcement Learning of Connected Autonomous Vehicles in Challenging Scenarios | Request PDF - ResearchGate, 3월 6, 2026에 액세스, https://www.researchgate.net/publication/372119932_Spatial-Temporal-Aware_Safe_Multi-Agent_Reinforcement_Learning_of_Connected_Autonomous_Vehicles_in_Challenging_Scenarios
A Lyapunov-based Approach to Safe Reinforcement Learning - Mohammad Ghavamzadeh, 3월 6, 2026에 액세스, https://mohammadghavamzadeh.github.io/PUBLICATIONS/nips18-safety.pdf

'과학기술' 카테고리의 다른 글

달 궤도 복합 임무형 위성군 궤도 설계 및 기반 기술 (0)	2026.03.16
머신러닝 기반의 도심 항공 모빌리티(UAM) 설계 및 운영 체계 고도화 (0)	2026.03.15
AI 기반 풍력발전단지 자율 제어 및 지능형 운영 기술의 기술적 고도화와 실증 전략 연구 (0)	2026.01.31
재사용 무인 우주비행체 다목적 궤적설계 및 유도항법제어(GNC) 심층 기술 분석 (0)	2026.01.13
항공우주 AI 무인기(UAV) 기술 리포트: 2023-2025 파운데이션 모델, 자율 비행 및 군집 제어의 진화와 미래 (0)	2026.01.11

파서스 리서치

차세대 항공우주 시스템을 위한 GNN 기반 Safe RL 연구 동향 및 발전 방안

1. 서론: 항공우주 자율성의 패러다임 전환과 새로운 도전