서론: 자율 시스템에서의 안전 필수성
강화학습의 약속과 위험
강화학습(Reinforcement Learning, RL)은 비디오 게임, 바둑, 로봇 운동 및 항법과 같은 다양한 고차원 영역에서 복잡한 의사결정 문제를 해결하며 눈부신 성공을 거두었다.1 지능형 에이전트가 환경과의 상호작용을 통해 보상 신호를 최대화하는 최적의 행동 정책을 학습하도록 하는 이 패러다임은 기존의 프로그래밍 방식으로는 달성하기 어려운 정교한 행동을 생성할 수 있는 잠재력을 보여주었다. 그러나 이러한 성공의 이면에는 치명적인 한계가 존재한다. 표준 RL의 핵심 학습 메커니즘인 '시행착오(trial-and-error)'는 잠재적으로 위험하거나 치명적인 행동의 탐색을 본질적으로 수반한다.5 시뮬레이션 환경에서는 이러한 실패가 단지 학습 과정의 일부로 간주될 수 있지만, 로봇 공학, 자율 주행, 의료 시스템과 같이 안전이 최우선인 실제 시스템에서는 단 한 번의 치명적인 실패도 용납될 수 없다.8 이로 인해 표준 RL을 실제 안전 필수 시스템에 직접 배포하는 것은 근본적으로 불가능에 가깝다.

안전 강화학습의 영역 정의
이러한 근본적인 문제를 해결하기 위해 등장한 분야가 바로 안전 강화학습(Safe Reinforcement Learning, Safe RL)이다. Safe RL은 강화학습의 하위 분야로서, 에이전트의 학습 및 배포 과정 전반에 걸쳐 명시적으로 안전 제약을 통합하는 것을 목표로 한다.5 이는 단순히 보상을 최대화하는 것을 넘어, 사전에 정의된 안전 경계를 위반하지 않으면서 최적의 성능을 달성하는 제약된 최적화(constrained optimization)라는 새로운 패러다임으로의 전환을 의미한다. Safe RL은 에이전트가 잠재적으로 치명적인 실패를 피하도록 보장함으로써, 이론적인 RL 방법과 실제 응용 사이의 간극을 메우는 것을 목표로 한다.5
보고 내용
이 보고서는 Safe RL이 인공지능을 시뮬레이션 환경에서 벗어나 신뢰할 수 있는 실제 세계로 이끄는 결정적인 패러다임 전환을 대표한다고 주장한다. 이는 기계 학습, 제어 이론, 정형 기법(formal methods)의 강력한 융합을 통해 달성된다. 이러한 융합은 물리적 AI(Physical AI) 및 항공우주와 같은 고위험 영역에서 검증 가능하게 안전하고 강인한 자율 시스템의 개발을 가능하게 한다. 이 보고서는 Safe RL의 기본 원리부터 최첨단 방법론, 실제 응용 사례, 그리고 미래의 도전 과제와 전망에 이르기까지 심층적인 분석을 제공할 것이다.
섹션 1: 안전 강화학습의 기본 원리
1.1. 안전의 정의: 보상 최대화에서 제약된 최적화로의 패러다임 전환
표준 강화학습과 안전 강화학습의 가장 근본적인 차이는 최적화 목표의 정의 방식에 있다. 이 차이를 이해하는 것은 Safe RL 분야 전체를 관통하는 핵심이다.
표준 강화학습의 목표
표준 RL은 마르코프 결정 과정(Markov Decision Process, MDP)이라는 수학적 프레임워크 내에서 작동한다. MDP는 상태 집합, 행동 집합, 전이 함수, 보상 함수로 구성된 튜플로 정의된다.10 이 프레임워크에서 에이전트의 목표는 할인된 누적 보상의 기댓값을 최대화하는 정책을 찾는 것이다. 이 목표는 최종적으로 얻게 될 누적 보상의 총량에만 초점을 맞출 뿐, 그 목표를 달성하기 위해 에이전트가 어떤 경로를 거쳤는지에 대해서는 무관심하다. 즉, 과정의 안전성보다는 결과의 최적성만을 평가한다.
안전 강화학습의 목표
반면, Safe RL은 동일한 보상 함수를 최대화하는 것을 목표로 하지만, 하나 이상의 안전 제약 조건을 만족시키는 조건 하에서 이를 수행한다.5 이는 최적화 문제를 근본적으로 변화시킨다. 가장 일반적인 형태의 안전 제약은 누적 비용(cost)의 기댓값이 특정 임계값 이하로 유지되어야 한다는 것이다. 이로써 Safe RL의 목표는 '제약 하에서의 보상 최대화'라는 제약된 최적화 문제가 된다.
음수 보상을 넘어서
Safe RL을 단순히 안전하지 않은 행동에 대해 큰 음수 보상을 주는 것과 혼동해서는 안 된다. 이는 보장 없이 안전을 유도하려는 '해킹(hack)'에 가까운 방식이다.14 음수 보상 방식은 에이전트가 위험을 감수하고 더 큰 보상을 얻는 '보상 해킹(reward hacking)'의 가능성을 열어두지만, Safe RL의 제약된 최적화 프레임워크는 안전 제약을 반드시 지켜야 할 규칙으로 설정한다. 목표는 안전하지 않은 행동을 단지 '억제'하는 것이 아니라, 공식적으로 '제한'하는 것이다.
이러한 관점의 전환은 AI 에이전트 설계 철학의 근본적인 변화를 의미한다. 표준 RL은 순수하게 결과론적(consequentialist)이다. 즉, 행동의 가치는 오직 최종 보상에 대한 기여도로만 판단된다. 반면, Safe RL은 의무론적(deontological) 요소를 도입한다. 특정 행동이나 경로는 잠재적인 보상 극대화 능력과 무관하게, 안전 제약이라는 규칙에 따라 제한되거나 금지된다. 이 철학적 차이를 인식하는 것은 Safe RL이 왜 RL의 단순한 변형이 아니라, 원칙적으로 구별되는 필수적인 분야인지를 깊이 이해하게 해준다.
| 특징 | 표준 강화학습 (RL) | 안전 강화학습 (Safe RL) |
| 주요 목표 | 누적 보상의 기댓값 최대화 | 안전 제약 조건 하에서 누적 보상 최대화 |
| 수학적 프레임워크 | 마르코프 결정 과정 (MDP) | 제약된 마르코프 결정 과정 (CMDP) |
| 핵심 문제 | 탐색과 활용의 균형 (Exploration-Exploitation) | 탐색, 활용, 안전의 균형 (Exploration-Exploitation-Safety) |
| 최적성의 개념 | 가장 높은 누적 보상을 달성하는 정책 | 제약 조건을 만족하는 정책 중 가장 높은 보상을 달성하는 정책 |
| 위험 처리 | 암묵적 (예: 낮은 보상) 또는 무시 | 명시적 (예: 비용 함수 및 제약 조건) |
| 일반적 응용 분야 | 게임, 시뮬레이션, 저위험 환경 | 로봇 공학, 자율 주행, 항공우주, 금융, 의료 |
| 핵심 한계 | 실제 배포 시 안전성 보장 부재 | 제약 조건으로 인한 과도한 보수성 또는 학습 비효율성 |
1.2. 수학적 기반: 제약된 마르코프 결정 과정 (CMDPs)
Safe RL 문제의 표준적인 수학적 모델은 제약된 마르코프 결정 과정(Constrained Markov Decision Process, CMDP)이다. CMDP는 Safe RL 알고리즘을 설계하고 분석하기 위한 이론적 토대를 제공한다.
공식적 정의
CMDP는 표준 MDP에 하나 이상의 비용 함수와 그에 상응하는 비용 임계값을 추가하여 확장한 모델이다. CMDP에서의 목표는 제약 조건을 만족하는 정책 집합 ΠD 내에서 보상 기댓값을 최대화하는 정책을 찾는 것이다.3
제약 조건의 함의
제약 조건의 도입은 문제의 본질을 여러 방식으로 변화시킨다. 예를 들어, 제약이 없는 MDP에서는 최적 정책이 결정론적(deterministic)일 수 있지만, CMDP에서는 제약 조건을 만족시키기 위해 확률론적(stochastic) 정책이 필요할 수 있다. 이는 특정 상태에서 여러 행동을 확률적으로 선택함으로써 평균 비용을 임계값 이하로 유지해야 할 수 있기 때문이다. 이는 안전을 위해 무작위화가 본질적일 수 있음을 시사한다.15
또한, CMDP는 개별 상태-행동 쌍을 피하는 것보다 더 유연하고 현실적인 제약 조건을 모델링할 수 있다. 예를 들어, 로봇의 총 에너지 소비량이나 자율주행차의 전체 주행 경로에 대한 평균 위험 노출도와 같은 궤적 수준(trajectory-level)의 제약 조건을 자연스럽게 다룰 수 있다.3 이는 단일 행동의 안전성만으로는 평가하기 어려운 복잡한 안전 요구사항을 반영하는 데 매우 중요하다.
1.3. 안전-성능 딜레마: 탐색-활용-안전 삼중고
고전적 딜레마
표준 RL에서 에이전트는 '탐색-활용 딜레마(exploration-exploitation dilemma)'에 직면한다. 즉, 더 나은 보상을 발견하기 위해 새로운 행동을 시도하는 '탐색'과 현재까지의 지식을 바탕으로 최선의 행동을 선택하는 '활용' 사이에서 균형을 맞춰야 한다.11
세 번째 축: 안전
Safe RL은 여기에 '안전'이라는 세 번째, 종종 상충되는 목표를 추가한다. 엄격한 안전 제약은 에이전트가 환경을 탐색할 수 있는 능력을 심각하게 제한할 수 있다. 잠재적으로 높은 보상을 얻을 수 있는 영역이 위험하다는 이유로 탐색이 원천적으로 차단될 수 있으며, 이는 결국 차선책(suboptimal) 정책으로 수렴하게 만들 수 있다.5 이로 인해 에이전트는 학습을 위한 '탐색', 좋은 성능을 위한 '활용', 그리고 제약 조건 준수를 위한 '안전'이라는 세 가지 목표 사이에서 끊임없는 긴장 관계에 놓이게 된다. 이 '탐색-활용-안전 삼중고(trilemma)'를 효과적으로 해결하는 것이 바로 Safe RL 알고리즘이 직면한 핵심적인 도전 과제이다.
섹션 2: 안전 강화학습 방법론의 분류
Safe RL의 목표를 달성하기 위해 다양한 접근 방식이 제안되었다. 이 방법론들은 크게 최적화 기준을 수정하는 방식, 학습 과정을 제약하는 방식, 외부 지식을 활용하는 방식, 그리고 환경 모델의 사용 여부로 분류할 수 있다.
| 분류 | 접근 방식 | 기본 원리 | 주요 강점 | 주요 한계 | 대표 자료 |
| 최적화 기준 수정 | 위험 민감 RL (Risk-Sensitive RL) | 보상의 기댓값 대신 분산이나 CVaR과 같은 위험 척도를 최적화 목표에 포함 | 드물지만 치명적인 사건에 대한 회피 능력이 내재됨 | 위험 척도 정의가 어렵고, 과도하게 보수적일 수 있음 | 8 |
| 최악 경우 최적화 (Worst-Case Optimization) | 불확실성 하에서 가장 나쁜 시나리오를 가정하고 성능을 최적화 | 강인성(robustness)을 보장함 | 지나치게 비관적인 정책을 학습할 수 있음 | 1 | |
| 학습 과정 제약 | 안전한 탐색 (Safe Exploration) | 알려진 안전 영역에서 시작하여 점진적으로 탐색 범위를 확장하거나, 불확실성이 높은 영역을 회피 | 학습 초기부터 치명적인 실패를 방지 | 탐색이 제한되어 최적 정책을 찾지 못할 수 있음 | 5 |
| 차폐 (Shielding) | 학습 에이전트의 행동을 감시하여 위험한 행동이 제안되면 안전한 행동으로 대체 | 성능 학습과 안전 보장을 분리하여 강력한 안전 보장 가능 | 차폐 메커니즘 설계에 도메인 지식이 필요하며, 유연성이 떨어질 수 있음 | 18 | |
| 복구 정책 (Recovery Policies) | 위험한 상태에 진입했을 때 안전한 상태로 복귀시키는 별도의 정책을 학습 | 실패로부터 회복하는 능력을 명시적으로 학습 | 복구 정책 학습이 어렵고, 모든 위험 상태를 예측하기 힘듦 | 5 | |
| 외부 지식 활용 | 인간 참여형 루프 (Human-in-the-Loop) | 인간이 학습 과정에 직접 개입하여 피드백을 제공하거나 위험한 행동을 중단시킴 | 복잡하고 정의하기 어려운 안전 개념을 학습할 수 있음 | 인간의 개입 비용이 높고 확장성이 떨어짐 | 5 |
| 모방 학습 (Imitation Learning) | 전문가의 안전한 시연 데이터를 통해 초기 정책을 학습하여 안전한 시작점 확보 | 안전한 초기 행동을 보장하고 학습 속도를 높임 | 전문가의 성능을 뛰어넘기 어렵고, 시연 데이터에 없는 상황에 취약 | 5 | |
| 인간 피드백 기반 안전 RL (Safe RLHF) | '유용성(보상)'과 '무해성(비용)'에 대한 인간 선호를 분리하여 별도의 모델을 학습하고 제약된 최적화 수행 | 미묘한 인간의 가치를 AI 시스템에 정렬시킬 수 있음 | 데이터 수집 및 모델링 과정이 복잡하고 비용이 많이 듦 | 20 |
2.1. 최적화 기준 수정: 위험 민감 및 최악 경우 접근법
이 접근법들은 RL의 목표 함수 자체를 수정하여 안전을 내재적으로 고려하도록 만든다.
- 위험 민감 RL (Risk-Sensitive RL): 표준 RL이 보상의 기댓값만을 고려하는 것과 달리, 위험 민감 RL은 보상 분포의 분산이나 다른 위험 척도를 함께 고려한다. 예를 들어, 지수 효용 함수를 사용하거나, 최악의 x% 시나리오에서의 평균 손실을 의미하는 조건부 위험 가치(Conditional Value at Risk, CVaR)와 같은 척도를 최적화하여 드물지만 치명적인 결과를 피하도록 정책을 학습시킨다.8
- 최악 경우 최적화 (Worst-Case Optimization): 이 접근법은 환경의 전이 확률이나 보상 함수에 불확실성이 존재한다고 가정하고, 가능한 모든 불확실성 중에서 가장 불리한 경우(worst-case)를 기준으로 성능을 최적화한다. 이는 강인한 RL(Robust RL)의 원리와 직접적으로 연결되며, 어떠한 상황에서도 최소한의 성능을 보장하는 매우 보수적인 정책을 학습하게 된다.1
2.2. 학습 과정 제약: 안전한 탐색, 차폐, 그리고 복구
이 접근법들은 학습 알고리즘 자체에 제약을 가하여 에이전트가 위험한 행동을 시도하는 것을 방지한다.
- 안전한 탐색 (Safe Exploration): 이는 "위험한 행동을 시도하지 않고 어떻게 학습할 수 있는가?"라는 근본적인 질문에 답하려는 시도이다. 주요 기법으로는 외부 전문가 지식을 통합하거나 10, 불확실성 추정을 통해 모델이 확신하지 못하는 (따라서 잠재적으로 위험한) 상태-행동 공간을 피하는 방법이 있다. 또 다른 접근법은 초기에 알려진 안전한 정책에서 시작하여 점진적으로 안전성이 검증된 영역으로만 탐색을 확장해 나가는 것이다.5
- 차폐 및 안전 계층 (Shielding and Safety Layers): 이 방식은 RL 에이전트 위에 '차폐(shield)' 또는 '안전 계층(safety layer)'이라는 감독 메커니즘을 두는 것이다. 이 계층은 RL 에이전트가 제안하는 모든 행동을 실시간으로 감시한다. 만약 제안된 행동이 사전에 정의된 안전 규칙을 위반할 것으로 판단되면, 차폐 계층이 개입하여 해당 행동을 거부하고 대신 알려진 안전한 행동으로 대체한다.1 이 방법은 고성능 정책 학습과 안전 보장을 분리할 수 있다는 장점이 있다.
- 복구 정책 (Recovery Policies): 이 접근법은 에이전트가 의도치 않게 위험하거나 바람직하지 않은 상태에 빠졌을 경우를 대비한다. 주 정책과는 별개로, 위험 상태에서 안전한 상태 영역으로 에이전트를 되돌리는 것을 전문으로 하는 '복구 정책'을 학습시킨다. 이는 일종의 안전장치 역할을 한다.5
이러한 방법론들은 크게 두 가지 철학으로 나눌 수 있다: 선제적(proactive) 안전과 대응적(reactive) 안전. 위험 민감 RL과 같은 선제적 방법은 본질적으로 안전한 정책을 학습하려고 시도한다. 이는 안전을 에이전트의 핵심 '두뇌'에 통합하는 것과 같다. 반면, 차폐나 복구 정책과 같은 대응적 방법은 주 학습 에이전트가 위험한 행동을 제안할 수 있다고 가정하고, 이를 실시간으로 감지하고 수정하는 외부 감독관을 두는 것과 같다. 실제 세계의 강인한 시스템은 이 두 가지를 모두 필요로 할 가능성이 높다. 즉, 위험한 행동을 덜 제안하도록 선제적으로 학습된 에이전트와, 만일의 사태에 대비한 최종 보증을 위한 대응적 차폐 계층을 결합하는 '신뢰하되, 검증하라(trust but verify)' 원칙을 구현하는 것이다.
2.3. 외부 지식 활용: 인간 참여형 루프, 모방 학습, 그리고 Safe RLHF 패러다임
에이전트가 처음부터 모든 것을 학습하는 대신, 외부의 지식 소스를 활용하여 안전성을 높이는 방법이다.
- 인간 참여형 루프 (Human-in-the-Loop): 이 접근법은 학습 과정에 인간 감독자를 직접 통합한다. 인간은 에이전트의 행동에 대해 실시간으로 교정 피드백을 제공하거나, 위험한 행동을 사전에 차단하거나, 안전한 행동 시범을 보여줄 수 있다.5
- 모방 학습 (Imitation Learning): 에이전트는 전문가(인간 또는 다른 안전한 컨트롤러)의 시연 데이터로부터 초기 정책을 학습한다. 이를 통해 에이전트의 초기 행동이 합리적이고 안전하게 시작되도록 보장하며, 위험한 무작위 탐색 단계를 크게 줄일 수 있다.5
- 인간 피드백 기반 안전 강화학습 (Safe RLHF): 특히 대규모 언어 모델(LLM)과 관련하여 최근 각광받는 이 패러다임은 인간의 선호를 '유용성(helpfulness)'이라는 보상 측면과 '무해성(harmlessness)'이라는 비용/안전 측면으로 명시적으로 분리한다. 분리된 선호도를 바탕으로 별도의 보상 모델과 비용 모델을 학습시킨 후, 라그랑주 방법과 같은 제약된 최적화 기법을 사용하여 두 목표 사이의 균형을 동적으로 조절하며 모델을 미세 조정한다.20 이는 복잡하고 미묘한 인간의 가치를 AI 시스템에 정렬시키는 구조화된 방법을 제공한다.
2.4. 모델 기반 대 모델 프리 안전 강화학습
환경의 동역학 모델을 학습하는지 여부에 따라 Safe RL 방법론을 나눌 수도 있다.
- 모델 기반 Safe RL (Model-Based Safe RL): 이 방법은 환경과 상호작용하며 환경의 동역학 모델(즉, 특정 상태에서 특정 행동을 했을 때 다음 상태와 보상이 어떻게 될지 예측하는 모델)을 학습한다. 이 학습된 모델을 사용하여 실제 세계에서 행동을 실행하기 전에 시뮬레이션을 통해 그 결과를 예측하고 안전성을 검증할 수 있다.5 이는 데이터 효율성을 크게 높일 수 있지만, 학습된 모델의 정확도에 크게 의존한다는 단점이 있다.
- 모델 프리 Safe RL (Model-Free Safe RL): 이 방법은 환경의 동역학을 명시적으로 모델링하지 않고, 오직 상호작용을 통해 얻은 경험으로부터 직접 정책이나 가치 함수를 학습한다. 데이터 효율성은 떨어질 수 있지만, 모델 부정확성 문제에서 비교적 자유롭다는 장점이 있다.23 널리 사용되는 많은 정책 경사(policy gradient) 기반 Safe RL 알고리즘들이 이 범주에 속한다.
섹션 3: 심화 주제 및 증명 가능한 보장을 향한 탐구
Safe RL 연구의 최전선에서는 경험적 안전성을 넘어, 수학적으로 증명 가능한(provable) 안전 보장을 제공하려는 노력이 활발히 이루어지고 있다. 이는 제어 이론, 정형 기법, 강인 최적화 등 다른 분야의 엄격한 방법론을 RL에 통합하는 것을 포함한다.
3.1. 제어 이론적 접근: Lyapunov 함수와 Barrier 인증서를 통한 안정성 보장
제어 이론은 수십 년간 동적 시스템의 안정성과 안전성을 분석하고 보장하는 강력한 도구를 개발해왔다. Safe RL은 이러한 도구들을 학습 기반 시스템에 적용한다.
- Lyapunov 안정성 (Lyapunov Stability): Lyapunov 함수는 동적 시스템의 안정성을 증명하기 위해 사용되는 제어 이론의 핵심 개념이다.24 직관적으로 Lyapunov 함수는 시스템이 항상 소멸시켜야 하는 일종의 '에너지' 함수와 같다. 만약 시스템의 모든 궤적을 따라 값이 감소하는 함수를 찾을 수 있다면, 그 시스템은 안정적이라고 보장할 수 있다.
- Safe RL에서의 응용: Safe RL에서는 제어 Lyapunov 함수(Control Lyapunov Function, CLF)를 사용하여 에이전트의 행동을 제약한다. 에이전트는 Lyapunov 함수의 값을 감소시키는 행동만을 선택하도록 제한되며, 이를 통해 시스템이 안정적인 영역 내에 머무르도록 보장한다.25 일부 연구에서는 가치 함수나 Q-함수 자체를 후보 Lyapunov 함수로 학습하여, 보상 최적화와 안정성 보장을 통합하기도 한다.27
- 제어 Barrier 함수 (Control Barrier Functions, CBFs): CBF는 상태 공간 내에 '안전 집합(safe set)'을 정의하는 데 사용된다. 에이전트의 행동은 시스템이 이 안전 집합을 벗어나지 않도록, 즉 경계(barrier)를 넘지 않도록 제약된다.7 이는 상태 제약 조건을 직접적으로 강제하는 효과적인 방법을 제공한다.
3.2. 검증 가능한 안전성의 추구: 정형 기법과 런타임 보증
정형 기법(Formal Methods)은 수학적 논리와 증명 체계를 사용하여 시스템이 특정 안전 명세를 만족함을 공식적으로, 컴퓨터로 검사 가능한 증명을 통해 보장하는 방법이다. 이는 가장 높은 수준의 신뢰도를 제공한다.
- RL과의 시너지: 핵심 아이디어는 정형 기법의 보장 능력과 RL의 유연성을 결합하는 것이다. 오프라인에서 정형 검증 도구를 사용하여 특정 제어 선택들의 집합이 안전함을 증명한다. 그 후, RL 에이전트는 이 검증된 안전 집합 내에서만 정책을 학습하고 최적화하도록 허용된다.28
- 정당화된 추측 제어 및 런타임 보증 (Justified Speculative Control & Runtime Assurance, RTA): 이 아키텍처는 모델과 실제 현실 사이의 불일치 문제를 다룬다. 런타임 모니터가 시스템의 실제 행동이 검증된 모델과 일치하는지 지속적으로 확인한다. 만약 일치한다면, RL 에이전트는 안전한 행동으로 제한된다. 만약 불일치가 감지되면, 에이전트는 (이제는 부정확해진) 모델에 대해 검증되지 않은 행동을 탐색하는 것이 '정당화'되며, 이 탐색의 목표는 모델이 유효한 상태 공간으로 다시 돌아가는 방법을 학습하는 것이다.28 NASA의 STARS 프로그램에서 사용되는 RTA는 이러한 개념의 실제 구현 사례로, RL 에이전트가 생성한 명령을 사전에 정의된 안전 규칙에 따라 확인하고 필요한 경우 수정하는 자동화된 제약 검사기 역할을 한다.30
3.3. 명목상의 안전을 넘어서: 강인하고 적대적으로 인식하는 강화학습
시뮬레이션에서 학습된 정책은 'sim-to-real' 격차(모델 불일치, 센서 노이즈, 환경 섭동 등)로 인해 실제 세계에서는 실패하는 경우가 많다.16 강인한(Robust) RL은 이러한 불확실성에 대해 회복력 있는 정책을 학습하는 것을 목표로 한다.
- 문제 공식화: 강인한 RL은 종종 2인 제로섬 게임(또는 미니맥스 문제)으로 공식화된다. 여기서 RL 에이전트(주인공)는 보상을 최대화하려고 노력하는 반면, 가상의 적(adversary)은 상태, 행동 또는 전이 동역학에 외란(disturbance)을 가하여 보상을 최소화하려고 시도한다.16
- 이중 강인성 (Dual Robustness): 여기서 중요한 점은 적이 성능을 공격하여 에이전트가 임무에 실패하게 만들 수도 있고, 안전을 공격하여 에이전트가 제약 조건을 위반하게 만들 수도 있다는 것이다.12 진정으로 강인하고 안전한 정책은 두 가지 유형의 공격 모두에 대해 탄력적이어야 한다. 이를 위해서는 최악의 적대적 조건 하에서 보상을 최대화하고 안전을 보장하는 이중 목표를 최적화해야 한다.
이러한 심화 주제들은 Safe RL이 경험적 학문에서 공학적 엄격함을 갖춘 분야로 발전하는 과정을 보여준다. 표준 RL은 아무런 보장을 제공하지 않는다. 기본적인 Safe RL은 기댓값이나 점근적인 보장을 제공하여 학습 중 위반이 발생할 수 있다. 제어 이론적 방법은 모델이 정확하다는 가정 하에 안정성과 불변성에 대한 더 강력한 보장을 제공한다. 정형 기법은 형식 모델에 대해 논리적 증명을 제공하지만 모델 불일치에 취약하다. 마지막으로, 강인한 RL은 모델 불일치 문제를 직접 다루며 불확실성 집합에 대한 보장을 제공한다. 이 발전 과정은 실제 배포에 대한 요구가 증가함에 따라 더 강력하고 엄격하며 실용적인 형태의 안전 보장에 대한 요구도 함께 증가하는 명확한 추세를 보여준다. 궁극적인 목표는 이 모든 접근 방식의 강점을 결합한 프레임워크를 구축하는 것이다.
섹션 4: 최신 기술 및 현재 연구 동향 (2024-2025)
Safe RL 분야는 빠르게 발전하고 있으며, 주요 AI 학회에서는 새로운 도전 과제를 해결하기 위한 혁신적인 방법론이 지속적으로 발표되고 있다. 특히 데이터 희소성 문제 해결, 주요 연구 그룹의 동향, 그리고 새로운 패러다임의 등장이 주목할 만하다.
4.1. 데이터 희소성 해결: 샘플 효율적 및 오프라인 안전 RL의 발전
샘플 비효율성 문제
실제 물리 시스템에 RL을 적용하는 데 있어 가장 큰 장벽 중 하나는 학습에 수백만 번의 상호작용이 필요하다는 점이다. 이는 시간과 비용이 많이 들 뿐만 아니라, 물리적 장비에 손상을 입히거나 위험을 초래할 수 있어 비현실적이다.6
효율적인 안전 정책 최적화
이 문제를 해결하기 위해, 최근 연구(NeurIPS 2024)는 샘플 효율성을 높이는 데 초점을 맞추고 있다. 한 가지 접근법은 보상과 비용 목표의 그래디언트 충돌을 신호로 사용하여 샘플 크기를 동적으로 조절하는 것이다. 보상 증가와 비용 감소라는 두 목표가 서로 충돌할 때 더 많은 데이터를 수집하고, 두 목표가 일치할 때는 데이터 수집을 줄임으로써 불필요한 환경 상호작용을 최소화하고 학습 효율을 높인다.35
안전한 오프라인 RL
또 다른 혁신적인 패러다임은 '안전한 오프라인 RL(Safe Offline RL)'이다. 이 접근법은 위험한 온라인 탐색 과정을 완전히 생략하고, 사전에 수집된 고정된 데이터셋만으로 안전한 정책을 학습하는 것을 목표로 한다.36 이는 과거의 운영 로그는 풍부하지만 실시간 탐색의 위험을 감수할 수 없는 산업, 의료, 금융 분야에 매우 적합하다. 최근 연구(ICLR 2024)에서는 '실행 가능성 유도 확산 모델(feasibility-guided diffusion model)'을 사용하여 주어진 오프라인 데이터 내에서 가능한 가장 큰 안전 영역을 식별하고, 그 영역 내에서만 작동하는 정책을 학습함으로써 엄격한 '하드' 안전 제약 조건을 강제하는 FISOR와 같은 방법론이 제안되었다.36 이처럼 오프라인 Safe RL의 부상은 단순한 점진적 개선이 아니라, 실제 데이터의 제약 조건에 의해 촉발된 패러다임의 전환이다. 이는 많은 안전 필수 분야에서 RL 배포를 위한 유일하게 실행 가능한 경로가 될 수 있음을 시사한다.
4.2. 분야를 선도하는 주요 연구 기관 및 기여자
Safe RL 연구는 전 세계 유수의 대학 및 연구소에서 활발히 진행되고 있다.
- 학문적 허브: UC 버클리(Sergey Levine, Anca Dragan), 앨버타 대학(Richard Sutton), 스탠포드 대학(Emma Brunskill, Mykel Kochenderfer), 매사추세츠 애머스트 대학(Philip Thomas), 텍사스 오스틴 대학(Peter Stone) 등은 RL 및 Safe RL 연구의 중심지로 알려져 있다.37
- InterACT Lab (UC 버클리) 사례 연구: 특히 Anca Dragan과 Sergey Levine 교수가 이끄는 UC 버클리의 InterACT Lab은 Safe RL과 인간-로봇 상호작용(HRI)의 교차점에서 중요한 연구를 수행하고 있다. 이들의 최근 연구는 보상 해킹, 부분적 관측 가능성 하에서의 AI 기만, 인간 행동에 안전하게 영향을 미치는 방법 학습 등 안전의 사회-기술적 측면에 깊이 초점을 맞추고 있다.40 이는 Safe RL이 단순한 기술적 제약 만족을 넘어 인간과의 신뢰로운 상호작용을 지향하고 있음을 보여준다.
- 주요 연구자: 이 외에도 Shangding Gu와 같은 연구자들은 포괄적인 서베이 논문을 통해 분야의 지식을 체계화하고 발전에 기여하고 있다.41
4.3. 주요 AI 학회에서 나타나는 최신 동향 (NeurIPS, ICML, ICLR, CoRL)
NeurIPS, ICML, ICLR과 같은 최상위 AI 학회와 로봇 공학에 특화된 CoRL은 Safe RL의 최신 연구 동향을 파악할 수 있는 중요한 창구이다.40 최근 학회들에서 나타나는 주요 동향은 다음과 같다.
- 동향 1: 하드 제약 조건으로의 이동: '소프트' 제약 조건(예: 평균적으로 안전 만족)에서 '하드' 제약 조건(예: 위반 횟수 0)으로의 이동이 뚜렷하다. 이는 실제 시스템이 요구하는 더 엄격하고 신뢰할 수 있는 안전 보장을 반영하는 것으로, 앞서 언급된 FISOR 논문이 이러한 흐름의 대표적인 예이다.36
- 동향 2: 파운데이션 모델과 Safe RL의 결합: 대규모 언어 모델(LLM)과 같은 파운데이션 모델과 Safe RL의 교차점은 새로운 연구 분야로 부상하고 있다. 여기에는 안전이 중요한 상황에서 LLM을 인간-기계 상호작용에 활용하는 것 45과, Safe RLHF와 같은 원리를 적용하여 파운데이션 모델 자체를 더 안전하게 만드는 것 20이 포함된다.
- 동향 3: 안전한 전이 및 일반화: 시뮬레이터와 같은 통제된 환경에서 안전하게 학습된 정책이, 약간 다른 새로운 실제 환경으로 전이되었을 때도 안전성을 유지하도록 보장하는 것은 매우 중요하고 활발한 연구 분야이다. 이는 주로 강인한 학습 기법을 통해 해결되고 있다.32
섹션 5: 안전 필수 분야에서의 응용
Safe RL의 진정한 가치는 이론적 정교함을 넘어 실제 세계의 안전 필수 시스템에 성공적으로 적용될 때 증명된다. 물리적 AI, 항공우주, 자율주행차 등 다양한 고위험 분야에서 Safe RL은 신뢰할 수 있는 자율성을 구현하기 위한 핵심 기술로 주목받고 있다. 이 분야들 전반에 걸쳐 공통적으로 나타나는 한 가지 중요한 아키텍처 패턴은, RL 에이전트와 같은 고성능 적응형 학습 구성요소가 보다 보수적이고 종종 정형적으로 검증된 안전 보증 계층의 감독 하에 작동하는 하이브리드 안전 아키텍처이다. 이는 복잡한 환경에서의 고성능(RL의 장점)과 검증 가능한 안전 보장(정형 기법 및 제어 이론의 장점) 사이의 근본적인 긴장 관계에 대한 실용적인 공학적 해결책이며, Safe RL의 실제 배포를 위한 핵심 열쇠이다.
5.1. 물리적 AI: 안전한 인간-로봇 상호작용 및 정교한 조작
인간-로봇 상호작용 (HRI)
공유 작업 공간에서 인간의 안전을 보장하는 것이 핵심 과제이다. 이를 위해 제안된 '인간 중심 SRRL 프레임워크'는 세 가지 핵심 단계를 제시한다 47.
- 안전한 탐색 (Safe Exploration): 로봇이 인간의 개입이나 피드백을 통해 안내받으며, 해를 끼치지 않고 환경에 대해 학습하는 단계이다.22
- 안전 가치 정렬 (Safety Value Alignment): 로봇이 인간의 의도와 안전 선호도를 학습하고 자신의 가치 체계와 정렬하는 단계이다.
- 안전한 협업 (Safe Collaboration): 로봇이 인간과 함께 공유된 목표를 안전하고 효과적으로 달성할 수 있게 되는 최종 단계이다.
접촉이 많은 조작 (Contact-Rich Manipulation)
부품 조립이나 섬세한 물체 파지와 같은 작업에서 안전은 단순한 충돌 회피를 넘어 접촉력을 조절하고 안정성을 보장하는 것을 포함한다. 최근 연구에서는 Safe RL을 에너지 기반 수동 제어(energy-based passive control)와 결합하여 로봇의 상호작용이 안정적이고 과도한 에너지를 축적하지 않도록 보장함으로써 로봇이나 환경의 손상을 방지하는 접근법을 탐구하고 있다.49
시뮬레이션 플랫폼
ReDMan과 같은 특화된 시뮬레이션 플랫폼의 개발은 안전한 조작 알고리즘을 실제 세계에 배포하기 전에 벤치마킹하고 발전시키는 데 매우 중요하다. ReDMan은 젠가 게임이나 장애물이 있는 집 청소와 같이 안전 인식이 필요한 작업을 포함하여, 알고리즘의 안전 성능을 현실적인 시나리오에서 평가할 수 있도록 지원한다.51
5.2. 항공우주 및 자율 비행: UAV에서 위성 편대까지
무인 항공기(UAV) 비행 제어
Safe RL은 불확실한 동역학과 예상치 못한 조건에 대응하면서도 실속(stall) 방지나 비행 가능 영역 유지와 같은 안전 제약을 준수하는 적응형 비행 컨트롤러를 개발하는 데 사용된다.52 RL의 적응성과 전통적인 제어기 또는 정형 기법의 보장 능력을 결합한 하이브리드 접근법이 널리 연구되고 있다.7 미국 항공우주학회(AIAA)의 학회 논문들은 특히 고장 허용 제어(fault-tolerant control)와 강인성에 중점을 둔 연구가 활발함을 보여준다.53
위성 제어 및 우주 탐사
우주 응용 분야에서 안전은 타협할 수 없는 가치이다. 미 해군 연구소의 APIARY 실험은 국제 우주 정거장(ISS)에서 자유 비행 로봇을 제어하기 위해 RL을 최초로 사용하여 중요한 기술적 돌파구를 마련했다.57 NASA의 STARS 프로그램은 안전 우선 아키텍처의 대표적인 예로, 다중 위성 제어를 위해 RL을 사용하되, 런타임 보증(RTA) 모듈을 통해 RL 에이전트의 행동이 안전 분리, 동적 속도 제한과 같은 사전 정의된 안전 규칙을 준수하는지 실시간으로 검증하고 수정한다.30 또한 RL은 우주선의 자율 유도, 항법 및 에너지 관리 최적화에도 활발히 탐색되고 있다.58
5.3. 자율주행차: 검증 가능하게 안전한 항법 및 제어를 향한 길
핵심 과제
자율주행 분야에서 RL 적용의 가장 큰 장벽은 공공 도로에서 시행착오 기반의 학습이 용납되지 않는다는 점이다.61
산업계의 접근 방식
Waymo나 Tesla와 같은 기업들은 경로 계획이나 의사결정과 같은 특정 구성요소에 RL을 활용한다.62 그러나 이들은 드물게 발생하는 '엣지 케이스' 시나리오를 안전하게 처리하기 위해 대규모 시뮬레이션 기반 학습에 크게 의존한다.61 안전은 종종 하이브리드 아키텍처를 통해 보장되는데, RL/ML 기반 계획기의 출력을 책임 민감 안전(Responsibility-Sensitive Safety, RSS)과 같은 별도의 규칙 기반 안전 시스템이 검증하는 형태를 띤다.62
연구 초점
학계 연구는 차선 변경, 장애물 회피와 같은 특정 주행 작업을 위한 Safe RL 알고리즘 개발에 중점을 둔다. 종종 시뮬레이션 환경에서 적대적 에이전트를 사용하여 제어 정책의 취약점을 발견하고 보완하는 방식으로 연구가 진행된다.64
| 도메인 | 주요 안전 과제 | 대표적인 Safe RL 기법 | 실제 사례 / 사례 연구 |
| 물리적 AI | 인간-로봇 충돌, 불안정한 접촉력, 장비 손상 | 인간 중심 SRRL 프레임워크, 차폐, 에너지 기반 제어, 모방 학습 | ReDMan 시뮬레이션 플랫폼 51, 접촉이 많은 조작 작업 49 |
| 항공우주 | 비행 가능 영역 이탈, 시스템 고장, 위성 충돌, 통신 두절 | 런타임 보증 (RTA), 제어 Barrier 함수, 강인 RL, 하이브리드 제어 | NASA STARS 프로그램 30, NRL APIARY 실험 57, UAV 고장 허용 제어 53 |
| 자율주행차 | 충돌, 교통 법규 위반, 예측 불가능한 상황 대응 | 대규모 시뮬레이션 기반 학습, 규칙 기반 안전 계층 (예: RSS), 적대적 테스트 | Waymo 및 Tesla의 ML 기반 계획기 62, 시뮬레이션 기반 안전성 테스트 64 |
| 산업 자동화 | 작업자 안전 위협, 장비 고장, 생산 라인 중단 | 오프라인 Safe RL, Sim-to-Real 전이 학습, 제약된 정책 최적화 | 로봇 팔 경로 최적화, 자원 할당, 에너지 관리 6 |
| 금융 | 막대한 재정 손실, 시장 불안정성, 규제 위반 | 위험 민감 RL (예: CVaR 최적화), 제약된 포트폴리오 관리 | 알고리즘 트레이딩에서의 위험 관리, 변동성 제약 하의 포트폴리오 최적화 5 |
5.4. 더 넓은 산업적 영향: 자동화, 금융, 그리고 헬스케어
산업 자동화
RL은 제조 공정, 로봇 팔의 움직임, 자원 할당을 최적화하는 데 사용된다. 장비 손상을 방지하고 작업자의 안전을 보장하는 것이 매우 중요하다.33 샘플 비효율성과 sim-to-real 격차가 주요 도전 과제이므로, 오프라인 및 모델 기반 방법이 특히 매력적인 해결책으로 부상하고 있다.6
금융
표준 RL이 알고리즘 트레이딩 및 포트폴리오 관리에 사용되는 반면 67, Safe RL은 리스크 관리에 필수적이다. 목표는 변동성, 최대 손실폭(maximum drawdown) 또는 기타 위험 지표에 대한 제약을 준수하면서 수익을 극대화하여 치명적인 재정 손실을 방지하는 것이다.5
헬스케어
응용 분야로는 치료 약물 투여량 최적화(예: 인슐린) 및 로봇 수술이 있다. 안전은 타협의 대상이 아니며, 실험적인 치료가 안전 수준을 초과하지 않고 수술 로봇이 위험한 움직임을 하지 않는다는 보장이 필요하다.5 이 분야에서는 인간 참여형 루프 시스템이 널리 사용된다.
섹션 6: 앞으로의 길: 도전 과제, 시너지, 그리고 미래 전망
Safe RL 분야는 상당한 발전을 이루었지만, 실제 세계에 널리 보급되기까지는 여전히 중요한 도전 과제들을 해결해야 한다. 이러한 과제들을 극복하고, 다른 AI 분야와의 시너지를 창출하는 것이 미래 연구의 핵심 방향이 될 것이다. 궁극적으로 이 분야의 목표는 단순히 기술적인 '안전(safety)'을 넘어, 인간 이해관계자들에게 신뢰를 줄 수 있는 사회-기술적 속성인 '신뢰성(trustworthiness)'으로 진화하고 있다. 신뢰할 수 있는 시스템은 안전하고, 강인하며, 신뢰성 있을 뿐만 아니라, 그 결정 과정을 인간이 이해할 수 있도록 해석 가능해야 한다.
6.1. 주요 도전 과제: 확장성, 보수성, 그리고 무위반 보장
- 확장성 및 복잡성 (Scalability and Complexity): 다수의 에이전트가 상호작용하고 상태 공간이 매우 큰 복잡한 실제 산업 시스템에 Safe RL을 적용하는 것은 여전히 상당한 난제이다.6 다중 에이전트 안전(Safe MARL)은 또 다른 차원의 복잡성을 야기한다.
- 보수성 문제 (The Conservatism Problem): 안전을 보장하기 위해 많은 알고리즘이 과도하게 보수적으로 작동하여, 지나치게 조심스러워짐으로써 상당한 성능을 희생하는 경향이 있다.72 '필요한 만큼만 안전하고, 가능한 한 높은 성능을 내는' 최적의 균형점을 찾는 것은 중요한 미해결 과제이다.
- 무위반 보장 (Zero-Violation Guarantees): 대부분의 Safe RL 알고리즘은 기댓값이나 점근적으로 안전을 보장하는데, 이는 학습 과정 중에 여전히 제약 조건 위반이 발생할 수 있음을 의미한다. 많은 실제 응용 분야에서는 단 한 번의 위반도 용납될 수 없다. 전체 학습 과정 동안 증명 가능하게 위반이 전혀 없는(zero-violation) 방법을 개발하는 것은 이 분야의 '성배'와 같은 목표이다.6
6.2. 시너지의 최전선: 신뢰할 수 있는 시스템을 위한 Safe RL과 설명 가능한 AI (XAI)의 교차점
- '블랙박스' 문제: 심층 강화학습 모델의 불투명성은 특히 항공, 의료와 같은 규제 산업에서 신뢰와 채택을 가로막는 주요 장벽이다.74 시스템이 왜 그런 결정을 내렸는지 이해할 수 없다면, 그 시스템을 전적으로 신뢰하기 어렵다.
- 안전을 위한 XAI (XAI for Safety): 설명 가능한 AI(Explainable AI, XAI) 기술은 Safe RL 에이전트가 특정 결정을 내린 이유에 대해 인간이 이해할 수 있는 통찰력을 제공할 수 있다. 이는 시스템을 디버깅하고, 검증하며, 규제 준수를 입증하고, 운영자의 신뢰를 구축하는 데 매우 중요하다.75
- 통합 프레임워크: 미래는 안전, 검증, 해석 가능성을 통합한 프레임워크에 있다. 예를 들어, 먼저 정책을 해석 가능한 형태로 추상화한 다음, 이 추상화된 모델을 정형적으로 검증하여 안전성을 보장할 수 있다. 만약 잠재적인 실패 가능성이 발견된다면, XAI가 제공하는 설명을 바탕으로 해당 실패를 유발하는 반례(counterexample)를 효율적으로 탐색(반증, falsification)할 수 있다. 이는 신뢰와 검증의 선순환 구조를 만들어낸다.70 NASA의 STARS 프로그램이 RL, RTA와 함께 '유연한 인간-자율성 팀 인터페이스'를 핵심 목표로 포함시킨 것은 인간이 시스템의 일부라는 점을 인정한 것으로, 이러한 통합적 접근의 중요성을 보여준다.30
6.3. 결론 및 미래 연구 방향
연구 결과 종합
이 보고서는 Safe RL이 제약된 최적화에 기반을 둔, 표준 RL과는 구별되는 성숙하고 빠르게 발전하는 분야임을 확인했다. Safe RL의 실제 적용은 제어 이론, 정형 기법, 강인 최적화의 기술들을 융합하여, 종종 하이브리드 안전 아키텍처 형태로 구현된다. 이러한 접근법을 통해 AI는 시뮬레이션을 넘어 물리적 세계와 항공우주와 같은 고위험 환경에서 신뢰할 수 있는 파트너가 될 잠재력을 갖추게 되었다.
미래 연구 방향
앞으로의 연구는 식별된 도전 과제와 최신 동향을 바탕으로 다음과 같은 방향으로 나아갈 것으로 전망된다 1.
- 샘플 효율적이고 확장 가능한 오프라인 알고리즘 개발: 실제 데이터의 제약을 극복하기 위한 연구는 계속해서 중요할 것이다.
- 증명 가능한 무위반 보장 방법론 연구: 안전이 최우선인 분야에 대한 신뢰를 확보하기 위한 핵심 연구 분야이다.
- 다중 에이전트 안전(Safe MARL)의 발전: 여러 자율 시스템이 협력하는 미래 환경에 필수적인 기술이다.
- XAI와의 심층적 통합: 단순히 안전한 시스템을 넘어, 인간이 신뢰하고 협력할 수 있는 '신뢰할 수 있는(trustworthy)' 자율 시스템을 구축하기 위한 연구가 가속화될 것이다.
Safe RL의 다음 개척지는 더 나은 알고리즘뿐만 아니라, 더 나은 인간-AI 시스템을 구축하는 것이다. XAI와의 통합은 선택적 추가 기능이 아니라, 사회적으로 수용되고 규제될 수 있는 신뢰 가능한 자율성을 달성하기 위한 필수 구성 요소이다.
참고 자료
- A Review of Safe Reinforcement Learning: Methods, Theories and Applications, 9월 18, 2025에 액세스, https://www.researchgate.net/publication/383918955_A_Review_of_Safe_Reinforcement_Learning_Methods_Theories_and_Applications
- Towards Robust and Safe Reinforcement Learning with Benign Off-policy Data, 9월 18, 2025에 액세스, https://proceedings.mlr.press/v202/liu23l/liu23l.pdf
- CONSTRAINED MARKOV DECISION PROCESSES VIA BACKWARD VALUE FUNCTIONS - OpenReview, 9월 18, 2025에 액세스, https://openreview.net/pdf?id=S1lyyANYwr
- Reinforcement Learning in Robotics: A Survey, 9월 18, 2025에 액세스, https://www.ri.cmu.edu/pub_files/2013/7/Kober_IJRR_2013.pdf
- Research Topics in Safe Reinforcement Learning - S-Logix, 9월 18, 2025에 액세스, https://slogix.in/machine-learning/research-topics-in-safe-reinforcement-learning/
- (PDF) Safe Exploration in RL-Based Industrial Automation ..., 9월 18, 2025에 액세스, https://www.researchgate.net/publication/392622011_Safe_Exploration_in_RL-Based_Industrial_Automation_Constraints_Handling_and_Failure_Recovery
- End-to-End Safe Reinforcement Learning through Barrier Functions for Safety-Critical Continuous Control Tasks, 9월 18, 2025에 액세스, http://www.cds.caltech.edu/~murray/preprints/comb19-aiaa.pdf
- Safe Reinforcement Learning 01: A Brief Introduction - People @EECS, 9월 18, 2025에 액세스, https://people.eecs.berkeley.edu/~shangding.gu/courses/safe_rl/Course__Safe_RL_lecture_01.pdf
- [2505.17342] A Survey of Safe Reinforcement Learning and Constrained MDPs: A Technical Survey on Single-Agent and Multi-Agent Safety - arXiv, 9월 18, 2025에 액세스, https://arxiv.org/abs/2505.17342
- A Comprehensive Survey on Safe Reinforcement Learning, 9월 18, 2025에 액세스, https://www.jmlr.org/papers/volume16/garcia15a/garcia15a.pdf
- Reinforcement learning - Wikipedia, 9월 18, 2025에 액세스, https://en.wikipedia.org/wiki/Reinforcement_learning
- ON THE ROBUSTNESS OF SAFE REINFORCEMENT LEARNING UNDER OBSERVATIONAL PERTURBATIONS - OpenReview, 9월 18, 2025에 액세스, https://openreview.net/pdf?id=jbIYfq4Tr-
- A Lyapunov-based Approach to Safe Reinforcement Learning, 9월 18, 2025에 액세스, http://papers.neurips.cc/paper/8032-a-lyapunov-based-approach-to-safe-reinforcement-learning.pdf
- What's so different between RL with safety rewards and safe/constrained RL? - Reddit, 9월 18, 2025에 액세스, https://www.reddit.com/r/reinforcementlearning/comments/1ildbz0/whats_so_different_between_rl_with_safety_rewards/
- Constrained MDPs and the reward hypothesis, 9월 18, 2025에 액세스, http://readingsml.blogspot.com/2020/03/constrained-mdps-and-reward-hypothesis.html
- Safe Reinforcement Learning With Dual Robustness, 9월 18, 2025에 액세스, https://www.computer.org/csdl/journal/tp/2024/12/10637743/1ZqVmdNROCY
- Safe Reinforcement Learning in Constrained Markov Decision Processes, 9월 18, 2025에 액세스, https://realworldml.github.io/files/cr/24_SNO_MDP_paper.pdf
- Safety-Oriented Reinforcement Learning - Emergent Mind, 9월 18, 2025에 액세스, https://www.emergentmind.com/topics/safety-oriented-reinforcement-learning
- Safe Reinforcement Learning for Human-Robot Collaboration - DiVA portal, 9월 18, 2025에 액세스, https://www.diva-portal.org/smash/get/diva2:1713407/FULLTEXT01.pdf
- Safe RLHF: Safe Reinforcement Learning from Human Feedback ..., 9월 18, 2025에 액세스, https://openreview.net/forum?id=TyFrPOKYXw
- Safe Reinforcement Learning in Constrained Markov Decision Processes, 9월 18, 2025에 액세스, http://proceedings.mlr.press/v119/wachi20a/wachi20a.pdf
- A human-centered safe robot reinforcement learning framework with interactive behaviors, 9월 18, 2025에 액세스, https://pmc.ncbi.nlm.nih.gov/articles/PMC10665848/
- A Safe Exploration Approach to Constrained Markov Decision Processes - GitHub, 9월 18, 2025에 액세스, https://raw.githubusercontent.com/mlresearch/v258/main/assets/ni25a/ni25a.pdf
- A Review On Safe Reinforcement Learning Using Lyapunov and Barrier Functions - arXiv, 9월 18, 2025에 액세스, https://arxiv.org/abs/2508.09128
- Lyapunov Design for Safe Reinforcement Learning - Journal of ..., 9월 18, 2025에 액세스, https://www.jmlr.org/papers/volume3/perkins02a/perkins02a.pdf
- A Review On Safe Reinforcement Learning Using Lyapunov and Barrier Functions, 9월 18, 2025에 액세스, https://www.researchgate.net/publication/394457829_A_Review_On_Safe_Reinforcement_Learning_Using_Lyapunov_and_Barrier_Functions
- A Review On Safe Reinforcement Learning Using Lyapunov and Barrier Functions - arXiv, 9월 18, 2025에 액세스, https://arxiv.org/html/2508.09128v1
- Safe Reinforcement Learning via Formal Methods: Toward Safe ..., 9월 18, 2025에 액세스, https://cdn.aaai.org/ojs/12107/12107-13-15635-1-2-20201228.pdf
- Safe Reinforcement Learning via Formal Methods: Toward Safe Control Through Proof and Learning | Proceedings of the AAAI Conference on Artificial Intelligence, 9월 18, 2025에 액세스, https://ojs.aaai.org/index.php/AAAI/article/view/12107
- The Safe Trusted Autonomy for Responsible Space Program - arXiv, 9월 18, 2025에 액세스, https://arxiv.org/html/2501.05984v1
- Robust Reinforcement Learning: A Review of Foundations and Recent Advances - MDPI, 9월 18, 2025에 액세스, https://www.mdpi.com/2504-4990/4/1/13
- Robust Transfer of Safety-Constrained Reinforcement Learning Agents - OpenReview, 9월 18, 2025에 액세스, https://openreview.net/forum?id=rvXdGL4pCJ
- (PDF) Reinforcement Learning in Real-World Industrial Applications - ResearchGate, 9월 18, 2025에 액세스, https://www.researchgate.net/publication/391371025_Reinforcement_Learning_in_Real-World_Industrial_Applications
- A Survey of Reinforcement Learning for Optimization in Automation - arXiv, 9월 18, 2025에 액세스, https://arxiv.org/html/2502.09417v1
- NeurIPS Poster Enhancing Efficiency of Safe Reinforcement ..., 9월 18, 2025에 액세스, https://neurips.cc/virtual/2024/poster/93629
- Safe Offline Reinforcement Learning with Feasibility-Guided ..., 9월 18, 2025에 액세스, https://openreview.net/forum?id=j5JvZCaDM0
- Who are the most prominent researchers in reinforcement learning? - Quora, 9월 18, 2025에 액세스, https://www.quora.com/Who-are-the-most-prominent-researchers-in-reinforcement-learning
- Peter Stone :: Professor at the University of Texas at Austin, Department of Computer Science :: Research, 9월 18, 2025에 액세스, https://www.cs.utexas.edu/~pstone/research.shtml
- Stanford AI Safety, 9월 18, 2025에 액세스, https://aisafety.stanford.edu/
- InterACT, 9월 18, 2025에 액세스, https://interact.berkeley.edu/publications.html
- A Review of Safe Reinforcement Learning: Methods, Theory and Applications - arXiv, 9월 18, 2025에 액세스, https://arxiv.org/abs/2205.10330
- Call for Papers - CoRL 2025, 9월 18, 2025에 액세스, https://www.corl.org/contributions/call-for-papers
- The NeurIPS/ICLR/ICML Journal-to-Conference Track, 9월 18, 2025에 액세스, https://icml.cc/public/JournalToConference
- ICLR 2025 Papers, 9월 18, 2025에 액세스, https://iclr.cc/virtual/2025/papers.html
- Safe human-robot interaction and planning - MIT AeroAstro, 9월 18, 2025에 액세스, https://aeroastro.mit.edu/realm/our-research/safe-human-robot-interaction-and-planning/
- A Survey of Constraint Formulations in Safe Reinforcement ... - IJCAI, 9월 18, 2025에 액세스, https://www.ijcai.org/proceedings/2024/0913.pdf
- A Human-Centered Safe Robot Reinforcement Learning Framework with Interactive Behaviors - arXiv, 9월 18, 2025에 액세스, https://arxiv.org/html/2302.13137
- A Human-Centered Safe Robot Reinforcement Learning ... - arXiv, 9월 18, 2025에 액세스, https://arxiv.org/pdf/2302.13137
- (PDF) Towards Passive Safe Reinforcement Learning: A Comparative Study on Contact-rich Robotic Manipulation - ResearchGate, 9월 18, 2025에 액세스, https://www.researchgate.net/publication/389546801_Towards_Passive_Safe_Reinforcement_Learning_A_Comparative_Study_on_Contact-rich_Robotic_Manipulation
- Towards Passive Safe Reinforcement Learning: A Comparative Study on Contact-rich Robotic Manipulation - arXiv, 9월 18, 2025에 액세스, https://arxiv.org/html/2503.00287v1
- ReDMan: Reliable Dexterous Manipulation with Safe ... - Haoran Geng, 9월 18, 2025에 액세스, https://geng-haoran.github.io/pdf/RedMan.pdf
- Safe Curriculum Learning for Optimal Flight Control of Unmanned Aerial Vehicles with Uncertain System Dynamics - TU Delft Research Portal, 9월 18, 2025에 액세스, https://research.tudelft.nl/en/publications/safe-curriculum-learning-for-optimal-flight-control-of-unmanned-a
- Safe & Intelligent Control: Hybrid and Distributional Reinforcement Learning for Automatic Flight Control | AIAA SciTech Forum - AIAA ARC, 9월 18, 2025에 액세스, https://arc.aiaa.org/doi/full/10.2514/6.2025-2795
- Uncertainty-Driven Distributional Reinforcement Learning for Flight Control | AIAA SciTech Forum, 9월 18, 2025에 액세스, https://arc.aiaa.org/doi/abs/10.2514/6.2025-2793
- Safe Path Planning of UAV Based on Reinforcement Learning in Probabilistic Environments, 9월 18, 2025에 액세스, https://arc.aiaa.org/doi/10.2514/6.2023-2677
- Application of Reinforcement Learning for Autonomous Dynamic Soaring | AIAA SciTech Forum, 9월 18, 2025에 액세스, https://arc.aiaa.org/doi/10.2514/6.2025-2290
- Reinforcement Learning is Making a Buzz in Space - Naval Research Laboratory (NRL), 9월 18, 2025에 액세스, https://www.nrl.navy.mil/Media/News/Article/4297593/reinforcement-learning-is-making-a-buzz-in-space/
- Reinforcement learning in spacecraft control applications: Advances, prospects, and challenges | Request PDF - ResearchGate, 9월 18, 2025에 액세스, https://www.researchgate.net/publication/362761568_Reinforcement_learning_in_spacecraft_control_applications_Advances_prospects_and_challenges
- Autonomous Spacecraft Attitude Control Using Deep Reinforcement Learning - NASA Technical Reports Server (NTRS), 9월 18, 2025에 액세스, https://ntrs.nasa.gov/api/citations/20205008891/downloads/elkins_iac_RLADCS_v2_2_reformat.pdf
- Meta-Reinforcement Learning for Spacecraft Proximity Operations Guidance and Control in Cislunar Space - Dr. Hanspeter Schaub, 9월 18, 2025에 액세스, https://hanspeterschaub.info/Papers/grads/GiovanniFereoli.pdf
- Reinforcement Learning in Autonomous Vehicles ... - SmythOS, 9월 18, 2025에 액세스, https://smythos.com/managers/ops/reinforcement-learning-in-autonomous-vehicles/
- Do Waymo and Tesla use machine learning for planning or rule-based systems? - Reddit, 9월 18, 2025에 액세스, https://www.reddit.com/r/SelfDrivingCars/comments/1i3i9sp/do_waymo_and_tesla_use_machine_learning_for/
- Reinforcement Learning: The Unseen Driver in Autonomous Vehicles | by Parth Goyal, 9월 18, 2025에 액세스, https://medium.com/@parth082006/reinforcement-learning-the-unseen-driver-in-autonomous-vehicles-df308305fd4d
- Deep reinforcement learning methods for autonomous driving safety and interactivity | Stanford Digital Repository, 9월 18, 2025에 액세스, https://purl.stanford.edu/mz221hz7239
- A Review of Reinforcement Learning in Financial Applications - Annual Reviews, 9월 18, 2025에 액세스, https://www.annualreviews.org/content/journals/10.1146/annurev-statistics-112723-034423
- A Survey of Reinforcement Learning for Optimization in Automation - arXiv, 9월 18, 2025에 액세스, https://arxiv.org/pdf/2502.09417
- Reinforcement Learning in Finance - ExtractAlpha, 9월 18, 2025에 액세스, https://extractalpha.com/2024/08/22/reinforcement-learning-in-finance/
- 10 Real-Life Applications of Reinforcement Learning - Neptune.ai, 9월 18, 2025에 액세스, https://neptune.ai/blog/reinforcement-learning-applications
- A Review of Reinforcement Learning in Financial Applications - arXiv, 9월 18, 2025에 액세스, https://arxiv.org/html/2411.12746v1
- Verification-Guided Falsification for Safe RL via Explainable Abstraction and Risk-Aware Exploration - arXiv, 9월 18, 2025에 액세스, https://arxiv.org/html/2506.03469v1
- A Review of Safe Reinforcement Learning: Methods, Theories and Applications - arXiv, 9월 18, 2025에 액세스, https://arxiv.org/html/2205.10330v5
- Conservative and Adaptive Penalty for Model-Based Safe Reinforcement Learning - The Association for the Advancement of Artificial Intelligence, 9월 18, 2025에 액세스, https://cdn.aaai.org/ojs/20478/20478-13-24491-1-2-20220628.pdf
- Conservative Exploration in Reinforcement Learning, 9월 18, 2025에 액세스, http://proceedings.mlr.press/v108/garcelon20a/garcelon20a.pdf
- Formally Verifying Deep Reinforcement Learning Controllers with Lyapunov Barrier Certificates - arXiv, 9월 18, 2025에 액세스, https://arxiv.org/html/2405.14058v1
- Explainable AI for Safe and Trustworthy Autonomous Driving: A Systematic Review, 9월 18, 2025에 액세스, https://www.researchgate.net/publication/378314625_Explainable_AI_for_Safe_and_Trustworthy_Autonomous_Driving_A_Systematic_Review
- (PDF) A Survey of Safe Reinforcement Learning Methods in Robotics, 9월 18, 2025에 액세스, https://www.researchgate.net/publication/395361319_A_Survey_of_Safe_Reinforcement_Learning_Methods_in_Robotics
- A Survey of Safe Reinforcement Learning Methods in Robotics - ITM Web of Conferences, 9월 18, 2025에 액세스, https://www.itm-conferences.org/articles/itmconf/pdf/2025/09/itmconf_cseit2025_01014.pdf
'과학기술' 카테고리의 다른 글
| 로봇 공학의 진화와 미래: ROS 2에 대한 종합적 분석 (0) | 2025.10.10 |
|---|---|
| 다중 카메라 조류 군집 탐지 및 3D 추적 시스템 (0) | 2025.10.09 |
| 아르테미스 계획 분석: 현황 및 미래 전망 (0) | 2025.10.06 |
| 한국과 미국 국가 공역 시스템의 심층 비교 분석 (0) | 2025.10.03 |
| 달 PNT: 위성항법 컨스텔레이션 아키텍처에 대한 종합 분석 (0) | 2025.10.02 |