본문 바로가기
과학기술

위성영상 파운데이션 모델 학습을 위한 데이터셋 생성ㆍ관리 기법 연구

by 리서치가이 2026. 1. 2.

1. 서론

1.1 연구 배경: 뉴 스페이스(New Space) 시대와 데이터 패러다임의 전환

현대 우주 산업은 국가 주도의 '올드 스페이스(Old Space)'에서 민간이 주도하는 '뉴 스페이스(New Space)'로 급격히 전환되고 있다. 소형 위성 군집 운용, 재사용 발사체 기술의 발전, 그리고 센서 기술의 혁신은 매일 수 테라바이트(TB)에 달하는 지구 관측(Earth Observation, EO) 데이터를 쏟아내고 있다. 이러한 데이터의 폭증은 지구 환경 모니터링, 재난 재해 대응, 정밀 농업, 국방 안보 등 다양한 분야에서 전례 없는 기회를 제공하지만, 동시에 전통적인 데이터 분석 방법론의 한계를 드러내고 있다. 과거 위성영상 분석은 소수의 전문가가 육안으로 판독하거나, 특정 지역 및 특정 객체(예: 건물, 도로)만을 대상으로 하는 지도 학습(Supervised Learning) 기반의 인공지능 모델을 개발하는 방식에 의존해 왔다. 그러나 이러한 방식은 라벨링 된 데이터(Labeled Data) 구축에 막대한 비용과 시간이 소요된다는 치명적인 병목 현상(Bottleneck)을 안고 있다. 특히 위성영상은 일반 자연 영상(Natural Image)과 달리 다분광(Multi-spectral), 초분광(Hyperspectral), SAR(Synthetic Aperture Radar) 등 다양한 모달리티를 가지며, 구름, 대기 효과, 계절적 변화 등 복잡한 변수들이 존재하여 고품질의 라벨 데이터를 확보하는 것이 더욱 어렵다.1

 

 

이러한 한계를 극복하기 위해 최근 인공지능 학계와 산업계에서는 '파운데이션 모델(Foundation Model)'이 새로운 대안으로 부상하고 있다. 파운데이션 모델은 라벨이 없는 대규모 데이터셋(Unlabeled Dataset)을 이용하여 영상의 일반적인 특징 표현(Feature Representation)을 사전 학습(Pre-training)한 후, 적은 양의 라벨 데이터만으로도 다양한 다운스트림 작업(Downstream Tasks)에 적응(Fine-tuning)할 수 있는 범용 AI 모델이다. 자연어 처리(NLP) 분야의 GPT 시리즈가 보여준 혁신은 비전 분야로 확장되어, 메타(Meta)의 DINOv2나 SAM(Segment Anything Model)과 같은 모델들이 등장하였으며, 이는 위성영상 분석 분야에도 지각 변동을 일으키고 있다.3

 

1.2 연구의 필요성: 데이터 중심(Data-Centric) AI로의 전환

위성영상 파운데이션 모델의 성능은 모델 아키텍처의 고도화보다는 학습 데이터의 품질과 다양성에 의해 결정된다. NASA와 IBM이 개발한 'Prithvi' 모델이나 유럽우주국(ESA) 데이터를 활용한 각종 연구들은 수백만 장 이상의 위성영상을 학습에 활용하고 있다.4 그러나 단순히 데이터의 양(Volume)을 늘리는 것은 위성영상 분야에서 반드시 성능 향상을 보장하지 않는다. 위성영상은 전 지구를 주기적으로 촬영하기 때문에 해양, 사막, 극지방과 같이 정보량이 적거나 변화가 거의 없는 데이터가 전체의 상당 부분을 차지한다. 또한 구름이나 안개로 인해 지표면이 가려진 데이터, 센서 오류가 포함된 데이터 등은 모델의 학습 효율을 저하시키고 컴퓨팅 자원을 낭비하는 주범이 된다.

 

특히 본 과제와 같이 7개월이라는 단기간과 6천만 원이라는 제한된 예산 내에서 유의미한 연구 성과를 도출하기 위해서는, 무작정 거대 모델을 학습하는 '모델 중심(Model-Centric)' 접근보다는, 학습 데이터의 효율성을 극대화하는 '데이터 중심(Data-Centric)' 접근이 필수적이다. 어떤 데이터를 학습시켜야 모델이 지구의 지리적, 기후적, 환경적 특성을 가장 잘 이해할 수 있을지 선별하는 '지능형 데이터 큐레이션(Intelligent Data Curation)' 기술이 연구의 핵심이 되어야 한다. 이는 향후 한국항공우주연구원(KARI)의 다목적실용위성(KOMPSAT) 및 차세대중형위성(CAS500) 데이터를 활용한 독자적인 한국형 위성 파운데이션 모델 구축을 위한 선행 연구로서도 매우 중요한 가치를 지닌다.6

 

1.3 연구 목표 및 범위

본 연구는 위성영상 파운데이션 모델의 학습 효율성 및 성능 극대화를 위한 "데이터셋 생성, 정제, 및 효율적 관리 기법"을 개발하는 것을 최종 목표로 한다. 이를 달성하기 위한 세부 목표는 다음과 같다.

 

  1. 위성영상 특화 전처리 및 조화(Harmonization) 기술 개발: 서로 다른 해상도와 분광 특성을 가진 다중 센서(Sentinel-2, Landsat, KOMPSAT 등) 데이터를 파운데이션 모델 입력에 최적화된 형태로 변환하는 파이프라인 구축.
  2. 데이터 가치 평가 및 코어셋(Coreset) 선별 알고리즘 연구: 엔트로피(Entropy) 기반의 불확실성 필터링과 Data Shapley 등 가치 평가 기법을 적용하여, 전체 데이터 중 학습 기여도가 높은 핵심 데이터만을 선별하는 기술 개발.
  3. 파운데이션 모델 적응 및 검증 체계 수립: 구축된 데이터셋을 활용하여 Prithvi 등 최신 파운데이션 모델을 미세 조정(Fine-tuning)하고, 선형 탐침(Linear Probing) 등의 기법으로 데이터셋의 유효성을 정량적으로 검증.

 

2. 관련 기술 현황 및 분석

2.1 위성영상 파운데이션 모델 기술 동향

최근 2~3년 사이 위성영상 분야의 파운데이션 모델 연구는 폭발적으로 증가하였다. 대표적인 모델들은 대규모 비지도 학습을 통해 일반화된 특징을 추출하는 데 주력하고 있다.

 

모델명 개발 주체 주요 특징 및 아키텍처 학습 데이터 시사점
Prithvi NASA / IBM - ViT 기반의 Masked Autoencoder (MAE)

- 시공간(Spatio-temporal) 임베딩 적용

- 100M, 300M, 600M 파라미터 규모 4
HLS (Harmonized Landsat Sentinel)

전 지구 시계열 데이터
다중 센서 데이터의 조화(Harmonization)가 모델 성능의 핵심 전제조건임을 시사함.
SatMAE Stanford Univ. - 시간/분광 정보를 그룹화하여 마스킹(Group Masking)

- 독립적(Independent) vs 일관적(Consistent) 마스킹 전략 비교 9
fMoW-Sentinel

(기능적 지도 데이터)
시계열 변화 탐지를 위해서는 시간적 맥락을 고려한 마스킹 및 임베딩 전략이 필요함.
Scale-MAE UC Berkeley - GSD(지상 샘플 거리) 기반 위치 인코딩

- Laplacian Pyramid Decoder 활용 10
다양한 해상도(0.1m ~ 30m)의 통합 데이터 해상도가 상이한 위성영상을 단일 모델로 처리하기 위한 스케일 불변(Scale-invariant) 특징 학습의 중요성.
Google Earth AI Google - 멀티모달(이미지+텍스트+지리정보) 추론 에이전트 결합

- Gemini 모델 연동 3
Google Earth 엔진의 방대한 아카이브 단순 비전 모델을 넘어 지리적 문맥(Context)을 이해하는 추론 능력 강화 추세.

 

이러한 선행 연구들은 공통적으로 트랜스포머(Transformer) 아키텍처와 마스크드 오토인코더(MAE) 방식을 채택하고 있다.11 이는 라벨이 없는 데이터의 일부를 가리고(Masking) 이를 복원하는 과정에서 데이터의 내부 구조와 문맥을 스스로 학습하는 자기지도학습(SSL)의 효율성이 입증되었기 때문이다. 특히 Prithvi 모델은 HLS 데이터를 활용하여 밴드 간의 상관관계와 시계열적 변화를 학습함으로써 홍수 탐지, 화재 흔적 매핑 등에서 우수한 성능을 보여주었다.12

 

2.2 자기지도학습을 위한 데이터 큐레이션 기술

대규모 데이터 학습의 효율성을 높이기 위한 데이터 큐레이션 연구는 'Data-Centric AI'의 핵심 분야이다.

 

  • 엔트로피 기반 필터링 (Entropy-based Filtering): 데이터의 정보량을 정량화하여 정보가 부족한 샘플을 제거한다. 위성영상의 경우 구름이나 균일한 해수면 이미지는 엔트로피가 낮아 학습 기여도가 떨어지므로 이를 제거하여 학습 속도를 높일 수 있다.14
  • 코어셋 선별 (Coreset Selection): 전체 데이터셋을 가장 잘 대표하는 소규모 부분집합(Subset)을 찾는 기술이다. 기하학적 접근법(k-Center Greedy)이나 최적화 기반 접근법(Submodular Optimization)이 사용되며, 최근에는 딥러닝 모델의 학습 동태를 반영한 방법론들이 연구되고 있다.15
  • Data Shapley: 게임 이론의 섀플리 값(Shapley Value)을 차용하여, 각 데이터 포인트가 모델 성능 향상에 기여하는 정도를 계산한다. 이는 데이터의 가치를 가장 정확하게 평가할 수 있는 방법이나, 계산 복잡도가 매우 높아 근사 알고리즘(KNN-Shapley 등)의 활용이 필수적이다.17

 

2.3 국내 위성 데이터 활용 현황 및 한계

국내에서는 한국항공우주연구원(KARI)을 중심으로 다목적실용위성(KOMPSAT) 영상의 AI 학습용 데이터셋 구축 사업이 진행되고 있다.6 SIIS(에스아이아 이미징 서비스) 등 민간 기업에서도 위성영상 판매 및 전처리 서비스를 제공하고 있다.19 그러나 기존의 국내 데이터셋은 주로 객체 탐지(건물, 도로, 선박)나 토지 피복 분류를 위한 라벨링 데이터(Labeled Data) 위주로 구축되어 있다. 이는 파운데이션 모델 학습에 필요한 대규모 비지도 데이터(Unlabeled Data)의 체계적인 수집 및 관리와는 거리가 있다. 또한 KOMPSAT 영상과 같은 고해상도 상용 위성 데이터를 파운데이션 모델 학습용으로 가공하기 위한 전처리 표준화 연구나, 제한된 컴퓨팅 자원에서 효율적으로 학습하기 위한 데이터 선별 기술에 대한 연구는 미비한 실정이다.

 

3. 연구 수행 내용 및 방법

본 연구는 7개월의 연구 기간과 6천만 원의 예산 제약을 고려하여, 하드웨어 인프라 구축보다는 알고리즘 개발 및 클라우드 기반의 효율적 검증에 집중한다. 연구 내용은 크게 세 가지 단계로 구성된다.

 

3.1 [1단계] 다중 소스 위성영상 전처리 및 조화(Harmonization) 기술 개발

위성영상 파운데이션 모델의 가장 큰 도전 과제는 센서마다 다른 분광 특성과 해상도를 통일하는 것이다. 본 연구에서는 NASA HLS(Harmonized Landsat Sentinel) 파이프라인을 벤치마킹하여, KOMPSAT 등 이종 위성 데이터까지 확장 가능한 전처리 표준을 수립한다.

 

3.1.1 분광 밴드 정규화 및 통계적 보정

 

파운데이션 모델은 입력 데이터의 통계적 분포에 민감하다. 특히 Prithvi 모델은 HLS Sentinel-2 데이터의 6개 밴드(Blue, Green, Red, NIR, SWIR1, SWIR2)를 주로 사용한다.21 본 연구에서는 다양한 위성 센서의 데이터를 이 기준에 맞춰 정규화(Normalization)하는 알고리즘을 개발한다.

 

[표 1] Prithvi 모델 학습을 위한 HLS Sentinel-2 밴드별 정규화 통계치 (기존 연구 참조 21)

밴드명 파장 대역 (Central Wavelength) 평균 (Mean) 표준편차 (Std Dev) 설명
Blue 490 nm 493.94 250.38 대기 산란 및 수심 분석
Green 560 nm 832.45 265.75 식생 활력도 및 작황 모니터링
Red 665 nm 901.06 481.92 식생 구분 및 도심지 추출
NIR (Broad) 842 nm 2927.87 1038.83 식생 바이오매스 및 수분 함량
SWIR 1 1610 nm 2427.47 855.02 토양 수분 및 식생 수분 스트레스
SWIR 2 2190 nm 1658.56 855.37 암석/광물 식별 및 화재 탐지
  • 조화(Harmonization) 전략:
  • Band Mapping: KOMPSAT-3/3A의 경우 Blue, Green, Red, NIR 4개 밴드만 존재하므로, SWIR 밴드는 '0'으로 패딩(Zero-padding)하거나, 주변 시계열 데이터(Sentinel-2)를 기반으로 보간(Imputation)하여 입력 텐서의 차원을 맞춘다.
  • Radiometric Rescaling: 위성별로 11-bit, 12-bit, 14-bit 등 방사 해상도가 다르므로, 이를 Top-of-Atmosphere (TOA) Reflectance 또는 Surface Reflectance (SR)로 변환한 후 0~10,000 범위의 정수값으로 스케일링하여 통일한다.22
  • Outlier Removal: 구름, 그림자, 센서 노이즈로 인한 극단값을 제거하기 위해 밴드별 1~99 퍼센타일(Percentile) 기반의 클리핑(Clipping)을 적용한 후 Z-score 정규화를 수행한다.

 

3.1.2 시공간 메타데이터 인코딩 (Spatio-temporal Encoding)

 

단순한 픽셀 정보 외에 촬영 시점과 위치 정보를 모델에 주입하여 시공간적 문맥 학습을 돕는다.

 

  • 시간 인코딩: 촬영 일자(Day of Year)를 연(Year), 월(Month), 시(Hour)로 분리하고, 이를 사인/코사인 함수 기반의 주기적 임베딩(Sinusoidal Embedding) 벡터로 변환하여 모델에 입력한다. 이는 계절에 따른 식생 변화(Phenology)를 모델이 학습하는 데 필수적이다.9
  • 위치 인코딩: 위도(Latitude)와 경도(Longitude) 정보를 -1에서 1 사이의 값으로 정규화하거나, 학습 가능한 임베딩 레이어(Learnable Embedding Layer)를 통해 텐서에 결합한다. Scale-MAE 연구에서 제안된 GSD 기반 위치 인코딩을 적용하여, 해상도 차이에 따른 스케일 변화를 모델이 인지하도록 한다.10

 

3.2 [2단계] 데이터 가치 평가 및 효율적 코어셋(Coreset) 선별

제한된 연구비와 컴퓨팅 자원을 고려할 때, 수집된 모든 데이터를 학습하는 것은 불가능하다. 따라서 학습 효율이 높은 '알짜 데이터(Coreset)'를 선별하는 것이 본 연구의 핵심이다. 이를 위해 세 가지 단계적 필터링 전략을 제안한다.

 

3.2.1 엔트로피(Entropy) 기반 불확실성 필터링

 

정보 이론적 관점에서 엔트로피가 낮은 데이터는 모델에게 새로운 정보를 제공하지 못한다. 예를 들어, 구름으로 완전히 덮인 이미지나 텍스처가 없는 해수면 이미지는 학습 가치가 낮다.

 

  • 방법론: 경량화된 Autoencoder 모델을 사전 학습시킨 후, 각 데이터 패치의 재구성 오차(Reconstruction Error)를 계산한다. 오차가 매우 작거나(너무 쉬운 데이터), 엔트로피가 임계값 이하인 하위 20~30%의 데이터를 학습셋에서 제외(Pruning)한다.14

3.2.2 공간 자기상관성(Spatial Autocorrelation)을 고려한 샘플링

 

지리 정보의 제1법칙(Tobler's First Law)에 따라, 인접한 지역의 위성영상은 서로 높은 상관관계를 가진다. 무작위 샘플링(Random Sampling)은 인접한 중복 데이터를 다수 포함할 가능성이 높아 비효율적이다.

 

  • 공간 층화 추출(Spatial Stratified Sampling): 전 지구를 H3와 같은 육각형 그리드 시스템(Hexagonal Grid System)으로 분할한다. 각 그리드 내에서 토지 피복(Land Cover)의 다양성(Diversity) 지수가 높은 지역을 우선적으로 샘플링한다. 이를 통해 모델이 다양한 지형과 환경 조건을 골고루 학습하도록 유도하여 일반화 성능을 높인다.23

 

3.2.3 Data Shapley 기반 가치 평가 및 선별

 

가장 고도화된 방법으로, 각 데이터 포인트가 모델의 성능 향상에 기여하는 정도(Marginal Contribution)를 계산하여 코어셋을 구성한다.

 

  • 알고리즘: 정확한 Shapley Value 계산은 시간이 많이 소요되므로, KNN-Shapley 또는 TMC-Shapley와 같은 근사 알고리즘을 활용한다. 사전 학습된 특징 추출기(Feature Extractor, 예: ResNet-50)를 통해 임베딩을 추출한 후, 임베딩 공간에서의 거리를 기반으로 기여도를 산출한다.17
  • 적용: Shapley Value가 높은 데이터(High-value data)는 모델이 어려워하거나 중요하게 다뤄야 할 엣지 케이스(Edge Case)일 가능성이 높다. 반면, 음수(Negative) 값을 가지는 데이터는 라벨 오류가 있거나 학습을 방해하는 노이즈 데이터일 수 있으므로 제거한다.

 

3.3 [3단계] 파운데이션 모델 적응(Adaptation) 및 검증

구축된 데이터셋의 효용성을 검증하기 위해 실제 파운데이션 모델 학습 및 평가를 수행한다. 예산 제약을 고려하여 효율적인 미세 조정(Parameter-Efficient Fine-Tuning, PEFT) 기법을 적극 활용한다.

 

3.3.1 LoRA (Low-Rank Adaptation) 기반 효율적 학습

 

거대 모델의 전체 파라미터를 업데이트하는 Full Fine-tuning은 고성능 GPU 클러스터를 필요로 하므로 본 과제 예산으로는 한계가 있다. 대안으로 LoRA 기법을 적용한다.

 

  • 개념: 트랜스포머의 Self-Attention 레이어의 가중치 행렬 $W$를 고정(Freeze)하고, 이를 근사하는 저랭크(Low-rank) 행렬 $A, B$ ($W' = W + BA$)만을 학습한다. 이는 학습 파라미터 수를 전체의 1% 미만으로 줄여주어 단일 GPU에서도 파운데이션 모델의 튜닝을 가능하게 한다.26
  • 구현: Hugging Face의 PEFT 라이브러리와 IBM/NASA의 오픈소스 코드를 활용하여 Prithvi 모델에 LoRA 어댑터를 부착하고, 구축된 코어셋으로 학습을 수행한다.

 

3.3.2 평가 프로토콜 (Evaluation Protocols)

 

데이터셋의 품질을 객관적으로 입증하기 위해 두 가지 방식의 평가를 수행한다.28

 

  1. 선형 탐침 (Linear Probing): 파운데이션 모델의 백본(Backbone)을 고정하고, 마지막 분류기(Linear Head)만 학습시켜 모델이 추출한 특징(Representation)의 품질을 평가한다. 좋은 데이터셋으로 학습된 모델일수록 Linear Probing 성능이 높게 나타난다.
  2. 다운스트림 태스크 성능 평가:
  • 토지 피복 분류 (Land Cover Classification): Sentinel-2 Land Cover 데이터셋 등을 활용하여 F1-Score, IoU(Intersection over Union) 측정.
  • 변화 탐지 (Change Detection): 시계열 영상을 활용하여 화재 피해 지역이나 홍수 지역을 탐지하는 정확도 평가.
  • 비교 실험: (A) 전체 데이터셋 학습, (B) 랜덤 샘플링 데이터셋 학습, (C) 본 연구의 코어셋 학습 간의 성능 및 학습 시간 비교.

 

4. 연구 추진 일정 및 예산 계획

4.1 연구 추진 일정 (7개월)

연구 기간이 짧은 점을 감안하여 애자일(Agile) 방식으로 연구를 진행하며, 매월 산출물을 점검한다.

 

단계 주요 연구 내용 산출물
M1 환경 구축 및 데이터 확보 - 연구 개발 환경 구축 (AWS/GCP 클라우드 인스턴스 설정)

- 오픈소스 데이터(HLS, Sentinel) 및 국내 데이터(KARI 샘플) 확보

- Prithvi, SatMAE 베이스라인 모델 구동 및 재현성 검증
- 착수보고서

- 데이터 명세서

- 베이스라인 코드
M2 전처리 파이프라인 개발 - 이종 센서 데이터 정규화 및 조화(Harmonization) 모듈 개발

- 시공간 메타데이터 인코딩 알고리즘 구현

- HDF5/Zarr 기반 고효율 데이터 포맷 설계
- 전처리 SW 모듈

- 정제된 샘플 데이터셋
M3 1차 코어셋 생성 (Entropy) - 엔트로피 기반 불확실성 필터링 알고리즘 구현

- 공간 자기상관성 분석 및 그리드 기반 샘플링 전략 적용

- 1차 코어셋(Pilot Coreset) 생성 및 통계 분석
- 1차 코어셋

- 데이터 분포 분석서
M4 알고리즘 고도화 (Shapley) - Data Shapley 기반 데이터 가치 평가 알고리즘 개발 및 최적화

- 코어셋 정제(Outlier 제거) 및 최종 학습용 데이터셋(Final Coreset) 확정

- 데이터셋 버전 관리(DVC) 체계 적용
- 가치 평가 알고리즘

- 최종 학습 데이터셋
M5 모델 학습 및 튜닝 - Prithvi 모델 대상 LoRA 기반 Fine-tuning 수행

- 하이퍼파라미터 최적화 및 학습 로그 분석

- 학습 효율성(시간, 메모리, 수렴 속도) 모니터링
- 학습된 모델 가중치

- 학습 결과 로그
M6 성능 검증 및 비교 평가 - Linear Probing 및 End-to-End 평가를 통한 성능 검증

- 기존 방식(Random Sampling) 대비 성능 우위 및 효율성 분석

- 다운스트림 태스크(토지 피복, 변화 탐지) 적용 평가
- 성능 평가 보고서

- 벤치마크 결과표
M7 결과 정리 및 가이드라인 - 연구 결과 종합 및 '위성영상 FM 데이터셋 관리 핸드북' 작성

- 오픈소스 코드 정리(GitHub) 및 최종 보고서 작성
- 최종보고서

- 데이터 관리 핸드북

 

4.2 소요 예산 계획 (총 6,000만 원)

한정된 예산을 효율적으로 집행하기 위해 고가 장비 구매를 지양하고, 클라우드 GPU 활용연구 인력의 인건비에 집중 투자한다.

 

[표 2] 예산 집행 계획안

비목 금액 (천원) 구성비 산출 내역 및 근거
인건비 36,000 60% - 책임연구원 (20%): 연구 총괄 및 알고리즘 설계

- 선임연구원 (50%): 데이터 전처리 및 모델 학습 구현

- 위촉연구원 (100%): 데이터 수집, 정제 및 실험 수행
연구장비/재료비 15,000 25% - 클라우드 컴퓨팅비 (12,000): AWS/GCP GPU 인스턴스 (A100/H100) Spot 인스턴스 활용 (학습 기간 집중 사용)

- 데이터 스토리지 (3,000): 대용량 위성영상 저장을 위한 고속 SSD/Object Storage 비용
연구활동비 9,000 15% - 학회/발표비 (3,000): 국내외 원격탐사/AI 학회 논문 발표 및 등록비

- 전문가 활용비 (3,000): KARI, SIIS 등 현업 전문가 자문료

- 문헌구입/인쇄비 (1,000): 관련 논문 구독 및 보고서 제작

- 회의비/기타 (2,000): 연구 미팅 및 행정 소요 비용
합계 60,000 100%  

 

5. 기대 효과 및 활용 방안

5.1 기술적 기대 효과

본 연구는 단순히 데이터를 모으는 것을 넘어, '어떤 데이터가 AI 학습에 유용한가?'에 대한 정량적 기준을 제시한다는 점에서 기술적 의의가 크다.

 

  • 학습 효율성 혁신: 코어셋 선별 기술을 통해 전체 데이터의 10~20%만 사용하고도 동등 이상의 성능을 달성함으로써, 모델 학습 시간과 비용, 탄소 배출량을 획기적으로 절감할 수 있다.30
  • 한국형 파운데이션 모델 기반 기술 확보: 향후 KARI 등이 주도할 대규모 위성 파운데이션 모델 개발 사업에서 데이터 전처리 및 큐레이션 표준 기술로 활용되어 사업의 성공 확률을 높인다.
  • 이종 데이터 융합 가속화: Sentinel, Landsat 뿐만 아니라 KOMPSAT 등 다양한 해상도와 센서 특성을 가진 데이터를 하나의 모델에서 처리할 수 있는 전처리 및 조화(Harmonization) 기술을 확보한다.

 

5.2 경제적/산업적 파급 효과

  • 데이터 구축 예산 최적화: 무분별한 전수 라벨링 대신, Shapley Value가 높은 데이터만 선별하여 라벨링을 수행함으로써 국가 데이터 구축 예산을 효율적으로 집행할 수 있다.
  • 민간 위성 서비스 고도화: SIIS 등 위성 영상 공급 기업들이 단순 영상 판매를 넘어, 'AI 학습용 최적 데이터셋(AI-Ready Data)'이라는 고부가가치 상품을 개발하고, 전처리 서비스를 API 형태로 제공하는 비즈니스 모델 확장을 지원한다.19

 

5.3 활용 방안

  • 국가 위성 데이터댐 품질 검증: 과학기술정보통신부 및 한국지능정보사회진흥원(NIA)의 인공지능 학습용 데이터 구축 사업에서 데이터의 품질과 다양성을 검증하는 도구로 활용될 수 있다.
  • 재난 재해 신속 대응 시스템: 산불이나 홍수 발생 시, 해당 지역과 가장 유사한 특성을 가진 데이터를 코어셋에서 즉시 검색하여 파운데이션 모델을 신속하게 적응(Few-shot Adaptation)시킴으로써 실시간 피해 분석을 지원한다.

 

6. 결론

본 연구 과제는 "위성영상 파운데이션 모델 학습을 위한 데이터셋 생성 및 관리 기법 연구"를 통해, 다가오는 위성 AI 시대의 핵심 경쟁력인 데이터 큐레이션 및 관리 기술을 확보하고자 한다. 7개월이라는 짧은 기간과 한정된 예산은 제약 조건이 아니라, 오히려 '데이터 효율성(Data Efficiency)'이라는 핵심 가치에 집중하게 만드는 원동력이 될 것이다.

 

본 연구를 통해 개발될 엔트로피 및 Shapley 기반의 지능형 코어셋 선별 기술, 다중 센서 조화 파이프라인, 그리고 효율적 모델 검증 체계는 향후 대한민국이 독자적인 우주 AI 기술 주권을 확보하고, 뉴스페이스 시대의 데이터 경제를 선도하는 데 있어 든든한 초석이 될 것이다. 이는 단순한 알고리즘 개발을 넘어, 방대한 위성 데이터를 실질적인 가치를 창출하는 지식 자산으로 전환하는 체계적인 프로세스를 정립한다는 점에서 그 의의가 매우 크다.

 

참고 자료

  1. When Remote Sensing Meets Foundation Model: A Survey and Beyond - MDPI, 12월 6, 2025에 액세스, https://www.mdpi.com/2072-4292/17/2/179
  2. AI Foundation Models in Remote Sensing: A Survey - arXiv, 12월 6, 2025에 액세스, https://arxiv.org/html/2408.03464v1
  3. Google Earth AI: Unlocking geospatial insights with foundation models and cross-modal reasoning, 12월 6, 2025에 액세스, https://research.google/blog/google-earth-ai-unlocking-geospatial-insights-with-foundation-models-and-cross-modal-reasoning/
  4. Prithvi-EO-2.0: A Versatile Multi-Temporal Foundation Model for Earth Observation Applications - NASA Technical Reports Server (NTRS), 12월 6, 2025에 액세스, https://ntrs.nasa.gov/citations/20240015391
  5. Fine-tune Smarter, Not Harder: Parameter-Efficient Fine-Tuning for Geospatial Foundation Models - arXiv, 12월 6, 2025에 액세스, https://arxiv.org/html/2504.17397v1
  6. KARI selects six CubeSats for Nuri 6th launch to test environment, AI, deep-space tech, 12월 6, 2025에 액세스, https://biz.chosun.com/en/en-science/2025/12/03/SJWKNWZLQFB2JNQLUQIFYCULGQ/
  7. Korea releases 150,000 satellite datasets to boost AI training - CHOSUNBIZ, 12월 6, 2025에 액세스, https://biz.chosun.com/en/en-science/2025/10/20/LHDGMHRU7RHNXNXTGNLOTWXTQM/
  8. Prithvi-EO-2.0: A Versatile Multi-Temporal Foundation Model for Earth Observation Applications - arXiv, 12월 6, 2025에 액세스, https://arxiv.org/html/2412.02732v2
  9. SatMAE: Pre-training Transformers for Temporal and Multi-Spectral Satellite Imagery, 12월 6, 2025에 액세스, https://papers.neurips.cc/paper_files/paper/2022/file/01c561df365429f33fcd7a7faa44c985-Paper-Conference.pdf
  10. Scale-MAE - Berkeley AI Research Climate Initiative, 12월 6, 2025에 액세스, https://ai-climate.berkeley.edu/scale-mae-website/
  11. FOUNDATION MODELS IN REMOTE SENSING: INSIGHTS FROM MULTISPECTRAL AND HYPERSPECTRAL SELF-SUPERVISED LEARNING, 12월 6, 2025에 액세스, https://elib.dlr.de/212882/1/ibm_presentation.pdf
  12. IBM-NASA Prithvi Models Family - Hugging Face, 12월 6, 2025에 액세스, https://huggingface.co/ibm-nasa-geospatial
  13. IBM and NASA release a new version of Prithvi - IBM Research, 12월 6, 2025에 액세스, https://research.ibm.com/blog/prithvi2-geospatial
  14. Semi-Supervised Learning with Entropy Filtering for Intrusion Detection in Asymmetrical IoT Systems - ResearchGate, 12월 6, 2025에 액세스, https://www.researchgate.net/publication/392857328_Semi-Supervised_Learning_with_Entropy_Filtering_for_Intrusion_Detection_in_Asymmetrical_IoT_Systems
  15. Contributing Dimension Structure of Deep Feature for Coreset Selection, 12월 6, 2025에 액세스, https://ojs.aaai.org/index.php/AAAI/article/view/28758/29457
  16. Core-Set Selection for Data-efficient Land Cover Segmentation - arXiv, 12월 6, 2025에 액세스, https://arxiv.org/html/2505.01225v1
  17. Data Shapley: Equitable Valuation of Data for Machine Learning, 12월 6, 2025에 액세스, https://proceedings.mlr.press/v97/ghorbani19c/ghorbani19c.pdf
  18. On Using the Shapley Value for Anomaly Localization: A Statistical Investigation This work was supported by the U.S. Office of Naval Research under Grant N00014-22-1-2626. - arXiv, 12월 6, 2025에 액세스, https://arxiv.org/html/2507.21023v1
  19. AI Training Data | SIIS SI Imaging Services | The World-Leading Earth Observation Solutions Provider, 12월 6, 2025에 액세스, https://www.si-imaging.com/page/24
  20. Top Satellite Image Processing Companies 2025 - FlyPix AI, 12월 6, 2025에 액세스, https://flypix.ai/satellite-image-processing-companies/
  21. CYPRESS: Crop Yield Prediction via Regression on Prithvi's Encoder for Satellite Sensing, 12월 6, 2025에 액세스, https://arxiv.org/html/2510.26609v1
  22. Scene Level Normalization and Harmonization of Planet Dove Imagery, 12월 6, 2025에 액세스, https://assets.planet.com/docs/scene_level_normalization_of_planet_dove_imagery.pdf
  23. Efficient Self-Supervised Learning for Earth Observation via Dynamic Dataset Curation, 12월 6, 2025에 액세스, https://arxiv.org/html/2504.06962v2
  24. SA-Encoder: A Learnt Spatial Autocorrelation Representation to Inform 3D Geospatial Object Detection - ResearchGate, 12월 6, 2025에 액세스, https://www.researchgate.net/publication/395446220_SA-Encoder_A_Learnt_Spatial_Autocorrelation_Representation_to_Inform_3D_Geospatial_Object_Detection
  25. The Shapley Value in Data Science: Advances in Computation, Extensions, and Applications - MDPI, 12월 6, 2025에 액세스, https://www.mdpi.com/2227-7390/13/10/1581
  26. DINOv2 Rocks Geological Image Analysis: Classification, Segmentation, and Interpretability, 12월 6, 2025에 액세스, https://arxiv.org/html/2407.18100v3
  27. IBM/peft-geofm: Parameter-Efficient Fine-Tuning for Geospatial Foundation Models - GitHub, 12월 6, 2025에 액세스, https://github.com/IBM/peft-geofm
  28. Evaluating and Benchmarking Foundation Models for Earth Observation and Geospatial AI, 12월 6, 2025에 액세스, https://arxiv.org/html/2406.18295v1
  29. WV-Net: A Foundation Model for SAR Ocean Satellite Imagery in - AMS Journals - American Meteorological Society, 12월 6, 2025에 액세스, https://journals.ametsoc.org/view/journals/aies/4/4/AIES-D-25-0003.1.xml
  30. High-Performance Lightweight Vision Models for Land Cover Classification with Coresets and Compression - OpenReview, 12월 6, 2025에 액세스, https://openreview.net/pdf?id=fZ6Jj51tNj