본문 바로가기
과학기술

자율주행 인식을 위한 BEV 기술의 패러다임

by 리서치가이 2025. 10. 18.

서론: 조감도 시점 인식으로의 패러다임 전환

BEV 패러다임: 자율주행 시스템을 위한 통합된 표현 공간

자율주행 기술의 핵심은 주변 환경을 정확하고 강건하게 인식하는 능력에 달려있다. 전통적인 2D 이미지 기반 인식 방식은 원근 왜곡, 객체 간 가려짐(occlusion), 그리고 센서마다 다른 시점 문제로 인해 3차원 공간을 일관성 있게 이해하는 데 본질적인 한계를 가진다. 이러한 문제를 해결하기 위해 조감도(Bird's-Eye-View, BEV) 인식 패러다임이 등장했으며, 이는 자율주행 분야의 근본적인 변화를 이끌었다.1 BEV는 다중 카메라, 라이다(LiDAR), 레이더(Radar) 등 이종(heterogeneous) 센서로부터 입력된 데이터를 차량 중심의 상단 시점 2D 그리드(grid)로 변환하여 표현하는 방식이다.3

 

 

이러한 통합된 표현 공간은 다음과 같은 핵심적인 이점을 제공한다:

 

  • 직관적인 경로 계획 및 제어: BEV 공간은 실제 세계의 지면과 동일한 좌표계를 사용하므로, 경로 계획 및 제어 알고리즘이 인식 결과를 직관적으로 활용할 수 있다. 이는 후속 모듈과의 연계를 극적으로 단순화시킨다.5
  • 센서 퓨전의 허브: 각기 다른 시점과 데이터 구조를 가진 센서 정보를 하나의 공통된 '캔버스'에 투영함으로써, BEV는 다중 모달리티 센서 퓨전(multi-modality sensor fusion)을 위한 자연스러운 허브 역할을 수행한다.8
  • 가려짐 및 크기 모호성 해결: 상단 시점에서 객체를 표현함으로써 원근 시점에서 발생하는 객체 간 가려짐 문제를 완화하고, 거리에 따른 객체 크기 변화의 모호성을 해결하여 보다 일관된 인식을 가능하게 한다.10

 

결론적으로 BEV는 단순한 데이터 변환 기술을 넘어, 인식, 예측, 계획을 아우르는 자율주행 스택 전체를 위한 통일된 언어이자 표현 공간으로서의 가치를 지닌다.11

 

BEVDet: 고성능 카메라 기반 3D 객체 탐지의 기준 확립

BEV 패러다임의 가능성을 실질적으로 입증하고, 후속 연구의 기폭제가 된 모델이 바로 BEVDet이다.5 BEVDet은 다중 카메라 이미지만을 사용하여 BEV 공간에서 3D 객체를 탐지하는 최초의 고성능, 확장 가능한 프레임워크로 평가받는다.7

BEVDet의 핵심 아키텍처는 Lift-Splat-Shoot (LSS) 프레임워크에 기반한다.13 이 과정은 다음과 같이 요약할 수 있다:

 

  1. Lift: 각 2D 이미지 픽셀에 대한 깊이(depth) 분포를 예측하고, 이를 기반으로 2D 이미지 특징(feature)을 3D 카메라 절두체(frustum) 공간으로 '들어 올린다'.
  2. Splat: 3D 공간에 분포된 특징들을 BEV 그리드에 '흩뿌려' 누적함으로써, 다중 시점의 정보를 통합한 단일 BEV 특징 맵을 생성한다.

 

BEVDet의 주요 기여는 다음과 같다:

 

  • 기존에 존재하던 모듈들을 우아하게 재구성하여, 복잡한 설계 없이도 최첨단(State-of-the-Art, SOTA) 성능을 달성할 수 있음을 증명했다.6
  • BEV 공간에 특화된 데이터 증강(data augmentation) 기법을 개발하여 성능을 극대화했다.6
  • BEVDet-Tiny와 같은 경량화 버전을 통해, 이전 SOTA 모델인 FCOS3D 대비 11%의 연산량만으로 유사한 성능을 달성하며 정확도와 효율성 간의 뛰어난 균형을 보여주었다.6

 

BEVDet의 성공은 LSS 기반 접근법의 유효성을 입증하는 동시에, 이 패러다임의 성능이 전적으로 'Lift' 단계에서 암시적으로 학습되는 깊이 정보의 정확성에 달려 있다는 중요한 사실을 수면 위로 드러냈다. 이는 후속 연구가 '깊이 추정'이라는 핵심 병목 현상을 해결하는 방향으로 나아가는 결정적인 계기가 되었다.

 

깊이 추정의 중요성: 카메라 기반 인식의 핵심 과제

깊이 병목 현상의 발견

BEVDet과 같은 초기 LSS 기반 모델들은 깊이 정보를 명시적인 감독(supervision) 없이 암시적으로 학습했다. 그러나 후속 연구를 통해, 이렇게 학습된 깊이 정보의 품질이 "놀라울 정도로 부적절하다"는 사실이 밝혀졌다.13 이 문제를 정량적으로 증명한 실험은 매우 설득력이 있었다. 모델이 예측한 깊이 값을 라이다 센서로부터 얻은 실제 깊이(ground-truth) 값으로 대체하자, 3D 객체 탐지 성능(mAP 및 NDS 지표)이 약 20% 가까이 급증한 것이다.13 이는 카메라 기반 3D 인식 성능이 깊이 추정의 정확도와 직접적인 인과 관계를 가지며, 이 문제가 해결되어야만 다음 단계로 나아갈 수 있음을 명확히 보여주었다.

 

BEVDepth: 명시적 감독을 통한 신뢰성 있는 깊이 확보

깊이 병목 현상을 해결하기 위해 등장한 모델이 바로 BEVDepth이다.7 BEVDepth의 핵심 혁신은 훈련 과정에서 명시적인 깊이 감독(explicit depth supervision)을 도입한 것이다. 라이다 포인트 클라우드를 이미지 평면에 투영하여 생성한 희소(sparse) 깊이 맵을 정답으로 활용, 깊이 예측 네트워크가 기하학적으로 정확한 깊이를 학습하도록 강제했다.13

 

BEVDepth의 주요 아키텍처 구성 요소는 다음과 같다:

 

  • 카메라 인지 깊이 추정 모듈 (Camera-Awareness Depth Estimation Module): 카메라의 내/외부 파라미터(intrinsic/extrinsic parameters)를 네트워크 입력으로 인코딩하여, 다양한 차종과 센서 설정에 강건한 깊이 추정을 가능하게 했다. 이는 실제 양산 환경에서의 확장성을 고려한 중요한 설계이다.13
  • 깊이 보정 모듈 (Depth Refinement Module): 부정확한 특징 투영(unprojection)으로 인한 부작용을 완화하기 위해 설계된 모듈로, 감독된 깊이 정보만으로는 해결하기 어려운 미세한 오차를 보정한다.13
  • 효율적인 복셀 풀링 (Efficient Voxel Pooling): LSS의 'Splat' 연산을 병렬 처리 가능하도록 최적화하여, 뷰 변환 과정의 속도를 획기적으로 개선했다 (연산 자체는 100배, 전체 파이프라인은 3배 가속).13

 

이러한 혁신을 통해 BEVDepth는 nuScenes 테스트 데이터셋에서 60.9% NDS를 달성하며, 카메라 단일 센서 모델 최초로 60%의 벽을 넘는 새로운 SOTA를 기록했다.7 이는 더 강력한 센서(라이다)의 정보를 훈련 과정에서 '지식 증류(knowledge distillation)' 형태로 활용하는 것이 매우 효과적인 전략임을 입증한 사례이다. 즉, 추론 시에는 카메라만 사용하지만, 모델은 이미 라이다의 기하학적 지식을 내재화하게 된 것이다.

 

BEVStereo: 시간적 단서를 활용한 깊이 추정 강화

BEVDepth의 성공에 이어, 동일 연구 그룹은 시간 정보를 활용하여 깊이 추정을 한 단계 더 발전시킨 BEVStereo를 제안했다.5 BEVStereo는 현재 프레임과 이전 프레임 간의 특징을 매칭하는 동적 시간적 스테레오(dynamic temporal stereo) 기법을 사용한다. 이를 통해 라이다 감독에 대한 의존도를 줄이면서도, 특히 움직이는 객체에 대한 깊이 정확도를 자체적으로 향상시키는 추가적인 기하학적 단서를 확보했다.7

 

트랜스포머 혁명: BEV 인식의 새로운 지평

뷰 변환의 패러다임 전환

LSS 기반 접근법(BEVDet, BEVDepth)이 깊이 추정의 정확도를 높이는 방향으로 발전하는 동안, 딥러닝 분야 전반에서는 트랜스포머(Transformer) 아키텍처가 새로운 혁신을 이끌고 있었다. LSS 방식은 깊이 예측 오차가 특징 맵의 공간적 왜곡으로 직결되는 '오차 증폭(compounding error)' 문제에 취약했다.23 트랜스포머는 명시적인 깊이 추정 단계를 우회하고, 어텐션(attention) 메커니즘을 통해 2D 이미지와 3D BEV 공간 간의 관계를 종단간(end-to-end)으로 학습할 수 있는 새로운 가능성을 제시했다.24

 

BEVFormer: 시공간을 통합하는 트랜스포머

BEV 인식을 재정의한 기념비적인 모델이 바로 BEVFormer이다.11 BEVFormer는 명시적인 기하학적 투영 대신, 미리 정의된 BEV 그리드 형태의 쿼리(query) 집합이 다중 시점 이미지와 과거의 상태 정보를 능동적으로 '질의'하고 종합하여 통합된 BEV 표현을 학습하는 방식을 채택했다.11

 

BEVFormer의 핵심 아키텍처는 다음과 같다:

 

  • BEV 쿼리 (BEV Queries): BEV 맵의 각 그리드 위치에 해당하는 학습 가능한 쿼리 집합. 이 쿼리들은 BEV 공간의 '앵커' 역할을 하며, 필요한 정보를 스스로 찾아 나선다.23
  • 공간적 교차 어텐션 (Spatial Cross-Attention): 각 BEV 쿼리가 모든 다중 시점 이미지의 특징들을 어텐션하는 메커니즘이다. 모델은 각 쿼리의 3D 위치를 2D 이미지에 투영하고 관련 특징을 샘플링하는 방법을 학습함으로써, 깊이 예측 없이 뷰 변환을 암시적으로 수행한다.11
  • 시간적 셀프 어텐션 (Temporal Self-Attention): 이전 타임스텝의 BEV 특징 맵을 현재 프레임으로 정렬한 후, 현재의 BEV 쿼리가 이 과거 정보를 어텐션하여 시간적 단서를 융합한다. 이를 통해 객체의 움직임과 속도를 효과적으로 학습한다.11

 

BEVFormer는 nuScenes 데이터셋에서 56.9% NDS라는 경이로운 성능을 기록하며 이전 SOTA를 9.0% NDS 포인트나 상회했고, 일부 라이다 기반 모델과 대등한 수준에 도달했다.11 특히 시간 정보를 효과적으로 활용하여 속도 추정 오차를 50% 이상 감소시키고, 가려진 객체에 대한 재현율(recall)을 극적으로 향상시켰다.27 이는 기하학적 규칙을 직접 설계하는 대신, 데이터로부터 3D와 2D 간의 매핑 관계 자체를 학습하는 트랜스포머의 강력한 능력을 보여준 결과였다.

 

BEVFormer v2: 최신 이미지 백본 적용을 통한 성능 극대화

BEVFormer의 성공 이후, 연구자들은 이를 더욱 개선할 방법을 모색했다. 한 가지 중요한 공학적 병목은 BEVFormer와 같은 SOTA 모델들이 VoVNet처럼 깊이 추정 데이터셋으로 사전 훈련된 특정 이미지 백본(backbone)에 의존한다는 점이었다. 이로 인해 일반적인 2D 인식 분야에서 빠르게 발전하는 최신 이미지 백본(예: ConvNeXt)의 성능을 BEV 인식에 온전히 활용하기 어려웠다.29

 

이 문제를 해결하기 위해 BEVFormer v2가 등장했다. 핵심 혁신은 원근 시점 감독(Perspective Supervision)의 도입이다. 기존 BEV 헤드(head) 외에, 원근(이미지) 뷰에서 객체를 탐지하는 보조 탐지 헤드를 추가했다. 이 보조 헤드는 이미지 백본에 직접적이고 풍부한 감독 신호를 제공하여, 별도의 깊이 사전 훈련 없이도 백본이 3D 인식에 필요한 특징을 학습하도록 유도한다.30

 

이는 자연스럽게 2단계(two-stage) 탐지기 구조로 이어졌다. 원근 헤드가 생성한 고품질의 2D 제안(proposal)을 BEV 헤드의 객체 쿼리 초기값으로 활용하여, 정확도와 수렴 속도를 모두 향상시켰다.29 그 결과, BEVFormer v2는 최신 이미지 백본을 성공적으로 적용하여 nuScenes 테스트셋에서 63.4% NDS라는 새로운 SOTA를 달성했다.30

 

모델명 핵심 원리 뷰 변환 방식 시간 정보 융합 주요 혁신 nuScenes NDS
BEVDet LSS 기반 명시적 기하학 암시적 깊이 + Splatting 없음 고성능 카메라 기반 BEV 탐지 기준 제시 ~47.2% 6
BEVDet4D LSS + 시간 정보 암시적 깊이 + Splatting BEV 특징 맵 결합 BEV 공간에서의 시간 정보 융합 ~54.5% 27
BEVDepth LSS + 명시적 깊이 감독 감독된 깊이 + Splatting BEV 특징 맵 결합 라이다를 이용한 명시적 깊이 감독 ~60.9% 20
BEVFormer 시공간 트랜스포머 공간적 교차 어텐션 시간적 셀프 어텐션 종단간 학습 기반 뷰 변환 ~56.9% 25

 

BEV 인식의 최전선: 진보된 아키텍처와 방법론

BEVFormer 이후, BEV 인식 연구는 단일한 아키텍처 혁신을 넘어, 특정 문제를 더 깊이 파고드는 다양한 방향으로 분화하며 성숙기에 접어들었다.

 

RecurrentBEV: 장기적 시간 정보 모델링의 고도화

BEVFormer의 시간적 퓨전은 단기적인 의존성에는 효과적이었지만, 훈련 과정에서 과거 상태의 그래디언트(gradient)가 차단되어 장기적인 시간 정보를 학습하는 데는 한계가 있었다.14 RecurrentBEV는 이 문제를 해결하기 위해 순환 신경망(RNN)의 원리를 도입했다.

 

  • RNN 스타일 역전파 (RNN-style Back-propagation): 훈련 시 그래디언트가 시간을 거슬러 전파되도록 허용하여, 퓨전 모듈이 장기적인 의존성을 직접 학습할 수 있게 했다.14
  • 내부 그리드 변환 (Inner Grid Transformation): 차량의 움직임(ego-motion)으로부터 발생하는 미세한 의미론적 변화를 학습하여, BEV 그리드의 양자화 오차로 인한 정렬 오류를 줄였다.14

그 결과 RecurrentBEV는 65.1% NDS라는 새로운 SOTA를 달성하며, 더 원칙적인 순환적 퓨전 방식이 효율성을 유지하면서도 복잡한 병렬 퓨전 방식의 성능을 능가할 수 있음을 입증했다.14

 

BEVCon: 대조 학습을 통한 특징 표현력 강화

대부분의 연구가 아키텍처 자체에 집중할 때, BEVCon은 근본적인 특징 표현(feature representation)의 질을 높이는 새로운 접근법을 제시했다.1 BEVCon의 핵심 아이디어는 대조 학습(contrastive learning)을 통해 추가적인 레이블 없이도 더 풍부하고 식별력 있는 특징을 학습하는 것이다.1

 

  • 인스턴스 특징 대조 (Instance Feature Contrast): BEV 공간에서 작동하며, 동일한 객체 인스턴스에서 추출된 특징들은 서로 가깝게, 다른 인스턴스의 특징들은 멀어지도록 학습한다. 이는 BEV 특징의 위치 정확성과 식별력을 향상시킨다.1
  • 원근 영역 대조 (Perspective Regional Contrast): 이미지 공간에서 작동하며, 이미지 백본이 객체별 영역 특징을 더 잘 구분하도록 직접적인 감독 신호를 제공한다. 이는 BEV로 변환되기 전 단계부터 특징의 질을 높인다.1

 

BEVCon은 기존 SOTA 모델 위에 적용되어 일관된 성능 향상(BEVFormer-tiny 대비 +2.4% mAP)을 보여주었으며, 이는 아키텍처 개선과 더불어 표현 학습이 성능 향상을 위한 상호 보완적인 핵심 경로임을 시사한다.1

 

PolarBEVDet: 대안적 좌표계의 탐색

대부분의 모델이 직교(Cartesian) 좌표계 기반의 BEV 그리드를 당연하게 사용했지만, PolarBEVDet은 이러한 가정에 도전했다.37 카메라 이미지는 본질적으로 극(Polar) 좌표계와 유사한 방사형 정보 분포(가까운 곳은 조밀하고 먼 곳은 희소함)를 가지기 때문이다.

PolarBEVDet은 극 좌표계 기반의 BEV 표현을 제안하고, 이에 맞춰 극 뷰 변환기(polar view transformer), 극 시간 퓨전 모듈(polar temporal fusion module), 극 탐지 헤드(polar detection head) 등 모든 구성 요소를 새롭게 설계했다.37 이는 BEV 인식의 근간이 되는 좌표계 선택 자체가 여전히 탐구할 가치가 있는 중요한 연구 주제임을 보여준다.

 

강건성을 위한 필연, 다중 모달리티 센서 퓨전

카메라 단일 센서 인식의 본질적 한계

카메라 기반 BEV 모델들은 벤치마크에서 놀라운 성능을 달성했지만, 안전이 최우선인 실제 자율주행 시스템에 적용되기에는 본질적인 한계를 안고 있다. 카메라는 악천후(비, 안개)나 저조도/역광 조건에 취약하며, 기하학적 깊이 정보의 부재로 인해 강건성이 떨어진다.9 따라서 신뢰성 있는 인식을 위해서는 다중 모달리티 센서 퓨전이 필수적이다.

 

BEVFusion: 통합된 BEV 공간에서의 카메라-라이다 퓨전

카메라와 라이다 퓨전의 새로운 기준을 제시한 프레임워크가 바로 BEVFusion이다.10 이전의 '포인트 레벨 퓨전' 방식은 희소한 라이다 포인트에 카메라 특징을 덧씌우는 방식으로, 대부분의 풍부한 이미지 정보를 버리는 의미론적 손실이 컸다.40

 

BEVFusion은 이러한 패러다임을 전환하여, BEV 공간 내에서의 특징 레벨 퓨전(feature-level fusion)을 제안했다. 각 센서 데이터를 독립적인 백본으로 처리하여 BEV 특징 맵으로 변환한 뒤, 동일한 공간에 정렬된 이 특징 맵들을 융합(예: concatenation)하는 방식이다.8 이 접근법은 카메라의 풍부한 의미론적 정보와 라이다의 정밀한 기하학적 구조를 모두 보존하여, 훨씬 강력하고 강건한 융합 표현을 생성한다.8

 

RCBEVDet: 전천후 인식을 위한 레이더 융합

레이더는 악천후에 강하고 도플러 효과를 통해 객체의 속도를 직접 측정할 수 있다는 장점 때문에 퓨전 시스템에서 중요한 역할을 한다.9 RCBEVDet은 효과적인 카메라-레이더 퓨전 파이프라인을 제시한다.41

 

  • RadarBEVNet: 레이더 데이터 처리에 특화된 브랜치로, 객체의 크기 및 재질과 관련된 RCS(Radar Cross-Section) 값을 사전 정보(prior)로 활용하여 BEV 공간에 특징을 효과적으로 분산시킨다.41
  • 교차 어텐션 다층 융합 (CAMF): 방위각 정확도가 낮은 레이더와 카메라 특징 간의 정렬 오류를 동적으로 보정하기 위해 교차 어텐션 메커니즘을 사용한다.41

 

더 나아가 KAN-RCBEVDepth와 같은 최신 모델은 카메라, 라이다, 레이더를 모두 융합하여 BEVDepth 대비 우수한 성능과 효율성을 입증했다.38 이는 각 센서의 고유한 물리적 특성을 존중하고 이에 맞는 특화된 처리 방식을 설계하는 것이 최적의 퓨전 성능을 이끌어낸다는 점을 시사한다.

 

모델명 주요 초점 핵심 혁신 센서 모달리티 주요 개선점 nuScenes NDS
BEVFormer v2 백본 적응성 원근 시점 감독 카메라 빠른 수렴 및 SOTA 성능 63.4% 31
RecurrentBEV 장기적 시간 퓨전 RNN 스타일 역전파 카메라 고효율 SOTA 성능 달성 65.1% 14
BEVCon 특징 표현 학습 이중 대조 학습 모듈 카메라 범용적인 mAP 성능 향상 상대적 성능 향상 1
BEVFusion 카메라-라이다 퓨전 BEV 공간 특징 퓨전 카메라 + 라이다 탐지 및 분할 SOTA 달성 ~74.1% (LiDAR fusion)
RCBEVDet 카메라-레이더 퓨전 RCS 인지 인코딩 카메라 + 레이더 악천후 조건 강건성 레이더-카메라 SOTA

 

안전 관점에서의 BEV 인식과 미래 전망

안전을 향한 진화: SafeBEV 3단계

지금까지의 BEV 기술 발전 과정을 안전(safety)이라는 핵심적인 관점에서 재구성할 수 있다. "안전 최우선 자율주행을 위한 점진적 BEV 인식"이라는 종합 보고서에 따르면, 이 과정은 3단계로 구분된다.4

 

  • SafeBEV 1.0 (단일 모달리티 차량 측 인식): BEVDet, BEVFormer 등이 포함되는 이 단계는 BEV의 가능성을 열었지만, 단일 센서의 고장이나 특정 환경(역광, 폭우)에서의 성능 저하, 그리고 가려짐 문제에 취약했다.44
  • SafeBEV 2.0 (다중 모달리티 차량 측 인식): BEVFusion과 같은 퓨전 모델이 대표적이다. 상호 보완적인 센서를 융합하여 특정 센서가 취약한 상황에서도 강건성을 유지하고, 시스템의 신뢰성과 안전성을 높였다.4
  • SafeBEV 3.0 (다중 에이전트 협력 인식): 현재 연구의 최전선으로, V2X(Vehicle-to-Everything) 통신을 통해 차량과 인프라가 BEV 맵을 공유한다. 이는 단일 차량의 시야를 넘어서는 '비가시 영역 인식(perception beyond line-of-sight)'을 가능하게 하여, 사각지대와 가려짐 문제를 근본적으로 해결하는 것을 목표로 한다.4

 

이러한 발전 과정은 단순히 벤치마크 점수를 높이는 경쟁이 아니라, 이전 세대 기술의 안전성 한계를 체계적으로 극복해 나가는 논리적인 여정으로 해석할 수 있다.

 

현재의 주요 난제: 개방형 세계(Open-World) 문제

BEV 기술이 실제 도로에 광범위하게 배포되기 위해서는 다음과 같은 근본적인 '개방형 세계' 문제들을 해결해야 한다 3:

 

  • 개방형 집합 인식 (Open-Set Recognition): 현재 모델들은 훈련 데이터에 존재하는 정해진 종류의 객체만 인식할 수 있다. 도로 위에서 마주칠 수 있는 예측 불가능한 새로운 객체(out-of-distribution)를 안전하게 감지하고 대응하는 능력이 부족하다.
  • 대규모 미레이블 데이터 활용: 3D 데이터를 수동으로 레이블링하는 비용은 막대하다. 차량이 수집하는 방대한 양의 미레이블 데이터를 효과적으로 활용할 수 있는 자기지도학습(self-supervised learning) 또는 약지도학습(weakly-supervised learning) 기술이 절실하다.
  • 센서 성능 저하: 실제 환경에서는 센서가 오염되거나, 미세하게 틀어지거나, 고장 나는 상황이 발생한다. 이러한 센서 성능 저하를 시스템이 스스로 인지하고, 성능을 점진적으로 저하시키며 안전하게 대처하는 강건성이 요구된다.
  • 통신 지연 (협력 인식): SafeBEV 3.0의 핵심인 V2X 통신은 지연, 데이터 손실, 대역폭 제한 등의 문제가 발생할 수 있다. 불완전한 통신 환경에서도 안정적으로 작동하는 협력 인식 알고리즘이 필요하다.

 

미래 연구 방향

이러한 난제들은 BEV 인식의 미래 연구 방향을 제시한다. 초기 연구가 '어떻게 뷰를 변환하고 퓨전할 것인가'라는 기하학적, 구조적 문제에 집중했다면, 이제는 '어떻게 처음 보는 것을 이해하고, 불확실한 상황에서 추론할 것인가'라는 의미론적, 비정형적 문제로 넘어가고 있다.

 

  • 종단간 자율주행 시스템과의 통합: BEV 인식을 별도의 모듈이 아닌, 예측 및 계획까지 통합된 종단간 모델의 핵심 표현 공간으로 활용하는 연구가 활발해질 것이다.
  • 거대 언어/비전 모델의 활용: LLM(Large Language Model)과 VLM(Vision-Language Model)의 뛰어난 상식 추론 및 문맥 이해 능력을 BEV 인식에 접목하여, 특히 복잡한 교차로나 예측하기 어려운 돌발 상황(corner case)에 대한 이해도를 높이는 방향으로 발전할 것이다.46
  • 생성형 AI를 통한 데이터 증강: 실제 수집하기 어려운 위험하거나 희귀한 시나리오를 생성형 AI로 무한히 만들어 냄으로써, 모델의 강건성과 안전성을 검증하고 향상시키는 데 활용될 것이다.48

 

결론적으로, 자율주행을 위한 BEV 인식 기술은 LSS 기반의 가능성 타진에서 시작하여, 깊이 추정의 정밀화, 트랜스포머를 통한 패러다임 전환, 그리고 다중 모달리티 퓨전을 통한 강건성 확보의 단계를 거쳐왔다. 현재는 협력 인지와 개방형 세계의 의미론적 이해라는 새로운 도전에 직면해 있으며, 이는 앞으로의 기술 발전이 '보는 것'을 넘어 '이해하는 것'으로 나아갈 것임을 예고한다.

 

참고 자료

  1. arxiv.org, 10월 5, 2025에 액세스, https://arxiv.org/html/2508.04702v1
  2. RT-BEV: Enhancing Real-Time BEV Perception for Autonomous Vehicles - ResearchGate, 10월 5, 2025에 액세스, https://www.researchgate.net/publication/388257460_RT-BEV_Enhancing_Real-Time_BEV_Perception_for_Autonomous_Vehicles
  3. Progressive Bird's Eye View Perception for Safety-Critical Autonomous Driving: A Comprehensive Survey | Request PDF - ResearchGate, 10월 5, 2025에 액세스, https://www.researchgate.net/publication/394438493_Progressive_Bird's_Eye_View_Perception_for_Safety-Critical_Autonomous_Driving_A_Comprehensive_Survey
  4. Progressive Bird's-Eye-View Perception for Safety-Critical Autonomous Driving: A Comprehensive Survey - arXiv, 10월 5, 2025에 액세스, https://arxiv.org/html/2508.07560v1
  5. BEVDet: High-performance Multi-camera 3D Object Detection in Bird-Eye-View, 10월 5, 2025에 액세스, https://www.semanticscholar.org/paper/BEVDet%3A-High-performance-Multi-camera-3D-Object-in-Huang-Huang/56a7a5bc55a5af2b1a78a0c18b16a5af6f5d3670
  6. BEVDet: High-performance Multi-camera 3D Object Detection in ..., 10월 5, 2025에 액세스, https://arxiv.org/abs/2112.11790
  7. BEVDepth: Acquisition of Reliable Depth for Multi-view 3D Object Detection, 10월 5, 2025에 액세스, https://www.semanticscholar.org/paper/BEVDepth%3A-Acquisition-of-Reliable-Depth-for-3D-Li-Ge/234f0122e0edccba5c91763e800c2f02fe8ae4fe
  8. [AV Vol.3] BEVFusion: Unifying Vision in Autonomous Driving ..., 10월 5, 2025에 액세스, https://medium.com/demistify/av-vol-3-bevfusion-unifying-vision-in-autonomous-driving-systems-b2190f877c9b
  9. BEV-Guided Multi-Modality Fusion for Driving Perception - CVF Open Access, 10월 5, 2025에 액세스, https://openaccess.thecvf.com/content/CVPR2023/papers/Man_BEV-Guided_Multi-Modality_Fusion_for_Driving_Perception_CVPR_2023_paper.pdf
  10. BEVFusion: Multi-Task Multi-Sensor Fusion with Unified Bird's-Eye ..., 10월 5, 2025에 액세스, https://www.researchgate.net/publication/360887929_BEVFusion_Multi-Task_Multi-Sensor_Fusion_with_Unified_Bird's-Eye_View_Representation
  11. fundamentalvision/BEVFormer: [ECCV 2022] This is the ... - GitHub, 10월 5, 2025에 액세스, https://github.com/fundamentalvision/BEVFormer
  12. [PDF] Vision-Centric BEV Perception: A Survey | Semantic Scholar, 10월 5, 2025에 액세스, https://www.semanticscholar.org/paper/Vision-Centric-BEV-Perception%3A-A-Survey-Ma-Wang/79609991d734596527ff5e8c3930bc9cd3972684
  13. BEVDepth: Acquisition of Reliable Depth for Multi-View 3D Object Detection, 10월 5, 2025에 액세스, https://krmzyc-filecloud.oss-cn-beijing.aliyuncs.com/theory/BEVDepth%20Acquisition%20of%20Reliable%20Depth%20for%20Multi-View%203D%20Object%20Detection.pdf
  14. RecurrentBEV: A Long-term Temporal Fusion Framework for Multi ..., 10월 5, 2025에 액세스, https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/09090.pdf
  15. BEVDepth: Acquisition of Reliable Depth for Multi-View 3D Object Detection - ResearchGate, 10월 5, 2025에 액세스, https://www.researchgate.net/publication/371914779_BEVDepth_Acquisition_of_Reliable_Depth_for_Multi-View_3D_Object_Detection
  16. Megvii-BaseDetection/BEVDepth - GitHub, 10월 5, 2025에 액세스, https://github.com/Megvii-BaseDetection/BEVDepth
  17. BEVDepth: Acquisition of Reliable Depth for Multi-view 3D Object Detection, 10월 5, 2025에 액세스, https://patrick-llgc.github.io/Learning-Deep-Learning/paper_notes/bevdepth.html
  18. TIG-BEV: MULTI-VIEW BEV 3D OBJECT DETECTION - OpenReview, 10월 5, 2025에 액세스, https://openreview.net/pdf/3a3db910bc777476b97933a746cbe69c93fe94fc.pdf
  19. BEVDepth: Acquisition of Reliable Depth for Multi-view 3D Object Detection : r/computervision - Reddit, 10월 5, 2025에 액세스, https://www.reddit.com/r/computervision/comments/zjxwpd/bevdepth_acquisition_of_reliable_depth_for/
  20. BEVDepth: Acquisition of Reliable Depth for Multi-View 3D Object Detection, 10월 5, 2025에 액세스, https://ojs.aaai.org/index.php/AAAI/article/view/25233
  21. Zheng Ge - Semantic Scholar, 10월 5, 2025에 액세스, https://www.semanticscholar.org/author/Zheng-Ge/151479828
  22. [PDF] Exploring Object-Centric Temporal Modeling for Efficient Multi-View 3D Object Detection | Semantic Scholar, 10월 5, 2025에 액세스, https://www.semanticscholar.org/paper/Exploring-Object-Centric-Temporal-Modeling-for-3D-Wang-Liu/73385e2aac9890073669759dfde8800b5704ab6e
  23. BEVFormer: Learning Bird's-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers, 10월 5, 2025에 액세스, https://patrick-llgc.github.io/Learning-Deep-Learning/paper_notes/bevformer.html
  24. Depth-aware BEV Feature Transformation for Accurate 3D Lane Detection - arXiv, 10월 5, 2025에 액세스, https://arxiv.org/pdf/2505.13266
  25. [2203.17270] BEVFormer: Learning Bird's-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers - arXiv, 10월 5, 2025에 액세스, https://arxiv.org/abs/2203.17270
  26. BEVFormer: Learning Bird's-Eye-View Representation from Multi-camera Images via Spatiotemporal Transformers | Request PDF - ResearchGate, 10월 5, 2025에 액세스, https://www.researchgate.net/publication/365164142_BEVFormer_Learning_Bird's-Eye-View_Representation_from_Multi-camera_Images_via_Spatiotemporal_Transformers
  27. [2203.17054] BEVDet4D: Exploit Temporal Cues in Multi-camera 3D Object Detection, 10월 5, 2025에 액세스, https://arxiv.org/abs/2203.17054
  28. DA-BEV: Depth Aware BEV Transformer for 3D Object Detection | Semantic Scholar, 10월 5, 2025에 액세스, https://www.semanticscholar.org/paper/DA-BEV%3A-Depth-Aware-BEV-Transformer-for-3D-Object-Zhang-Li/1253a8bf048ddbdf7a7a9bd2007206be7705f6db
  29. BEVFormer V2 | PDF | Data Compression | Lidar - Scribd, 10월 5, 2025에 액세스, https://www.scribd.com/document/751110030/BEVFormerV2
  30. CVPR Poster BEVFormer v2: Adapting Modern Image Backbones to Bird's-Eye-View Recognition via Perspective Supervision, 10월 5, 2025에 액세스, https://cvpr.thecvf.com/virtual/2023/poster/21971
  31. BEVFormer v2: Adapting Modern Image ... - CVF Open Access, 10월 5, 2025에 액세스, https://openaccess.thecvf.com/content/CVPR2023/papers/Yang_BEVFormer_v2_Adapting_Modern_Image_Backbones_to_Birds-Eye-View_Recognition_via_CVPR_2023_paper.pdf
  32. bev-perception · GitHub Topics, 10월 5, 2025에 액세스, https://github.com/topics/bev-perception?o=asc&s=updated
  33. BEVCon: Advancing Bird's Eye View Perception with Contrastive Learning - ResearchGate, 10월 5, 2025에 액세스, https://www.researchgate.net/publication/388868567_BEVCon_Advancing_Bird's_Eye_View_Perception_with_Contrastive_Learning
  34. arxiv.org, 10월 5, 2025에 액세스, https://arxiv.org/html/2508.04702v1#:~:text=BEVCon%20consists%20of%20two%20contrast,tasks%3B%20and%20(2)%20a
  35. The overall framework of BEVCon, which consists of an instance feature... - ResearchGate, 10월 5, 2025에 액세스, https://www.researchgate.net/figure/The-overall-framework-of-BEVCon-which-consists-of-an-instance-feature-contrast-module_fig1_394362395
  36. Jiawei Yang - CatalyzeX, 10월 5, 2025에 액세스, https://www.catalyzex.com/author/Jiawei%20Yang
  37. [2408.16200] PolarBEVDet: Exploring Polar Representation for Multi-View 3D Object Detection in Bird's-Eye-View - arXiv, 10월 5, 2025에 액세스, https://arxiv.org/abs/2408.16200
  38. KAN-RCBEVDepth: An multi-modal fusion algorithm in object detection for autonomous driving - arXiv, 10월 5, 2025에 액세스, https://arxiv.org/html/2408.02088v1
  39. mit-han-lab/bevfusion - GitHub, 10월 5, 2025에 액세스, https://github.com/mit-han-lab/bevfusion
  40. BEVFusion: Multi-Task Multi-Sensor Fusion with Unified Bird's-Eye View Representation, 10월 5, 2025에 액세스, https://arxiv.org/html/2205.13542v3
  41. arXiv:2403.16440v1 [cs.CV] 25 Mar 2024, 10월 5, 2025에 액세스, https://arxiv.org/pdf/2403.16440
  42. [2403.16440] RCBEVDet: Radar-camera Fusion in Bird's Eye View for 3D Object Detection, 10월 5, 2025에 액세스, https://arxiv.org/abs/2403.16440
  43. [2508.07560] Progressive Bird's Eye View Perception for Safety-Critical Autonomous Driving: A Comprehensive Survey - arXiv, 10월 5, 2025에 액세스, https://arxiv.org/abs/2508.07560
  44. Progressive Bird's Eye View Perception for Safety-Critical ... - arXiv, 10월 5, 2025에 액세스, https://arxiv.org/pdf/2508.07560?
  45. BEV Perception for Autonomous Driving: State of the Art and Future Perspectives | Request PDF - ResearchGate, 10월 5, 2025에 액세스, https://www.researchgate.net/publication/383397799_BEV_Perception_for_Autonomous_Driving_State_of_the_Art_and_Future_Perspectives
  46. ECCV 2024 W-CODA: 1st Workshop on Multimodal Perception and Comprehension of Corner Cases in Autonomous Driving - arXiv, 10월 5, 2025에 액세스, https://arxiv.org/html/2507.01735v1
  47. ECCV 2024 W-CODA: 1st Workshop on Multimodal Perception and Comprehension of Corner Cases in Autonomous Driving - ResearchGate, 10월 5, 2025에 액세스, https://www.researchgate.net/publication/393332913_ECCV_2024_W-CODA_1st_Workshop_on_Multimodal_Perception_and_Comprehension_of_Corner_Cases_in_Autonomous_Driving
  48. Panacea: Panoramic and Controllable Video Generation for Autonomous Driving - CVPR, 10월 5, 2025에 액세스, https://cvpr.thecvf.com/virtual/2024/poster/30274