X3D & Spatial Computingtech-infovideo

Li and Zhu et al., "DROID-SLAM in the Wild"

Kwang Moo Yi·@kwangmoo_yi·Mar 21, 2026

개요 "DROID-SLAM in the Wild"는 기존 DROID-SLAM에 단안(monocular) 깊이 추정기와 불확실성 추정을 결합하여, 별도의 깊이 센서 없이 일반 RGB 영상만으로도 강건한 SLAM을 수행할 수 있도록 확장한 연구다.

핵심 내용 DROID-SLAM은 딥러닝 기반 밀집 SLAM의 대표적 연구로, 반복적 업데이트를 통한 정밀한 카메라 포즈 추정과 밀집 깊이 맵 복원이 강점이다. 그러나 원본 DROID-SLAM은 제어된 환경의 데이터셋에 최적화되어 있어, 야외 촬영·손떨림·동적 객체가 포함된 "야생(in-the-wild)" 영상에서는 성능이 저하되는 한계가 있었다. 본 연구는 사전 학습된 단안 깊이 추정 모델의 예측값을 프라이어로 도입하고, 각 깊이 예측에 대한 불확실성(uncertainty)을 함께 추정하여 Bundle Adjustment 과정에서 신뢰도 가중치로 활용한다. 이를 통해 깊이 센서 없는 일반 스마트폰 영상에서도 안정적인 카메라 궤적 추정과 3D 복원이 가능해졌다.

기존 대비 차별점 기존 DROID-SLAM이 스테레오 또는 RGB-D 입력에 의존하거나 정적 장면을 가정했던 반면, 이 연구는 단안 RGB만으로 동작한다. 불확실성 기반 가중치를 BA에 통합함으로써, 깊이 추정이 부정확한 영역(반사면, 하늘 등)의 영향을 자동으로 억제하는 것이 핵심 차별점이다. 사실상 "아무 영상이나 넣으면 돌아가는 SLAM"에 한 걸음 더 다가간 결과다.

활용 가능성 - 스마트폰 촬영 영상에서의 실시간 3D 매핑 및 AR 콘텐츠 배치 - 유튜브·SNS 영상 등 비정형 소스로부터 3D 장면 복원 - 자율주행·로봇 내비게이션에서 저비용 센서 구성 가능성 확대

참고 자료 - 원본 트윗 ===

#droid-slam#monocular-depth#3d-reconstruction#cvpr

Related in 3D & Spatial Computing