Home Review Ideas

GitHub3D & Spatial Computingtech-infocode

DepthAnything/PromptDA

DepthAnything·@DepthAnything·Jan 20, 2026

개요 PromptDA(Prompt Depth Anything)는 CVPR 2025에 발표된 연구로, Depth Anything 시리즈의 최신 버전이다. 저해상도 깊이 정보를 프롬프트로 활용하여 고품질 메트릭 깊이맵을 생성하는 새로운 접근법을 제시한다. 3D 복원, 로봇 그래스핑 등 다양한 다운스트림 태스크를 지원한다.

핵심 내용 단안(monocular) 깊이 추정은 단일 2D 이미지에서 각 픽셀의 깊이를 예측하는 문제로, 3D 복원과 자율주행 등에 핵심적인 기술이다. 기존 Depth Anything 모델은 상대적 깊이(relative depth)에서 강력한 성능을 보였지만, 실제 미터 단위의 메트릭 깊이로 변환할 때는 추가 보정이 필요했다. PromptDA는 LiDAR나 저해상도 깊이 센서에서 얻은 희소(sparse) 깊이 데이터를 프롬프트로 입력하여, 모델이 절대적 스케일과 시프트를 학습하도록 유도한다. 이를 통해 별도의 후처리 없이 정확한 메트릭 깊이맵을 직접 출력할 수 있다.

기존 대비 차별점 기존 깊이 추정 모델들이 상대적 깊이만 제공하거나, 메트릭 깊이를 위해 별도의 스케일 보정 파이프라인이 필요했던 반면, PromptDA는 희소 깊이를 프롬프트로 주입하는 간결한 방식으로 이 문제를 해결했다. 또한 4D 복원과 로봇 그래스핑까지 토픽에 포함되어 있어, 단순 깊이 추정을 넘어 실용적 응용까지 고려한 연구다.

활용 가능성 스마트폰 LiDAR(iPhone Pro 등)와 결합하면 저비용으로 고품질 3D 스캔이 가능해진다. 실내 공간 복원, AR 오클루전, 로봇 내비게이션 등에서 센서 퓨전 파이프라인의 핵심 모듈로 활용할 수 있다. Gaussian Splatting 학습의 초기 깊이 prior로 사용하는 것도 흥미로운 조합이 될 수 있다.

참고 자료 - 원본 저장소 ===

Python⭐ 1,0843d-reconstruction4d-reconstructiondepth-estimationrobotics-grasping

#depth-estimation#3d-reconstruction#computer-vision#cvpr-2025

원본 보기 ↗

Related in 3D & Spatial Computing

A client hands you a single, cluttered photo of their living room and asks what it would look like r

@wildmindai

LEGO-SLAM: Language-Embedded Gaussian Optimization SLAM

@rsasaki0109

엔비디아 연구진이 텍스트와 물리적 제약 조건을 통해 고품질 3D 모션을 생성하는 모션 디퓨전 모델 'Kimodo'를 공개했습니다.

@choi.openai

DepthViz 2.0 출시

@orcawalk