Home Review Ideas

GitHub3D & Spatial Computingtech-infocode

lukasHoel/video_to_world

lukasHoel·@lukasHoel·Mar 19, 2026

개요 Video to World는 비디오 디퓨전 모델이 생성한 영상으로부터 3D 월드를 재구성하는 연구 프로젝트다. 생성된 비디오 시퀀스에 내재된 3D 불일치(inconsistency)를 비강체 정렬(non-rigid alignment)로 해결하여 일관된 3D 공간을 만들어낸다.

핵심 내용 비디오 디퓨전 모델(Sora, Runway 등)은 시각적으로 그럴듯한 영상을 생성하지만, 프레임 간 3D 기하학적 일관성이 보장되지 않는다는 근본적인 한계가 있다. 카메라가 움직이는 영상에서 같은 물체가 프레임마다 미묘하게 다른 형태로 나타나는 문제가 대표적이다. 이 프로젝트는 비강체 정렬 기법을 적용하여 이러한 불일치를 보정한다. 강체(rigid body) 가정을 완화함으로써, 디퓨전 모델이 만들어낸 "약간씩 다른" 3D 정보들을 유연하게 통합하여 하나의 일관된 3D 월드로 재구성한다. Python으로 구현되어 있으며 연구 목적의 코드가 공개되어 있다.

기존 대비 차별점 기존 3D 재구성은 실제 촬영 영상의 멀티뷰 일관성에 의존하거나, NeRF/3DGS처럼 정적 장면을 전제했다. 이 연구는 AI가 생성한 비디오—본질적으로 3D 일관성이 없는—를 입력으로 사용한다는 점에서 문제 설정 자체가 새롭다. 비강체 정렬이라는 해법도 디퓨전 모델의 특성에 맞춘 독창적 접근이다.

활용 가능성 텍스트 프롬프트만으로 3D 환경을 생성하는 파이프라인의 핵심 모듈이 될 수 있다. "텍스트 → 비디오 디퓨전 → Video to World → 3D 환경" 체인이 완성되면, 게임 레벨 디자인, 가상 공간 프로토타이핑, 영화 프리비즈 등에서 3D 에셋 제작 비용을 획기적으로 줄일 수 있다. 로봇 시뮬레이션을 위한 합성 환경 생성에도 적용 가능하다.

참고 자료 - GitHub 레포지토리 ===

Python⭐ 1113d-reconstructionvideo-diffusionworld-generation

#video-diffusion#world-generation#non-rigid-alignment#3d-from-video

원본 보기 ↗

Related in 3D & Spatial Computing

A client hands you a single, cluttered photo of their living room and asks what it would look like r

@wildmindai

LEGO-SLAM: Language-Embedded Gaussian Optimization SLAM

@rsasaki0109

엔비디아 연구진이 텍스트와 물리적 제약 조건을 통해 고품질 3D 모션을 생성하는 모션 디퓨전 모델 'Kimodo'를 공개했습니다.

@choi.openai

DepthViz 2.0 출시

@orcawalk