Home Review Ideas

X3D & Spatial Computingtech-infovideo

Mind blown by this new CVPR 2026 paper: tttLRM

KIRI Engine - 3D Scanner App·@KIRI_Engine_App·Mar 13, 2026

개요 CVPR 2026에 발표된 tttLRM은 Test-Time Training(TTT) 레이어를 활용하여 다중 뷰 이미지로부터 선형 복잡도로 3D 복원을 수행하는 모델이다. 추론 중에도 가중치가 지속적으로 업데이트되는 구조로, 긴 컨텍스트의 이미지 시퀀스를 효율적으로 처리한다.

핵심 내용 기존 멀티뷰 3D 복원 모델은 트랜스포머 기반 어텐션을 사용하여 이미지 수가 늘어나면 O(n²) 복잡도로 인해 확장이 어려웠다. tttLRM은 TTT 레이어를 도입하여, 다수의 관측 이미지를 "fast weights"로 압축하고 이를 추론 과정에서 계속 갱신하는 방식을 취한다. 이를 통해 오토리그레시브하게 이미지를 처리하면서도 선형 복잡도(O(n))를 유지한다. 결과적으로 수십~수백 장의 이미지에서도 일관된 3D 복원 품질을 달성한다.

기존 대비 차별점 핵심 차별점은 "추론 시점에 학습이 일어난다"는 TTT 패러다임을 3D 복원에 최초로 적용했다는 점이다. 기존 LRM 계열 모델이 고정된 가중치로 추론하는 것과 달리, 입력 이미지가 들어올 때마다 모델 내부 상태가 적응적으로 업데이트된다. 장문맥 처리에서 선형 복잡도를 달성한 것도 실용성 측면에서 큰 장점이다.

활용 가능성 - 드론이나 로봇이 촬영한 대량의 이미지 시퀀스에서 실시간 3D 맵 생성 - 스마트폰 다중 촬영으로 고품질 3D 스캔 (KIRI Engine 같은 앱에 직접 통합 가능) - TTT 패러다임을 다른 공간 인식 태스크(SLAM, 깊이 추정 등)에 확장 적용

참고 자료 - 원본 트윗 ===

#test-time-training#autoregressive#cvpr#multi-view

원본 보기 ↗

Related in 3D & Spatial Computing

A client hands you a single, cluttered photo of their living room and asks what it would look like r

@wildmindai

LEGO-SLAM: Language-Embedded Gaussian Optimization SLAM

@rsasaki0109

엔비디아 연구진이 텍스트와 물리적 제약 조건을 통해 고품질 3D 모션을 생성하는 모션 디퓨전 모델 'Kimodo'를 공개했습니다.

@choi.openai

DepthViz 2.0 출시

@orcawalk