Home Review Ideas

X3D & Spatial Computingtech-infovideo

Spatial-TTT dropped!

Fangfu Liu·@fangfu0830·Mar 12, 2026

개요 Spatial-TTT는 Test-Time Training 기법을 공간 지능(Spatial Intelligence)에 적용한 연구로, fast weights를 공간 메모리처럼 활용해 7,000프레임 이상의 스트리밍 입력을 처리할 수 있다. 코드, 모델, 데이터가 모두 오픈소스로 공개되었다.

핵심 내용 이 연구의 핵심은 TTT 레이어의 fast weights를 "공간 메모리"로 재해석한 것이다. 모델이 새로운 프레임을 받을 때마다 내부 가중치가 적응적으로 갱신되며, 이전에 관측한 공간 정보를 압축적으로 기억한다. 이를 통해 매우 긴 시퀀스(7,000+ 프레임)에서도 메모리 폭발 없이 일관된 공간 이해를 유지한다. 트랜스포머의 KV 캐시가 시퀀스 길이에 비례해 증가하는 것과 달리, TTT 기반 접근은 고정 크기 가중치에 정보를 누적하므로 효율적이다.

기존 대비 차별점 tttLRM이 멀티뷰 3D 복원에 TTT를 적용했다면, Spatial-TTT는 보다 넓은 "공간 지능" 전반으로 TTT 패러다임을 확장한다. 7,000프레임 이상을 스트리밍으로 처리할 수 있다는 점은 실시간 로보틱스, AR 내비게이션 등 장시간 연속 입력이 필요한 시나리오에서 실용적 가치가 크다. 코드·모델·데이터의 전면 공개는 후속 연구와 산업 적용의 진입장벽을 크게 낮춘다.

활용 가능성 - 자율주행·로봇의 장시간 공간 인식 파이프라인에 통합 - AR/MR 기기에서 실시간으로 환경을 이해하고 기억하는 모듈로 활용 - 오픈소스 코드 기반으로 커스텀 도메인(실내 매핑, 산업 현장 등)에 파인튜닝

참고 자료 - 원본 트윗 - 프로젝트 페이지 ===

#test-time-training#spatial-memory#streaming#open-source

Links

https:// liuff19.github.io/Spatial-TTT/

원본 보기 ↗

Related in 3D & Spatial Computing

A client hands you a single, cluttered photo of their living room and asks what it would look like r

@wildmindai

LEGO-SLAM: Language-Embedded Gaussian Optimization SLAM

@rsasaki0109

엔비디아 연구진이 텍스트와 물리적 제약 조건을 통해 고품질 3D 모션을 생성하는 모션 디퓨전 모델 'Kimodo'를 공개했습니다.

@choi.openai

DepthViz 2.0 출시

@orcawalk