Home Review Ideas

X3D & Spatial Computingtech-infovideo

Everyone is scaling VLAs with more robot data.

Robots Digest ·@robotsdigest·Mar 12, 2026

개요 TiPToP은 로봇 훈련 데이터나 정책 학습 없이, RGB 이미지와 언어 명령만으로 실제 로봇 매니퓰레이션 태스크를 수행하는 시스템이다. Foundation 모델로 3D 장면을 이해하고, GPU 기반 TAMP(Task and Motion Planning) 플래너가 실행 가능한 궤적을 생성한다.

핵심 내용 현재 로봇 학습의 주류인 VLA(Vision-Language-Action) 모델은 대규모 로봇 데이터를 수집해 정책을 학습하는 방식이다. TiPToP은 이와 완전히 다른 경로를 제시한다. 파이프라인은 다음과 같다: (1) RGB 이미지에서 Foundation 모델(VLM 등)로 3D 장면을 복원하고 물체를 인식, (2) 언어 명령을 파싱하여 태스크 플랜을 생성, (3) GPU 가속 TAMP 플래너가 충돌 회피·물리 제약을 고려한 모션 궤적을 계산. 로봇 데이터 수집이라는 가장 큰 병목을 완전히 우회한다.

기존 대비 차별점 VLA 접근법이 "더 많은 로봇 데이터"로 스케일링하는 반면, TiPToP은 "로봇 데이터 제로"로 동작한다는 점이 파격적이다. Foundation 모델의 일반적 세계 지식과 고전적 모션 플래닝의 정밀한 물리 추론을 결합함으로써, 새로운 환경·물체에 대한 일반화 능력을 데이터 없이 확보한다. 학습 기반과 계획 기반의 하이브리드 관점에서 의미 있는 지점이다.

활용 가능성 - 로봇 데이터 수집이 어려운 환경(위험 작업, 특수 산업)에서의 빠른 배포 - 가정용 로봇의 제로샷 태스크 수행 (새 물건을 처음 봐도 조작 가능) - Foundation 모델 업그레이드만으로 로봇 성능이 함께 향상되는 구조

참고 자료 - 원본 트윗 ===

#robot-manipulation#3d-scene#task-planning#foundation-models

원본 보기 ↗

Related in 3D & Spatial Computing

A client hands you a single, cluttered photo of their living room and asks what it would look like r

@wildmindai

LEGO-SLAM: Language-Embedded Gaussian Optimization SLAM

@rsasaki0109

엔비디아 연구진이 텍스트와 물리적 제약 조건을 통해 고품질 3D 모션을 생성하는 모션 디퓨전 모델 'Kimodo'를 공개했습니다.

@choi.openai

DepthViz 2.0 출시

@orcawalk