Home Review Ideas

X3D & Spatial Computingtech-infoimage

Introducing OnlineSI: Taming Large Language Model for Online 3D Understanding and Grounding!

Zixian Liu·@ZixianLiu03·Mar 9, 2026

개요 OnlineSI는 멀티모달 대규모 언어 모델(MLLM)을 활용하여 실시간으로 변화하는 3D 환경을 이해하고 그라운딩(grounding)하는 연구다. 정적 스냅샷이 아닌, 끊임없이 변하는 3D 세계를 언어 모델이 지속적으로 파악할 수 있는지에 대한 도전적인 질문에 답한다.

핵심 내용 기존의 3D 이해 연구는 대부분 사전에 구축된 정적 포인트 클라우드나 메시 데이터를 입력으로 받아 처리하는 오프라인 방식이었다. OnlineSI는 이를 온라인(online) 세팅으로 전환하여, 스트리밍 방식으로 들어오는 시각 정보를 실시간으로 처리하면서 3D 공간에 대한 언어 기반 이해와 객체 그라운딩을 수행한다. MLLM의 언어적 추론 능력과 3D 공간 인지를 결합함으로써, "빨간 의자 왼쪽에 있는 물체가 뭐야?"와 같은 질의에 동적 환경에서도 응답할 수 있는 구조를 제안한다.

기존 대비 차별점 오프라인 3D 이해와 달리, OnlineSI는 장면이 변화하는 도중에도 모델이 지속적으로 공간을 파악한다는 점이 핵심이다. 이는 로봇이나 AR 디바이스처럼 환경이 끊임없이 바뀌는 실제 응용 시나리오에 훨씬 가까운 설정이다. 또한 MLLM을 3D 그라운딩에 직접 활용한다는 점에서, 별도의 3D 전문 모듈 없이도 언어-공간 연결을 시도한다는 접근이 주목할 만하다.

활용 가능성 로봇 내비게이션에서 자연어 명령 기반 물체 탐색, AR 글래스에서의 실시간 장면 안내, 스마트홈 환경의 능동적 모니터링 등에 적용 가능하다. 향후 Embodied AI 에이전트가 사람과 자연어로 소통하며 물리 공간에서 작업을 수행하는 시나리오의 핵심 기술이 될 수 있다.

참고 자료 - 원본 트윗 - 프로젝트 페이지 ===

#mllm#3d-grounding#online-perception#scene-understanding

Links

https:// onlinesi.github.io

원본 보기 ↗

Related in 3D & Spatial Computing

A client hands you a single, cluttered photo of their living room and asks what it would look like r

@wildmindai

LEGO-SLAM: Language-Embedded Gaussian Optimization SLAM

@rsasaki0109

엔비디아 연구진이 텍스트와 물리적 제약 조건을 통해 고품질 3D 모션을 생성하는 모션 디퓨전 모델 'Kimodo'를 공개했습니다.

@choi.openai

DepthViz 2.0 출시

@orcawalk