X3D & Spatial Computingtech-infovideo

LEGO-SLAM: Language-Embedded Gaussian Optimization SLAM

rsasaki0109·@rsasaki0109·Mar 22, 2026

개요 LEGO-SLAM(Language-Embedded Gaussian Optimization SLAM)은 3D Gaussian Splatting 기반의 SLAM 프레임워크로, 실시간 3D 재구성과 동시에 자연어 기반의 의미론적 쿼리를 지원한다. ScanNet 씬에서 15 FPS로 동작하며, 언어 기반 루프 클로징을 통해 드리프트를 보정한다.

핵심 내용 기존 SLAM 시스템은 기하학적 정보만으로 맵을 구축하기 때문에 "의자 옆 테이블"처럼 의미 기반으로 장면을 검색하는 것이 불가능했다. LEGO-SLAM은 3D Gaussian Splatting에 언어 임베딩을 통합하여 이 문제를 해결한다. 각 Gaussian에 언어 피처를 부착함으로써 오픈 보캐뷸러리 시맨틱 쿼리가 가능하며, 별도의 사전 정의된 클래스 없이도 자유로운 텍스트로 장면 내 객체를 검색할 수 있다. 또한 언어 기반 루프 클로징은 시각적으로 유사하지만 의미적으로 다른 장소를 구별하여 위치 추정 드리프트를 효과적으로 줄여준다.

기존 대비 차별점 기존 NeRF 기반 시맨틱 SLAM과 비교해 3DGS를 활용하므로 렌더링 속도가 빠르고, 15 FPS 실시간 처리가 가능하다는 점이 돋보인다. 특히 루프 클로징에 기하학이 아닌 언어 유사도를 활용하는 접근은 참신하며, 텍스처가 부족한 환경에서도 안정적인 드리프트 보정을 기대할 수 있다.

활용 가능성 로봇 내비게이션에서 "빨간 소파 앞으로 이동해"와 같은 자연어 명령 기반 이동이 가능해지며, AR/MR 환경에서 음성으로 공간 내 객체를 검색하는 인터페이스에도 활용할 수 있다. 실내 디지털 트윈 구축 시 시맨틱 레이블링 자동화에도 유용할 것이다.

참고 자료 - 원본 트윗 - GitHub 저장소 ===

#slam#language-embedding#3d-reconstruction#real-time#scannet

Related in 3D & Spatial Computing