
Threads3D & Spatial Computingtech-infovideo
엔비디아 연구진이 텍스트와 물리적 제약 조건을 통해 고품질 3D 모션을 생성하는 모션 디퓨전 모델 'Kimodo'를 공개했습니다.
choi.openai·@choi.openai·Mar 22, 2026
개요 엔비디아 연구진이 텍스트 프롬프트와 물리적 제약 조건을 기반으로 고품질 3D 모션을 생성하는 디퓨전 모델 'Kimodo'를 공개했다. 기존 모션 생성 기술의 한계를 대규모 학습 데이터와 물리 기반 제어로 극복한 것이 핵심이다.
핵심 내용 3D 모션 생성 분야에서는 모션 캡처 데이터의 부족이 오랜 병목이었다. 데이터가 적으니 생성된 움직임이 어색하거나 세밀한 동작 제어가 어려웠다. Kimodo는 700시간 이상의 고품질 모션 캡처 데이터를 학습하여 이 문제를 정면으로 해결했다. 텍스트 입력만으로 자연스러운 인체 동작을 생성할 수 있으며, 물리적 제약 조건(접촉, 균형, 충돌 등)을 함께 지정해 보다 현실적인 모션 출력이 가능하다. 디퓨전 모델 기반이므로 생성 품질과 다양성 모두에서 강점을 보인다.
기존 대비 차별점 기존 텍스트-to-모션 모델들은 제한된 데이터셋(수십 시간 수준)으로 학습되어 동작의 다양성과 자연스러움에 한계가 있었다. Kimodo는 학습 데이터 규모를 수십 배 이상 확대했고, 물리 시뮬레이션 기반의 제약 조건을 디퓨전 프로세스에 통합해 "물리적으로 그럴듯한" 동작을 보장한다는 점이 차별화된다. 엔비디아의 GPU 인프라와 연구 역량이 결합된 결과물이다.
활용 가능성 게임, 영화, VR/AR 콘텐츠 제작에서 모션 캡처 스튜디오 없이도 고품질 애니메이션을 생성할 수 있다. 로보틱스 분야에서 인간형 로봇의 동작 계획에도 적용 가능하며, 메타버스 아바타의 실시간 모션 생성에도 활용될 수 있다. 인디 게임 개발자나 소규모 스튜디오에게 특히 큰 가치를 제공할 것으로 보인다.
참고 자료 - 원본 ===
#nvidia#diffusion-model#3d-motion#motion-capture#kimodo