월드랩과 오토데스크의 협업, 그리고 공간 AI 모델 패러다임 전환
BIM 칼럼니스트 강태욱의 이슈 & 토크
최근 인공지능 분야의 주요 화두는 단연 ‘공간 지능(spatial intelligence)’의 구현이다. 단순 2D 이미지나 단일 3D 객체(object) 생성에 머물렀던 기존의 기술적 한계를 넘어, 물리적 환경의 기하학적 구조와 상호작용을 포괄적으로 이해하는 거대 월드 모델(LWM : Large World Models)이 새로운 대안으로 부상하고 있다.
특히, 페이페이 리(Fei-Fei Li) 교수가 이끄는 월드랩스(World Labs)의 ‘마블(Marble)’ 출시는 이러한 패러다임 전환을 알리는 핵심 마일스톤이다. 이번 호에서는 최근 오토데스크와 월드랩스의 대규모 전략적 파트너십을 중심으로, 마블의 기술적 아키텍처와 통합 파이프라인, 그리고 이에 대응하는 오픈소스 3D 생성 모델의 발전 동향을 기술적 관점에서 분석하고자 한다.
■ 강태욱
건설환경 공학을 전공하였고 소프트웨어 공학을 융합하여 세상이 돌아가는 원리를 분석하거나 성찰하기를 좋아한다. 건설과 소프트웨어 공학의 조화로운 융합을 추구하고 있다. 팟캐스트 방송을 통해 이와 관련된 작은 메시지를 만들어 나가고 있다. 현재 한국건설기술연구원에서 BIM/ GIS/FM/BEMS/역설계 등과 관련해 연구를 하고 있으며, 연구위원으로 근무하고 있다.
페이스북 | www.facebook.com/laputa999
블로그 | http://daddynkidsmakers.blogspot.com
홈페이지 | https://dxbim.blogspot.com
팟캐스트 | www.facebook.com/groups/digestpodcast
그림 1. 월드랩스가 개발한 오토데스크의 마블 서비스
그림 2. 월드랩스가 개발한 오토데스크의 마블 서비스
오토데스크 마블의 기술적 배경
마블은 오토데스크가 직접 개발한 제품이 아니다. 이 모델은 ‘AI의 대모’라 불리는 페이페이 리 교수가 설립한 AI 스타트업 월드랩스가 개발한 핵심 생성형 3D 월드 모델이다. 오토데스크는 2026년 2월 월드랩스에 대규모 전략적 투자를 단행하며, 자사 소프트웨어와의 통합 파트너십을 발표했다.
그림 3. 페이페이 리 교수의 월드랩 연구실 멤버들(출처 : techfundingnews)
마블의 구체적인 첫 코드 작성일이 공식적으로 공개되지는 않았으나, 회사의 설립과 주요 제품 마일스톤을 통해 개발 타임라인을 추론할 수 있다.
초기 R&D 및 시작(2024년 1월) : 페이페이 리 교수를 비롯한 최고 수준의 AI 연구진이 3D 환경 생성과 실시간 시뮬레이션을 목표로 2024년 1월에 월드랩스를 공동 창립했다. 마블의 근간이 되는 ‘공간 지능’ 연구와 코어 모델 개발은 이때 본격적으로 시작되었을 것으로 분석된다.을 거쳐, 마블의 첫 번째 제한적 베타 버전이 공개되었다.
프로토타입 및 베타(2025년 9월) : 약 1년 8개월의 딥테크 연구 기간
정식 출시(2025년 11월 12일) : 텍스트, 이미지, 비디오 등을 입력받아 상호작용 가능한 3D 환경을 즉석에서 구축하는 마블 프론티어 모델이 일반 대중에게 정식 론칭되었다.
마블의 핵심 기술 스택
마블은 단순히 2D 이미지를 이어 붙이는 비디오 생성 AI가 아니라, 물리적 공간의 3차원 구조를 완벽히 이해하는 거대 월드 모델(LWM) 아키텍처를 채택하고 있다.
3D 표현 포맷(3D Gaussian Splatting) : 시점이 변하면 형태가 무너지는 기존 생성 모델의 한계를 극복하고, 변형 없이 영구적으로 보존되는 3D 환경을 생성한다. 결과물은 3D 가우시안 스플랫이나 메시(mesh) 형태로 다운로드하여 언리얼, 유니티 등 다른 게임 엔진으로 내보낼 수 있다.
실시간 프레임 모델(RTFM : Real-Time Frame Model) : 2025년 10월에 도입된 핵심 렌더링 기술이다. 단일 GPU 환경에서도 실시간으로 월드를 생성하고 상호작용할 수 있도록, 기존 프레임들을 일종의 ‘공간 메모리’로 활용해 높은 디테일을 유지한다.
웹 렌더링 엔진(SparkJS.dev) : 별도의 무거운 클라이언트 없이 웹 브라우저 환경에서 매끄러운 3D 렌더링을 구현하기 위해 Three.js를 기반으로 한 독자 렌더러 ‘SparkJS.dev’를 사용한다. 이는 가우시안 스플랫과 전통적인 WebGL 애셋(glTF 모델 등)을 자연스럽게 혼합한다.
공간 편집 도구(Chisel) : 사용자가 직접 상자나 평면 같은 단순한 원시 도형(primitive)으로 3D 뼈대를 잡으면, AI가 맥락을 파악해 시각적 디테일과 텍스처를 입히는 하이브리드 3D 편집을 지원한다.
오토데스크 생태계와의 결합 전략
기존 스테이블 디퓨전 기반 3D 생성이 단일 객체를 깎아내는 데 집중했다면, 마블은 단일 이미지나 텍스트에서 거대한 3D 가상 세계 전체를 생성한다. 이를 오토데스크의 생태계와 결합하는 것이 이번 협업의 핵심이다.
백본 모델(backbone models) : 단순 2D 픽셀 패턴 모방을 넘어 3D 공간의 기하학(geometry), 재질, 빛의 반사, 물리 법칙을 추론하는 거대 세계 모델(LWM)을 백본으로 사용한다. 월드랩스의 핵심 개발진(NeRF 창시자 등)의 배경을 고려할 때, NeRF 및 차세대 뉴럴 렌더링 기술이 결합되어 시점 변화에 완벽히 대응하는 일관된 3D 신(scene)을 연산한다.
학습 데이터 종류(training data) : 일반적인 2D 이미지 쌍을 넘어 3D 레이아웃, 공간 깊이(depth) 데이터, 카메라 트래킹(pose)이 포함된 다중 시점 영상, 그리고 오토데스크가 강점을 가진 기하학적/물리적 CAD 시뮬레이션 데이터 등 복합적인 고차원 데이터로 학습된다.
오토데스크와의 통합 파이프라인(integration workflow)
편집 가능한 3D 신 : 비디오 영상(예 : 오픈AI 소라)이 아닌, 구조화되고 상호작용 가능한 3D 환경 자체를 출력한다.
라스트 마일 편집(last-mile editing) 생태계 : 마블이 프롬프트로 전체 공간의 초안을 생성하면, 이를 오토데스크의 마야, 3ds 맥스, 레빗 같은 전통적인 소프트웨어로 넘긴다. 이후 아티스트나 엔지니어가 직접 폴리곤 토폴로지, 리깅, 정밀한 재질 수정을 거쳐 최종 결과물을 완성한다.
■ 자세한 기사 내용은 PDF로 제공됩니다.
작성일 : 2026-04-02