엔비디아, "시뮬레이션으로 로봇에 정교한 조작 기술 가르친다"

엔비디아가 시뮬레이션 교육을 통해 로봇에 복잡한 조작 기술을 훈련시키는 디엑스트림(DeXtreme) 프로젝트를 공개했다.

로봇이 인간의 일상에서 작동할 수 있으려면 우리의 도구 및 주변 환경과 능숙하게 상호작용할 수 있어야 한다. 손이 있는 로봇은 일반적으로 훨씬 통제가 까다로운 것으로 알려져 있는데, 특히 손가락을 가진 손에는 많은 관절이 있으며 주어진 임무의 수행을 위해 특정하게 조정된 방식으로 움직여야 한다. 전통적인 로봇 제어 방법은 사전에 정확하게 프로그래밍된 통제 및 동작의 형식을 갖는데, 이는 인간에게는 당연하게 여겨지는 일반화된 미세 운동 제어가 불가능하다.

엔비디아는 로봇 관절의 제어를 위해 신경망을 훈련시키는 심층 강화 학습(RL) 기술을 적용해 이러한 문제를 해결할 수 있을 것으로 보고 있다. 로봇은 심층 RL을 통해 시행착오 속에서 학습이 이루어지며, 할당된 작업을 성공적으로 완료할 경우 이에 대한 보상을 받는다. 하지만 이 기술은 수백만 또는 수십억 개의 샘플을 학습해야만 가능하기에 실제 로봇에 직접 적용하는 것은 거의 불가능하다.

엔비디아는 "아이작(Isaac) 로보틱스 시뮬레이터를 사용하면 물리 법칙을 준수하면서도 실제보다 1만 배 이상 빠르게 달릴 수 있도록 구현된 우주 안에서 로봇을 훈련시킬 수 있다"고 밝혔다. 엔비디아의 디엑스트림 프로젝트 연구원들은 RL 훈련 로보틱스 시뮬레이터인 아이작 짐(Issac Gym)을 사용하여 로봇의 손이 목표의 위치화 방향, 자세에 일치하도록 큐브를 조작할 수 있는 방법을 가르쳤다. 신경망 두뇌는 실제 세계에서 로봇을 제어하도록 이식되기 이전에 시뮬레이션으로 이를 학습했다.

디엑스트림은 강화 학습을 위한 엔드 투 엔드 GPU 가속 시뮬레이션 환경을 제공하는 아이작 짐을 통해 훈련된다. 엔비디아 피직스(PhysX)는 GPU에서 세계를 시뮬레이션하며, 딥 러닝 제어 방침 네트워크를 훈련하는 동안 GPU 메모리에 그 결과가 남는다. 따라서 단일한 옴니버스(Omniverse) OVX 서버에서 훈련을 수행할 수 있다. 이러한 시스템을 통해 훌륭한 방침을 훈련하는 데는 약 32시간이 소요되며, 이를 실제 세계로 치환하면 로봇 한 대의 42년치 경험과 동일한 수치이다.

▲ 이미지 출처 : Nvidia 유튜브 캡처

한편, 디엑스트림 프로젝트는 전 세계의 연구자들이 연구 결과를 쉽게 복제할 수 있도록 간단하고 저렴한 하드웨어를 선택하여 사용했다. 로봇에는 알레그로 핸드(Allegro Hand)가 채택됐는데, 그 비용은 다른 대안들의 1/10 수준이다. 또한 손가락은 4개이며 손목은 움직일 수 없다. 기존의 RGB 카메라를 사용하면 영상을 통해 큐브를 추적할 수 있다. 이를 통해 별도의 하드웨어 없이 필요에 따라 쉽게 위치를 변경할 수 있다. 큐브는 각 면에 부착된 스티커로 3D 프린팅된다.

시뮬레이션을 사용하는 주요 이유 중 하나는 실제 세계에서 직접 로봇을 훈련할 때 다양한 문제들을 마주하게 되기 때문이다. 예를 들어, 로봇 하드웨어는 과도하게 사용할 경우 쉽게 파손되거나 실험의 반복 주기와 소요 시간이 느려진다. 시뮬레이션을 사용하면 마모되지 않는 로봇을 훈련하여 이와 같은 문제들을 피할 수 있으며, 어려운 작업을 학습하는데 필요한 다양한 데이터를 얻을 수 있다. 동시에 시뮬레이션이 실시간보다 빠르게 실행되어 반복 주기에서 큰 개선을 얻을 수 있다.

시뮬레이션에서 훈련할 때 가장 중요한 것은 시뮬레이션과 실제 세계 사이의 격차를 해소하는 것이다. 이를 위해 디엑스트림은 시뮬레이터에 설정된 물체 속성의 도메인 랜덤화를 사용하여 10만 개 이상의 시뮬레이션 환경에 걸친 객체의 질량과 마찰 수준, 그 외의 기타 속성들을 한 번에 변경한다.

도메인 랜덤화는 모든 종류의 특이한 시나리오 조합으로 AI를 훈련할 경우 실제 세계에서 보다 강력하게 작업을 수행할 수 있다. 예를 들어, 대부분의 실험은 회로 보드의 느슨한 연결로 인해 엄지 손가락에 오작동이 발생한 로봇으로 진행되었다. 그럼에도 불구하고 방침들이 시뮬레이션에서 현실 세계로 안정적으로 이전되는 등 긍정적인 결과를 확인할 수 있었다.

엔비디아는 "디엑스트림 프로젝트가 전달하고자 하는 핵심 메시지는 로봇과 지속적으로 접촉하는 물체가 있는 환경을 처리하는 등 복잡한 로봇 시스템을 훈련할 때 시뮬레이션이 매우 효과적인 도구가 될 수 있다는 것"이라면서, "디엑스트림 프로젝트는 비교적 저렴한 하드웨어를 사용하여 이를 시연함으로써, 다른 사람들이 해당 시뮬레이션 도구를 사용하고 이 작업을 기반으로 삼을 수 있도록 지원하고자 한다"고 밝혔다.

#태그

로봇

시뮬레이션

강화학습

ㆍ업체 홍보

ㆍ인기