오라클과 AMD가 오라클 클라우드 인프라스트럭처(OCI)의 AMD 인스팅트(AMD Instinct) MI355X GPU 지원 계획을 발표했다. MI355X GPU는 대규모 AI 훈련 및 추론 워크로드에서 전 세대 대비 2배 이상 향상된 가성비와 더 많은 선택지를 제공한다. 오라클은 최신 AMD 인스팅트 프로세서로 가속화되는 제타스케일 AI 클러스터를 제공하며, 최대 13만 1072개의 MI355X GPU를 통해 대규모 AI 구축, 훈련, 추론을 지원할 예정이다.
최신 AI 애플리케이션은 더 크고 더 복잡한 데이터세트를 필요로 하며, 오늘날의 고객은 대규모 AI 훈련용으로 설계된 맞춤형 AI 컴퓨팅 설루션을 필요로 한다. AMD 인스팅트 MI355X GPU를 탑재한 제타스케일 OCI 슈퍼클러스터는 최대 13만 1072개의 MI355X GPU를 위한 고처리량, 초저지연 RDMA 클러스터 네트워크 아키텍처를 제공함으로써 이러한 요구를 충족시킨다. AMD 인스팅트 MI355X는 이전 세대의 3배에 이르는 컴퓨팅 성능과 50% 향상된 고대역폭 메모리를 제공한다.
높은 성능과 클라우드 유연성, 오픈소스 호환성을 갖춘 AMD 인스팅트 MI355X 기반 구성은 오늘날 최대 규모의 LLM과 AI 워크로드를 실행하고자 하는 고객에게 적합한 선택지다. OCI 기반 AMD 인스팅트 MI355X는 최대 2.8배 증가한 처리량으로 AI 배포 성능을 향상시킨다. 고객은 대규모 AI 혁신을 위한 더 빠른 결과, 더 짧은 지연 시간, 더 큰 AI 워크로드 실행 능력을 누릴 수 있다. 또한, 대용량 모델 전체를 더 크고 빠른 메모리에서 실행할 수 있어 높은 메모리 대역폭이 필요한 모델의 추론 및 훈련 속도가 향상된다. 새로운 구성은 288기가바이트의 고대역폭 메모리 3(HBM3)과 최대 8테라바이트의 메모리 대역폭을 제공한다.
AMD 인스팅트 MI355X는 새로운 4비트 부동 소수점 컴퓨트(FP4) 표준으로 최신 LLM 및 생성형 AI 모델을 비용 효율적으로 배포할 수 있으며, 이를 통해 효율적인 고속 추론이 가능하다. 고밀도 수냉식 설계를 통해 랙당 125킬로와트로 성능 밀도를 극대화해 까다로운 AI 워크로드 처리를 지원하는데, 랙당 64개의 GPU(각 1400와트)가 제공되므로 더 빨라진 훈련 시간, 높은 처리량, 더 낮은 지연 시간을 기대할 수 있다.
이 제품은 신규 에이전틱 애플리케이션을 배포하는 고객에게 더 빠른 TTFT(time-to-first token) 및 높은 초당 토큰 처리량을 지원하며, 최대 3테라바이트의 시스템 메모리를 탑재 가능한 AMD 튜린(AMD Turin) 고주파 CPU를 통해 효율적인 작업 오케스트레이션 및 데이터 처리를 지원함으로써 GPU 성능 최적화를 지원한다.
이외에도 AMD ROCm을 통해 유연한 아키텍처를 활용하고, 특정 공급업체에 종속되는 일 없이 기존 코드를 손쉽게 마이그레이션할 수 있도록 지원한다. AMD ROCm은 널리 사용되는 프로그래밍 모델, 도구, 컴파일러, 라이브러리, 런타임 등을 포함하는 오픈 소프트웨어 스택으로, AMD GPU를 사용한 AI 및 HPC 설루션 개발을 지원한다.
오라클의 마헤쉬 티아가라얀 OCI 총괄 부사장은 “양사는 클라우드에서 가장 까다로운 AI 워크로드를 실행하는 고객들을 지원할 수 있는 가장 광범위한 AI 인프라 제품을 제공하기 위해 노력하고 있다. OCI가 제공하는 성능과 앞선 네트워킹, 유연성, 보안, 규모와 결합된 AMD 인스팅트 GPU는 AI 워크로드 및 새로운 에이전틱 애플리케이션에 대한 추론 및 훈련 요구사항을 충족하는 데 기여할 것”이라고 말했다.
AMD의 포레스트 노로드 데이터센터 설루션 비즈니스 그룹 총괄 부사장 겸 총괄 매니저는 “AMD와 오라클은 고성능, 효율성, 시스템 설계 유연성 향상을 위한 개방형 설루션을 제공해 왔다. OCI의 최신 세대 AMD 인스팅트 GPU 및 폴라라(Pollara) NIC는 새로운 추론과 미세 조정, 훈련 사용 사례를 지원하며 AI 채택이 확대됨에 따라 고객에게 더 많은 선택권을 제공할 것”이라고 말했다.