오라클-AMD, 차세대 AI 확장성 지원 위한 파트너십 확대

오라클과 AMD는 고객이 AI 역량과 이니셔티브를 대규모로 확장할 수 있도록 지원하기 위한 양사의 오랜 다세대 협력 관계를 확대한다고 발표했다. 수년간의 공동 기술 혁신을 바탕으로, 오라클 클라우드 인프라스트럭처(OCI)는 AMD 인스팅트(AMD Instinct) MI450 시리즈 GPU 기반의 최초 공개형 AI 슈퍼클러스터의 출시 파트너가 될 예정이다. 초기 배포는 2026년 3분기부터 5만 개의 GPU로 시작되며, 2027년 이후까지 더욱 규모가 확대될 계획이다.

이번 발표는 2024년 AMD 인스팅트 MI300X 기반 셰이프(shape) 출시를 시작으로 AMD 인스팅트 MI355X GPU를 탑재한 OCI 컴퓨트(OCI Compute)의 정식 출시까지 이어지는 오라클과 AMD의 전략적 협업의 연장선상에 있다. 양사는 최종 고객에게 OCI 상의 AMD 인스팅트 GPU 플랫폼을 제공하기 위해 꾸준히 협업해 왔다. 이 플랫폼은 제타스케일 OCI 슈퍼클러스터(zettascale OCI Supercluster)에서 제공될 예정이다.

대규모 AI 컴퓨팅 수요가 급격히 증가함에 따라, 차세대 AI 모델은 기존 AI 클러스터의 한계를 뛰어넘고 있다. 이러한 워크로드의 훈련 및 운영을 위해서는 극한의 확장성과 효율성을 갖춘 유연하고 개방적인 컴퓨팅 설루션이 필요하다. OCI가 새롭게 선보일 AI 슈퍼클러스터는 AMD ‘헬리오스(Helios)’ 랙 설계를 기반으로 하며, 여기에는 ▲AMD 인스팅트 MI450 시리즈 GPU ▲차세대 AMD 에픽 CPU(코드명 베니스) ▲차세대 AMD 펜산도(Pensando) 고급 네트워킹 기능(코드명 불카노)가 포함된다. 수직적으로 최적화된 이 랙 스케일 아키텍처는 대규모 AI 모델의 훈련 및 추론을 위한 최대 성능, 탁월한 확장성, 우수한 에너지 효율성을 제공하도록 설계됐다.

마헤쉬 티아가라얀 OCI 총괄 부사장은 “오라클의 고객들은 전 세계에서 가장 혁신적인 AI 애플리케이션을 구축하고 있으며, 이를 위해서는 강력하고 확장 가능한 고성능의 인프라가 필수적이다. 최신 AMD 프로세서 기술, OCI의 안전하고 유연한 플랫폼, 오라클 액셀러론(Oracle Acceleron) 기반 고급 네트워킹의 결합으로 고객은 확신을 갖고 혁신 영역을 넓혀갈 수 있다. 에픽부터 AMD 인스팅트 가속기까지, 10년 이상 이어진 AMD와의 협력을 바탕으로 오라클은 탁월한 가격 대비 성능, 개방적이고 안전하며 확장가능한 클라우드 기반을 지속적으로 제공하여 차세대 AI 시대의 요구에 부응하고 있다”고 말했다.

AMD의 포레스트 노로드(Forrest Norrod) 데이터센터 설루션 비즈니스 그룹 총괄 부사장 겸 총괄 매니저는 “AMD와 오라클은 계속해서 클라우드 분야의 AI 혁신에 앞장서고 있다. AMD 인스팅트 GPU, 에픽 CPU, 그리고 첨단 AMD 펜산도 네트워킹 기술을 통해 오라클 고객들은 차세대 AI 훈련, 미세 조정 및 배포를 위한 강력한 역량을 확보할 수 있다. AMD와 오라클은 대규모 AI 데이터센터 환경에 최적화된 개방적이고 안전한 시스템으로 AI 발전을 가속화하고 있다”고 말했다.

AMD 인스팅트 MI450 시리즈 GPU 기반 셰이프는 고성능의 유연한 클라우드 배포 옵션과 광범위한 오픈소스 지원을 제공하도록 설계되었다. 이는 최신 언어 모델, 생성형 AI 및 고성능 컴퓨팅 워크로드를 실행하는 고객에게 맞춤형 기반을 제공한다.

OCI상의 AMD 인스팅트 MI450 시리즈 GPU는 AI 훈련 모델을 위한 메모리 대역폭을 확장해 고객이 더욱 신속하게 결과를 달성하고, 복잡한 워크로드를 처리하며, 모델 분할 필요성을 줄일 수 있도록 지원한다. AMD 인스팅트 MI450 시리즈 GPU는 개당 최대 432GB의 HBM4 메모리와 20TB/s의 메모리 대역폭을 제공하여, 이전 세대 대비 50% 더 큰 규모 모델의 훈련 및 추론을 인메모리에서 수행할 수 있다.

AMD의 최적화된 헬리오스 랙 설계는 고밀도 액체 냉각 방식의 72-GPU 랙을 통해 성능 밀도, 비용 및 에너지 효율이 최적화된 대규모 운영을 가능하게 한다. 헬리오스는 UALoE(Universal Accelerator Link over Ethernet) 스케일업 연결성과 이더넷 기반의 UEC(Ultra Ethernet Consortium) 표준에 부합하는 스케일아웃 네트워킹을 통합하여 포드 및 랙 간 지연을 최소화하고 처리량을 극대화한다.

차세대 AMD 에픽 CPU로 구성된 아키텍처는 작업 오케스트레이션 및 데이터 처리를 가속화하여 고객이 클러스터 활용도를 극대화하고 대규모 워크플로를 간소화할 수 있도록 지원한다. 또한, 에픽 CPU는 기밀 컴퓨팅 기능과 내장형 보안 기능을 제공하여 민감한 AI 워크로드의 종단간 보안을 개선한다. 또한, DPU 가속 융합 네트워킹은 대규모 AI 및 클라우드 인프라의 성능 향상과 보안 태세 강화를 위해 라인레이트(Line-Rate) 데이터 수집을 지원한다. 프로그래밍 가능한 AMD 펜산도 DPU 기술을 기반으로 구축된 DPU 가속 융합 네트워킹은 데이터센터에서 차세대 AI 훈련, 추론 및 클라우드 워크로드를 실행하는 데 필요한 보안성과 성능을 제공한다.

AI를 위한 스케일아웃 네트워킹은 미래 지향적 개방형 네트워킹 패브릭을 통해 고객이 초고속 분산 훈련(distributed training)과 최적화된 집합 통신(collective communication)을 활용할 수 있도록 지원한다. 각 GPU에는 최대 3개의 800Gbps AMD 펜산도 ‘불카노’ AI-NIC를 장착할 수 있어, 손실 없는 고속의 프로그래밍 가능한 연결성을 제공하고, RoCE 및 UEC 표준을 지원한다.

혁신적인 UALink 및 UALoE 패브릭은 고객이 워크로드를 효율적으로 확장하고, 메모리 병목 현상을 줄이며, 수 조 파라미터 단위의 대규모 모델을 통합 관리할 수 있도록 지원한다. 확장 가능한 아키텍처는 CPU를 경유하지 않고 홉(hop)과 지연시간을 최소화하며, UALoE 패브릭을 통해 전송되는 UALink 프로토콜을 통해 랙 내 GPU 간 직접적이고 하드웨어 일관성 있는 네트워킹 및 메모리 공유를 가능하게 한다. UALink는 AI 가속기를 위해 특별히 설계된 개방형 고속 상호연결 표준으로 광범위한 산업 생태계의 지원을 받는다. 이를 통해 고객은 개방형 표준 기반 인프라에서 까다로운 AI 워크로드를 실행하는 데 필요한 유연성, 확장성 및 안정성을 확보할 수 있다.

한편, OCI는 대규모 AI 구축, 훈련 및 추론을 수행하는 고객에게 더 많은 선택권을 제공하기 위해 AMD 인스팅트 MI355X GPU를 탑재한 OCI 컴퓨트의 정식 출시를 발표했다. 이 제품은 최대 13만 1072개의 GPU로 확장 가능한 제타스케일 OCI 슈퍼클러스터에서 이용 가능하다. AMD 인스팅트 MI355X 기반 셰이프는 탁월한 가치, 클라우드 유연성 및 오픈소스 호환성을 위해 설계되었다.

#태그

오라클

AMD

AI 슈퍼클러스터

ㆍ업체 홍보

ㆍ인기