엔비디아가 DGX 슈퍼POD(DGX SuperPOD)의 2세대 모델을 공개했다.
엔비디아는 2019년 여러 개의 DGX 시스템을 결합한 DGX 슈퍼POD를 처음 선보였고, 전세계 슈퍼컴퓨터의 성능을 비교한 '톱500(TOP500)'의 2019년 11월 리스트에서 20번째로 빠른 슈퍼컴퓨터로 이름을 올렸다.
엔비디아가 지난 4월 인수한 멜라녹스(Mellanox)의 네트워킹 기술을 더함으로써, 엔비디아는 복잡한 문제를 병렬로 처리하고 최대한 빠르게 문제를 해결할 수 있는 아키텍처로 데이터센터를 재정의하고 있다. 엔비디아 DGX A100 시스템과 멜라녹스 네트워크 패브릭을 기반으로 3주만에 구축된 DGX 슈퍼POD는 몇 주가 소요되는 복잡한 언어 이해 모델의 처리시간을 한 시간 내로 줄일 수 있다.
DGX 슈퍼POD는 일반적으로 슈퍼컴퓨터에 들어가는 비용과 에너지 사용량을 훨씬 줄이면서도 획기적인 성능을 제공하는 것이 특징이다. 엔비디아 DGX A100 시스템과 멜라녹스 네트워크 패브릭을 기반으로 3주만에 구축된 DGX 슈퍼POD는 몇 주가 소요되는 복잡한 언어 이해 모델의 처리시간을 한 시간 내로 줄일 수 있다.
2세대 DGX 슈퍼POD는 140개의 DGX A100 시스템으로 이루어져 있으며, 1120개의 엔비디아 A100 GPU와 170개의 멜라녹스 퀀텀(Quantum) 200G 인피니밴드 스위치를 탑재해 약 700페타플롭(PF)의 AI 성능을 제공한다. 또한 4PB 용량의 고성능 스토리지 및 15km 길이의 광 케이블이 내장되어 있다.
멜라녹스 기술과 결합된 엔비디아 솔루션은 복잡한 문제를 병렬로 처리하고 최대한 빠르게 문제를 해결할 수 있는 아키텍처로 데이터센터를 재정의하고 있다. DGX A100에는 시스템 당 최대 9개의 인터페이스를 갖는 200Gbps HDR 인피니밴드(InfiniBand)를 갖춘 새로운 멜라녹스 ConnectX-6 VPI 네트워크 어댑터가 제공된다. 엔비디아는 시스템 간 상호연결성을 높이고 고성능을 제공하기 위해 멜라녹스 스위치를 활용한다. 또한, 엔비디아 DGX 슈퍼POD와 DGX A100을 통해 사용량 기반 지불방식(pay-as-you-grow) 모델로 쉽게 확장이 가능하면서도 운영에 미치는 영향을 최소화하는 AI 네트워크 패브릭을 설계했다.
엔비디아는 DGX 슈퍼POD를 확장 가능한 20개의 DGX A100 시스템 그룹으로 모듈화했다. 각각의 모듈은 멜라녹스 HDR 인피니밴드를 사용하는 2티어 팻트리(Fat-Tree) 스위치 네트워크 토폴로지로 지원되어, 초과가입(Oversubscription) 없이 완전한 바이섹션 대역폭을 제공한다. 또한, 세 번째 스위칭 티어를 추가하면 드래곤플라이+(DragonFly+) 또는 팻트리 토폴로지를 사용해 수천 대의 시스템으로 확장 가능하다. 이를 통해 기업들은 시스템 모듈 추가 관련 비용은 줄이면서 인프라 확장에 유연하게 대처할 수 있다.
많은 업계에서 고객 충성도 유지, 비용절감, 경쟁 업체와의 차별화를 위해 AI를 적극 활용하고 있다. 엔비디아는 "기업들은 엔비디아 DGX 슈퍼POD와 DGX A100가 제공하는 획기적인 성능, 신속성, 그리고 확장성을 활용해 그들이 당면한 AI 관련 도전과제를 해결하고 비즈니스 성과를 달성할 수 있다"고 전했다.