아마존웹서비스(AWS)는 연례 콘퍼런스 ‘AWS 리인벤트 2023’에서 차세대 자체 설계 칩 제품군인 AWS 그래비톤4(AWS Graviton4)와 AWS 트레이니움2(AWS Trainium2)를 발표했다. 그래비톤4와 트레이니움2는 머신러닝(ML) 트레이닝과 생성형 인공지능(AI) 애플리케이션을 포함한 워크로드에서 개선된 가격 대비 성능과 에너지 효율을 제공한다.
그래비톤4는 기존 그래비톤3 프로세서 대비 최대 30% 향상된 컴퓨팅 성능, 50% 더 많은 코어, 75% 더 많은 메모리 대역폭을 제공해 아마존 EC2(Amazon EC2)에서 실행되는 워크로드에서 가격 대비 성능과 에너지 효율을 높이며, 모든 고속 물리적 하드웨어 인터페이스를 완전히 암호화해 보안성을 높인 것이 특징이다.
그래비톤4는 메모리에 최적화된 아마존 EC2 R8g 인스턴스로 제공돼 고객이 고성능 데이터베이스, 인메모리 캐시, 빅데이터 분석 워크로드의 실행을 개선할 수 있도록 지원한다. R8g 인스턴스는 기존 세대 R7g 인스턴스보다 최대 3배 더 많은 vCPU와 3배 더 많은 메모리로 더 큰 인스턴스 크기를 제공한다. 고객은 이를 통해 더 많은 양의 데이터 처리, 워크로드 확장, 결과 도출 시간 개선, 총 소유 비용 절감을 달성할 수 있다. 그래비톤4 기반 R8g 인스턴스는 현재 프리뷰 버전으로 제공되며, 향후 몇 달 내에 정식 출시될 예정이다.
그래비톤은 아마존 오로라(Amazon Aurora), 아마존 엘라스티캐시(Amazon ElastiCache), 아마존 EMR(Amazon EMR), 아마존 메모리DB(Amazon MemoryDB), 아마존 오픈서치(Amazon OpenSearch), 아마존 RDS(Amazon RDS), AWS 파게이트(AWS Fargate), AWS 람다(AWS Lambda)등 AWS 관리형 서비스에서 지원된다. 현재 AWS는 전 세계적으로 150개 이상의 그래비톤 기반 아마존 EC2 인스턴스 유형을 제공하고 있다. 또한 200만 개 이상의 그래비톤 프로세서를 구축했고, 상위 100대 EC2 고객을 포함해 5만 개 이상의 고객이 애플리케이션의 가격 대비 성능 최적화를 위해 그래비톤 기반 인스턴스를 사용하고 있다.
▲ 이미지 출처 : AWS 웹사이트 캡처
한편, 트레이니움2는 1세대 트레이니움 칩 대비 최대 4배 빠른 학습 속도를 제공하도록 설계됐으며, 최대 10만 개의 칩으로 구성된 EC2 울트라클러스터(UltraClusters)에 배포할 수 있다. 이를 통해 파운데이션 모델(FM)과 대규모 언어 모델(LLM)을 빠르게 학습시키고 에너지 효율을 최대 2배까지 높인다.
트레이니움2는 1세대 트레이니움 칩에 비해 최대 4배 빠른 학습 성능과 3배 더 많은 메모리 용량을 제공하는 동시에, 와트당 성능을 최대 2배까지 개선할 수 있도록 설계됐다. 트레이니움2는 단일 인스턴스에 16개의 트레이니움 칩이 포함된 아마존 EC2 Trn2 인스턴스로 제공될 예정이다. Trn2 인스턴스는 AWS 엘라스틱 패브릭 어댑터(EFA) 페타비트급 네트워킹과 상호 연결되어 고객이 차세대 EC2 울트라클러스터에서 최대 10만 개의 트레이니움2 칩을 규모에 맞게 확장해 최대 65 엑사플롭의 컴퓨팅을 제공하고, 슈퍼컴퓨터급 성능에 온디맨드 방식으로 액세스할 수 있도록 지원한다. 이로써 고객은 기존에는 몇 달이 소요되던 3000억 개 파라미터 규모 LLM의 학습을 단 몇 주 만에 수행할 수 있다.
AWS는 “각 칩 세대마다 더 나은 가격 대비 성능과 에너지 효율을 제공하며, 고객에게 AMD, 인텔, 엔비디아 등 타사의 최신 칩이 포함된 칩/인스턴스 조합 외에도 다양한 선택권을 제공해 거의 모든 애플리케이션 또는 워크로드를 아마존 EC2에서 실행할 수 있도록 지원한다”고 설명했다.
AWS의 데이비드 브라운(David Brown) 컴퓨팅 및 네트워킹 부문 부사장은 “고객에게 중요한 실제 워크로드에 집중해 칩을 설계함으로써, AWS는 고객에게 진보한 클라우드 인프라를 제공할 수 있게 됐다”면서, “그래비톤4는 5년 만에 출시한 4세대 칩으로서 광범위한 워크로드를 위해 지금까지 개발한 칩 중 가장 강력하고 에너지 효율적이다. 또한, 생성형 AI에 대한 관심이 급증함에 따라 트레이니움2는 고객이 더 낮은 비용으로 더 빠르게, 그리고 더 높은 에너지 효율로 ML 모델을 훈련할 수 있도록 지원할 것”이라고 말했다.