Arm은 AWS의 그래비톤4(Graviton4) 프로세서를 통해 개발자와 기업이 클라우드 워크로드의 잠재력을 발휘할 수 있도록 지원하면서, 특수 실리콘 및 컴퓨팅을 제공하고 보다 효율적이고 지속 가능하며 강력한 클라우드를 위한 기반을 마련하고자 AWS와 협력을 진행 중이라고 소개했다.
클라우드 컴퓨팅 환경은 AI의 폭발적인 성장에 힘입어 극적인 변화를 겪고 있다. AI 애플리케이션이 더욱 정교하고 복잡해짐에 따라 강력하며 효율적이고, 비용 효율적인 컴퓨팅 설루션에 대한 필요성이 그 어느 때보다 커지고 있다. 클라우드에 워크로드를 배포하는 고객들은 이러한 최신 워크로드의 요구사항을 충족하기 위해 어떤 인프라가 필요한지 재고하고 있다. 고객들의 요구사항은 성능 향상과 비용 절감부터, 규제 또는 지속 가능성 목표를 위한 에너지 효율성의 새로운 벤치마크 달성까지 다양하다.
Arm의 네오버스 V2(Neoverse V2)에 기반한 AWS 그래비톤4 프로세서는 이전 세대인 그래비톤3 프로세서보다 최대 30% 향상된 컴퓨팅 성능, 50% 더 많은 코어, 75% 더 많은 메모리 대역폭을 제공한다. 이러한 장점 덕분에 현재 에코시스템과 고객들이 AWS 프로세서를 많이 채택하고 있다는 것이 Arm의 설명이다. Arm 네오버스 V2 플랫폼에는 고성능 부동 소수점 및 벡터 명령어 지원과 같은 Armv9 아키텍처의 새로운 기능이 포함되어 있으며, SVE/SVE2, Bfloat16 및 Int8 MatMul과 같은 기능은 AI/ML 및 HPC 워크로드에 강력한 성능을 제공한다.
AI 워크로드 채택을 더욱 촉진하기 위해 Arm은 2024년 초 선도적인 AI 프레임워크 및 소프트웨어 에코시스템과 협력하여 전체 ML 스택이 Arm에서 즉시 사용 가능한 추론 성능 최적화의 이점을 누릴 수 있도록 Arm Kleidi를 출시했고, 이를 통해 개발자가 별도의 Arm 관련 전문 지식 없이도 워크로드를 구축할 수 있도록 했다. Arm은 파이토치(PyTorch)에서 이러한 최적화를 통해 초당 토큰 수(tokens/sec)와 첫 토큰 생성 시간(time-to-first-token) 지표를 개선하여, AWS 그래비톤4에서 라마(Llama) 3 70B 및 Llama 3.1 8B와 같은 LLM(대규모 언어 모델)을 실행할 수 있는 방법을 선보였다.
HPC 워크로드의 경우, 그래비톤4는 코어당 16% 더 많은 메인 메모리 대역폭과 vCPU당 두 배의 L2 캐시를 제공하는 등 그래비톤3E에 비해 성능이 크게 향상되었다. 이는 주로 메모리 대역폭에 제한이 있는 HPC 애플리케이션의 성능에 매우 중요하다. EDA 워크로드의 경우, Arm의 엔지니어링 팀이 프로덕션 실행을 통해 측정한 결과, 그래비톤4는 RTL 시뮬레이션 워크로드에서 그래비톤3보다 최대 37% 더 높은 성능을 제공하는 것으로 나타났다.
한편, Arm은 지난 몇 년 동안 소프트웨어 에코시스템 전반에서 최종 고객이 AWS 그래비톤 프로세서에 다양한 클라우드 워크로드를 배포하면서 도입이 지속적으로 증가했다고 전했다. “고객들은 비용을 절감하고, 더 향상된 성능을 경험하며, 탄소 및 지속 가능성 발자국을 개선하고 있다”는 것이 Arm의 설명이다.