엔비디아는 개발자가 활용할 수 있도록 딥시크-R1(DeepSeek-R1) 모델을 엔비디아 NIM 마이크로서비스 프리뷰로 제공한다고 밝혔다.
개발자들은 딥시크-R1 모델을 활용해 애플리케이션 프로그래밍 인터페이스(API)를 테스트하고 실험할 수 있으며, 이는 엔비디아 AI 엔터프라이즈(AI Enterprise) 소프트웨어 플랫폼의 일부인 NIM 마이크로서비스로 제공될 예정이다.
딥시크-R1은 최첨단 추론 기능을 갖춘 오픈 모델이다. 딥시크-R1과 같은 추론 모델은 직접적인 답변을 제공하는 대신 쿼리에 대해 여러 번의 추론 패스(inference passes)를 수행해 연쇄 사고, 합의, 검색 방법을 거쳐 최상의 답변을 생성한다. R1은 논리적 추론, 사고, 수학, 코딩, 언어 이해 등이 필요한 작업에 대해 높은 정확도와 추론 효율을 제공한다.
이러한 일련의 추론 패스를 수행해 최적의 답변에 도달하기 위해 추론을 사용하는 것을 테스트 타임 스케일링(test-time scaling)이라고 한다. 모델이 문제를 반복적으로 ‘사고’할 수 있게 되면 더 많은 출력 토큰과 더 긴 생성 주기가 생성되므로 모델 품질이 계속 확장된다. 딥시크-R1과 같은 추론 모델에서 실시간 추론과 고품질 응답을 모두 구현하려면 상당한 테스트 타임 컴퓨팅이 중요하므로 더 큰 규모의 추론 배포가 필요하다.
딥시크-R1 NIM 마이크로서비스는 단일 엔비디아 HGX H200 시스템에서 초당 최대 3872개의 토큰을 전송할 수 있다. 딥시크-R1 NIM 마이크로서비스는 업계 표준 API를 지원해 배포를 간소화한다. 기업은 가속 컴퓨팅 인프라에서 NIM 마이크로서비스를 실행해 보안과 데이터 프라이버시를 극대화할 수 있다. 또한, 기업은 엔비디아 네모(NeMo) 소프트웨어와 함께 엔비디아 AI 파운드리(AI Foundry)를 사용해 AI 에이전트를 위한 맞춤형 딥시크-R1 NIM 마이크로서비스를 생성할 수 있다.
딥시크-R1은 거대 전문가 조합 방식(Mixture-Of-Experts, MoE) 모델이다. 다른 인기 있는 오픈 소스 대규모 언어 모델(LLM)보다 10배 많은 6710억 개의 파라미터를 통합해 12만 8000개의 토큰이라는 인풋 컨텍스트 길이(input context length)를 지원한다. 또한 이 모델은 레이어당 많은 전문가를 활용한다. R1의 각 레이어에는 256명의 전문가가 있으며, 각 토큰은 평가를 위해 8명의 별도 전문가에게 병렬로 라우팅된다.
R1에서 실시간 답변을 제공하려면 추론을 위해 모든 전문가에게 신속한 토큰을 라우팅하기 위해 높은 대역폭과 짧은 지연 시간의 통신으로 연결된 높은 컴퓨팅 성능을 갖춘 많은 GPU가 필요하다. 엔비디아 NIM 마이크로서비스에서 제공되는 소프트웨어 최적화와 결합해 NV링크(NVLink)와 NV링크 스위치(Switch)를 사용해 연결된 8개의 H200 GPU가 장착된 단일 서버는 초당 최대 3872개의 토큰으로 6710억 개의 파라미터로 구성된 전체 딥시크-R1 모델을 실행할 수 있다. 이러한 처리량은 모든 레이어에서 엔비디아 호퍼(Hopper) 아키텍처의 FP8 트랜스포머 엔진과 MoE 전문가 통신을 위한 900GB/s의 NV링크 대역폭을 사용함으로써 가능하다.
실시간 추론에는 GPU에서 모든 초당 부동 소수점 연산(FLOPS)의 성능을 끌어내는 것이 중요하다. 엔비디아는 “차세대 엔비디아 블랙웰(Blackwell) 아키텍처는 최대 20페타플롭의 피크 FP4 컴퓨팅 성능을 제공할 수 있는 5세대 텐서 코어(Tensor Core)와 추론에 특별히 최적화된 72-GPU NV링크 도메인을 통해 딥시크-R1과 같은 추론 모델의 테스트 시간 확장을 크게 향상시킬 것”이라고 전했다.