엔비디아, 더 강력하고 지능적인 AI 구축을 돕는 ‘스케일링 법칙’ 소개
엔비디아가 더 강력하고 지능적인 AI 구축을 지원하는 ‘스케일링 법칙’을 소개했다. 엔비디아는 이 법칙이 훈련 데이터, 모델 파라미터 또는 컴퓨팅 리소스 크기가 증가함에 따라 AI 시스템 성능이 향상되는 방식을 설명한다고 밝혔다.
AI 분야에서 오랫동안 정의된 아이디어 중 하나는 컴퓨팅, 훈련 데이터, 파라미터가 더 많을수록 더 나은 AI 모델이 만들어진다는 것이다. 하지만 이후 AI에는 컴퓨팅 리소스를 다양한 방식으로 적용하는 것이 모델 성능에 어떻게 영향을 미치는지 설명하는 세 가지 법칙이 대두됐다. 이는 사전 훈련 스케일링(pretraining scaling), 사후 훈련 스케일링(post-training scaling), 긴 사고(long thinking)라고도 불리는 테스트 타임 스케일링(test-time scaling)이다. 이들 법칙은 점점 더 복잡해지는 다양한 AI 사용 사례에서 추가 컴퓨팅을 사용하는 기술을 통해 AI 분야가 어떻게 발전해왔는지를 보여준다.
최근 추론 시 더 많은 컴퓨팅을 적용해 정확도를 향상시키는 테스트 타임 스케일링이 부상하면서 AI 추론 모델의 발전을 가능하게 했다. 이 모델은 작업을 해결하는 데 필요한 단계를 설명하면서 복잡한 문제를 해결하기 위해 여러 추론 패스를 수행하는 새로운 종류의 대규모 언어 모델(LLM)이다. 테스트 타임 스케일링은 AI 추론을 지원하기 위해 많은 양의 컴퓨팅 리소스를 필요로 하며, 이는 가속 컴퓨팅에 대한 수요를 더욱 증가시킬 것이다.
사전 훈련 스케일링은 AI 개발의 기본 법칙이다. 이는 훈련 데이터 세트 크기, 모델 파라미터 수, 컴퓨팅 리소스를 늘림으로써 개발자가 모델 지능과 정확도의 예측 가능한 향상을 기대할 수 있음을 입증했다. 한 연구 논문에서 설명한 사전 훈련 스케일링 법칙에 따르면, 규모가 큰 모델에 더 많은 데이터가 공급되면 모델의 전반적인 성능이 향상된다. 이를 실현하려면 개발자는 컴퓨팅을 확장해야 하며, 이 거대한 훈련 워크로드를 실행하기 위해서는 강력한 가속 컴퓨팅 리소스가 필요하다.
사후 훈련 기법은 조직이 원하는 사용 사례에 맞춰 모델의 특이성과 관련성을 더욱 향상시킬 수 있다. 사전 훈련이 AI 모델을 학교에 보내 파운데이션 기술을 배우게 하는 것이라면, 사후 훈련은 목표한 업무에 적용할 수 있는 기술을 갖추도록 모델을 향상시키는 과정이다. 예를 들어, LLM은 감정 분석이나 번역과 같은 작업을 수행하거나 의료, 법률과 같은 특정 분야의 전문 용어를 이해하도록 사후 훈련될 수 있다.
긴 사고라고도 하는 테스트 타임 스케일링은 추론 중에 발생한다. 사용자 프롬프트에 대한 단답형 답변을 빠르게 생성하는 기존 AI 모델과 달리, 이 기술을 사용하는 모델은 추론 중에 추가적인 계산 작업을 할당한다. 이를 통해 여러 가지 잠재적 답변을 추론한 후 최적의 답변에 도달할 수 있도록 한다.
테스트 타임 컴퓨팅의 부상으로 AI는 복잡한 개방형 사용자 쿼리에 대해 합리적이고 유용하며 보다 정확한 답변을 제공하는 능력을 갖추게 됐다. 이러한 기능은 자율 에이전틱 AI와 피지컬 AI(Physical AI) 애플리케이션에서 기대되는 세밀하고 다단계의 추론 작업에 매우 중요하다. 또한, 산업 전반에서 사용자에게 업무 속도를 높일 수 있는 고성능 비서를 제공해 효율성과 생산성을 향상시킬 수 있다.
의료 분야에서는 모델이 테스트 타임 스케일링을 사용해 방대한 양의 데이터를 분석하고 질병이 어떻게 진행될지 추론할 수 있다. 뿐만 아니라, 약물 분자의 화학 구조를 기반으로 새로운 치료법이 불러올 수 있는 잠재적인 합병증을 예측할 수 있다.
소매와 공급망 물류 분야에서는 긴 사고가 단기적인 운영 과제와 장기적인 전략 목표를 해결하는 데 필요한 복잡한 의사 결정을 도와줄 수 있다. 추론 기법은 여러 시나리오를 동시에 예측하고 평가해 기업이 위험을 줄이고 확장성 문제를 해결하는 데 도움이 된다. 이를 통해 보다 정확한 수요 예측, 간소화된 공급망 이동 경로, 조직의 지속 가능성 이니셔티브에 부합하는 소싱 결정을 가능하게 한다. 나아가 글로벌 기업에서는 이 기술을 세부적인 사업 계획 작성, 소프트웨어 디버깅을 위한 복잡한 코드 생성, 배송 트럭과 창고 로봇, 로보택시의 이동 경로 최적화 등에 적용할 수 있다.
AI 추론 모델은 빠르게 진화하고 있다. 최근 몇 주 동안 OpenAI(오픈AI) o1-미니(o1-mini)와 o3-미니(o3-mini), 딥시크(DeepSeek) R1, 구글 딥마인드(Google DeepMind) 제미나이 2.0 플래시 씽킹(Gemini 2.0 Flash Thinking)이 소개됐으며, 곧 새로운 모델이 추가로 출시될 예정이다. 이러한 모델은 추론 중에 사고하고, 복잡한 질문에 대한 정답을 생성하기 위해 훨씬 더 많은 컴퓨팅이 필요하다. 따라서 기업은 복잡한 문제 해결, 코딩, 다단계 계획을 지원할 수 있는 차세대 AI 추론 도구를 제공하기 위해 가속 컴퓨팅 리소스를 확장해야 한다.
정수진
작성일 : 2025-02-14
조회수 : 129