엔비디아는 RTX PC와 DGX 스파크(DGX Spark)에서 누스 리서치의 AI 에이전트인 헤르메스(Hermes)를 로컬 환경에서 지원한다고 전했다. 에이전틱 AI는 사용자의 업무 수행 방식을 변화시키고 있다. 오픈클로가 성공한 이후 커뮤니티는 새로운 오픈소스 에이전틱 프레임워크를 적극 수용하고 있다. 최근 공개된 헤르메스 에이전트는 출시 3개월 만에 깃허브 스타 14만 개를 돌파했다.
누스 리서치가 개발한 헤르메스는 신뢰성과 자체 개선 기능을 중점으로 설계했다. 이는 기존 에이전트에서 구현하기 어려웠던 특성이다. 헤르메스는 특정 공급업체나 모델에 종속되지 않는 설계를 기반으로 상시 가동되는 로컬 환경 사용에 최적화했다. 엔비디아는 RTX PC와 RTX PRO 워크스테이션, DGX 스파크가 헤르메스를 24시간 최대 성능으로 구동하기에 적합한 하드웨어라고 설명했다.
알리바바의 새로운 고성능 오픈 웨이트 LLM 시리즈인 큐웬 3.6은 헤르메스와 같은 로컬 에이전트 구동에 효과적이다. 큐웬 3.6의 27B와 35B 모델은 이전 세대의 1200억, 4000억 파라미터 모델보다 높은 성능을 제공한다. 이는 RTX와 DGX 스파크에서 가속화된 에이전틱 AI 구현을 돕는다.

헤르메스는 메시징 앱과 연동하고 로컬 파일 및 애플리케이션에 접근하며 24시간 상시 실행된다. 특히 네 가지 차별화된 기능이 핵심 경쟁력이다. 첫째는 자체 진화 기술이다. 헤르메스는 스스로 새로운 기술을 생성하고 개선한다. 복잡한 작업을 수행하거나 피드백을 받을 때마다 이를 기술 형태로 저장해 스스로 적응하고 성능을 향상한다. 둘째는 독립형 서브 에이전트다. 헤르메스는 서브 에이전트를 특정 하위 작업만 수행하는 단기 독립 작업자로 운영한다. 각 서브 에이전트에는 집중된 컨텍스트와 도구 세트가 제공돼 체계적인 작업 구조를 유지하고 혼란을 최소화한다. 이를 통해 더 작은 컨텍스트 윈도우로 헤르메스를 실행할 수 있어 로컬 모델 환경에 적합하다.
셋째는 설계 단계부터 고려한 안정성이다. 누스 리서치는 헤르메스에 포함된 모든 기술과 도구, 플러그인을 검증하고 스트레스 테스트를 했다. 그 결과 헤르메스는 300억 파라미터급 로컬 모델 환경에서도 안정적으로 작동한다. 넷째는 동일 모델 기준 더 뛰어난 성능이다. 여러 프레임워크에서 동일한 모델을 사용한 개발자 비교 테스트 결과, 헤르메스에서 일관되게 더 우수한 성능을 보이는 것으로 나타났다. 헤르메스는 단순한 래퍼가 아닌 능동형 오케스트레이션 계층으로, 작업 단위의 실행 대신 지속적인 온디바이스 에이전트 작동을 구현한다.
헤르메스 에이전트와 이를 구동하는 LLM은 모두 로컬에서 실행하도록 설계했다. 하드웨어 성능이 사용자 경험의 품질에 직접적인 영향을 준다. 엔비디아 GPU는 이러한 워크로드에 최적화하도록 설계했다. 큐웬 3.6 35B 모델은 약 20GB의 메모리만으로도 70GB 이상의 메모리가 필요한 1200억 파라미터 모델을 뛰어넘는 성능을 제공한다. 큐웬 3.6 27B는 새로운 고밀도 모델로 4000억 파라미터 모델급의 정확도를 제공하면서도 크기는 16분의 1 수준이다.
헤르메스가 구동되는 DGX 스파크는 상시 실행되는 에이전틱 컴퓨터가 될 수 있다. 요청 응답과 다단계 작업 계획, 자율 실행, 자체 개선 등을 지속해서 수행한다. 에이전틱 워크플로를 위해 설계된 효율적인 독립형 시스템인 DGX 스파크는 128GB 통합 메모리와 1페타플롭급 AI 성능을 갖춰 1200억 파라미터 규모의 전문가형 혼합(MoE) 모델을 상시 실행할 수 있다. 큐웬 3.6 35B 모델은 더 작은 공간에서 동등한 수준의 인텔리전스를 제공하며 빠른 실행 속도로 동시 워크로드를 처리하도록 돕는다.
헤르메스를 로컬로 실행하려면 헤르메스 깃허브 저장소에 접속해 로컬 모델이나 런타임을 연동하면 된다. 라마.cpp, LM 스튜디오, 올라마를 통해 큐웬 3.6과 함께 헤르메스를 실행할 수 있다. 한편 RTX PRO GPU는 큐웬 3.6 모델 실행 시 최대 3배 빠른 토큰 생성 속도를 제공한다. 구글의 젬마 4 모델은 NVFP4 체크포인트로 제공돼 엔비디아 블랙웰 GPU에서 더 빠른 성능을 발휘한다. 지난 4월 출시된 미스트랄 미디엄 버전 3.5도 업데이트를 통해 RTX PRO와 DGX 스파크 시스템에서 실행할 수 있다. 또한 엔비디아는 오픈소스 스택인 네모클로를 공개해 로컬 모델 지원을 강화했다. 네모클로는 WSL2를 지원해 마이크로소프트 플랫폼 개발자에게도 혜택을 제공한다.








