엔비디아가 엔비디아 지포스(NVIDIA GeForce) RTX GPU와 쿠다(CUDA) 12.8을 통해 로컬 대규모 언어 모델(large language model : LLM) 실행 도구인 ‘LM 스튜디오(LM Studio)’의 성능을 향상했다고 밝혔다.
문서 요약에서 맞춤형 소프트웨어 에이전트에 이르기까지 AI 사용 사례가 계속 확장되고 있다. 이에 따라 개발자와 AI 애호가들은 LLM을 더 빠르고 유연하게 실행할 수 있는 방법을 찾고 있다. 엔비디아 지포스 RTX GPU가 탑재된 PC에서 로컬로 모델을 실행하면 고성능 추론, 향상된 데이터 프라이버시, AI 배포와 통합에 대한 제어가 가능하다. 무료로 체험할 수 있는 LM 스튜디오와 같은 도구는 이러한 로컬 AI 실행을 간편하게 구현할 수 있도록 지원한다. 이를 통해 사용자는 자신의 하드웨어에서 LLM을 탐색하고 구축할 수 있다.
LM 스튜디오는 로컬 LLM 추론을 위해 가장 널리 채택된 도구 중 하나로 자리잡았다. 고성능 llama.cpp 런타임을 기반으로 구축된 이 애플리케이션은 모델을 완전히 오프라인에서 실행할 수 있도록 한다. 또한 사용자 지정 워크플로에 통합하기 위해 오픈AI(OpenAI) 호환 API(application programming interface) 엔드포인트 역할도 수행할 수 있다.
LM 스튜디오 0.3.15 버전은 쿠다 12.8을 통해 RTX GPU에서 성능이 향상되면서 모델 로드와 응답 시간이 개선됐다. 또한 이번 업데이트에는 ‘툴_초이스(tool_choice)’ 파라미터를 통한 도구 활용 개선, 시스템 프롬프트 편집기 재설계 등 개발자 중심의 새로운 기능도 추가됐다. LM 스튜디오의 최신 개선 사항은 성능과 사용성을 향상시켜 RTX AI PC에서 높은 수준의 처리량을 제공한다. 즉, 더 빠른 응답, 더 신속한 상호작용, 그리고 로컬에서 AI를 구축하고 통합하기 위한 더 나은 툴을 제공한다.
LM 스튜디오는 유연성을 염두에 두고 제작돼 간단한 실험부터 맞춤형 워크플로 통합까지 다양한 용도로 활용할 수 있다. 사용자는 데스크톱 채팅 인터페이스를 통해 모델과 상호작용하거나 개발자 모드를 활성화해 오픈AI 호환 API 엔드포인트를 제공할 수 있다. 이를 통해 로컬 LLM을 비주얼 스튜디오 코드(VS Code)나 맞춤형 데스크톱 에이전트와 같은 앱의 워크플로에 쉽게 연결할 수 있다.
예를 들어, LM 스튜디오는 마크다운 기반의 인기 지식 관리 애플리케이션인 옵시디언(Obsidian)에 통합될 수 있다. 사용자는 텍스트 제너레이터(Text Generator), 스마트 커넥션(Smart Connections)과 같은 커뮤니티 개발 플러그인을 사용해 콘텐츠를 생성하고, 연구를 요약하고, 자신의 노트 검색을 수행할 수 있다. 이 모든 기능은 LM 스튜디오를 통해 실행되는 로컬 LLM으로 구동된다. 이러한 플러그인은 LM 스튜디오의 로컬 서버에 직접 연결되므로 클라우드에 의존하지 않고도 빠르고 비공개적인 AI 상호작용이 가능하다.
LM 스튜디오 0.3.15 업데이트에는 개발자를 위한 새로운 기능이 추가됐다. 그중에는 ‘툴_초이스’ 매개변수를 통한 도구 사용에 대한 세분화된 제어 기능과 더 길거나 복잡한 프롬프트를 처리할 수 있는 시스템 프롬프트 편집기 업그레이드 등이 포함된다.
개발자는 툴_초이스 파라미터를 통해 도구 호출을 강제하거나, 완전히 비활성화하거나, 모델이 동적으로 결정하도록 허용하는 등 모델이 외부 도구와 연동하는 방식을 제어할 수 있다. 이러한 유연성은 구조화된 상호작용, 검색 증강 생성(retrieval-augmented generation : RAG) 워크플로 또는 에이전트 파이프라인 구축에 특히 유용하다. 이러한 업데이트는 LLM을 사용하는 개발자의 실험과 프로덕션 사용 사례 모두에서 효율성을 높인다.
LM 스튜디오는 젬마(Gemma), 라마3(Llama 3), 미스트랄(Mistral), 오르카(Orca) 등 광범위한 개방형 모델과 4비트부터 고정밀까지 다양한 양자화 형식을 지원한다. 또한, 엔비디아는 소형 RTX 기반 시스템에서 효율성을 최적화하든 고성능 데스크톱에서 높은 처리량을 달성하든, LM 스튜디오가 RTX에서 완전한 제어, 속도, 프라이버시를 모두 제공한다고 설명했다.
LM 스튜디오 가속화의 핵심은 소비자 하드웨어에서 효율적인 추론을 제공하도록 설계된 오픈 소스 런타임인 llama.cpp이다. 엔비디아는 LM 스튜디오, llama.cpp 커뮤니티와 협력해 RTX GPU 성능을 극대화하기 위해 ▲쿠다 그래프 활성화 ▲플래시 어텐션 쿠다 커널(Flash attention CUDA kernel) ▲최신 RTX 아키텍처 지원 등의 최적화 사항을 통합했다.
LM 스튜디오는 윈도우, 맥OS, 리눅스에서 무료로 다운로드해 실행할 수 있다. 최신 0.3.15 버전과 지속적인 최적화를 통해 사용자는 성능, 맞춤화, 사용성에서 지속적인 개선을 기대할 수 있으며, 로컬 AI를 더 빠르고 유연하며 접근 가능하게 만든다. 사용자는 데스크톱 채팅 인터페이스를 통해 모델을 로드하거나 개발자 모드를 활성화해 오픈AI 호환 API를 사용할 수 있다.
LM 스튜디오는 모델 프리셋, 다양한 양자화 형식, 미세 조정된 추론을 위한 툴_초이스와 같은 개발자 제어 옵션을 지원한다. LM 스튜디오의 성능 개선에 관심이 있는 사용자는 커뮤니티와 엔비디아 주도의 성능 개선이 지속적으로 반영되는 llama.cpp 깃허브(GitHub) 리포지토리에 참여할 수 있다.