가트너가 2030년까지 1조 개 파라미터를 보유한 거대 언어 모델(LLM)의 추론 비용이 2025년과 비교해 90% 이상 줄어들 것이라는 전망을 내놓았다. 생성형 AI 모델이 처리하는 기본 데이터 단위인 AI 토큰은 이번 분석에서 약 3.5바이트로 정의되었다. 가트너는 반도체와 인프라의 효율 개선, 모델 설계 혁신, 추론 특화 반도체 확대 등에 힘입어 2030년에는 LLM의 비용 효율이 2022년 초기 모델 대비 최대 100배까지 좋아질 것으로 내다봤다.
가트너는 이번 비용 분석을 위해 최첨단 반도체 기반의 프런티어 시나리오와 기존 반도체를 혼합해 사용하는 레거시 혼합 시나리오를 활용했다. 분석 결과 레거시 혼합 시나리오는 연산 성능이 상대적으로 낮아 프런티어 시나리오보다 비용이 상당히 높은 것으로 나타났다.

▲ 가트너의 생성형 AI 추론 비용 시나리오 전망
하지만 토큰 단가가 떨어진다고 해서 기업의 AI 관련 비용이 곧바로 줄어들지는 않을 것으로 보인다. 고도화된 AI 기능일수록 더 많은 토큰을 사용하는 구조적 특성 때문이다. 가트너의 분석에 따르면 AI 에이전트는 기존 챗봇보다 작업당 최소 5배에서 최대 30배 많은 토큰을 필요로 한다. 토큰 단가의 하락 속도보다 토큰 사용량의 증가 속도가 더 빠르기 때문에, 전체적인 추론 비용은 오히려 늘어날 가능성이 크다.
가트너의 윌 소머 시니어 디렉터 애널리스트는 “제품 총괄 책임자는 범용 토큰 가격의 하락을 고급 추론 역량의 대중화로 오해해서는 안 된다”고 강조했다. 기본적인 AI 기능은 비용이 거의 들지 않는 수준이 되겠지만, 고급 추론을 위한 컴퓨팅 자원과 시스템은 여전히 희소하다는 설명이다. 그는 이어 “저렴한 토큰 비용에 의존해 아키텍처의 비효율을 방치하는 기업은 향후 에이전트 기반 AI를 확장하는 단계에서 한계에 부딪힐 것”이라고 경고했다.
가트너는 앞으로 다양한 모델 포트폴리오 사이에서 업무 부하를 효율적으로 조정하는 플랫폼의 가치가 높아질 것이라고 전망했다. 자주 반복되는 업무는 소형 모델이나 도메인 특화 모델로 처리하고, 비용이 많이 드는 프런티어급 모델은 복잡하고 가치가 높은 추론 작업에만 선택적으로 활용해야 한다는 전략이다. 이러한 멀티 모델 운영 방식은 특정 작업 흐름에서 범용 모델보다 낮은 비용으로 더 뛰어난 성능을 제공할 수 있다.








