구글이 지능적인 오픈 AI 모델인 ‘젬마 4(Gemma 4)’를 선보인다. 젬마 4는 고급 추론과 에이전트 기반 워크플로를 위해 특수 설계되었으며, 파라미터당 높은 수준의 지능을 제공하는 것이 특징이다.
구글은 첫 번째 버전을 출시한 이후 개발자들이 젬마를 4억 회 이상 다운로드했으며, 10만 개 이상의 변형 모델로 구성된 젬마버스 생태계를 구축해 왔다고 밝혔다. 젬마 4는 이러한 개발자들의 요구를 반영해 AI의 가능성을 확장하는 방향으로 개발되었다. 구글은 개발자 생태계를 지원하기 위해 젬마 4를 상업적 활용이 가능한 아파치 2.0 라이선스로 제공한다고 밝혔다.
이 모델은 제미나이 3와 동일한 연구 및 기술을 기반으로 한다. 이용자의 하드웨어에서 직접 실행할 수 있는 강력한 성능을 갖췄으며, 개방형 모델과 폐쇄형 툴을 아우르는 조합을 제공한다. 구글은 젬마 4를 네 가지 크기로 제공한다. 효율성을 강조한 E2B(Effective 2B)와 E4B(Effective 4B), 그리고 대형 모델인 26B MoE와 31B Dense로 구성된다.
구글에 따르면 31B 모델은 업계 표준인 아레나 AI 텍스트 리더보드에서 오픈 모델 기준 3위를 기록했으며, 26B 모델은 6위에 올랐다. 젬마 4는 20배 큰 모델보다 우수한 성능을 보이기도 한다. 이러한 성능 향상을 통해 개발자는 적은 하드웨어 자원으로도 높은 수준의 AI 기능을 구현할 수 있다. 특히 에지 컴퓨팅 환경에서는 E2B와 E4B 모델이 온디바이스 활용성을 확장하며 멀티모달 기능과 낮은 지연 시간을 지원한다.

▲ 4월 1일 기준 Arena.ai 챗 아레나에서 오픈 모델 성능 대비 크기 비교(출처 : 구글)
젬마 4는 안드로이드 기기부터 노트북 GPU, 개발자 워크스테이션까지 다양한 하드웨어에서 효율적으로 실행되고 미세 조정될 수 있도록 설계되었다. 주요 특징으로는 다단계 계획 수립이 가능한 고급 추론 기능과 함수 호출 및 구조화된 JSON 출력을 지원하는 에이전트 기반 워크플로가 꼽힌다. 또한 고성능 오프라인 코드 생성 역량을 갖춰 개인 워크스테이션을 AI 코드 어시스턴트로 활용할 수 있다. 모든 모델은 비디오와 이미지를 기본 처리하며 140개 이상의 언어를 지원한다. 컨텍스트 윈도는 모델 크기에 따라 128K에서 최대 256K까지 제공한다.
하드웨어 환경에 따른 최적화도 이루어졌다. 26B 및 31B 모델은 개인용 컴퓨터에서 오프라인 기반의 높은 지능을 구현한다. 단일 80GB 엔비디아 H100 GPU나 일반 소비자용 GPU에서도 구동이 가능하다. 모바일과 IoT 기기를 위한 E2B 및 E4B 모델은 메모리 사용량과 배터리 소모를 최소화하도록 설계되었다. 픽셀 팀과 퀄컴, 미디어텍 등 하드웨어 파트너와의 협업을 통해 스마트폰과 라즈베리 파이 등에서도 지연 시간 없이 오프라인으로 실행된다.
신뢰성과 안전성 측면에서도 구글의 독점 모델과 동일한 보안 프로토콜이 적용된다. 개발자는 구글 AI 스튜디오나 구글 AI 에지 갤러리에서 젬마 4를 직접 탐색할 수 있으며, 허깅 페이스, 캐글, 올라마 등을 통해 모델 가중치를 다운로드할 수 있다. 구글 클라우드의 버텍스 AI와 클라우드 런 등을 통한 서비스 확장도 가능하며, 엔비디아와 AMD GPU 등 다양한 하드웨어 플랫폼에서 최적화된 성능을 제공한다.








