알리바바, 스스로 코딩하고 영상 읽는 차세대 AI 모델 2종 공개
알리바바는 복잡한 소프트웨어 개발을 스스로 해내는 큐웬3.6-플러스(Qwen3.6-Plus)와 텍스트, 음성, 영상 등 다양한 매체를 한 번에 처리하는 큐웬3.5-옴니(Qwen3.5-Omni) 등 인공지능 모델 2종을 공개했다.
큐웬3.6-플러스는 에이전틱 코딩과 멀티모달 추론에 특화한 모델이다. 단순히 질문에 답하는 수준을 넘어, 소프트웨어 저장소 단위의 엔지니어링 작업과 시각 정보를 바탕으로 한 문제 해결을 수행한다. 이 모델의 핵심은 인식과 추론, 행동을 하나의 흐름으로 연결하는 능력 루프 구조다. 이를 통해 코드 구상부터 테스트, 반복 개선을 거쳐 실제 적용할 수 있는 결과물을 만드는 과정을 지원한다.
특히 웹 개발 과정에서 목표 분해부터 최종 정제까지 전 과정을 자율적으로 처리하며 100만 토큰의 컨텍스트 창을 지원한다. 시각적 코딩 기능을 활용하면 화면 캡처나 손으로 그린 도안을 해석해 실제 동작하는 코드로 바꿀 수도 있다. 알리바바는 이 모델이 리테일 인텔리전스나 자동화 검사처럼 단계별 실행이 필요한 기업 환경에서 안정성과 정확도를 높였다고 설명했다. 큐웬3.6-플러스는 모델 스튜디오와 큐웬 챗에서 사용할 수 있으며 향후 일부 모델은 오픈소스로도 제공할 계획이다.
함께 공개한 큐웬3.5-옴니는 텍스트와 음성, 이미지, 영상을 단일 모델에서 통합 처리하는 옴니모달 인공지능이다. 여러 유형의 데이터를 하나로 통합해 실시간 상호작용 역량을 높인 것이 특징이다. 라이브 스트리밍이나 지능형 음성 비서, 영상 자막 생성 등 다양한 분야에 활용할 수 있다.
큐웬3.5-옴니는 플러스, 플래시, 라이트 세 가지 버전으로 나뉘며 모두 최대 25만 6000 토큰 컨텍스트를 지원한다. 알리바바는 “최상위 모델인 큐웬3.5-옴니-플러스가 200개 이상의 성능 평가에서 최고 수준을 기록했으며, 음성 이해와 추론 등 여러 영역에서 제미나이 3.1 프로보다 우수한 성능을 보였다”고 밝혔다.
이 모델은 10시간 이상의 연속 오디오를 처리할 수 있으며 113개 언어의 음성 인식과 36개 언어의 음성 생성을 지원한다. 영상 콘텐츠를 장면 단위로 나누거나 등장인물의 관계를 포함한 대본 수준의 설명을 만드는 것도 가능하다. 또한 오디오-비주얼 바이브 코딩 기능을 통해 사용자가 스케치를 보여주며 음성으로 설명하면 앱이나 웹사이트용 화면을 즉석에서 만들어낸다. 실시간 대화 시에는 목소리 크기와 속도, 감정을 세밀하게 조절해 자연스러운 소통을 돕는다.
작성일 : 2026-04-06