통합검색 - 통합검색 : 캐드앤그래픽스 - 엔지니어링IT 미디어 | CAD&Graphics

회원가입
|
로그인
|
장바구니

News

뉴스 신제품 신간 Culture & Life
강좌/특집

특집 강좌 자료창고 갤러리
리뷰

리뷰
매거진

목차 및 부록보기 잡지 세션별 성격 뉴스레터 정기구독안내 정기구독하기 단행본 및 기타 구입
행사/이벤트

행사 전체보기 캐드앤그래픽스 행사
CNG TV

방송리스트 방송 다시보기 공지사항
커뮤니티

업체홍보 공지사항 설문조사 자유게시판 Q&A게시판 구인구직/학원소식
디렉토리

디렉토리 전체보기 소프트웨어 공급업체 하드웨어 공급업체 기계관련 서비스 건축관련 업체 및 서비스 교육기관/학원 관련DB 추천 사이트
회사소개

회사소개 회사연혁 출판사업부 광고안내 제휴 및 협력제안 회사조직 및 연락처 오시는길
고객지원센터

고객지원 Q&A 이메일 문의 기사제보 및 기고 개인정보 취급방침 기타 결제 업체등록결제
쇼핑몰

로그인
회원가입
배송조회
장바구니

News

뉴스

신제품

신간

Culture & Life
강좌/특집

특집

강좌

자료창고

갤러리
리뷰
매거진

목차 및 부록보기

잡지 세션별 성격

뉴스레터

정기구독안내

정기구독하기

단행본 및 기타 구입
행사/이벤트

행사 전체보기

캐드앤그래픽스 행사
CNG TV

방송리스트

방송 다시보기

공지사항
커뮤니티

업체홍보

공지사항

설문조사

자유게시판

Q&A게시판

구인구직/학원소식
디렉토리

디렉토리 전체보기

소프트웨어 공급업체

하드웨어 공급업체

기계관련 서비스

건축관련 업체 및 서비스

교육기관/학원

관련DB

추천 사이트
쇼핑몰
고객지원센터

고객지원 Q&A

이메일 문의

기사제보 및 기고

개인정보 취급방침

기타 결제

업체등록결제

통합검색 " 옴니모달"에 대한 통합 검색 내용이 1개 있습니다

원하시는 검색 결과가 잘 나타나지 않을 때는 홈페이지의 해당 게시판 하단의 검색을 이용하시거나 구글 사이트 맞춤 검색 을 이용해 보시기 바랍니다.

CNG TV 방송 내용은 검색 속도 관계로 캐드앤그래픽스 전체 검색에서는 지원되지 않으므로 해당 게시판에서 직접 검색하시기 바랍니다

알리바바, 스스로 코딩하고 영상 읽는 차세대 AI 모델 2종 공개

알리바바는 복잡한 소프트웨어 개발을 스스로 해내는 큐웬3.6-플러스(Qwen3.6-Plus)와 텍스트, 음성, 영상 등 다양한 매체를 한 번에 처리하는 큐웬3.5-옴니(Qwen3.5-Omni) 등 인공지능 모델 2종을 공개했다. 큐웬3.6-플러스는 에이전틱 코딩과 멀티모달 추론에 특화한 모델이다. 단순히 질문에 답하는 수준을 넘어, 소프트웨어 저장소 단위의 엔지니어링 작업과 시각 정보를 바탕으로 한 문제 해결을 수행한다. 이 모델의 핵심은 인식과 추론, 행동을 하나의 흐름으로 연결하는 능력 루프 구조다. 이를 통해 코드 구상부터 테스트, 반복 개선을 거쳐 실제 적용할 수 있는 결과물을 만드는 과정을 지원한다. 특히 웹 개발 과정에서 목표 분해부터 최종 정제까지 전 과정을 자율적으로 처리하며 100만 토큰의 컨텍스트 창을 지원한다. 시각적 코딩 기능을 활용하면 화면 캡처나 손으로 그린 도안을 해석해 실제 동작하는 코드로 바꿀 수도 있다. 알리바바는 이 모델이 리테일 인텔리전스나 자동화 검사처럼 단계별 실행이 필요한 기업 환경에서 안정성과 정확도를 높였다고 설명했다. 큐웬3.6-플러스는 모델 스튜디오와 큐웬 챗에서 사용할 수 있으며 향후 일부 모델은 오픈소스로도 제공할 계획이다. 함께 공개한 큐웬3.5-옴니는 텍스트와 음성, 이미지, 영상을 단일 모델에서 통합 처리하는 옴니모달 인공지능이다. 여러 유형의 데이터를 하나로 통합해 실시간 상호작용 역량을 높인 것이 특징이다. 라이브 스트리밍이나 지능형 음성 비서, 영상 자막 생성 등 다양한 분야에 활용할 수 있다. 큐웬3.5-옴니는 플러스, 플래시, 라이트 세 가지 버전으로 나뉘며 모두 최대 25만 6000 토큰 컨텍스트를 지원한다. 알리바바는 “최상위 모델인 큐웬3.5-옴니-플러스가 200개 이상의 성능 평가에서 최고 수준을 기록했으며, 음성 이해와 추론 등 여러 영역에서 제미나이 3.1 프로보다 우수한 성능을 보였다”고 밝혔다. 이 모델은 10시간 이상의 연속 오디오를 처리할 수 있으며 113개 언어의 음성 인식과 36개 언어의 음성 생성을 지원한다. 영상 콘텐츠를 장면 단위로 나누거나 등장인물의 관계를 포함한 대본 수준의 설명을 만드는 것도 가능하다. 또한 오디오-비주얼 바이브 코딩 기능을 통해 사용자가 스케치를 보여주며 음성으로 설명하면 앱이나 웹사이트용 화면을 즉석에서 만들어낸다. 실시간 대화 시에는 목소리 크기와 속도, 감정을 세밀하게 조절해 자연스러운 소통을 돕는다.

작성일 : 2026-04-06

1