통합검색 > 통합검색 : 캐드앤그래픽스 - 엔지니어링IT 미디어 | CAD&Graphics

회원가입
|
로그인
|
장바구니

News

뉴스 신제품 신간 Culture & Life
강좌/특집

특집 강좌 자료창고 갤러리
리뷰

리뷰
매거진

목차 및 부록보기 잡지 세션별 성격 뉴스레터 정기구독안내 정기구독하기 단행본 및 기타 구입
행사/이벤트

행사 전체보기 캐드앤그래픽스 행사
CNG TV

방송리스트 방송 다시보기 공지사항
커뮤니티

업체홍보 공지사항 설문조사 자유게시판 Q&A게시판 구인구직/학원소식
디렉토리

디렉토리 전체보기 소프트웨어 공급업체 하드웨어 공급업체 기계관련 서비스 건축관련 업체 및 서비스 교육기관/학원 관련DB 추천 사이트
회사소개

회사소개 회사연혁 출판사업부 광고안내 제휴 및 협력제안 회사조직 및 연락처 오시는길
고객지원센터

고객지원 Q&A 이메일 문의 기사제보 및 기고 개인정보 취급방침 기타 결제 업체등록결제
쇼핑몰

로그인
회원가입
배송조회
장바구니

News

뉴스

신제품

신간

Culture & Life
강좌/특집

특집

강좌

자료창고

갤러리
리뷰
매거진

목차 및 부록보기

잡지 세션별 성격

뉴스레터

정기구독안내

정기구독하기

단행본 및 기타 구입
행사/이벤트

행사 전체보기

캐드앤그래픽스 행사
CNG TV

방송리스트

방송 다시보기

공지사항
커뮤니티

업체홍보

공지사항

설문조사

자유게시판

Q&A게시판

구인구직/학원소식
디렉토리

디렉토리 전체보기

소프트웨어 공급업체

하드웨어 공급업체

기계관련 서비스

건축관련 업체 및 서비스

교육기관/학원

관련DB

추천 사이트
쇼핑몰
고객지원센터

고객지원 Q&A

이메일 문의

기사제보 및 기고

개인정보 취급방침

기타 결제

업체등록결제

통합검색 "오픈AI"에 대한 통합 검색 내용이 79개 있습니다

원하시는 검색 결과가 잘 나타나지 않을 때는 홈페이지의 해당 게시판 하단의 검색을 이용하시거나 구글 사이트 맞춤 검색 을 이용해 보시기 바랍니다.

CNG TV 방송 내용은 검색 속도 관계로 캐드앤그래픽스 전체 검색에서는 지원되지 않으므로 해당 게시판에서 직접 검색하시기 바랍니다

바이브 코딩 지원 멀티 에이전트 코덱스의 사용법

BIM 칼럼니스트 강태욱의 이슈 & 토크 요즘 바이브 코딩(vibe coding)이 열풍이다. 이번 호에서는 오픈AI(OpenAI)가 개발한 바이브 코딩을 지원하는 멀티 에이전트 코덱스(Codex)의 사용법을 간략히 소개한다. 얼마 전 챗GPT(ChatGPT) 프로 버전에 무료로 오픈된 코덱스와 오픈소스 코덱스 버전(CLI)의 사용법을 모두 설명한다. ■ 강태욱 건설환경 공학을 전공하였고 소프트웨어 공학을 융합하여 세상이 돌아가는 원리를 분석하거나 성찰하기를 좋아한다. 건설과 소프트웨어 공학의 조화로운 융합을 추구하고 있다. 팟캐스트 방송을 통해 이와 관련된 작은 메시지를 만들어 나가고 있다. 현재 한국건설기술연구원에서 BIM/ GIS/FM/BEMS/역설계 등과 관련해 연구를 하고 있으며, 연구위원으로 근무하고 있다. 페이스북 | www.facebook.com/laputa999 블로그 | http://daddynkidsmakers.blogspot.com 홈페이지 | https://dxbim.blogspot.com 팟캐스트 | www.facebook.com/groups/digestpodcast 그림 1. Codex | OpenAI 2025년 4월 중순에 OpenAI o3, o4, Codex가 공개되었다. 멀티 AI 에이전트 기능을 충실히 구현한 영상 데모가 업로드되었고, 특히 자동화 코딩을 지원하는 코덱스가 로컬 컴퓨터에서 실행 가능한 형태로 공개된 점이 인상적이었다. 그림 2. 오픈AI o3, o4, 코덱스 공개 영상 코덱스는 단순한 코드 생성에 그치지 않고 버그 수정, 테스트 실행, 코드 리뷰 제안 등 복잡한 개발 업무를 자동화한다. 각 작업은 사용자의 코드 저장소가 사전 로드된 격리된 클라우드 샌드박스 환경에서 독립적으로 실행되며, 작업의 복잡도에 따라 1분에서 30분 이내에 결과를 제공한다. 또한, 코덱스는 작업 수행 과정에서 생성된 터미널 로그와 테스트 출력 등의 증거를 제공하여, 사용자가 변경 사항을 추적하고 검토할 수 있도록 지원한다.코덱스 코드 및 도구는 깃허브(GitHub)에 공개되었다. Codex Lightweight coding agent that runs : https://github.com/openai/codex 6월 초에는 챗GPT 프로 사용자에게 코덱스 기능이 공개되었다. 코덱스는 챗GPT의 사이드바를 통해 접근할 수 있으며, 사용자는 자연어로 코딩 작업을 지시하거나 기존 코드에 대한 질문을 할 수 있다. 또한 코덱스는 사용자의 개발 환경과 유사하게 구성할 수 있어, 실제 개발 환경과의 통합이 용이하다. 보안 측면에서도 코덱스는 격리된 환경에서 실행되며, 인터넷 접근은 기본적으로 비활성화되어 있다. 필요한 경우 특정 도메인에 대한 접근을 허용할 수 있으며, 이를 통해 외부 리소스를 사용하는 테스트나 패키지 설치 등이 가능하다. 코덱스는 현재 챗GPT 프로/팀/엔터프라이즈 사용자에게 제공되며, 플러스 및 에듀 사용자에게도 점차 확대되고 있다. 또한, 코덱스 CLI(Codex CLI)를 통해 터미널 환경에서도 코덱스의 기능을 활용할 수 있어, 다양한 개발 환경에서의 활용이 가능하다.(openai.com) 챗GPT에서 코덱스 사용법 코덱스를 활용한 전체 사용 과정은 단순한 코드 자동 생성 수준을 넘어, 실제 소프트웨어 개발의 전 과정을 자연어 기반으로 자동화하는 방식으로 개발되어 있다. 코덱스는 현재 깃허브를 기본 연결해 사용하도록 되어 있어, 다음과 같이 필자의 깃허브 프로젝트를 연결해 실습을 진행했음을 밝힌다. https://github.com/mac999/AI_agent_simple_function_ call.git 참고로, 필자는 필자의 깃허브 저장소를 이용하였지만, 독자는 각자 깃허브에 로그인한 후 본인의 프로젝트 개발을 진행할 저장소를 선택해야 한다. 아울러, 바이브 코딩 결과물이 제대로 동작하려면 반드시 챗GPT 등을 이용해 미리 PRD(Product Requirement Document)에 요구사항을 명확히 작성한 후, 이를 바이브 코딩 도구에 입력해 프로젝트와 코드를 생성하도록 하는 것이 좋다. 그림 3. 식사 레스토랑 평가용 앱 개발을 위한 PRD 문서 예시(How to vibe code : 11 vibe coding best practices, https://zapier.com) 프로젝트 시작 : 코드 저장소 구성 및 환경 연결 챗GPT 프로의 왼쪽 메뉴에서 <그림 4>와 같이 코덱스를 실행하면, 연결할 깃허브 계정 및 저장소를 요청한다. 코덱스에서 <그림 4>와 같이 본인의 깃허브 계정을 연결한다. 그림 4 ■ 자세한 기사 내용은 PDF로 제공됩니다.

작성일 : 2025-09-03

어도비, 파이어플라이 및 익스프레스에 구글 제미나이 2.5 플래시 이미지 모델 탑재

어도비가 파이어플라이(Adobe Firefly) 및 어도비 익스프레스(Adobe Express)에서 구글 제미나이 2.5 플래시 이미지(Gemini 2.5 Flash Image) 모델을 지원한다고 발표했다. 어도비 파이어플라이와 익스프레스 통해 제공되는 제미나이 2.5 플래시 이미지 모델을 통해 사용자는 더 쉽게 뛰어난 콘텐츠를 제작하고 아이디어를 빠르게 실현할 수 있다. 앞으로 소셜 크리에이터는 파이어플라이에서 제미나이 2.5 플래시 이미지 모델을 활용해 일관된 스타일의 그래픽 시리즈를 제작하고, 이를 어도비 익스프레스로 가져와 애니메이션, 사이즈 조정, 프롬프트 기반 캡션 생성 및 소셜 채널 게시까지 한 번에 작업할 수 있다. 마케터와 기업 사용자는 어도비 익스프레스에서 제미나이 2.5 플래시 이미지 모델을 통해 기존 캠페인 애셋을 소셜 콘텐츠, 전단지, 프레젠테이션, 이메일 그래픽 등 다양한 포맷으로 손쉽게 제작하는 것은 물론, 배경 교체, 개체 삽입, 이미지 변형 등을 몇 분 만에 실행해 브랜드 가이드에 맞는 사실적인 결과물을 빠르게 얻는 것이 가능하다. 디자이너의 경우 파이어플라이에서 제품 콘셉트나 캐릭터 디자인 시안을 빠르게 만들고, 다양한 방향성을 탐색하며, 포토샵이나 일러스트레이터에서 정교한 편집을 이어갈 수도 있다. 어도비는 크리에이터들에게 폭 넓고 다양한 생성형 AI 모델을 제공하기 위해 어도비 파이어플라이와 어도비 익스프레스를 통해 이미지, 영상, 벡터, 오디오 전반에 걸쳐 상업적으로 안전한 파이어플라이 생성형 모델군을 제공함은 물론 구글, 오픈AI, 블랙 포레스트 랩스(Black Forest Labs), 런웨이(Runway), 피카(Pika), 이디오그램(Ideogram), 루마 AI(Luma AI), 문밸리(Moonvalley) 등 파트너사의 생성형 AI 모델까지 선택할 수 있도록 한다고 소개했다. 생성형 AI 모델은 각기 고유한 심미적인 스타일을 지니고 있다. 어도비는 워크플로나 플랫폼을 전환하지 않고도 작업 목적에 맞는 모델을 선택해 활용할 수 있는 유연성을 제공한다. 보다 정밀한 제어를 원하는 크리에이티브 전문가는 어도비 포토샵(Adobe Photoshop), 어도비 일러스트레이터(Adobe Illustrator), 어도비 프리미어(Adobe Premiere) 등 크리에이티브 클라우드(Creative Cloud) 앱을 통해 세밀하게 조정하거나 편집할 수 있다. 어도비는 자사의 제품 내에서 어떤 생성형 AI 모델을 선택하더라도, 어도비 앱에서 생성하거나 업로드한 콘텐츠는 생성형 AI 모델의 훈련에 사용되지 않는다고 전했다. 어도비 파이어플라이 생성형 AI 모델은 이를 항상 준수하며, 파트너십 계약 시에도 필수 조건으로 명시하고 있다. 또한 투명성을 강화하기 위해, 어도비 파이어플라이와 어도비 익스프레스에서 전적으로 AI로 생성된 모든 콘텐츠에는 콘텐츠 자격증명(Content Credentials)이 첨부된다. 한편, 제미나이 2.5 플래시 이미지 모델은 파이어플라이의 텍스트를 이미지로(Text to Image) 모듈, 파이어플라이 보드(Firefly Board, 베타) 및 어도비 익스프레스에서 바로 사용할 수 있다.

작성일 : 2025-08-27

마이크로소프트, “전 세계 고객과 파트너의 AI 전략 실행 지원”

마이크로소프트가 전 세계 다양한 산업 분야에서 자사의 AI 비즈니스 설루션, 클라우드 및 AI 플랫폼 그리고 보안 기술을 활용해 가시적인 비즈니스 성과를 이룬 고객 사례를 공개했다. IDC가 발표한 ‘2025 CEO 우선순위 보고서’에 따르면, 글로벌 CEO의 66%는 생성형 AI를 통해 운영 효율성과 고객 만족도 개선 등에서 측정 가능한 성과를 경험한 것으로 나타났다. IDC는 또한, 기업이 AI에 1달러를 지출할 때, 전 세계 경제에서 평균 4.9달러의 부가가치가 발생할 것으로 전망했다. 이에 따라 마이크로소프트는 고객과 파트너가 ‘AI 퍼스트(AI-first)’ 전략을 중심으로 비즈니스 전략을 재편하고 통합할 수 있도록 지원하고 있다. 특히 ▲직원 경험 강화 ▲고객 경험 혁신 ▲비즈니스 프로세스 재설계 ▲혁신 가속화 등 네 가지 핵심 영역에서 변화가 가시화되고 있다. 마이크로소프트는 “현재 포춘 500대 기업의 85% 이상이 마이크로소프트의 AI 설루션을 도입해, 이러한 변화를 실현하고 있다”고 소개했다. 메르세데스 벤츠(Mercedes-Benz)는 마이크로소프트 365 코파일럿(Microsoft 365 Copilot), 팀즈(Teams), 인튠(Intune) 등을 차량 운영체제에 통합해 차량을 업무가 가능한 이동형 생산성 공간으로 전환하고 있다. 운전자는 음성 명령으로 이메일을 요약하고, 일정을 확인하며, 화상회의에 참여할 수 있다. 특히 기업 고객들은 사무실 수준의 보안 환경에서 업무용 계정과 앱을 안전하게 사용할 수 있어 이동 중에도 효율성과 연결성을 유지할 수 있게 됐다. 멕시코의 웰니스·뷰티 기업인 셸로 나벨(Sheló NABEL)은 다이나믹스 365(Dynamics 365)를 도입해 실시간으로 시장 인사이트를 얻고 400개 이상의 제품에 대한 수요 예측을 최적화했다. 여기에 마이크로소프트 365 코파일럿을 활용해 고객 서비스와 운영 효율성도 향상시켰다. 그 결과 매출은 17% 증가하고, 보고 프로세스 속도는 5배 향상됐다. 사우디아라비아 기술 및 통신 기업인 유니포닉(Unifonic)은 급격한 성장에 따른 대규모 하이브리드 인력 관리와 보안 및 컴플라이언스 문제를 해결하기 위해 마이크로소프트 365 E5(Microsoft 365 E5) 및 마이크로소프트 365 코파일럿을 기반으로 업무 자동화와 데이터 보호 체계를 구축했다. 그 결과 감사 소요 시간은 85% 단축됐고, 보안 관리를 하루에 2시간 절감하며, 고객 데모 설정 시간도 15% 줄었다. 이를 통해 연간 약 25만 달러의 비용 절감 효과도 거뒀다. 스웨덴의 제조기업인 허스크바나 그룹(Husqvarna Group)은 공장 네트워크와 공급망, 유통 채널 현대화를 위해 애저 아크(Azure Arc), 애저 IoT 오퍼레이션(Azure IoT Operations), 애저 오픈AI 등 애저 통합 설루션을 도입했다. 이를 통해 클라우드와 온프레미스 시스템을 통합하고 실시간 데이터 기반 의사결정 체계를 마련했다. 그 결과 데이터 배포 시간은 98% 단축되고, 인프라 이미지 구축 비용도 50% 절감됐다. 우크라이나의 에너지기업 DTEK의 YANSO는 애저 오픈AI 서비스와 애저 AI 서치(Azure AI Search) 기반 AI 어시스턴트를 도입해 하루 300건 이상의 고객 문의에 대한 평균 응답 시간을 4.5분에서 3.5분으로 단축했다. 이를 통해 모든 문의의 약 80%를 자동 처리할 수 있을 것으로 예상된다. 독일 로봇 기업 쿠카(KUKA)는 애저 AI 파운드리 모델과 애저 AI 서치를 기반으로 iiQWorks.Copilot을 개발해 자연어 기반 코드 생성과 워크플로 시뮬레이션을 구현하며 단순 작업 프로그래밍 속도를 최대 80%까지 높였다. 쿠카는 이 설루션을 통해 로보틱스 도구와 자동화에 대한 접근성을 확대해 배포 속도와 안전성을 높이고, 다양한 팀과 환경에서 산업용 로봇의 활용성을 확대했다. 마이크로소프트의 저드슨 알소프(Judson Althoff) 수석 부사장은 “AI 트랜스포메이션을 통해 비즈니스를 차별화하고 리더가 될 수 있는 기회는 바로 지금”이라며, “마이크로소프트는 고객과 파트너가 AI를 통해 개인과 조직의 잠재력을 극대화할 수 있도록 기술과 전문성을 바탕으로 지원하고 있다”고 말했다. 이어 “앞으로도 이들이 단순한 AI 도입을 넘어 혁신할 수 있도록 비즈니스 전략을 재정립하고, 프론티어 기업으로서 미래를 설계할 수 있도록 함께할 것”이라고 덧붙였다.

작성일 : 2025-08-19

어도비, 파이어플라이 모바일 앱 출시 및 파이어플라이 보드 공개

어도비는 AI가 지원하는 콘텐츠 아이디어 구상, 생성, 제작을 위한 플랫폼인 ‘어도비 파이어플라이’의 확장을 발표했다. 먼저, iOS 및 안드로이드용 파이어플라이 앱 출시로 파이어플라이의 이미지 및 영상 생성 기능이 모바일로 확대된다. 크리에이터는 모바일 앱을 통해 어디서나 AI를 활용해 아이디어를 탐색하고, 이미지와 영상을 생성하거나 편집할 수 있다. 파이어플라이의 웹 앱과 모바일 앱은 독립적 또는 어도비 크리에이티브 클라우드(Creative Cloud) 앱과 함께 사용할 수 있다. 어도비 크리에이티브 클라우드와 동기화되어 아이디어 단계부터 최종 제작까지 창작 워크플로의 연속성과 효율성을 지원한다. 크리에이터는 파이어플라이 모바일을 통해 텍스트 프롬프트를 사용하여 어디서나 쉽게 이미지 및 영상을 생성하는 텍스트를 이미지로(Text to Image), 텍스트를 비디오로(Text to Video), 이미지를 비디오로(Image to Video) 기능을 사용할 수 있다. 또한 작업에 요소를 추가하거나 사람 혹은 불필요한 도로 표지판 같은 개체를 제거하는 생성형 채우기(Generative Fill) 기능, 그리고 이미지 크기를 확장하는 동시에 AI가 생성한 콘텐츠로 새로운 영역을 채우는 생성형 확장(Generative Expand) 기능도 이용할 수 있다. 크리에이터는 어도비의 파이어플라이 생성형 AI 모델군을 비롯해 오픈AI의 이미지 생성, 구글의 이마젠 3(Imagen 3) 및 이마젠 4(Imagen 4)와 비오 2(Veo 2) 및 비오 3(Veo 3) 등을 통해 다양한 콘셉트를 시도해볼 수 있다. 파이어플라이에서 생성된 콘텐츠는 자동으로 크리에이티브 클라우드 계정과 동기화되므로, 모바일 앱에서 시작한 프로젝트를 웹은 물론 포토샵, 프리미어 프로 등 데스크톱 앱에서도 이어서 작업할 수 있다. 그리고 파이어플라이 웹 앱을 통해 제공되는 파이어플라이 보드(Firefly Boards)가 공개 베타로 제공된다. 파이어플라이 보드는 AI 퍼스트 무드보드에 영상 기능을 추가해, 크리에이티브 팀의 아이디어 기획과 협업 방식을 혁신한다. 이를 통해 크리에이티브 전문가는 다양한 미디어를 넘나들며 AI 구동 영상 및 이미지 편집 기능을 활용해 함께 탐색하고 반복하며 아이디어를 발전시킬 수 있다. 파이어플라이 보드는 크리에이티브 전문가들이 다양한 미디어 유형의 수백 가지 아이디어를 동시에 구상하고 협업할 수 있는 새로운 방식을 선보인다. 파이어플라이 보드의 AI 구동 무드보드 환경에 영상이 추가되면서, 크리에이티브 전문가는 업로드한 영상 클립을 리믹스하거나 어도비의 상업적으로 안전한 파이어플라이 비디오 모델(Firefly Video Model), 구글의 비오 3, 루마 AI의 레이2(Ray 2), 피카의 텍스트-투-비디오 모델 2.2를 활용해 영상 푸티지를 생성할 수 있다. 크리에이티브 팀은 파이어플라이 모델과 파트너사의 모델을 활용해 이미지를 생성하는 것뿐만 아니라, 파이어플라이 보드의 AI 역량을 활용해 대화형 텍스트 프롬프트 기반으로 이미지를 반복적으로 수정할 수 있다. 이는 블랙 포레스트 랩스의 플럭스.1 콘텍스트(Flux.1 Kontext)와 오픈AI의 이미지 생성 역량을 통해 구현된다. 한편, 어도비는 생성형 AI 모델 생태계를 더욱 넓힌다고 밝혔다. 오픈AI, 구글, 블랙 포레스트 랩스 등 기존 모델에 더해 이디오그램, 루마 AI, 피카, 런웨이 등 신규 파트너 모델도 통합해 파이어플라이 생성형 AI 생태계가 확장됐다. 신규 파트너 모델은 파이어플라이 보드에서 먼저 출시되며, 곧 파이어플라이 앱 전반에서도 이용할 수 있다. 어도비는 지난 4월 오픈AI의 이미지 생성 기능, 구글의 이마젠 3 및 비오 2, 블랙 포레스트 랩스의 플럭스 1.1 프로(Flux 1.1 Pro)를 시작으로 생태계를 확장했다. 이제 크리에이터들은 이디오그램의 이디오그램 3.0(Ideogram 3.0), 루마AI의 레이2, 피카의 텍스트-투-비디오 모델 2.2, 런웨이의 젠-4 이미지(Gen-4 Image), 구글의 최신 모델인 이마젠 4 및 비오 3까지 선택할 수 있는 유연성을 갖게 됐다. 이 모델들은 이미지, 영상, 오디오, 벡터 등 어도비의 포괄적인 파이어플라이 모델군과 함께 사용할 수 있다. 어도비의 일라이 그린필드(Ely Greenfield) 수석 부사장 겸 최고기술책임자는 “크리에이터들이 파이어플라이 앱에서 어도비와 파트너 모델을 활용해 구현하는 이미지, 영상, 그래픽, 디자인의 폭과 예술성에 대해 깊은 인상을 받고 있다”면서, “파이어플라이의 목표는 웹과 모바일에서 업계 최고의 생성형 모델들을 사용해 아이디어 구상부터 생성, 편집에 이르기까지 모두 작업할 수 있는 가장 포괄적인 크리에이티브 플랫폼을 제공하는 것”이라고 말했다. iOS 및 안드로이드용 파이어 플라이 모바일 앱은 애플 앱스토어와 구글 플레이스토어에서 현재 영어 버전으로 제공되며, 파이어플라이 보드는 파이어플라이 웹 앱에서 베타 버전으로 이용할 수 있다. 또한 파이어플라이 웹 앱, 모바일 앱, 그 밖에 모든 최신 기능은 크리에이티브 클라우드 프로 플랜을 통해서도 이용 가능하다.

작성일 : 2025-06-18

AMD, 개방형 AI 생태계 비전과 함께 신제품 소개

AMD는 연례 행사인 ‘2025 어드밴싱 AI(2025 Advancing AI)’에서 종합적이고 통합된 AI 플랫폼 비전을 발표하고, 업계 표준 기반의 개방적이고 확장 가능한 랙-스케일 AI 인프라를 공개했다. AMD는 인스팅트 MI350 시리즈 GPU를 공개하며, 생성형 AI 및 고성능 컴퓨팅 분야에서 성능, 효율성 및 확장성을 위한 새로운 기준을 내세웠다. 인스팅트 MI350X 및 MI355X GPU 및 플랫폼으로 구성된 MI350 시리즈는 세대 간 AI 컴퓨팅 성능은 4배, 추론 성능은 35배 높아져 산업 전반에 걸친 혁신적인 AI 설루션의 물꼬를 텄다. AMD는 MI355X가 높은 가격 대비 성능을 제공하며, 경쟁 설루션 대비 최대 40% 더 많은 달러당 토큰을 생성할 수 있다고 설명했다. 이번 어드밴싱 AI 행사에서 AMD는 인스팅트 MI350 시리즈 가속기, 5세대 AMD 에픽(AMD EPYC) 프로세서, AMD 펜산도 폴라라 NIC(Pensando Pollara NIC)를 활용한 엔드투엔드 오픈 스탠다드 랙 스케일 AI 인프라를 시연했다. 이는 오라클 클라우드 인프라스트럭처(OCI) 등 하이퍼스케일러에서 이미 운영되고 있고, 2025년 하반기부터 광범위하게 출시할 예정이다. AMD는 이전 세대 대비 MoE(Mixture of Experts) 모델 추론에서 최대 10배 더 높은 성능을 제공하는 MI400 시리즈 GPU를 기반으로 한 차세대 AI 랙 ‘헬리오스(Helios)’도 선공개했다. 이 시스템은 젠 6(Zen 6) 아키텍처 기반의 에픽 ‘베니스(Venice)’ CPU 및 펜산도 ‘불카노(Vulcano)’ NIC를 탑재했다. AMD는 최신 오픈소스 AI 소프트웨어 스택인 ROCm 7도 발표했다. ROCm 7은 생성형 AI와 HPC 워크로드를 충족하도록 설계되어 전반적인 개발자 경험을 끌어 올린다. ROCm 7은 업계 표준 프레임워크에 대한 지원을 높이고 하드웨어 호환성 확대, 개발 도구 및 드라이버, API, 라이브러리 등을 특징으로 내세운다. AMD AI 소프트웨어 개발 부문 부사장 공식 블로그 포스트) 인스팅트 MI350 시리즈는 AI 트레이닝 및 HPC 노드의 에너지 효율을 5년간 30배 개선한다는 AMD의 목표를 초과 달성해 결과적으로 38배라는 개선을 이뤄냈다. AMD는 2030년까지 2024년 기준 대비 랙 스케일 에너지 효율을 20배 향상시키겠다는 새로운 목표도 발표했다. 이는 2030년까지 전력 소비를 95% 줄이는 것인데, 현재 275개 이상의 랙이 필요한 일반적인 AI 모델을 학습시키는 데에 완전히 채워진 랙 1개, 혹은 그 이하의 시스템으로 처리할 수 있다는 것을 의미한다. 이외에도 AMD는 전 세계 개발자 및 오픈소스 커뮤니티를 위한 AMD 개발자 클라우드의 광범위한 출시를 발표했다. 이 클라우드는 고성능 AI 개발을 위해 설계된 완전 관리형 환경으로, 개발자가 AI 프로젝트를 빠르게 시작할 수 있도록 다양한 도구와 유연한 확장성을 제공한다. AMD는 ROCm 7과 AMD 개발자 클라우드를 통해 차세대 컴퓨팅에 대한 장벽을 낮추고 접근성을 넓힐 계획이다. 최근, 세계 10대 AI 및 모델 구축 기업 중 7곳이 AMD 인스팅트 가속기를 기반으로 프로덕션 워크로드를 운영하고 있는 가운데, 메타, 오픈AI, 마이크로소프트, xAI 등 7개 기업은 어드밴싱 AI행사에 참석해 선도적인 AI 모델 학습, 강력한 대규모 추론, AI 탐색과 개발 가속화 등 다양한 분야에서 AMD 설루션을 활용한 사례를 공유했다. 메타는 라마 3(Llama 3) 및 라마 4(Llama 4) 모델 추론에 인스팅트 MI300X를 활용 중이며, MI350의 연산 성능, TCO 대비 성능, 차세대 메모리에 대해 기대감을 나타냈다. 오픈AI의 샘 올트먼(Sam Altman) CEO는 하드웨어, 소프트웨어, 알고리즘 전반에 걸친 최적화의 중요성에 대해 설명하고, AI 인프라 분야에서 AMD와 오픈AI의 긴밀한 파트너십, MI300X 기반 애저(Azure)의 연구 및 GPT 모델, MI400 시리즈 플랫폼에서의 심층적인 설계 참여 등에 대해 논의했다. AMD의 개방형 랙 스케일 AI 인프라를 도입한 OCI는 최대 13만 1072개의 MI355X GPU로 가속화되는 제타스케일 AI 클러스터를 통해 고객들이 대규모 AI 모델을 구축, 학습, 추론할 수 있도록 지원한다고 밝혔다. 그리고 마이크로소프트는 인스팅트 MI300X가 애저 내의 독점 모델과 오픈소스 모델 모두에 사용되고 있다고 발표했다. AMD의 리사 수(Lisa Su) CEO는 “AMD는 전례 없는 속도로 AI 혁신을 주도하고 있으며, 이는 AMD 인스팅트 MI350 시리즈 가속기 출시, 차세대 AMD ‘헬리오스’ 랙-스케일 설루션의 발전, 그리고 ROCm 개방형 소프트웨어 스택의 성장 모멘텀을 통해 더욱 부각되고 있다”면서, “우리는 개방형 표준, 공동 혁신, 그리고 AI의 미래를 정의하고자 협력하는 광범위한 하드웨어 및 소프트웨어 파트너 생태계 전반에 걸쳐 AMD의 리더십을 확대하고 있으며, 이를 통해 AI의 다음 단계로 진입하고 있다.”고 밝혔다.

작성일 : 2025-06-13

엔비디아, “RTX GPU와 쿠다 12.8로 LLM 실행 도구 성능 향상”

엔비디아가 엔비디아 지포스(NVIDIA GeForce) RTX GPU와 쿠다(CUDA) 12.8을 통해 로컬 대규모 언어 모델(large language model : LLM) 실행 도구인 ‘LM 스튜디오(LM Studio)’의 성능을 향상했다고 밝혔다. 문서 요약에서 맞춤형 소프트웨어 에이전트에 이르기까지 AI 사용 사례가 계속 확장되고 있다. 이에 따라 개발자와 AI 애호가들은 LLM을 더 빠르고 유연하게 실행할 수 있는 방법을 찾고 있다. 엔비디아 지포스 RTX GPU가 탑재된 PC에서 로컬로 모델을 실행하면 고성능 추론, 향상된 데이터 프라이버시, AI 배포와 통합에 대한 제어가 가능하다. 무료로 체험할 수 있는 LM 스튜디오와 같은 도구는 이러한 로컬 AI 실행을 간편하게 구현할 수 있도록 지원한다. 이를 통해 사용자는 자신의 하드웨어에서 LLM을 탐색하고 구축할 수 있다. LM 스튜디오는 로컬 LLM 추론을 위해 가장 널리 채택된 도구 중 하나로 자리잡았다. 고성능 llama.cpp 런타임을 기반으로 구축된 이 애플리케이션은 모델을 완전히 오프라인에서 실행할 수 있도록 한다. 또한 사용자 지정 워크플로에 통합하기 위해 오픈AI(OpenAI) 호환 API(application programming interface) 엔드포인트 역할도 수행할 수 있다. LM 스튜디오 0.3.15 버전은 쿠다 12.8을 통해 RTX GPU에서 성능이 향상되면서 모델 로드와 응답 시간이 개선됐다. 또한 이번 업데이트에는 ‘툴_초이스(tool_choice)’ 파라미터를 통한 도구 활용 개선, 시스템 프롬프트 편집기 재설계 등 개발자 중심의 새로운 기능도 추가됐다. LM 스튜디오의 최신 개선 사항은 성능과 사용성을 향상시켜 RTX AI PC에서 높은 수준의 처리량을 제공한다. 즉, 더 빠른 응답, 더 신속한 상호작용, 그리고 로컬에서 AI를 구축하고 통합하기 위한 더 나은 툴을 제공한다. LM 스튜디오는 유연성을 염두에 두고 제작돼 간단한 실험부터 맞춤형 워크플로 통합까지 다양한 용도로 활용할 수 있다. 사용자는 데스크톱 채팅 인터페이스를 통해 모델과 상호작용하거나 개발자 모드를 활성화해 오픈AI 호환 API 엔드포인트를 제공할 수 있다. 이를 통해 로컬 LLM을 비주얼 스튜디오 코드(VS Code)나 맞춤형 데스크톱 에이전트와 같은 앱의 워크플로에 쉽게 연결할 수 있다. 예를 들어, LM 스튜디오는 마크다운 기반의 인기 지식 관리 애플리케이션인 옵시디언(Obsidian)에 통합될 수 있다. 사용자는 텍스트 제너레이터(Text Generator), 스마트 커넥션(Smart Connections)과 같은 커뮤니티 개발 플러그인을 사용해 콘텐츠를 생성하고, 연구를 요약하고, 자신의 노트 검색을 수행할 수 있다. 이 모든 기능은 LM 스튜디오를 통해 실행되는 로컬 LLM으로 구동된다. 이러한 플러그인은 LM 스튜디오의 로컬 서버에 직접 연결되므로 클라우드에 의존하지 않고도 빠르고 비공개적인 AI 상호작용이 가능하다. LM 스튜디오 0.3.15 업데이트에는 개발자를 위한 새로운 기능이 추가됐다. 그중에는 ‘툴_초이스’ 매개변수를 통한 도구 사용에 대한 세분화된 제어 기능과 더 길거나 복잡한 프롬프트를 처리할 수 있는 시스템 프롬프트 편집기 업그레이드 등이 포함된다. 개발자는 툴_초이스 파라미터를 통해 도구 호출을 강제하거나, 완전히 비활성화하거나, 모델이 동적으로 결정하도록 허용하는 등 모델이 외부 도구와 연동하는 방식을 제어할 수 있다. 이러한 유연성은 구조화된 상호작용, 검색 증강 생성(retrieval-augmented generation : RAG) 워크플로 또는 에이전트 파이프라인 구축에 특히 유용하다. 이러한 업데이트는 LLM을 사용하는 개발자의 실험과 프로덕션 사용 사례 모두에서 효율성을 높인다. LM 스튜디오는 젬마(Gemma), 라마3(Llama 3), 미스트랄(Mistral), 오르카(Orca) 등 광범위한 개방형 모델과 4비트부터 고정밀까지 다양한 양자화 형식을 지원한다. 또한, 엔비디아는 소형 RTX 기반 시스템에서 효율성을 최적화하든 고성능 데스크톱에서 높은 처리량을 달성하든, LM 스튜디오가 RTX에서 완전한 제어, 속도, 프라이버시를 모두 제공한다고 설명했다. LM 스튜디오 가속화의 핵심은 소비자 하드웨어에서 효율적인 추론을 제공하도록 설계된 오픈 소스 런타임인 llama.cpp이다. 엔비디아는 LM 스튜디오, llama.cpp 커뮤니티와 협력해 RTX GPU 성능을 극대화하기 위해 ▲쿠다 그래프 활성화 ▲플래시 어텐션 쿠다 커널(Flash attention CUDA kernel) ▲최신 RTX 아키텍처 지원 등의 최적화 사항을 통합했다. LM 스튜디오는 윈도우, 맥OS, 리눅스에서 무료로 다운로드해 실행할 수 있다. 최신 0.3.15 버전과 지속적인 최적화를 통해 사용자는 성능, 맞춤화, 사용성에서 지속적인 개선을 기대할 수 있으며, 로컬 AI를 더 빠르고 유연하며 접근 가능하게 만든다. 사용자는 데스크톱 채팅 인터페이스를 통해 모델을 로드하거나 개발자 모드를 활성화해 오픈AI 호환 API를 사용할 수 있다. LM 스튜디오는 모델 프리셋, 다양한 양자화 형식, 미세 조정된 추론을 위한 툴_초이스와 같은 개발자 제어 옵션을 지원한다. LM 스튜디오의 성능 개선에 관심이 있는 사용자는 커뮤니티와 엔비디아 주도의 성능 개선이 지속적으로 반영되는 llama.cpp 깃허브(GitHub) 리포지토리에 참여할 수 있다.

작성일 : 2025-05-12

엔비디아, 오라클 클라우드 인프라에 블랙웰 GPU 지원

엔비디아가 오라클에 엔비디아 블랙웰(NVIDIA Blackwell) GPU를 지원해 에이전틱 AI와 추론 모델의 혁신을 가속화하고 있다고 밝혔다. 오라클은 자사 데이터센터에 수랭식 엔비디아 GB200 NVL72 랙을 최초로 도입하고 최적화했다. 현재 수천 개의 엔비디아 블랙웰 GPU가 엔비디아 DGX 클라우드(DGX Cloud)와 오라클 클라우드 인프라스트럭처(Oracle Cloud Infrastructure : OCI)를 통해 고객이 사용할 수 있도록 배치되고 있다. 이는 차세대 추론 모델과 AI 에이전트 개발과 실행을 지원한다. 오라클이 도입한 GB200에는 고속 엔비디아 퀀텀-2 인피니밴드(Quantum-2 InfiniBand)와 엔비디아 스펙트럼-X 이더넷(Spectrum-X Ethernet) 네트워킹이 포함된다. 이를 통해 확장 가능하고 저지연 성능을 구현하며, 엔비디아와 OCI 소프트웨어와 데이터베이스 통합의 풀스택을 지원한다. OCI는 엔비디아 GB200 NVL72 시스템을 최초로 도입한 기업 중 하나이다. OCI는 세계 최대 규모의 블랙웰 클러스터를 구축하려는 계획을 갖고 있다. OCI 슈퍼클러스터(Supercluster)는 10만 개 이상의 엔비디아 블랙웰 GPU로 확장해 전 세계적으로 급증하는 추론 토큰과 가속 컴퓨팅 수요를 충족할 예정이다. 지난 몇 주 사이 오픈AI(OpenAI)를 비롯한 여러 기업에서 새로운 추론 모델을 출시하면서 AI 혁신은 빠른 속도로 계속되고 있다. 엔비디아는 “OCI의 사례는 엔비디아 그레이스(Grace) 블랙웰 시스템이 전 세계적으로 본격 가동되기 시작한 최신 사례이다. 이는 클라우드 데이터센터를 대규모 인텔리전스를 제조하는 AI 팩토리로 탈바꿈시키고 있다”고 설명했다. 이러한 새로운 AI 팩토리는 36개의 엔비디아 그레이스 CPU와 72개의 엔비디아 블랙웰 GPU를 결합한 랙 스케일 시스템인 엔비디아 GB200 NVL72 플랫폼을 활용한다. 이를 통해 고급 AI 추론 모델 기반의 에이전틱 AI를 위한 고성능과 에너지 효율을 제공한다. OCI는 모든 규모의 고객에게 블랙웰을 제공할 수 있는 유연한 배포 옵션을 지원한다. 여기에는 공공, 정부, 소버린 클라우드는 물론 OCI 전용 리전(Dedicated Region)과 OCI 알로이(Alloy)를 통한 고객 소유의 데이터센터까지 포함된다. 한편 새로운 GB200 NVL72 랙은 엔비디아 DGX 클라우드에서 사용할 수 있는 첫 번째 시스템이다. 엔비디아 DGX 클라우드는 OCI와 같은 주요 클라우드에서 AI 워크로드를 개발하고 배포하기 위해 소프트웨어, 서비스, 기술 지원을 제공하는 최적화된 플랫폼이다. 엔비디아는 추론 모델 훈련, 자율주행차 개발, 칩 설계와 제조 가속화, AI 도구 개발 등 다양한 프로젝트에 이 랙을 사용할 예정이다. GB200 NVL72 랙은 현재 DGX 클라우드와 OCI에서 사용할 수 있다.

작성일 : 2025-04-30

어도비, AI 콘텐츠 생성을 위한 ‘파이어플라이’ 올인원 앱 공개

어도비가 AI 기반 콘텐츠 구상, 생성 및 제작을 위한 올인원 앱인 새로운 파이어플라이(Firefly)를 공개했다. 파이어플라이는 크리에이터가 한 곳에서 크리에이티브 제어 기능을 사용해 이미지, 영상, 오디오, 벡터를 생성하고, 어도비의 크리에이티브 앱 전반에서 창작물을 반복 수정하며, 이를 제작 단계로 원활하게 연결할 수 있도록 돕는다. 어도비는 “상업적으로 안전한 파이어플라이 모델군과 더불어 구글 클라우드, 오픈AI(OpenAI)를 비롯한 파트너 모델에 대한 선택, 그리고 크리에이티브 클라우드 앱에 긴밀히 통합된 AI 구동 툴을 통해 업계에서 가장 포괄적인 크리에이티브 AI 플랫폼을 제공한다”고 전했다. 파이어플라이는 또한 크리에이티브 전문가가 파트너 모델을 사용해 다양한 스타일을 탐색할 수 있는 선택권도 제공한다. 현재 구글 클라우드와 오픈AI 모델을 사용할 수 있으며, fal.ai, 이디오그램(Ideogram), 루마(Luma), 피카(Pika), 런웨이(Runway) 등의 파트너 모델은 향후 몇 달 내 제공될 예정이다. 이 밖에도 파이어플라이에서 새롭게 선보이는 파이어플라이 보드(Firefly Boards, 공개 베타)를 통해 무드 보드(moodboarding) 제작, 크리에이티브 콘셉트 탐색 뿐 아니라 한 번에 수백 가지의 변형 작업을 반복하며 아이디어 구상을 위해 협업할 수 있는 AI 퍼스트 공간을 제공한다. 파이어플라이는 이미지, 영상, 오디오 및 벡터 생성을 통합하고 크리에이티브 제어 기능을 제공함으로써, 크리에이티브 전문가들이 더욱 생산적이고 정밀하게 작업할 수 있도록 돕는다. 포토샵(Photoshop), 프리미어 프로(Premiere Pro), 익스프레스(Express) 등 어도비의 크리에이티브 애플리케이션과 통합되어, 아이디어 구상부터 실제 제작까지 콘텐츠 제작 프로세스의 모든 단계에 걸쳐 AI로 구동되는 지원을 제공한다. 파이어플라이의 상업적으로 안전한 모델은 참조 이미지를 기반으로 파이어플라이의 결과물에 대한 가이드를 제공하는 구조 및 스타일 참조(Structure and Style Reference) 외에도 생성된 이미지와 영상의 카메라 앵글을 정밀하게 제어하고, 생성된 영상의 시작 및 종료 프레임을 지정하며, 오디오 및 영상을 다양한 언어로 번역하는 등 여러 기능을 지원한다. 또한, 어도비는 생생한 이미지를 위한 새로운 파이어플라이 이미지 모델 4(Firefly Image Model 4), 디테일하고 복잡한 이미지를 위한 파이어 플라이 모델 4 울트라(Firefly Image Model 4 Ultra), 텍스트 프롬프트와 이미지로 푸티지를 생성하는 파이어플라이 비디오 모델(Firefly Video Model) 등 상업적으로 안전한 어도비 크리에이티브 AI 모델도 정식 출시했다. 파이어플라이 앱은 파이어플라이 이미지 모델 4 및 파이어플라이 이미지 모델 4 울트라를 비롯해 상업적으로 안전하며 바로 제작에 사용 가능한 어도비의 모든 파이어플라이 모델을 포함한다. 파이어플라이 앱은 크리에이티브 전문가가 자신에게 가장 적합한 방식으로 유연하게 AI를 사용할 수 있도록 지원하기 위해 오픈AI의 이미지 생성 역량, 구글의 이마젠3(Imagen 3), 비오2(Veo 2) 및 플럭스 1.1 프로(Flux 1.1 Pro) 등 다양한 미적 스타일을 지닌 파트너의 제작 모델로 실험할 수 있는 선택권을 제공한다. 어도비는 fal.ai, 이디오그램, 루마, 피카 및 런웨이 등의 파트너 모델도 향후 몇 달 내 추가 통합할 계획이다. 파이어플라이 앱에서 공개 베타 버전으로 제공되는 새로운 파이어플라이 보드는 크리에이터가 무드 보드 및 스토리 보드 제작, 브레인스토밍, 크리에이티브 콘셉트 탐색, 한 번에 수백 가지 변형 반복 작업, 아이디어 구상을 위한 협업을 수행하고, 바로 제작에 돌입할 수 있는 AI 퍼스트 작업 공간을 제공한다. 초기에 프로젝트 콘셉트(Project Concept)로서 선공개한 파이어플라이 보드는 본격적인 제작 단계에 들어가기 전 크리에이티브 팀이 아이디어를 빠르고 효율적으로 정리하고 공유할 수 있도록 지원한다. 또한 크리에이터가 한 곳에서 아이디어를 시각화하고, 정교하게 다듬어 다음 단계의 작업으로 원활히 넘어갈 수 있도록 해준다. 생성형 AI와 크리에이티브 API로 구성된 어도비 파이어플라이 서비스(Firefly Services)는 어도비 AI 기술을 콘텐츠 제작 워크플로에 직접 통합해, 기업이 다양한 마케팅 채널에 맞춰 애셋 크기를 조정하는 등 반복적이고 시간 소모적인 작업을 신속하게 처리할 수 있도록 돕는다. 어도비는 상업적으로 안전한 파이어플라이 모델을 기반으로 파이어플라이 서비스에 새로운 API를 도입하고 있다. 현재 베타 버전으로 제공되는 포토샵 API는 기업들이 이미지 편집 워크플로를 보다 빠르게 처리할 수 있도록 하며, 텍스트를 비디오로(Text-to-Video) API와 이미지를 비디오로(Image-to-Video) API는 텍스트와 스틸 샷을 실사 클립으로 변환한다. 파이어플라이 이미지 모델 4를 활용한 최신 텍스트를 이미지로(Text-to-Image) API와 제품 설명 영상 등 몰입도 높은 비디오 콘텐츠 제작을 제작할 수 있는 아바타 API(Avatar API)도 곧 출시될 예정이다. 새로운 파이어플라이는 웹에서 사용할 수 있으며, 모바일 앱도 곧 출시될 예정이다. 한편 파이어플라이 이미지 모델 4, 파이어플라이 이미지 모델 4 울트라 및 새로운 파이어플라이 비디오 모델은 파이어플라이 웹에서 정식 출시됐으며, 파이어플라이 보드는 파이어플라이 앱 내에서 공개 베타 버전으로 제공된다. 어도비의 데이비드 와드와니(David Wadhwani) 디지털 미디어 사업 부문 사장은 “파이어플라이는 이미지, 영상, 오디오 및 벡터 생성을 단일의 공간에서 제공함으로써 AI 기반 크리에이티브 제작 경험을 혁신할 것”이라며, “새로운 파이어플라이 모델과 파트너 모델의 통합으로 이용자들은 자신의 비전을 실현할 수 있는 최고의 선택을 할 수 있다”고 말했다.

작성일 : 2025-04-25

[무료강좌] AI 영상 제작 생태계의 현재와 미래

AI 크리에이터 시대 : 영상 제작의 새로운 패러다임 (1) 이번 호에서는 AI 영상 제작 생태계의 현재 상황을 분석하고, 기술 발전에 따른 미래 변화를 예측하며, 여러 분야에 활용할 수 있는 생성형 AI 영상 제작 기술을 살펴보고자 한다. ■ 연재순서 제1회 AI 영상 제작 생태계의 현재와 미래 제2회 AI 기반 크리에이티브 워크플로 혁신 제3회 소셜 미디어 최적화 AI 영상 제작 전략 제4회 AI 특수효과 및 후반작업 마스터하기 제5회 AI 기반 몰입형 사운드 디자인 ■ 최석영 AI프로덕션 감성놀이터의 대표이며, 국제고양이AI필름페스티벌 총감독이다. AI 칼럼니스트로도 활동하고 있다. 그림 1. 오픈소스 AI, ComfyUI를 활용한 생성형 비디오 Wan2.1 AI 영상 제작의 패러다임 전환 인공지능 기술의 급속한 발전은 영상 제작 산업에 근본적인 변화를 가져오고 있다. 전통적으로 영상 콘텐츠 제작은 전문적인 기술, 고가의 장비, 그리고 상당한 시간과 인력을 필요로 했다. 그러나 AI 기술의 등장으로 이러한 장벽이 크게 낮아지며, 영상 제작의 민주화가 빠르게 진행되고 있다. 이제는 프리미어보다는 AI 편집 프로그램인 캡컷(CapCut)으로 영상을 편집하고, 애프터이펙트보다 피카 AI(Pika AI)로 고급 이펙트 영상을 제작하는 경우가 늘고 있다. 그림 2. 캡컷 서비스 이미지(capcut.com) 그림 3. 피카 AI 서비스 이미지(pika.ai) AI 영상 제작 기술의 현재 생성형 AI 비디오 기술 그림 4. 오픈AI 소라의 영상 생성 제작 이미지(sora.com) 최근 급속도로 발전한 생성형 AI 기술은 영상 제작 방식을 혁신적으로 변화시키고 있다. 텍스트 프롬프트만으로 완전히 새로운 비디오를 생성하는 기술이 실현되어 창작의 새로운 패러다임을 형성하고 있다. 그림 5. 비디오 생성 기술이 뛰어난 구글의 비오 2(Veo 2, https:// deepmind.google/technologies/veo/veo-2) 주요 기술 및 모델 텍스트-비디오(Text-to-Video) 생성 : 오픈AI의 소라(Sora), 구글의 루미에르(Lumiere) 등이 텍스트 설명만으로 사실적인 비디오를 생성하는 기술을 선보이고 있다. 소라는 최대 60초 길이의 복잡한 내러티브 장면을 생성할 수 있는 능력을 갖추었으며, 물리적 정확성과 시간적 일관성 측면에서 괄목할 만한 성과를 보여주고 있다. 이미지-비디오(Image-to-Video) 변환 : 런웨이(Runway)의 젠-3(Gen-3) 등은 정적 이미지를 동적 비디오로 확장하는 기술을 제공한다. 이 기술은 단일 이미지에 내재된 정보를 바탕으로 자연스러운 움직임과 시간적 흐름을 생성한다. 비디오 확장 및 편집 : 캡컷 등의 플랫폼은 기존 비디오 클립을 AI로 확장하거나 스타일을 변환하는 서비스를 제공하고 있다. 이러한 도구는 비디오의 해상도 향상, 프레임 보간, 스타일 변환 등 다양한 작업을 자동화한다. AI 기반 후보정 및 편집 기술 그림 6. AI 기반 DI(Digital Intermediate) 프로그램. 무료 기능도 탁월하다. AI는 영상의 촬영 이후 단계에서도 혁신을 가져오고 있다. 이는 편집의 효율을 높이고 전문가 수준의 결과물을 더 쉽게 얻을 수 있게 한다. 주요 기술 자동 색 보정 및 그레이딩 : 블랙매직 디자인(Blackmagic Design)의 다빈치 리졸브 18(DaVinci Resolve 18) 등에 탑재된 AI 기능은 영상의 색감과 톤을 자동으로 최적화한다. 객체 인식 및 자동 트래킹 : AI 기반 시스템은 비디오 내 객체를 식별하고 추적하여 효과 적용이나 편집 작업을 자동화한다. 오디오 처리 및 개선 : 배경 소음 제거, 음성 명확화, 자동 믹싱 등 AI 기반 오디오 처리 기술이 비디오 제작의 음향 품질을 크게 향상시키고 있다. ■ 자세한 기사 내용은 PDF로 제공됩니다.

작성일 : 2025-04-02

오픈소스 LLM 기반 블렌더 모델링 AI 에이전트 개발하기

BIM 칼럼니스트 강태욱의 이슈 & 토크 이번 호에서는 올라마(Ollama)와 오픈AI(OpenAI) GPT가 지원하는 오픈 소스 AI 모델을 블렌더(Blender)와 연결해 프롬프트 입력에 의한 자동 모델링 에이전트를 개발하는 방법을 설명한다. 이 연결을 통해 3D 모델링 작업 흐름을 간소화하고, 간단한 텍스트 프롬프트만으로 3D 장면을 생성하고 수정할 수 있다. 이번 호의 내용을 통해 이 프로세스를 직접 구현하는 방법을 이해하고, AI 에이전트 도구로서 LLM 모델의 역량을 평가할 수 있다. ■ 강태욱 건설환경 공학을 전공하였고 소프트웨어 공학을 융합하여 세상이 돌아가는 원리를 분석하거나 성찰하기를 좋아한다. 건설과 소프트웨어 공학의 조화로운 융합을 추구하고 있다. 팟캐스트 방송을 통해 이와 관련된 작은 메시지를 만들어 나가고 있다. 현재 한국건설기술연구원에서 BIM/ GIS/FM/BEMS/역설계 등과 관련해 연구를 하고 있으며, 연구위원으로 근무하고 있다. 페이스북 | www.facebook.com/laputa999 블로그 | http://daddynkidsmakers.blogspot.com 홈페이지 | https://dxbim.blogspot.com 팟캐스트 | www.facebook.com/groups/digestpodcast 그림 1. 프롬프트 : ‘Generate 100 cubes along the line of a circle with a radius of 30. The color and size of each cube are random.’ 개념 : 텍스트 기반 3D 모델링 ‘텍스트 기반 3D 모델링’이란, 사용자가 입력한 텍스트를 AI 모델이 분석하여 블렌더에서 실행할 수 있는 코드를 생성하고 이를 통해 3D 그래픽을 구현하는 방식이다. 텍스트 토큰을 조건으로 설정하여 메시 모델을 생성하는 방법도 존재하며, 이는 스테이블 디퓨전(Stable Diffusion : SD) 계열의 기술을 활용하는 경우가 많다. 그러나 SD 기반 모델은 정확한 크기와 위치를 지정하는 데 근본적인 한계를 가진다. 이번 호에서는 정확한 치수를 가진 모델을 생성하는 것에 초점을 맞추고 있으므로, SD 기반 모델에 대한 자세한 설명은 생략한다. 텍스트를 3D 모델로 변환하는 에이전트 도구는 CAD 툴과의 상호작용 방식을 개선할 가능성이 있으며, 그래픽 모델링의 진입 장벽을 낮추고 신속한 프로토타이핑이 가능할 수 있다. 실행 가능한 코드 다운로드 이번 호의 내용과 관련된 실행 가능한 코드는 깃허브(GitHub)에서 다운로드할 수 있으니 참고한다. GitHub 링크 : https://github.com/mac999/blender-llm-addin 라이브러리 설치 블렌더와 올라마를 설치해야 한다. 1. 블렌더 다운로드 : blender.org 2. 윈도우에서 올라마 다운로드 : https://ollama.com/download 3. 오픈 소스 LLM 모델 설치(터미널에서 실행) ollama pull llama3.2 ollama pull gemma2 ollama pull codellama ollama pull qwen2.5-coder:3b ollama pull vanilj/Phi-4 4. 필요한 라이브러리 설치 pip install pandas numpy openai ollama 블렌더의 파이썬(Python) 환경에서 라이브러리를 설치하려면, 블렌더 설치 경로에 맞게 다음을 실행해야 한다. cd "C:/Program Files/Blender Foundation/Blender /python/bin" ./python.exe -m ensurepip ./python.exe -m pip install pandas numpy openai ollama 코드 설명 블렌더 UI 패널 생성 사용자가 블렌더에서 직접 모델을 선택하고 텍스트 프롬프트를 입력할 수 있도록 커스텀 UI를 생성한다. class OBJECT_PT_CustomPanel(bpy.types.Panel): 　bl_label = "AI Model Selector" 　bl_idname = "OBJECT_PT_custom_panel" 　bl_space_type = 'VIEW_3D' 　bl_region_type = 'UI' 　bl_category = "Gen AI 3D Graphics Model" 　def draw(self, context): 　　layout = self.layout 　　layout.label(text="Select Model:") 　　layout.prop(context.scene, "ai_model", text="") 　　layout.label(text="User Prompt:") 　　layout.prop(context.scene, "user_prompt", text="") 　　layout.operator("object.submit_prompt", text="Submit") ■ 자세한 기사 내용은 PDF로 제공됩니다.

작성일 : 2025-04-02

1
2
3
4
5
6
7
8