통합검색 - 통합검색 : 캐드앤그래픽스 - 엔지니어링IT 미디어

[온에어] 소버린 AI를 주도하는 6가지 코드

캐드앤그래픽스 지식방송 CNG TV 지상 중계 CNG TV는 8월 25일 ‘소버린 AI를 주도하는 6가지 코드’를 주제로, 독자적으로 AI 시스템을 운영하고 통제할 수 있는 소버린 AI에 대해 집중 조명하는 시간을 마련했다. 이번 방송에서 LG CNS 안무정 책임은 정부 기관, 민간 기업, 그리고 개인이 소버린 AI를 확보하기 위한 6가지 핵심 전략을 설명했다. 자세한 내용은 다시보기를 통해 확인할 수 있다. ■ 박경수 기자 왜 우리에게 소버린 AI가 필요한가? 생성형 AI가 제공하는 텍스트, 코드, 이미지, 사운드, 영상 서비스는 하루가 다르게 고도화되며 최적화되고 있다. 이에 따라 생성형 AI를 활용한 혁신은 이제 선택이 아닌 필수가 되었다. 정부 기관, 기업뿐만 아니라 개인도 스스로 자신만의 AI 시스템을 운영하고 통제할 수 있어야 한다는 점에서 ‘소버린(sovereign) AI’가 주목받고 있다. LG CNS 안무정 책임은 “소버린 AI는 우리만의 AI 시스템을 직접 운영하고 통제할 수 있는 주도권을 의미한다”며, “이는 마치 우리만의 비밀 기지를 만드는 것과 같아서 국가 안보와 기업의 독립성을 지키는 데 아주 중요하다”고 강조했다. 또한 “글로벌 AI 모델에만 의존하면 우리 데이터가 어떻게 쓰일지 모르는 위험이 있기 때문에 우리만의 AI를 갖는 것이 필수”라고 설명했다. 우리만의 독자적인 AI 모델을 갖는 것은 F-35 전투기와 KF-21 보라매 전투기의 차이로 비교할 수 있다. F-35는 성능은 뛰어나지만 무장 체계를 우리 마음대로 바꿀 수 없다. 반면 KF-21은 국산 전투기라 다양한 무장을 설치하고 활용할 수 있다. 이처럼 우리만의 AI는 독자적인 작전 수행과 맞춤형 활용이 가능하다는 점에서 큰 의미가 있다. LG CNS의 엑사원이란? LG AI연구원은 LG그룹의 다양한 난제를 AI로 해결하기 위해 설립된 조직이다. 이곳에서는 한국어와 영어에 특화된 대규모 언어 모델(LLM)인 엑사원(X4)을 개발했다. 엑사원은 비용 효율을 위해 저작권 문제가 없는 데이터를 선별하고, 특히 화학·바이오 분야 논문의 99% 이상을 학습하여 특화된 모델로 발전한 것이 특징이다. 엑사원은 학습 데이터의 신뢰성을 높이기 위해 7단계 검증 과정을 거치며, 법적 리스크와 윤리성을 철저히 준수해 편향성을 최소화했다. 최신 엑사원 4.0 모델에는 추론 기능이 강화된 딥모델이 포함돼 있으며, 128K 토큰(약 A4 용지 400장 분량)의 텍스트를 한 번에 처리할 수 있다. 똑똑한 AI 만드는 데이터 거버넌스 AI가 똑똑해지려면 데이터를 잘 이해하고 활용하는 것이 무엇보다 중요하다. 이를 위해 핵심은 문서의 표준화다. 사람이 이해하는 방식이 아니라 기계가 이해할 수 있는 구조로 문서를 바꿔야 한다. 예를 들어 개요, 회사 소개, 사업 목표 같은 목차와 세부 항목을 표준화하면 AI가 데이터를 훨씬 효율적으로 처리할 수 있다. 소버린 AI의 6가지 코드 소버린 AI의 6가지 코드는 ▲폐쇄망 LLM/VLM 구축 ▲데이터 거버넌스 ▲AI Ops ▲GPU 최적화 ▲에이전틱 AI ▲AI 거버넌스 조직 구축이다. 이는 단순한 기술적 요구사항을 넘어 국가 및 기업의 데이터 주권을 확보하고 장기적 경쟁력을 강화하는 필수 전략이다. 이러한 소버린 AI 역량은 미래 AI 시대에 국가 안보와 산업 경쟁력을 수호하며, 지속 가능한 성장을 이끄는 핵심 동력이 될 것으로 전망된다. ■ 기사 내용은 PDF로도 제공됩니다.

작성일 : 2025-10-01

엔비디아, “새로운 오픈 모델과 시뮬레이션 라이브러리로 로보틱스 연구개발 가속화”

엔비디아가 오픈소스 뉴턴 물리 엔진(Newton Physics Engine)을 엔비디아 아이작 랩(NVIDIA Isaac Lab)에서 이용 가능하며, 로봇 기술을 위한 엔비디아 아이작 GR00T N1.6 추론 비전 언어 행동(vision language action : VLA) 모델과 새로운 AI 인프라를 함께 제공한다고 발표했다. 이들 기술은 개발자와 연구자에게 개방형 가속 로보틱스 플랫폼을 제공해 반복 작업을 가속화하고, 테스트를 표준화하며, 로봇의 추론과 훈련 통합을 지원한다. 아울러 로봇이 시뮬레이션에서 실제 환경으로 안전하고 안정적으로 기술을 이전할 수 있도록 돕는다. 로봇은 시뮬레이션 환경에서 더 빠르고 안전하게 학습할 수 있지만, 복잡한 관절, 균형, 움직임을 가진 휴머노이드 로봇은 오늘날 기존 물리 엔진의 한계를 시험한다. 전 세계 25만 명 이상의 로보틱스 개발자들은 정확한 물리 엔진을 필요로 하며, 이는 로봇이 시뮬레이션에서 학습한 기술을 현실 세계에서 안전하고 안정적으로 수행하기 위해 필수이다. 엔비디아는 리눅스 재단이 관리하는 GPU 가속 오픈소스 물리 엔진 뉴턴의 베타 버전을 공개했다. 이는 엔비디아 워프(Warp)와 오픈USD(OpenUSD) 프레임워크 기반으로, 엔비디아와 구글 딥마인드, 디즈니 리서치가 공동 개발했다. 뉴턴은 유연한 설계 및 다양한 물리 솔버와의 호환성을 갖췄다. 이를 통해 개발자가 눈이나 자갈 위를 걷거나, 컵과 과일을 다루는 등 매우 복잡한 로봇 동작을 시뮬레이션하고 이를 현실 세계에 성공적으로 적용할 수 있도록 지원한다. 휴머노이드가 물리적 환경에서 인간과 유사한 작업을 수행하기 위해서는 모호한 지시를 이해하고 이전에 경험하지 못한 상황에 대처할 수 있어야 한다. 곧 허깅 페이스에서 공개될 오픈소스 아이작 GR00T N1.6 로봇 파운데이션 모델의 최신 버전에는 피지컬 AI를 위해 개발된 오픈 맞춤형 추론 비전 언어 모델(VLM)인 엔비디아 코스모스 리즌(Cosmos Reason)이 통합될 예정이다. 코스모스 리즌은 로봇이 심층 사고를 하는 두뇌 역할을 담당하며 기존의 지식, 상식, 물리학을 활용해 모호한 지시를 단계별 계획으로 전환하고, 새로운 상황을 처리하며, 다양한 작업에 걸쳐 일반화할 수 있도록 한다. 코스모스 리즌은 현재 피지컬 리즈닝 리더보드(Physical Reasoning Leaderboard) 1위를 차지하고 있으며, 100만 회 이상 다운로드를 기록했다. 또한, 모델 훈련을 위한 대규모 실제 데이터, 합성 데이터를 선별하고 주석을 달 수 있다. 코스모스 리즌 1은 NIM에서 제공되며, 사용하기 쉬운 마이크로서비스 형태로 AI 모델 배포를 지원한다. 아이작 GR00T N1.6은 휴머노이드가 물체를 동시에 이동하고 조작할 수 있도록 해 상체와 팔의 자유도를 넓히고, 무거운 문을 여는 것과 같은 까다로운 작업을 수행할 수 있도록 한다. 개발자는 허깅 페이스의 오픈소스 엔비디아 피지컬 AI 데이터세트(Physical AI Dataset)를 사용해 아이작 GR00T N 모델을 사후 훈련할 수 있다. 이 데이터세트는 480만 회 이상 다운로드됐으며, 현재 수천 개의 합성 궤적과 실제 궤적 데이터를 포함한다. 또한, 엔비디아는 오픈소스 코스모스 월드 파운데이션 모델(WFM)의 신규 업데이트를 발표했다. 300만 회 이상 다운로드된 이 모델은 개발자가 텍스트, 이미지, 영상 프롬프트를 활용해 대규모로 피지컬AI 모델 훈련을 가속화할 수 있는 다양한 데이터 생성을 지원한다. 코스모스 프리딕트(Cosmos Predict) 2.5는 곧 출시될 예정이며, 세 가지 코스모스 WFM의 성능을 하나의 강력한 모델로 통합해 복잡성을 줄이고, 시간을 절약하며, 효율을 높인다. 또한 최대 30초의 긴 동영상 생성, 다중 뷰 카메라 출력을 지원해 더욱 풍부한 세계 시뮬레이션을 구현한다. 코스모스 트랜스퍼(Cosmos Transfer) 2.5는 곧 출시될 예정이며, 기존 모델 대비 3.5배 작으면서도 더 빠르고 높은 품질의 결과를 제공한다. 이제 사실적인 합성 데이터를 생성할 수 있으며, 그라운드 트루스(ground-truth) 3D 시뮬레이션 장면, 깊이, 세분화, 에지, 고해상도 지도와 같은 공간 제어 입력값을 활용할 수 있다. 로봇에게 물체를 잡는 법을 학습시키는 것은 로보틱스에서 가장 어려운 과제 중 하나다. 파지는 단순히 팔을 움직이는 것이 아니라 생각을 정밀한 동작으로 전환하는 것으로, 로봇이 시행착오를 통해 학습해야 하는 기술이다. 엔비디아 옴니버스(Omniverse) 플랫폼 기반의 아이작 랩 2.3 개발자 프리뷰의 새로운 정밀 파지(dexterous grasping) 워크플로는 다관절 손과 팔을 가진 로봇을 가상 환경에서 자동화된 커리큘럼으로 훈련시킨다. 이 과정은 간단한 작업부터 시작해 점차 복잡성을 높여간다. 해당 워크플로는 중력, 마찰, 물체의 무게 등 요소를 변경해 로봇이 예측 불가능한 환경에서도 기술을 습득하도록 훈련시킨다. 컵을 집거나 방을 가로질러 걷는 것과 같이 새로운 기술을 로봇에게 숙달시키는 것은 매우 어렵다. 또한, 이러한 기술을 실제 로봇에서 테스트하는 과정은 시간과 비용이 많이 요구된다. 이러한 어려움을 해결할 수 있는 방법은 시뮬레이션이다. 시뮬레이션은 로봇이 학습한 기술을 무수한 시나리오, 작업, 환경에서 테스트할 수 있는 방법을 제공한다. 그러나 개발자들은 시뮬레이션 환경에서도 현실 세계를 반영하지 못하고 단편적이고 단순화된 테스트를 구축하는 경우가 많다. 완벽하고 단순한 시뮬레이션 환경에서 학습한 로봇은 현실 세계의 복잡성에 직면하는 순간 실패할 가능성이 크다. 엔비디아와 라이트휠은 개발자가 시스템을 처음부터 구축하지 않고도 시뮬레이션 환경에서 복잡한 대규모 평가를 실행할 수 있는 오픈소스 정책 평가 프레임워크인 아이작 랩-아레나(Arena) 공동 개발 중이다. 이 프레임워크는 확장 가능한 실험과 표준화된 테스트를 지원하며 곧 공개될 예정이다. 엔비디아는 개발자들이 이러한 첨단 기술과 소프트웨어 라이브러리를 최대한 활용할 수 있도록, 까다로운 워크로드를 위해 설계된 AI 인프라를 발표했다. 엔비디아 GB200 NVL72는 엔비디아 그레이스(Grace) CPU 36개와 엔비디아 블랙웰(Blackwell) GPU 72개를 통합한 랙 규모 시스템으로, 주요 클라우드 공급업체들이 채택해 복잡한 추론과 피지컬 AI 작업을 포함한 AI 훈련과 추론을 가속화하고 있다. 엔비디아 RTX 프로 서버(RTX PRO Servers)는 훈련, 합성 데이터 생성, 로봇 학습, 시뮬레이션 전반의 모든 로봇 개발 워크로드를 위한 단일 아키텍처를 제공하며, RAI 연구소(RAI Institute)에서 도입 중이다. 블랙웰 GPU로 구동되는 엔비디아 젯슨 토르(Jetson Thor)는 로봇이 실시간 지능형 상호작용을 위한 다중 AI 워크플로 실행을 지원한다. 또한 실시간 로봇 추론으로 휴머노이드 로보틱스 전반에서 고성능 피지컬 AI 워크로드와 애플리케이션의 돌파구를 마련한다. 젯슨 토르는 피규어 AI, 갤봇(Galbot), 구글 딥마인드, 멘티 로보틱스, 메타(Meta), 스킬드 AI, 유니트리(Unitree) 등 파트너사에 도입 중이다. 엔비디아의 레브 레바레디언(Rev Lebaredian) 옴니버스, 시뮬레이션 기술 부문 부사장은 “휴머노이드는 피지컬 AI의 차세대 영역으로, 예측 불가능한 세상에서 추론하고, 적응하며, 안전하게 행동하는 능력이 필요하다. 이번 업데이트로 개발자들은 로봇을 연구 단계에서 일상 생활로 가져오기 위한 세 가지 컴퓨터를 갖게 됐다. 아이작 GR00T가 로봇의 두뇌 역할을 하고, 뉴턴이 신체를 시뮬레이션하며, 엔비디아 옴니버스가 훈련장이 된다”고 말했다.

작성일 : 2025-09-30

[인터그래텍] 전력전자 해석과 최적화를 위한 ANSYS 실무 세미나

작성일 : 2025-09-05

엔비디아, ‘젯슨 토르’ 출시로 로보틱스·피지컬 AI 혁신 가속

엔비디아가 에지 환경에서 실시간 AI 추론을 수행할 수 있는 엔비디아 젯슨 토르(NVIDIA Jetson Thor) 모듈을 출시했다. 젯슨 토르는 연구와 산업 현장의 로봇 시스템에서 두뇌 역할을 수행하며, 휴머노이드와 산업용 로봇 등 다양한 로봇이 보다 스마트하게 동작하도록 지원한다. 로봇은 방대한 센서 데이터와 저지연 AI 처리를 요구한다. 실시간 로봇 애플리케이션을 실행하려면 여러 센서에서 동시 발생하는 데이터 스트림을 처리할 수 있는 충분한 AI 컴퓨팅 능력과 메모리가 필요하다. 현재 정식 출시된 젯슨 토르는 이전 모델인 엔비디아 젯슨 오린(Orin) 대비 AI 컴퓨팅이 7.5배, CPU 성능이 3.1배, 메모리 용량이 2배 향상돼 이러한 처리를 디바이스에서 가능하게 한다. 이러한 성능 도약은 로봇 연구자들이 고속 센서 데이터를 처리하고 에지에서 시각적 추론을 수행할 수 있도록 한다. 이는 기존에는 동적인 실제 환경에서 실행하기에는 속도가 너무 느려 실행하기 어려웠던 워크플로이다. 이로써 휴머노이드 로보틱스와 같은 멀티모달 AI 애플리케이션의 새로운 가능성을 열어주고 있다. ▲ 엔비디아 젯슨 AGX 토르 개발자 키트 휴머노이드 로보틱스 기업인 어질리티 로보틱스(Agility Robotics)는 자사의 5세대 로봇인 디지트(Digit)에 엔비디아 젯슨을 통합했다. 이어서 6세대 디지트에는 온보드 컴퓨팅 플랫폼으로 젯슨 토르를 채택할 계획이다. 이를 통해 디지트는 실시간 인식과 의사결정 능력을 강화하고 점차 복잡해지는 AI 기술과 행동을 지원할 수 있게 된다. 디지트는 현재 상용화됐으며, 창고와 제조 환경에서 적재, 상차, 팔레타이징(palletizing) 등 물류 작업을 수행하고 있다. 30년 넘게 업계 최고 수준의 로봇을 개발해온 보스턴 다이내믹스(Boston Dynamics)는 자사 휴머노이드 로봇 아틀라스(Atlas)에 젯슨 토르를 탑재하고 있다. 이를 통해 아틀라스는 이전에는 서버급에서만 가능했던 컴퓨팅, AI 워크로드 가속, 고대역폭 데이터 처리, 대용량 메모리를 디바이스 내에서도 활용할 수 있게 됐다. 휴머노이드 로봇 외에도, 젯슨 토르는 더 크고 복잡한 AI 모델을 위한 실시간 추론을 통해 다양한 로봇 애플리케이션을 가속화할 예정이다. 여기에는 수술 보조, 스마트 트랙터, 배송 로봇, 산업용 매니퓰레이터(manipulator), 시각 AI 에이전트 등이 포함된다. 젯슨 토르는 생성형 추론 모델을 위해 설계됐다. 이는 차세대 피지컬 AI 에이전트가 클라우드 의존도를 최소화하면서 에지에서 실시간으로 실행될 수 있도록 한다. 차세대 피지컬 AI 에이전트는 대형 트랜스포머 모델, 비전 언어 모델(vision language model : VLM), 비전 언어 행동(vision language action : VLA) 모델을 기반으로 구동된다. 젯슨 토르는 젯슨 소프트웨어 스택으로 최적화돼 실제 애플리케이션에서 요구되는 저지연과 고성능을 구현한다. 따라서 젯슨 토르는 모든 주요 생성형 AI 프레임워크와 AI 추론 모델을 지원하며, 탁월한 실시간 성능을 제공한다. 여기에는 코스모스 리즌(Cosmos Reason), 딥시크(DeepSeek), 라마(Llama), 제미나이(Gemini), 큐원(Qwen) 모델과 함께, 로보틱스 특화 모델인 아이작(Isaac) GR00T N1.5 등이 포함된다. 이를 통해 개발자는 손쉽게 로컬 환경에서 실험과 추론을 실행할 수 있다. 젯슨 토르는 생애 주기 전반에 걸쳐 엔비디아 쿠다(CUDA) 생태계의 지원을 받는다. 또한 젯슨 토르 모듈은 전체 엔비디아 AI 소프트웨어 스택을 실행해 사실상 모든 피지컬 AI 워크플로를 가속화한다. 여기에는 로보틱스를 위한 엔비디아 아이작, 영상 분석 AI 에이전트를 위한 엔비디아 메트로폴리스(Metropolis), 센서 처리를 위한 엔비디아 홀로스캔(Holoscan) 등의 플랫폼이 활용된다. 이러한 소프트웨어 도구를 통해 개발자는 다양한 애플리케이션을 손쉽게 구축하고 배포할 수 있다. 실시간 카메라 스트림을 분석해 작업자 안전을 모니터링하는 시각 AI 에이전트, 비정형 환경에서 조작 작업을 수행할 수 있는 휴머노이드 로봇, 다중 카메라 스트림 데이터를 기반으로 외과의에게 안내를 제공하는 스마트 수술실 등이 그 예시이다. 젯슨 토르 제품군에는 개발자 키트와 양산용 모듈이 포함된다. 개발자 키트에는 젯슨 T5000 모듈과 다양한 연결성을 제공하는 레퍼런스 캐리어 보드, 팬이 장착된 액티브 방열판, 전원 공급 장치가 함께 제공된다. 엔비디아는 젯슨 생태계가 다양한 애플리케이션 요구사항과 고속 산업 자동화 프로토콜, 센서 인터페이스를 지원해 기업 개발자의 시장 출시 시간을 단축한다고 전했다. 하드웨어 파트너들은 다양한 폼팩터로 유연한 I/O와 맞춤형 구성을 갖춰 생산에 준비된 젯슨 토르 시스템을 개발하고 있다. 센서 및 액추에이터 업체들은 엔비디아 홀로스캔 센서 브릿지(Sensor Bridge)를 활용하고 있다. 이 플랫폼은 센서 융합과 데이터 스트리밍을 간소화하며, 카메라, 레이더, 라이다 등에서 발생한 센서 데이터를 초저지연으로 젯슨 토르 GPU 메모리에 직접 연결할 수 있게 해준다. 수천 개의 소프트웨어 기업들은 젯슨 토르에서 구동되는 다중 AI 에이전트 워크플로를 통해 기존 비전 AI와 로보틱스 애플리케이션 성능을 향상시킬 수 있다. 그리고 200만 명 이상의 개발자들이 엔비디아 기술을 활용해 로보틱스 워크플로를 가속화하고 있다.

작성일 : 2025-08-29

HPE, 엔비디아와 협력해 에이전틱·피지컬 AI 혁신 가속화

작성일 : 2025-08-18

오픈소스 LLM 모델 젬마 3 기반 AI 에이전트 개발해 보기

BIM 칼럼니스트 강태욱의 이슈 & 토크 이번 호에서는 최근 이슈인 AI 에이전트(agent) 개발 시 필수적인 함수 호출(function call) 방법을 오픈소스를 이용해 구현해 본다. 이를 위해 구글에서 공개한 젬마 3(Gemma 3) LLM(대규모 언어 모델)과 역시 오픈소스인 LLM 관리도구 올라마(Ollama)를 활용하여 간단한 AI 에이전트를 로컬 PC에서 개발해본다. 아울러, 이런 함수 호출 방식의 한계점을 개선하기 위한 설루션을 나눔한다. ■ 강태욱 건설환경 공학을 전공하였고 소프트웨어 공학을 융합하여 세상이 돌아가는 원리를 분석하거나 성찰하기를 좋아한다. 건설과 소프트웨어 공학의 조화로운 융합을 추구하고 있다. 팟캐스트 방송을 통해 이와 관련된 작은 메시지를 만들어 나가고 있다. 현재 한국건설기술연구원에서 BIM/ GIS/FM/BEMS/역설계 등과 관련해 연구를 하고 있으며, 연구위원으로 근무하고 있다. 페이스북 | www.facebook.com/laputa999 블로그 | http://daddynkidsmakers.blogspot.com 홈페이지 | https://dxbim.blogspot.com 팟캐스트 | www.facebook.com/groups/digestpodcast 이번 호의 글은 다음 내용을 포함한다. AI 에이전트 구현을 위한 사용자 도구 함수 호출 방법 올라마를 통한 젬마 3 사용법 채팅 형식의 프롬프트 및 메모리 사용법 그라디오(Gradio) 기반 웹 앱 개발 그림 1. AI 에이전트 내부의 함수 호출 메커니즘(Akriti, 2025) 이 글의 구현 코드는 다음 링크에서 확인할 수 있다. AI_agent_simple_function_call 젬마 3 모델의 특징 젬마 3는 구글이 개발해 2025년 3월 10일에 출시한 LLM이다. 차세대 경량 오픈 멀티모달 AI 모델로, 텍스트와 이미지를 동시에 처리할 수 있는 기능을 갖추고 있다. 이 모델은 다양한 크기와 사양으로 제공되어 단일 GPU 또는 TPU 환경에서도 실행 가능하다. 젬마 3는 1B, 4B, 12B, 27B의 네 가지 모델 크기로 제공되며, 각각 10억, 40억, 120억, 270억 개의 파라미터를 갖추고 있다. 1B 모델은 텍스트 전용으로 32K 토큰의 입력 컨텍스트를 지원하고, 4B/12B/27B 모델은 멀티모달 기능을 지원하며 128K 토큰의 입력 컨텍스트를 처리할 수 있다. 이는 이전 젬마 모델보다 16배 확장된 크기로, 훨씬 더 많은 양의 정보를 한 번에 처리할 수 있게 해 준다. 이 모델은 텍스트와 이미지 데이터를 동시에 처리하고 이해하는 멀티모달 기능을 제공한다. 이미지 해석, 객체 인식, 시각적 질의응답 등 다양한 작업을 수행할 수 있으며, 텍스트 기반 작업에 시각적 정보를 효과적으로 활용할 수 있도록 지원한다. 그림 2. 출처 : ‘Welcome Gemma 3 : Google's all new multimodal, multilingual, long context open LLM(Hugging Face)’ 그림 3. 출처 : ‘Welcome Gemma 3 : Google's all new multimodal, multilingual, long context open LLM(Hugging Face)’ 젬마 3는 140개 이상의 언어를 지원하여 전 세계 다양한 언어 사용자를 대상으로 하는 AI 애플리케이션 개발에 매우 유리하다. 사용자는 자신의 모국어로 젬마 3와 상호작용할 수 있으며, 다국어 기반의 텍스트 분석 및 생성 작업도 효율적으로 수행할 수 있다. 이 모델은 다양한 작업 수행 능력을 갖추고 있다. 질문–답변, 텍스트 요약, 논리적 추론, 창의적인 텍스트 형식 생성(시, 스크립트, 코드, 마케팅 문구, 이메일 초안 등), 이미지 데이터 분석 및 추출 등 광범위한 자연어 처리 및 컴퓨터 비전 관련 작업을 수행할 수 있다. 또한, 함수 호출 및 구조화된 출력을 지원하여 개발자가 특정 작업을 자동화하고 에이전트 기반의 경험을 구축하는 데 도움을 준다. 젬마 3는 다양한 도구 및 프레임워크와 원활하게 통합된다. Hugging Face Transformers, Ollama, JAX, Keras, PyTorch, Google AI Edge, UnSloth, vLLM, Gemma. cpp 등 다양한 개발 도구 및 프레임워크와 호환되어 개발자들이 자신이 익숙한 환경에서 젬마 3를 쉽게 활용하고 실험할 수 있다. 이 모델은 다양한 벤치마크 테스트에서 동급 모델 대비 최첨단 성능을 입증했다. 특히, Chatbot Arena Elo Score에서 1338점을 기록하며, 여러 오픈 소스 및 상용 모델보다 높은 성능을 보였다. 젬마 3는 오픈 모델로, 개방형 가중치를 제공하여 사용자가 자유롭게 조정하고 배포할 수 있다. 캐글(Kaggle)과 허깅 페이스(Hugging Face)에서 다운로드 가능하며, Creative Commons 및 Apache 2.0 라이선스를 따름으로써 개발자와 연구자에게 VLM 기술에 대한 접근성을 높여준다. 개발 환경 개발 환경은 다음과 같다. 미리 설치 및 가입한다. 오픈 LLM 관리 도구 올라마 : https://ollama.com/download/ windows LLM 모델 젬마 3 : https://ollama.com/search dashboard 웹 검색 도구 Serper 서비스 가입 : https://serper.dev/ 설치되어 있다면 다음 명령을 터미널(윈도우에서는 도스 명령창)에서 실행한다. ollama pull gemma3:4b ■ 자세한 기사 내용은 PDF로 제공됩니다.

작성일 : 2025-08-04

엔비디아, 도시 인프라에 물리 AI 도입하는 옴니버스 블루프린트 공개

엔비디아가 ‘스마트 시티 AI용 엔비디아 옴니버스 블루프린트(NVIDIA Omniverse Blueprint for smart city AI)’를 발표했다. 엔비디아는 이 블루프린트를 옴니버스, 코스모스(Cosmos), 네모(NeMo), 메트로폴리스(Metropolis)와 통합해 유럽의 도시에서 삶의 질을 개선시킬 것으로 기대하고 있다. 2050년까지 도시 인구는 두 배 증가할 것으로 예상된다. 이는 21세기 중반까지 도시 지역에 약 25억 명의 인구가 더해질 수 있음을 의미한다. 따라서 보다 지속 가능한 도시 계획과 공공 서비스의 필요성이 높아지고 있다. 전 세계 도시들은 도시 계획 시나리오 분석과 데이터 기반 운영 결정을 위해 디지털 트윈과 AI 에이전트를 활용하고 있다. 그러나 도시의 디지털 트윈을 구축하고 그 안에서 스마트 시티 AI 에이전트를 테스트하는 것은 복잡하며, 자원 집약적인 작업이다. 여기에는 기술적, 운영적 문제도 수반된다. 엔비디아가 공개한 스마트 시티 AI용 엔비디아 옴니버스 블루프린트는 이러한 문제를 해결하기 위한 것이다. 이 참조 프레임워크는 엔비디아 옴니버스, 코스모스, 네모, 메트로폴리스 플랫폼과 결합해 도시 전체와 주요 인프라에 물리 AI의 이점을 제공한다. 개발자는 이 블루프린트를 사용해 심레디(SimReady)와 같이 시뮬레이션이 가능한 사실적 도시 디지털 트윈을 구축할 수 있다. 이를 통해 도시 운영을 모니터링하고 최적화하는 AI 에이전트를 개발, 테스트할 수 있다. 스마트 시티 AI용 엔비디아 옴니버스 블루프린트는 완전한 소프트웨어 스택을 제공해, 물리적으로 정밀한 도시의 디지털 트윈에서 AI 에이전트의 개발, 테스트를 가속화한다. 엔비디아 옴니버스는 물리적으로 정확한 디지털 트윈을 구축해 도시 규모에서 시뮬레이션을 실행한다. 엔비디아 코스모스는 사후 훈련 AI 모델을 위한 대규모 합성 데이터를 생성한다. 엔비디아 네모는 고품질 데이터를 큐레이션하며, 해당 데이터를 사용해 비전 언어 모델(vision language model, VLM)과 대규모 언어 모델(large language model, LLM)을 훈련하고 미세 조정한다. 엔비디아 메트로폴리스는 영상 검색과 요약(video search and summarization, VSS)용 엔비디아 AI 블루프린트를 기반으로 영상 분석 AI 에이전트를 구축, 배포한다. 이를 통해 방대한 양의 영상 데이터를 처리하고, 비즈니스 프로세스를 최적화하는 데 중요한 인사이트를 제공한다. 이 블루프린트 워크플로는 세 개의 주요 단계로 구성된다. 먼저 개발자는 옴니버스와 코스모스를 통해 특정 위치와 시설의 심레디 디지털 트윈을 구축한다. 여기에는 항공, 위성, 지도 데이터가 활용된다. 이어서 엔비디아 타오(TAO)와 네모 큐레이터(Curator)를 사용해 컴퓨터 비전 모델, VLM 등 AI 모델을 훈련하고 미세 조정한다. 이로써 비전 AI 사용 사례에서 정확도를 높인다. 마지막으로 이러한 맞춤형 모델에 기반한 실시간 AI 에이전트의 배포로 메트로폴리스 VSS 블루프린트를 사용해 카메라와 센서 데이터를 알림, 요약, 쿼리한다. 엔비디아는 스마트 시티 AI용 블루프린트를 통해 다양한 파트너가 엔비디아의 기술과 자사의 기술을 결합하고, 통합된 워크플로를 기반으로 스마트 시티 사용 사례를 위한 디지털 트윈을 구축, 활성화할 수 있도록 지원한다는 계획이다. 이 새로운 블루프린트를 최초로 활용하게 될 주요 기업에는 XXII, AVES 리얼리티, 아킬라, 블링시, 벤틀리, 세슘, K2K, 링커 비전, 마일스톤 시스템즈, 네비우스, 프랑스 국영철도회사, 트림블, 유나이트 AI 등이 있다. 벤틀리 시스템즈는 엔비디아 블루프린트와 함께 물리 AI를 도시에 도입하는 데 동참하고 있다. 개방형 3D 지리 공간 플랫폼인 세슘은 인프라 프로젝트와 항만의 디지털 트윈을 옴니버스에서 시각화, 분석, 관리하는 기반을 제공한다. 벤틀리 시스템즈의 AI 플랫폼인 블린시는 합성 데이터 생성과 메트로폴리스를 사용해 도로 조건을 분석하고 유지보수를 개선한다. 트림블은 건설, 지리 공간, 운송 등 필수 산업을 지원하는 글로벌 기술 회사이다. 이들은 스마트 시티의 측량, 지도 제작 애플리케이션을 위한 현실 캡처 워크플로와 트림블 커넥트(Connect) 디지털 트윈 플랫폼에 옴니버스 블루프린트의 구성 요소를 통합하는 방법을 모색하고 있다.

작성일 : 2025-06-16

씨이랩, 비전AI 선도 위해 윤세혁·채정환 각자 대표이사 체제로 전환

씨이랩이 경영 효율성과 전문성 강화를 위해 윤세혁·채정환 각자 대표이사 체제로 전환했다고 밝혔다. 왼쪽부터 씨이랩 윤세혁 대표, 채정환 이사 윤세혁 대표는 최고경영책임자(CEO)로 경영 전반을 총괄한다. 서울대 전기컴퓨터공학과를 졸업했고 동 대학원에서 컴퓨터 비전 전공으로 석사 학위를 취득한 윤 대표는 KT 신사업전략실을 거쳐 엔젠바이오에서 경영기획본부장을 역임한 뒤 올해 CFO로 합류했다. 기술 전문성과 재무·전략 분야에 대한 인사이트를 두루 갖춘 융합형 전문가로 평가받고 있다. 채정환 대표는 최고사업책임자(CBO)로 영업/마케팅을 진두지휘할 예정이다. 광운대 전자계산학과를 졸업하고, HPE 등 글로벌 IT 회사에서 30년 넘게 IT분야에 몸담았다. 2022년 씨이랩에 합류해 영업을 총괄하고 있으며, AI 인프라 전문가로 알려져 있다. 한편, 창립자인 이우영 대표는 사내 이사직을 유지하며 이사회 의장직과 최고전략책임자(CSO) 역할을 수행한다. 이번 지배구조 개편으로 이사회 중심의 투명하고 안정적인 의사 결정 체계가 확립되고, 각 전문 대표이사가 AI 시장 확대와 기업가치 제고에 더욱 매진할 계획이다. 씨이랩은 경영 효율성과 전문성을 극대화하기 위해 전문 각자 대표 체제로 전환했다며, 이번 경영 체계 개편으로 인공지능 및 비전AI 산업에서의 경쟁 우위를 공고히 하고 기업 성장을 가속화해 더욱 안정적이고 투명한 미래 비전을 제시하겠다고 밝혔다. 씨이랩은 글로벌 GPU 기업의 핵심 파트너사로 차별화된 VLM 기술력에 기반해 비전AI 및 피지컬AI 시장을 선도하겠다고 덧붙였다.

작성일 : 2025-03-27

엔비디아, 로봇 운영체제 개발자 위한 생성형 AI 설루션 발표

엔비디아가 로봇 콘퍼런스인 로스콘(ROSCon)에서 로봇 운영체제(ROS) 개발자를 위한 생성형 AI 설루션을 발표했다. 이번 로스콘은 덴마크 오덴세에서 10월 21일부터 사흘 간 진행됐으며, 엔비디아는 로봇 생태계 파트너들과 함께 ROS 개발자를 위한 생성형 AI 툴, 시뮬레이션, 인식 워크플로를 공개했다. 여기에는 에지 AI와 로보틱스용 엔비디아 젯슨(Jetson) 플랫폼에 배포하는 ROS 개발자를 위한 새로운 생성형 AI 노드와 워크플로가 포함됐다. 생성형 AI를 통해 로봇은 주변 환경을 인식하고 이해하며, 인간과 자연스럽게 소통하고, 자율적으로 상황에 맞는 결정을 내릴 수 있다. ROS 2를 기반으로 구축된 리맴버(ReMEmbR)는 생성형 AI를 사용해 로봇의 추론과 행동을 향상시킨다. 이는 대규모 언어 모델(LLM), 비전 언어 모델(VLM), 검색 증강 생성(RAG)을 결합한다. 이를 통해 로봇이 장기적인 의미 기억을 구축하고 쿼리하며 환경을 탐색하고 상호 작용하는 능력을 향상시킨다. 음성 인식 기능은 위스퍼TRT(WhisperTRT) ROS 2 노드에 의해 구동된다. 이 노드는 엔비디아 텐서RT(TensorRT)를 사용해 오픈AI(OpenAI)의 위스퍼(Whisper) 모델을 최적화해 엔비디아 젯슨에서 지연 시간이 짧은 추론을 가능하게 함으로써 인간과 로봇의 즉각적인 상호 작용을 가능하게 한다. 음성 제어 기능을 갖춘 ROS 2 로봇 프로젝트는 엔비디아 리바(Riva) ASR-TTS 서비스를 사용해 로봇이 음성 명령을 이해하고 이에 응답할 수 있도록 한다. 나사 제트추진연구소(The NASA Jet Propulsion Laboratory)는 ROS용 AI 기반 에이전트인 로사(ROSA)를 독자적으로 선보였다. 이는 네뷸라-SPOT(Nebula-SPOT) 로봇과 엔비디아 아이작 심(Isaac Sim)의 엔비디아 노바 카터(Nova Carter) 로봇에서 작동했다. 개발자는 이제 로봇 기능을 향상하기 위해 엔비디아 젯슨에 최적화된 LLM과 VLM을 제공하는 생성형 AI용 ROS 2 노드를 사용할 수 있다. 시뮬레이션은 배포 전에 AI 지원 로봇을 안전하게 테스트하고 검증하기 위해 중요한 작업이다. 오픈USD(OpenUSD)를 기반으로 구축된 로봇 시뮬레이션 플랫폼인 엔비디아 아이작 심(Isaac Sim)은 ROS 개발자에게 로봇을 ROS 패키지에 쉽게 연결해 테스트할 수 있는 가상 환경을 제공한다. 오픈 소스 ROS 2 소프트웨어 프레임워크를 기반으로 구축된 엔비디아 아이작 ROS는 로보틱스 개발을 위한 가속 컴퓨팅 패키지와 AI 모델의 모음이다. 곧 출시될 3.2 버전은 로봇의 인식, 조작, 환경 매핑을 향상시킨다. 엔비디아 아이작 매니퓰레이터(Isaac Manipulator)의 주요 개선 사항에는 파운데이션포즈(FoundationPose)와 cu모션(cuMotion)을 통합하는 새로운 레퍼런스 워크플로가 포함된다. 이는 로보틱스에서 픽앤플레이스(pick-and-place)와 객체 추적 파이프라인의 개발을 가속화한다. 아울러 엔비디아 아이작 퍼셉터(Isaac Perceptor)도 개선됐다. 이는 새로운 시각적 SLAM 레퍼런스 워크플로, 향상된 다중 카메라 감지, 3D 재구성을 특징으로 자율 주행 로봇(autonomous mobile robot, AMR)의 환경 인식과 창고와 같은 동적인 환경에서의 성능을 개선한다.

작성일 : 2024-10-25

엔비디아-구글 딥마인드, 대규모 언어 모델 혁신 위해 협력

엔비디아가 구글의 연례 개발자 콘퍼런스인 ‘구글 I/O 2024’에서 세 가지 새로운 협업 내용을 발표했다. 이번 협업으로 엔비디아와 구글은 세계적 수준의 성능을 갖춘 AI 기반 애플리케이션을 더 쉽게 만들 수 있도록 개발자를 지원할 예정이다. 텍스트, 이미지, 사운드와 같은 여러 유형의 데이터를 처리하는 모델이 점점 더 보편화되면서 생성형 AI를 구동하는 대규모 언어 모델(LLM)에 대한 혁신이 가속화되고 있다. 그러나 이러한 모델을 구축하고 배포하는 것은 여전히 어려운 과제다. 개발자는 모델을 빠르게 경험하고 평가해 사용 사례에 가장 적합한 모델을 결정한 다음, 비용 효율적일 뿐만 아니라 최상의 성능을 제공하는 방식으로 모델을 최적화할 수 있는 방법이 필요하다. 엔비디아는 이번 행사에서 구글이 선보인 두 가지 새로운 모델인 젬마 2(Gemma 2)와 팔리젬마(PaliGemma)를 최적화하기 위해 텐서RT-LLM(TensorRT-LLM)을 사용하고 있다. 이 두 모델은 모두 제미나이(Gemini)를 만드는 데 사용된 동일한 연구와 기술을 기반으로 구축됐으며, 각각 특정 영역에 중점을 둔다. 젬마 2는 광범위한 사용 사례를 위한 차세대 젬마 모델로, 획기적인 성능과 효율성을 위해 설계된 완전히 새로운 아키텍처가 특징이다. 팔리젬마는 PaLI-3에서 영감을 받은 개방형 시각 언어 모델(VLM)이다. 이는 SigLIP 시각 모델과 젬마 언어 모델을 포함한 개방형 구성 요소를 기반으로 구축됐으며, 이미지, 짧은 비디오 캡션, 시각적 이미지 질의응답, 이미지 내 텍스트 이해, 객체 감지나 분할과 같은 시각 언어 작업을 위해 설계됐다. 팔리젬마는 광범위한 시각 언어 작업에서 높은 수준의 미세 조정 성능을 탑재했고 엔비디아 JAX-툴박스(JAX-Toolbox)에서도 지원된다. 젬마 2와 팔리젬마는 대규모 AI 모델 배포를 간소화하는 엔비디아 AI 엔터프라이즈(AI Enterprise) 소프트웨어 플랫폼의 일부인 엔비디아 NIM 추론 마이크로서비스와 함께 제공될 예정이다. 새로운 두 모델에 대한 NIM 지원은 팔리젬마를 시작으로 API 카탈로그에서 사용할 수 있으며, 곧 엔비디아 NGC와 깃허브(GitHub)에서 컨테이너로 출시될 예정이다. 구글은 데이터 과학자에게 인기 있는 개발자 플랫폼 중 하나인 구글 코랩(Colab)에서 오픈 소스 GPU 데이터 프레임 라이브러리인 래피즈 cuDF(RAPIDS cuDF)가 기본으로 지원된다고 발표했다. 매월 1000만 명에 이르는 구글 코랩의 월간 사용자들은 이제 코드 변경 없이 단 몇 초 만에 엔비디아 L4 텐서 코어(Tensor Core) GPU를 사용해 판다스(pandas) 기반 파이썬(Python) 워크플로를 최대 50배까지 가속화할 수 있다. 구글 코랩을 사용하는 개발자는 래피즈 cuDF를 통해 탐색적 분석(exploratory analysis)과 생산 데이터 파이프라인의 속도를 높일 수 있다. 또한, 엔비디아와 구글은 엔비디아 RTX 그래픽을 사용해 AI PC를 활용하는 파이어베이스 젠킷(Firebase Genkit)에 대한 협업도 발표했다. 이는 개발자가 새로운 젬마 모델 제품군을 비롯한 생성형 AI 모델을 웹과 모바일 애플리케이션에 쉽게 통합해 맞춤형 콘텐츠, 시맨틱 검색(semantic search), 문의에 대한 답변을 제공할 수 있도록 지원한다. 개발자는 로컬 RTX GPU로 작업 줄기(work stream)를 시작한 다음, 작업을 구글 클라우드 인프라로 원활하게 이동할 수 있다. 개발자들은 모바일 개발자들이 주로 쓰는 프로그래밍 언어인 자바스크립트(JavaScript)를 사용하는 젠킷으로 앱을 더욱 쉽게 개발할 수 있다. 엔비디아와 구글 클라우드는 AI의 발전을 위해 다양한 분야에서 협력하고 있다고 전했다. 곧 출시될 그레이스 블랙웰(Grace Blackwell) 기반 DGX 클라우드 플랫폼과 JAX 프레임워크 지원부터 구글 쿠버네티스 엔진(Kubernetes Engine)에 엔비디아 네모(NeMo) 프레임워크 도입까지, 양사의 풀스택(full-stack) 파트너십은 사용자가 구글 클라우드에서 엔비디아 기술을 사용해 AI로 수행할 수 있는 작업의 가능성을 확장하고 있다.

작성일 : 2024-05-17