• 회원가입
  • |
  • 로그인
  • |
  • 장바구니
  • News
    뉴스 신제품 신간 Culture & Life
  • 강좌/특집
    특집 강좌 자료창고 갤러리
  • 리뷰
    리뷰
  • 매거진
    목차 및 부록보기 잡지 세션별 성격 뉴스레터 정기구독안내 정기구독하기 단행본 및 기타 구입
  • 행사/이벤트
    행사 전체보기 캐드앤그래픽스 행사
  • CNG TV
    방송리스트 방송 다시보기 공지사항
  • 커뮤니티
    업체홍보 공지사항 설문조사 자유게시판 Q&A게시판 구인구직/학원소식
  • 디렉토리
    디렉토리 전체보기 소프트웨어 공급업체 하드웨어 공급업체 기계관련 서비스 건축관련 업체 및 서비스 교육기관/학원 관련DB 추천 사이트
  • 회사소개
    회사소개 회사연혁 출판사업부 광고안내 제휴 및 협력제안 회사조직 및 연락처 오시는길
  • 고객지원센터
    고객지원 Q&A 이메일 문의 기사제보 및 기고 개인정보 취급방침 기타 결제 업체등록결제
  • 쇼핑몰
통합검색 "양자화"에 대한 통합 검색 내용이 14개 있습니다
원하시는 검색 결과가 잘 나타나지 않을 때는 홈페이지의 해당 게시판 하단의 검색을 이용하시거나 구글 사이트 맞춤 검색 을 이용해 보시기 바랍니다.
CNG TV 방송 내용은 검색 속도 관계로 캐드앤그래픽스 전체 검색에서는 지원되지 않으므로 해당 게시판에서 직접 검색하시기 바랍니다
엔비디아, “모델 양자화로 스테이블 디퓨전 성능 높였다”
엔비디아가 양자화를 통해 스테이블 디퓨전 3.5(Stable Diffusion 3.5) 모델의 성능을 향상시켰다고 발표했다. 생성형 AI는 사람들이 디지털 콘텐츠를 만들고, 상상하며, 상호작용하는 방식을 혁신적으로 바꾸고 있다. 그러나 지속적으로 AI 모델의 기능이 향상되고 복잡성이 증가면서 더 많은 VRAM이 요구되고 있다. 예를 들어 기본 스테이블 디퓨전 3.5 라지(Large) 모델은 18GB 이상의 VRAM을 사용하므로 고성능 시스템이 아니면 실행이 어렵다. 엔비디아는 이 모델에 양자화를 적용하면 중요하지 않은 레이어를 제거하거나 더 낮은 정밀도로도 실행할 수 있다고 설명했다. 엔비디아 지포스(GeForce) RTX 40 시리즈와 에이다 러브레이스(Ada Lovelace) 세대 엔비디아 RTX PRO GPU는 FP8 양자화를 지원해 이러한 경량화된 모델을 실행할 수 있다. 또한 최신 엔비디아 블랙웰(Blackwell) GPU는 FP4도 지원한다.     엔비디아는 스태빌리티 AI(Stability AI)와 협력해 최신 모델인 스테이블 디퓨전 3.5 라지를 FP8로 양자화해 VRAM 사용량을 40%까지 줄였다. 여기에 엔비디아 텐서RT(TensorRT) 소프트웨어 개발 키트(SDK)를 통한 최적화로 스테이블 디퓨전 3.5 라지와 미디엄 모델의 성능을 2배로 끌어올렸다. 또한, 텐서RT가 RTX AI PC 환경을 위해 새롭게 설계됐다. 높은 성능과 JIT(Just-In-Time), 온디바이스 엔진 구축 기능을 더하고 패키지 크기를 8배 줄여 1억 대 이상의 RTX AI PC에 AI를 원활하게 배포할 수 있게 됐다. RTX용 텐서RT는 이제 개발자를 위한 독립형 SDK로 제공된다. 엔비디아와 스태빌리티 AI는 인기 있는 AI 이미지 생성 모델 중 하나인 스테이블 디퓨전 3.5의 성능을 높이고 VRAM 요구 사항을 낮췄다. 엔비디아 텐서RT 가속과 양자화 기술을 통해, 사용자는 엔비디아 RTX GPU에서 이미지를 더 빠르고 효율적으로 생성하고 편집할 수 있다. 스테이블 디퓨전 3.5 라지의 VRAM 한계를 해결하기 위해 이 모델은 텐서RT를 활용해 FP8로 양자화됐다. 그 결과, VRAM 요구량이 40% 줄어 11GB면 충분해졌다. 즉, 단 한 대의 GPU가 아닌 다섯 대의 지포스 RTX 50 시리즈 GPU가 메모리에서 모델을 동시에 실행할 수 있게 됐다. 또한 스테이블 디퓨전 3.5 라지와 미디엄 모델은 텐서RT를 통해 최적화됐다. 텐서RT는 텐서 코어를 최대한 활용할 수 있도록 설계된 AI 백엔드로, 모델의 가중치와 모델 실행을 위한 명령 체계인 그래프를 RTX GPU에 맞게 최적화한다.  FP8 텐서RT는 스테이블 디퓨전 3.5 라지의 성능을 BF16 파이토치 대비 2.3배 향상시키면서 메모리 사용량은 40% 줄여준다. 스테이블 디퓨전 3.5 미디엄의 경우, BF16 텐서RT는 BF16 파이토치 대비 1.7배 더 빠르다. FP8 텐서RT를 적용한 결과, 스테이블 디퓨전 3.5 라지 모델은 BF16 파이토치(PyTorch)에서 실행했을 때보다 성능이 2.3배 향상됐고, 메모리 사용량은 40% 감소했다. 스테이블 디퓨전 3.5 미디엄 모델도 BF16 텐서RT를 통해 BF16 파이토치 대비 1.7배 더 높은 성능을 발휘했다. 최적화된 모델은 현재 스태빌리티 AI의 허깅페이스(Hugging Face) 페이지에서 이용할 수 있다. 또한 엔비디아와 스태빌리티 AI는 스테이블 디퓨전 3.5 모델을 엔비디아 NIM 마이크로서비스 형태로도 출시할 계획이다. 이를 통해 크리에이터와 개발자는 다양한 애플리케이션에서 보다 쉽게 모델을 접근하고 배포할 수 있게 된다. 이 NIM 마이크로서비스는 오는 7월 출시될 예정이다.
작성일 : 2025-06-18
엔비디아, “RTX GPU와 쿠다 12.8로 LLM 실행 도구 성능 향상”
엔비디아가 엔비디아 지포스(NVIDIA GeForce) RTX GPU와 쿠다(CUDA) 12.8을 통해 로컬 대규모 언어 모델(large language model : LLM) 실행 도구인 ‘LM 스튜디오(LM Studio)’의 성능을 향상했다고 밝혔다.  문서 요약에서 맞춤형 소프트웨어 에이전트에 이르기까지 AI 사용 사례가 계속 확장되고 있다. 이에 따라 개발자와 AI 애호가들은 LLM을 더 빠르고 유연하게 실행할 수 있는 방법을 찾고 있다. 엔비디아 지포스 RTX GPU가 탑재된 PC에서 로컬로 모델을 실행하면 고성능 추론, 향상된 데이터 프라이버시, AI 배포와 통합에 대한 제어가 가능하다. 무료로 체험할 수 있는 LM 스튜디오와 같은 도구는 이러한 로컬 AI 실행을 간편하게 구현할 수 있도록 지원한다. 이를 통해 사용자는 자신의 하드웨어에서 LLM을 탐색하고 구축할 수 있다. LM 스튜디오는 로컬 LLM 추론을 위해 가장 널리 채택된 도구 중 하나로 자리잡았다. 고성능 llama.cpp 런타임을 기반으로 구축된 이 애플리케이션은 모델을 완전히 오프라인에서 실행할 수 있도록 한다. 또한 사용자 지정 워크플로에 통합하기 위해 오픈AI(OpenAI) 호환 API(application programming interface) 엔드포인트 역할도 수행할 수 있다. LM 스튜디오 0.3.15 버전은 쿠다 12.8을 통해 RTX GPU에서 성능이 향상되면서 모델 로드와 응답 시간이 개선됐다. 또한 이번 업데이트에는 ‘툴_초이스(tool_choice)’ 파라미터를 통한 도구 활용 개선, 시스템 프롬프트 편집기 재설계 등 개발자 중심의 새로운 기능도 추가됐다. LM 스튜디오의 최신 개선 사항은 성능과 사용성을 향상시켜 RTX AI PC에서 높은 수준의 처리량을 제공한다. 즉, 더 빠른 응답, 더 신속한 상호작용, 그리고 로컬에서 AI를 구축하고 통합하기 위한 더 나은 툴을 제공한다.     LM 스튜디오는 유연성을 염두에 두고 제작돼 간단한 실험부터 맞춤형 워크플로 통합까지 다양한 용도로 활용할 수 있다. 사용자는 데스크톱 채팅 인터페이스를 통해 모델과 상호작용하거나 개발자 모드를 활성화해 오픈AI 호환 API 엔드포인트를 제공할 수 있다. 이를 통해 로컬 LLM을 비주얼 스튜디오 코드(VS Code)나 맞춤형 데스크톱 에이전트와 같은 앱의 워크플로에 쉽게 연결할 수 있다. 예를 들어, LM 스튜디오는 마크다운 기반의 인기 지식 관리 애플리케이션인 옵시디언(Obsidian)에 통합될 수 있다. 사용자는 텍스트 제너레이터(Text Generator), 스마트 커넥션(Smart Connections)과 같은 커뮤니티 개발 플러그인을 사용해 콘텐츠를 생성하고, 연구를 요약하고, 자신의 노트 검색을 수행할 수 있다. 이 모든 기능은 LM 스튜디오를 통해 실행되는 로컬 LLM으로 구동된다. 이러한 플러그인은 LM 스튜디오의 로컬 서버에 직접 연결되므로 클라우드에 의존하지 않고도 빠르고 비공개적인 AI 상호작용이 가능하다. LM 스튜디오 0.3.15 업데이트에는 개발자를 위한 새로운 기능이 추가됐다. 그중에는 ‘툴_초이스’ 매개변수를 통한 도구 사용에 대한 세분화된 제어 기능과 더 길거나 복잡한 프롬프트를 처리할 수 있는 시스템 프롬프트 편집기 업그레이드 등이 포함된다. 개발자는 툴_초이스 파라미터를 통해 도구 호출을 강제하거나, 완전히 비활성화하거나, 모델이 동적으로 결정하도록 허용하는 등 모델이 외부 도구와 연동하는 방식을 제어할 수 있다. 이러한 유연성은 구조화된 상호작용, 검색 증강 생성(retrieval-augmented generation : RAG) 워크플로 또는 에이전트 파이프라인 구축에 특히 유용하다. 이러한 업데이트는 LLM을 사용하는 개발자의 실험과 프로덕션 사용 사례 모두에서 효율성을 높인다. LM 스튜디오는 젬마(Gemma), 라마3(Llama 3), 미스트랄(Mistral), 오르카(Orca) 등 광범위한 개방형 모델과 4비트부터 고정밀까지 다양한 양자화 형식을 지원한다. 또한, 엔비디아는 소형 RTX 기반 시스템에서 효율성을 최적화하든 고성능 데스크톱에서 높은 처리량을 달성하든, LM 스튜디오가 RTX에서 완전한 제어, 속도, 프라이버시를 모두 제공한다고 설명했다. LM 스튜디오 가속화의 핵심은 소비자 하드웨어에서 효율적인 추론을 제공하도록 설계된 오픈 소스 런타임인 llama.cpp이다. 엔비디아는 LM 스튜디오, llama.cpp 커뮤니티와 협력해 RTX GPU 성능을 극대화하기 위해 ▲쿠다 그래프 활성화 ▲플래시 어텐션 쿠다 커널(Flash attention CUDA kernel) ▲최신 RTX 아키텍처 지원 등의 최적화 사항을 통합했다. LM 스튜디오는 윈도우, 맥OS, 리눅스에서 무료로 다운로드해 실행할 수 있다. 최신 0.3.15 버전과 지속적인 최적화를 통해 사용자는 성능, 맞춤화, 사용성에서 지속적인 개선을 기대할 수 있으며, 로컬 AI를 더 빠르고 유연하며 접근 가능하게 만든다. 사용자는 데스크톱 채팅 인터페이스를 통해 모델을 로드하거나 개발자 모드를 활성화해 오픈AI 호환 API를 사용할 수 있다.  LM 스튜디오는 모델 프리셋, 다양한 양자화 형식, 미세 조정된 추론을 위한 툴_초이스와 같은 개발자 제어 옵션을 지원한다. LM 스튜디오의 성능 개선에 관심이 있는 사용자는 커뮤니티와 엔비디아 주도의 성능 개선이 지속적으로 반영되는 llama.cpp 깃허브(GitHub) 리포지토리에 참여할 수 있다.
작성일 : 2025-05-12
대규모 언어 모델의 핵심 개념인 토큰, 임베딩과 모델 파인튜닝에 대해
BIM 칼럼니스트 강태욱의 이슈 & 토크   이번 호에서는 LLM(대규모 언어 모델)의 자연어 처리에서 핵심 기술인 토큰, 임베딩 및 모델 파인튜닝의 이해를 위한 개념과 임베딩 모델의 동작 메커니즘을 살펴본다. 여기서 토큰은 문장을 구성하는 단어로 가정하면 이해하기 쉽다. 토큰과 임베딩은 입력 시퀀스에 대한 출력을 학습, 예측할 때 훈련의 전제가 되는 LLM의 기본조건이다. 이에 대해 좀 더 깊게 이해해 보자.    ■ 강태욱  건설환경 공학을 전공하였고 소프트웨어 공학을 융합하여 세상이 돌아가는 원리를 분석하거나 성찰하기를 좋아한다. 건설과 소프트웨어 공학의 조화로운 융합을 추구하고 있다. 팟캐스트 방송을 통해 이와 관련된 작은 메시지를 만들어 나가고 있다. 현재 한국건설기술연구원에서 BIM/GIS/FM/BEMS/역설계 등과 관련해 연구를 하고 있으며, 연구위원으로 근무하고 있다.  페이스북 | www.facebook.com/laputa999 블로그 | http://daddynkidsmakers.blogspot.com  홈페이지 | https://dxbim.blogspot.com 팟캐스트 | www.facebook.com/groups/digestpodcast    최근 대규모 언어 모델(LLM : Large Language Model)과 검색 증강 생성(RAG : Retrieval-Augmented Generation) 기술을 이용해 다양한 전문가 서비스 에이전트를 개발하는 사례가 많아지고 있다. 특히, 전문가처럼 행동하며 문제를 해결하거나 의사결정을 지원하는 멀티 에이전트 기술은 이미 선진국을 중심으로 금융, 제조, 건설 등 엔지니링 분야에 개발되고 있다.    도메인 의존 정보와 토큰  의학과 같은 특별한 분야에서는 환각 현상 등으로 인해 챗GPT(ChatGPT)와 같은 범용 LLM이 제대로 정보를 생성하지 못하는 경우가 많다. 이런 문제를 해결하기 위해 전문 분야의 지식을 기존 LLM 모델을 이용해 재학습하는 방법이 생겨났는데, 파인튜닝은 그 중 한 가지 방법이다.  파인튜닝은 빅테크 업체가 공개한 LLM 모델을 특정 도메인 지식을 잘 표현할 수 있도록 재학습하는 방법 중 하나이다. LLM의 신경망 전체를 재학습하기 위해서는 매우 비싼 GPU 사용 비용이 필요하다. 이는 일반적인 기업에서 수행할 수 없는 수준이다. 이런 이유로, 파인튜닝은 메타에서 공개한 라마(LLaMA)와 같은 파운데이션 LLM 모델의 신경망에 별도의 작은 신경망을 추가해, 이를 별도로 준비된 데이터로 학습하는 방식을 사용한다.  LLM을 파인튜닝하기 전에 어떤 토큰이 사용되었는지, 임베딩 모델이 무엇인지 확인해야 한다. 파인튜닝 시 용어가 LLM에 사전 학습되어 있지 않다면, 용어 간 관계를 통계적으로 추론하는 학습 절차가 매우 비효율적으로 계산된다. 일반적으로 모델을 파인 튜닝하려면 LLM 토큰 확인 및 개발, 임베딩 모델의 적절한 사용이 필요하다.  <그림 1>은 토큰이 수치화된 결과를 보여준다. 참고로, 토큰이 숫자로 표현되지 못하는 문제를 OOV(Out-Of-Vocabulary)라 한다.    그림 1. 숫자 토큰화 결과   임베딩은 학습 모델이 입력되는 문장의 토큰 패턴을 통계적으로 계산하기 전, 토큰을 수치화시키는 함수이다. 이 함수를 임베딩 모델이라 한다. 임베딩 모델은 토큰을 수치화하여 모델 학습에 사용하는데 필요한 입력값을 출력한다. 이런 이유로, 토큰 사전과 임베딩 모델이 다르면 제대로 된 모델 학습, 예측, 패턴 계산 결과를 얻기 어렵다. 임베딩 모델도 별도의 신경망 모델이며 다양한 방식으로 학습될 수 있다. 이번 호에서는 구글에서 공개한 BERT(Bidirectional Encoder Representations from Transformers) 임베딩 모델을 사용한다.  이와 관련된 실험을 하기 위해, 개발 환경을 설치하고 파이썬 코드를 준비해 본다.    개발 환경 준비 미리 컴퓨터에 파이썬, 아나콘다 등 필수적인 라이브러리가 설치되어 있다는 조건에서, 실습을 위해 명령창에서 다음을 실행해 설치한다. pip install transformers torch   참고로, 다음은 파인튜닝에 사용하는 오픈소스 라이브러리를 보여준다. Torch : 텐서 계산 및 딥 러닝을 위한 핵심 라이브러리이다. PEFT : 낮은 순위의 적응 기술을 사용하여 대규모 언어 모델을 효율적으로 미세 조정할 수 있다. 특히 리소스가 제한된 장치에서 학습 가능한 매개 변수의 수를 줄여 모델을 압축하고 더 빠르게 미세 조정할 수 있다. bitsandbytes : 신경망에 대한 양자화 및 이진화 기술을 제공하여 모델 압축을 지원한다. 모델 압축에 도움이 되므로 메모리와 계산 능력이 제한된 에지 장치에 모델을 보다 실현 가능하게 만들 수 있다. Transformers : 대규모 언어 모델 작업을 간소화하여 사전 학습된 모델 및 학습 파이프라인을 제공한다. trl : 대규모 언어 모델의 경우 효율적인 모델 학습 및 최적화에 중점을 둔다. accelerate : 다양한 하드웨어 플랫폼에서 학습 및 추론을 가속화한다. dataset : 기계 학습 작업을 위한 데이터 세트 로드 및 준비를 간소화한다. pipeline : 사용자 지정 학습 없이 일반적인 NLP 작업에 대해 사전 학습된 모델의 사용을 간소화한다. PyArrow : 효율적인 데이터 로드 및 처리를 위해 사용될 수 있다. LoraConfig : LoRA 기반 미세 조정을 위한 구성 매개변수를 보유한다. SFTTrainer : 모델 학습, 최적화 및 평가를 처리한다.     ■ 자세한 기사 내용은 PDF로 제공됩니다.
작성일 : 2024-11-04
몽고DB, 성능 및 확장성 높인 몽고DB 8.0 출시
몽고DB(MongoDB)가 몽고DB의 가장 최신 버전인 ‘몽고DB 8.0(MongoDB 8.0)’을 출시했다. 새로운 몽고DB 8.0은 대대적인 성능 향상과 함께 확장성을 높이고 확장 비용은 낮췄으며, 향상된 회복탄력성과 데이터 보안 기능을 제공한다. 많은 기업이 주로 애플리케이션을 통해 조직과 상호작용하며 이를 위한 안정적이고 빠른 경험을 기대한다. 이에 조직은 애플리케이션이 안전하고 강력하며 뛰어난 성능을 제공해 모든 상황에서 효율적으로 작동할 수 있는지 확인할 수 있어야 한다.  몽고DB는 사용 편의성과 확장성, 높은 성능, 업계 선도의 보안을 제공하고 대부분의 데이터 유형을 유연하게 저장 및 처리할 수 있는 기능을 갖춰 개발자와 기업 모두에게 최적의 솔루션을 제공한다. 엔터프라이즈 애플리케이션에 대한 다양한 요구사항을 충족하는 몽고DB 8.0은 개발자가 혁신적인 고객 중심 애플리케이션을 구축할 수 있도록 지원한다. 애플리케이션이 생성하고 사용하는 데이터가 늘어남에 따라 발생하는 비효율성은 인프라 비용 증가와 성능 저하로 이어지기 때문에 애플리케이션의 일관된 성능을 제공하는 것이 매우 중요하다. 몽고DB 8.0은 성능 향상을 통해 애플리케이션이 데이터를 더욱 빠르게 쿼리 및 변환하도록 지원한다. 아키텍처 최적화를 통해 메모리 사용량과 쿼리 시간을 대폭 단축했으며, 이전 버전 대비 더욱 효율적인 일괄 처리 기능도 제공한다. 이번 업데이트로 몽고DB 8.0은 처리량(throughput)을 32% 향상시켰고, 대량 데이터 삽입 속도는 56%, 데이터 복제 중 데이터 삽입 속도는 20% 빨라졌다. 또한 더 많은 양의 시계열 데이터를 처리하고, 리소스 사용량과 비용을 줄이면서 복잡한 집계(aggregation)를 200% 이상 더 빠르게 수행할 수 있다. 데이터 보호 및 보안이 무엇보다 중요한 오늘날 기업은 전송 중 또는 유휴 데이터, 쿼리 및 처리 중인 데이터 등 데이터 수명 주기 전반에 걸쳐 암호화를 통해 데이터를 보호해야 한다. 이를 지원하는 ‘몽고DB 쿼리어블 인크립션(MongoDB Queryable Encryption)’은 몽고DB 암호화 리서치 그룹(MongoDB Cryptography Research Group)에서 개발한 혁신 기술이다. 이를 통해 고객은 암호화에 대한 전문 지식 없이도 민감한 애플리케이션 데이터를 암호화하고, 이를 몽고DB 데이터베이스에 안전하게 저장하며, 표현 쿼리를 실행해 데이터를 처리할 수 있다. 이제 쿼리어블 인크립션은 몽고DB 8.0에 추가된 범위 쿼리(range queries) 기능을 통해, 민감한 데이터를 저장 및 처리하는 애플리케이션의 데이터 수명 주기 전반에서 데이터를 암호화해 외부 공격으로 인한 데이터 유출 위험성을 줄일 수 있다. 몽고DB는 지난 2010년 수평적 확장을 도입한 이래 매 버전 업데이트마다 개선된 기능을 선보여왔다. 몽고DB 8.0은 기존 대비 더욱 합리적인 비용으로 빠르고 쉬운 수평적 확장을 지원한다. 수평적 확장을 통해 단일 서버의 컴퓨팅 리소스 양을 늘리기 위한 사전 프로비저닝 없이 다수의 서버에 데이터를 분할하고, 기존 데이터베이스 리소스를 상회하는 수준까지 애플리케이션을 확장할 수 있다. 이 같은 몽고DB 8.0의 향상된 샤딩(sharding) 기능을 통해 추가 구성이나 설정 없이 최대 50배 빠르고 50% 더 저렴한 시작 비용으로 데이터를 분산시킬 수 있다. 몽고DB 8.0은 사용량 급증이나 수요가 몰리는 기간에 대비해 데이터베이스 성능을 최적화할 수 있는 효과적인 제어도 지원한다. 최대 쿼리 실행 시간에 대한 기본값을 설정하고, 반복적인 문제를 일으키는 쿼리 유형을 거부하거나 데이터베이스 재시작과 같은 이벤트에도 쿼리 설정을 유지하는 기능 등 수요가 많은 애플리케이션에서도 일관된 성능을 제공한다. 벡터 검색의 도입으로 비정형 데이터를 기반으로 인사이트를 추출할 수 있는 가능성이 확대됐지만 대규모 벡터 애플리케이션은 높은 처리 비용과 느린 쿼리시간으로 인해 확장성과 성능을 저해할 수 있다. 몽고DB는 몽고DB 아틀라스 벡터 서치(MongoDB Atlas Vector Search)에 양자화된 벡터를 활용하고 완전 무결한 벡터를 자동 양자화하는 기능을 추가해 이 같은 문제를 해결한다. 기업은 벡터 양자화를 통해 더 큰 규모와 낮은 비용으로 광범위한 검색 및 AI 애플리케이션을 구축하고, 독립적인 확장성과 리소스 최적화를 위한 몽고DB의 인프라인 서치 노드(Search Nodes)와 결합해 비용 효율적으로 성능을 높일 수 있다. 몽고DB 8.0은 몽고DB 아틀라스(MongoDB Atlas)를 통해 AWS, 구글 클라우드 및 마이크로소프트 애저에서 사용 가능하며, 온프레미스 및 하이브리드 환경에서는 몽고DB 엔터프라이즈 어드밴스드(MongoDB Enterprise Advanced)를 통해 이용할 수 있다. 몽고DB는 전 세계 수백만 명의 개발자 및 포춘 100대 기업의 70%를 포함한 5만 개 이상의 고객이 애플리케이션을 위한 운영 데이터베이스로 몽고DB를 사용하고 있다고 밝혔다. 몽고DB의 짐 샤프(Jim Scharf) 최고기술책임자(CTO)는 “다양한 산업군의 몽고DB 고객들은 핵심 운영 데이터베이스의 규모에 상관없이 성능이 가지는 중요성을 인지하고 있다”면서, “몽고DB 8.0은 오랫동안 몽고DB로 애플리케이션을 구축해 온 개발자들의 눈높이에 맞춰 높은 기준치를 설정했다. 몽고DB 8.0은 고객이 필요로 하는 보안, 회복탄력성, 가용성 및 성능에 대한 엄격한 요구사항을 충족하며 이를 통해 다양한 애플리케이션 구축을 위한 강력한 기반을 제공한다”고 말했다.
작성일 : 2024-10-11
스노우플레이크, “코텍스 AI에서 라마 3.1 호스팅 개시”
스노우플레이크는 기업이 강력한 AI 애플리케이션을 대규모로 쉽게 활용 및 구축할 수 있도록 스노우플레이크 코텍스 AI(Snowflake Cortex AI)에서 메타의 라마 3.1에 대한 호스팅을 개시한다고 발표했다. 라마 3.1은 다중 언어 오픈소스 대규모 언어 모델(LLM)의 컬렉션이다. 이번에 출시한 서비스에는 메타에서 가장 큰 규모이자 강력한 성능의 오픈소스 LLM인 라마 3.1 405B가 제공된다. 스노우플레이크는 실시간의 고처리량 추론을 구현함은 물론 강력한 자연어 처리 및 생성 애플리케이션의 보편화를 증진하는 추론 시스템 스택을 개발하고 오픈 소싱한다. 스노우플레이크의 AI 리서치팀은 추론 및 파인튜닝에 대해 라마 3.1 405B를 최적화함으로써 서비스 개시 첫날부터 거대한 128K 컨텍스트 윈도를 지원한다. 동시에 기존 오픈소스 솔루션에 비해 엔드 투 엔드 지연시간은 최대 3분의 1로 낮아지고 처리량은 1.4배 높아진 실시간 추론을 구현한다. 또한, 코텍스 AI에서 하나의 GPU 노드만을 사용해 거대 모델을 미세 조정할 수 있어 개발자와 사용자 모두에게 비용과 복잡성을 완화해준다. 메타와 협력을 통해 스노우플레이크 고객은 AI 데이터 클라우드에서 메타의 최신 모델에 원활하게 액세스하고 파인튜닝하여 배포할 수 있다. 스노우플레이크는 사용이 간편하고 효율성 및 신뢰도 높은 방법은 물론, 기본적으로 내장된 신뢰도 및 안전성에 대한 포괄적인 접근방식을 제공한다.     스노우플레이크 AI 리서치팀은 AI 커뮤니티에 정기적으로 기여하고 최첨단 LLM 기술 구축 방식에 대한 투명성을 높여 오픈소스 혁신의 한계를 넓혀가고 있다. 또한, 라마 3.1 405B의 출시와 더불어 딥스피드(DeepSpeed), 허깅페이스(HuggingFace), vLLM 및 보다 폭넓은 AI 커뮤니티와의 협업을 통해 자사의 초거대 LLM 추론 및 파인튜닝 시스템 최적화 스택을 오픈 소스화하고 있다. 이러한 혁신을 통해 수천억 개의 매개변수 모델에 대한 오픈소스 추론 및 파인튜닝 시스템에 필요한 새로운 최첨단 솔루션을 구축한다. 초거대 모델의 규모 및 메모리에 대한 요구사항은 실시간 유스케이스에 요구되는 저지연성 추론과 비용 효율을 위한 높은 처리량, 그리고 다양한 엔터프라이즈급 생성형 AI 유스케이스에 필요한 긴 컨텍스트 지원을 실현하고자 하는 사용자에게 있어 상당한 도전 과제다. 모델 및 활성 상태 저장에 대한 메모리 요구사항도 파인튜닝을 어렵게 하며, 훈련을 위한 모델의 상태에 맞춰야 하는 대규모 GPU 클러스터에 데이터 과학자가 액세스할 수 없는 경우도 빈번하다. 스노우플레이크는 초거대 LLM 추론 및 파인튜닝 시스템 최적화 스택은 고급 병렬화 기술과 메모리 최적화를 통해 복잡하고 고비용의 인프라가 없어도 효율적인 AI 처리가 가능하다고 설명했다. 라마 3.1 405B의 경우 스노우플레이크의 시스템 스택은 단일 GPU 노드 하나로도 실시간의 고처리량 성능을 발휘하고 다중 노드 설정 전반에 걸쳐 128k 개의 거대한 컨텍스트 윈도를 지원한다. 이러한 유연성은 차세대 하드웨어와 레거시 하드웨어 모두에 유효해, 보다 광범위한 기업들이 이용할 수 있다. 또한 데이터 과학자들이 전보다 적은 개수의 GPU 상에서 복합 정밀 기술을 사용해 라마 3.1 405B를 파인튜닝할 수 있으므로 대규모 GPU 클러스터에 대한 필요성이 사라진다. 이에 따라 기업들은 강력한 엔터프라이즈급 생성형 AI 애플리케이션을 보다 편리하고 효율적이며 안전하게 채택하고 배포할 수 있다. 스노우플레이크의 AI 리서치팀은 기업들이 이러한 유스케이스를 코텍스 AI에서 쉽게 적용할 수 있도록 모델 증류, 안전 가드레일, 검색 증강 생성(RAG), 합성 데이터 생성 등 파인튜닝에 최적화된 인프라도 개발했다. 한편, 스노우플레이크는 코텍스 AI에 구축된 모든 LLM 애플리케이션 및 자산을 유해한 콘텐츠로부터 더욱 강도 높게 보호하기 위해 업계 선도 기업과 협업하고 있다고 전했다. 메타의 모델 또는 AI21 랩스(AI21 Labs), 구글, 미스트랄 AI(Mistral AI), 레카(Reka) 및 스노우플레이크 등이 제공하는 LLM을 통해 스노우플레이크 코텍스 가드를 일반인들이 이용할 수 있도록 공개하고 있다는 것이다. 스노우플레이크의 비벡 라구나단(Vivek Raghunathan) AI 엔지니어링 부사장은 “스노우플레이크의 AI 리서치팀은 기업과 오픈 소스 커뮤니티가 라마 3.1 405B 등의 최첨단 오픈 모델을 적극 활용해 효율 극대화를 위한 추론 및 파인튜닝을 가능하게 한다”면서, “스노우플레이크는 메타의 첨단 모델을 스노우플레이크 코텍스 AI를 통해 고객에게 직접 제공할 뿐만 아니라, 더 폭넓은 생태계에서 AI를 고도화하기 위해 128K 컨텍스트 윈도와 다중노드 추론, 파이프라인 병렬화, 8비트 부동 소수점 양자화 등을 지원하는 새로운 연구 및 오픈소스 코드로 기업과 AI 커뮤니티의 역량을 강화하고 있다”고 말했다.
작성일 : 2024-09-09
유니티 6 프리뷰 : 게임 및 비주얼 콘텐츠 제작 전반의 기능과 편의성 강화
개발 및 공급 : 유니티 주요 특징 : 렌더링을 위한 URP와 HDRP의 성능 향상, 조명 기능 개선, 풍부한 환경 렌더링의 정확성 향상, 멀티 플랫폼 지원 개선, XR 입력 및 상호작용 간소화, AI를 활용한 동적 런타임 경험 제공 등     유니티 6(Unity 6) 프리뷰 버전(이전 명칭은 2023.3 테크 스트림)은 2024년 출시되는 유니티 6 정식 버전의 개발 사이클에서 마지막 릴리스에 해당하며, 유니티 2023.1과 2023.2 버전에서 릴리스된 기능을 포함한다. 유니티는 2023년 11월 진행된 ‘유나이트’ 이벤트에서 명명 규칙을 업데이트한다고 발표한 바 있다. 유니티 6 프리뷰는 테크 스트림 릴리스처럼 구성되어 있으며, 지원되는 릴리스이므로 탐색 중이거나 프로토타이핑 단계에 있는 프로젝트에서 최신 기능과 업데이트된 기능을 미리 사용해 볼 수 있다. 정식 제작 중인 프로젝트에는 향상된 안정성과 지원이 제공되는 유니티 2022 LTS릴리스를 사용하는 것이 좋다.   렌더링 성능 향상 유니티 6 프리뷰에서는 URP(유니버설 렌더 파이프라인)와 HDRP(고해상도 렌더 파이프라인)의 성능이 향상되어 여러 플랫폼 전반에서 제작 속도를 높일 수 있다. 콘텐츠에 따라 다르지만, CPU 워크로드를 30~50%까지 줄이는 동시에 다양한 플랫폼 전반에서 더 원활하고 빠르게 렌더링할 수 있다. 새로운 GPU 상주 드로어를 사용하면 복잡한 수동 최적화를 거치지 않고도 규모가 크고 풍부한 월드를 효율적으로 렌더링할 수 있다. 고사양 모바일 기기, PC, 콘솔 등의 플랫폼에서 복잡한 대형 신(scene)을 렌더링할 때 게임 오브젝트에 사용되는 CPU 프레임 시간을 50%까지 단축하여 게임을 최적화할 수 있다.   ▲ 복잡한 대형 신을 렌더링할 때 게임 오브젝트에 사용되는 CPU 프레임 시간을 50%까지 단축하여 게임을 최적화한다.   GPU 상주 드로어와 함께 GPU 오클루전 컬링 또한 프레임마다 오버드로되는 양을 줄여 게임 오브젝트의 성능을 향상시킨다. 즉, 렌더러가 보이지 않는 오브젝트를 드로하느라 리소스를 낭비하지 않게 한다. GPU 오클루전 컬링은 GPU 기반 접근 방식을 통해 신에서 보이지 않는 오브젝트를 렌더링하지 않게 한다.  STP(시공간 포스트 프로세싱)로 GPU 성능을 최적화하고 시각적 품질과 런타임 성능을 높일 수 있다. STP는 저해상도에서 렌더링된 프레임을 정확도 손실 없이 업스케일링하도록 설계되어, 플랫폼에 다양한 성능 수준과 화면 해상도로 일관적인 고품질 콘텐츠를 제공할 수 있다. STP는 데스크톱과 콘솔 전반에서, 무엇보다도 컴퓨팅 가능한 모바일 기기에서 URP 및 HDRP 모두와 호환된다.   ▲ STP는 GPU 성능을 최적화하고 시각적 품질과 런타임 성능을 높인다.   URP용 렌더 그래프(Render Graph)는 새로운 렌더링 프레임워크 및 API로, 렌더 파이프라인의 유지 관리와 확장을 간소화하고 렌더링 효율성과 성능을 높인다. 최신 시스템에는 특히 타일 기반(모바일) GPU에서 메모리 대역폭 사용량과 에너지 소비를 줄이기 위한 네이티브 렌더 패스의 자동 병합 및 생성 같은 핵심 최적화 기능이 다양하게 추가되었다. 또한 새로운 렌더 그래프 API를 통해 커스텀 패스 추가 워크플로를 간소화할 수 있기 때문에, 사용자는 커스텀 래스터와 커스텀 패스로 렌더 파이프라인을 확장하고 새로운 컨텍스트 컨테이너를 사용하여 필요한 파이프라인 리소스에 모두 안전하게 액세스할 수 있다. 마지막으로, 새로운 렌더 그래프 뷰(Render Graph Viewer) 툴을 사용해 엔진의 렌더 패스 생성과 프레임 리소스 사용량을 에디터 내에서 직접 분석하고, 렌더 파이프라인 디버깅과 최적화 과정을 간소화할 수 있다.   ▲ 렌더 그래프 뷰를 사용하여 렌더 파이프라인, 패스, 리소스를 분석한다.   URP의 포비티드 렌더링(Foveated Rendering) API를 사용하면 포비티드 렌더링 수준을 설정하여 사용자 주변의 중거리/원거리 정확도를 낮추는 대신 GPU 성능을 높일 수 있다. 유니티 6 프리뷰에서는 두 가지 새로운 포비티드 렌더링 모드를 사용할 수 있다. 고정 포비티드 렌더링(Fixed Foveated Rendering)의 경우 스크린 공간 중앙 영역의 품질이 높아지고, 시선 추적 포비티드 렌더링(Gazed Foveated Rendering)에서는 시선 추적을 통해 스크린 공간에서 품질을 높여야 할 영역을 결정한다. 포비티드 렌더링 API는 오큘러스 XR(Oculus XR) 플러그인을 사용하는 메타 퀘스트(Meta Quest), 그리고 소니 플레이스테이션 VR2(Sony PlayStation VR2) 플러그인과 호환되며, OpenXR 플러그인에 대한 지원이 곧 추가될 예정이다.   ▲ 시선이 집중되는 영역의 품질을 높이는 방법으로 GPU 성능을 향상하여, VR에서 시각적 품질을 높이고 프레임 속도를 개선한다.   HDRP 및 URP에서의 볼륨 프레임워크 향상으로 모든 플랫폼에서 CPU 성능이 최적화되어 저사양 하드웨어에서도 실행이 가능하다. 이제 URP에서도 HDRP처럼 전반적으로 향상된 사용자 인터페이스를 사용하여 전역 볼륨과 품질 수준별 볼륨을 설정할 수 있다. 또한 이제 손쉽게 URP용 커스텀 포스트 프로세싱 효과와 함께 볼륨 프레임워크를 사용하여 커스텀 안개와 같은 효과를 직접 제작할 수 있다.    ▲ URP 커스텀 포스트 프로세싱   조명 개선 사항 APV(적응적 프로브 볼륨)는 유니티에서 전역 조명을 구현하는 새로운 방법을 제공한다. 라이트 프로브를 통해 빛을 받는 오브젝트의 저작(authoring) 및 반복 작업(iteration)을 더 간소화했으며, 시간대 시나리오나 스트리밍 등의 새로운 작업을 수행할 수 있다. 유니티 2023.1 및 2023.2 테크 스트림 릴리스에서 제공된 APV의 개발을 기반으로, 유니티 6 프리뷰에서는 탁월한 조명 전환을 구현하기 위해 저작 워크플로 개선, 스트리밍 기능 확장, 제어 및 플랫폼 도달률(Reach) 확장 등의 개선이 이루어졌다.  APV 시나리오 블렌딩을 URP로 확장하여, 낮과 밤을 전환하거나 방에서 불을 켜고 끄는 상황에 대한 베이크된 프로브 볼륨 데이터를 손쉽게 블렌딩할 수 있도록 더 광범위한 플랫폼을 지원한다. 여러 조명 시나리오를 베이크한 다음 런타임에 블렌딩할 수 있다. 이 기능은 프로브 볼륨 데이터에만 적용된다. 반사 프로브, 라이트맵, 광원 위치 또는 강도와 같은 기타 요소는 직접 조정해야 한다.  URP와 HDRP에서 모두 지원하는 APV 스카이 오클루전을 사용하면 가상 환경에 시간대별 조명 시나리오를 적용하여 APV 시나리오 블렌딩에 비해 다양한 컬러 배리에이션으로 하늘의 정적 간접 조명을 구현할 수 있다. 스카이 오클루전을 사용하면 APV 시나리오 블렌딩에 비해 다양한 컬러 배리에이션으로 하늘의 정적 간접 조명을 구현할 수 있다.  이제 APV 디스크 스트리밍이 URP에서 비컴퓨트(non-compute) 경로를 지원하며, AssetBundles 및 Addressables 지원 또한 활성화되었다.  Probe Adjustment Volumes 툴을 활용하여 APV 콘텐츠를 미세 조정하고 빛 번짐 효과를 해결할 수 있다. 이러한 볼륨 내부의 프로브에 대해 샘플 카운트 오버라이드 및 프로브 무효화 등을 조정할 수 있다. 조정 볼륨의 영향을 받지 않는 라이트 프로브는 숨길 수 있고, 이제 영향을 받는 프로브의 프로브 조명 데이터만 미리 확인할 수 있으며, Probe Volume 및 Probe Adjustment Volume 컴포넌트에서 곧바로 베이크할 수 있다. 마지막으로, C# Light Probe Baking API가 추가되어 이제 한 번에 베이크할 프로브의 개수를 제어하여 실행 시간과 메모리 사용량 간의 균형을 맞출 수 있다.    더 정확하고 풍부한 환경 유니티 6 프리뷰는 HDRP에서 프로젝트의 시간대 시나리오를 더 사실적으로 구현할 수 있도록 일몰과 일출의 하늘 렌더링을 개선하였다. 또한 먼 거리의 안개를 보완하기 위해 오존층 지원과 대기 산란이 추가되었다. 커스틱을 샘플링하여 볼류메트릭 광원의 빛줄기를 생성하는수중 볼류메트릭 포그 지원이 추가되어 물의 표현도 개선되었다. 성능 최적화 측면에서는 CPU로 시뮬레이션을 모사하는 대신, 몇 프레임이 지연되며 GPU에서 시뮬레이션을 다시 읽어 오는 옵션이 추가되었다. 혼합 트레이싱 모드가 포함된 투명한 표면 지원도 추가되어, 물과 같은 표면을 터레인이나 초목과 함께 렌더링할 때 레이트레이싱과 스크린 공간 효과를 혼합할 수 있다. 대규모의 동적인 월드를 렌더링하려면 무엇보다 성능이 중요하므로 URP와 HDRP의 SpeedTree 초목 렌더링을 최적화했으며, 앞에서 언급한 새로운 GPU 상주 드로어를 활용한다.   VFX 그래프 아티스트 워크플로 유니티 프리뷰 6에서는 VFX 아티스트가 더 많은 플랫폼에 효율적으로 도달할 수 있도록 툴과 URP 지원을 개선했다. VFX 그래프 프로파일링 툴을 사용하면 VFX 아티스트는 메모리와 성능에 대한 피드백을 받고, 그래프 내에서 최적화할 부분을 찾아서 특정 효과를 미세 조정하고 성능을 극대화할 수 있다.   ▲ VFX 그래프 프로파일링 툴   셰이더 그래프 키워드의 지원을 받아 VFX 셰이더를 제작할 수 있으며, URP 뎁스 및 컬러 버퍼를 사용하여 빠른 충돌이나 월드 내 파티클 생성을 위해 URP로 더 복잡한 효과를 만들 수 있다. VFX 그래프의 개념과 기능을 학습할 수 있도록 제작된 VFX 애셋 모음인 신규 학습 템플릿으로 VFX 그래프를 빠르게 시작할 수 있다.   셰이더 그래프 아티스트 워크플로 유니티 6 프리뷰에는 셰이더 그래프 사용자들이 많이 겪는 고충을 해결하기 위해 편집이 가능한 키보드 단축키, 그래프에서 가장 GPU 사용량이 많은 노드를 빠르게 식별할 수 있는 히트맵 컬러 모드를 추가하였으며, 실행 취소/재실행 또한 더 빨라졌다.   ▲ 노드의 상대적 GPU 비용을 보여 주는 히트맵 컬러 모드   여러 셰이더 그래프 애셋이 담긴 신규 노드레퍼런스 플을 사용할 수 있다. 샘플에 포함된 각 그래프는 하나의 노드를 설명하고, 내부적으로 작동하는 수학을 요약하며, 가능한 노드 사용 방법에 대한 예시를 포함한다.    멀티 플랫폼 개선 사항 유니티 6 프리뷰는 멀티 플랫폼 개발 워크플로를 최적화하고 인기 있는 플랫폼 전반에서 도달률을 향상하는 것을 목표로 데스크톱과 모바일, 웹 및 XR에서 향상된 멀티 플랫폼 기능을 제공한다.   빌드 창 편의성 향상 및 새로운 빌드 프로필 새로운 빌드 프로필 기능을 통해 더욱 유연하고 효율적으로 빌드를 관리할 수 있다. 각 프로필에서 빌드 설정을 구성하는 것 외에 이제 서로 다른 신 목록을 넣어 빌드의 콘텐츠를 커스터마이즈할 수 있어, 게임에서 가장 선보이고 싶은 신이 사용된 고유의 플레이 가능한 데모를 여러 개 만들 수 있다. 또한 플레이어 설정에서 볼 수 있는 스크립팅에 더해 어떤 프로필이든 정의하는 커스텀 스크립팅을 설정할 수 있으며, 이를 통해 빌드와 에디터 플레이 모드의 기능과 동작을 미세 조정할 수 있다. 버티컬 슬라이스(시연 버전)를 만들거나 플랫폼별로 동작을 다르게 설정하려 할 때 이 기능을 활용할 수 있다. 프로필마다 플레이어 설정 오버라이드를 추가하여 플랫폼 모듈에 맞게 설정을 커스터마이즈할 수 있다. 이 기능을 이용하면 프로필마다 다른 퍼블리싱 설정을 손쉽게 구성할 수 있다. 전반적으로 이 최신 기능을 사용하면 에디터에서의 빌드 관리 방식을 커스터마이즈하기 위해 커스텀 빌드 스크립트를 사용해야 하는 빈도를 낮출 수 있다. 마지막으로, 에디터에서 플랫폼을 쉽게 확인할 수 있도록 플랫폼 브라우저를 추가했다. 플랫폼 브라우저에서 Unity가 지원하는 모든 플랫폼을 확인하고 원하는 플랫폼의 빌드 프로필을 생성할 수 있다.   ▲ 유니티 6의 새로운 빌드 프로필 창   웹 런타임으로 모바일 게임 도달률 향상 안드로이드 및 iOS 브라우저 지원이 유니티 6 프리뷰에 추가되었다. 이제 모든 웹에서 유니티 게임을 실행할 수 있으며, 브라우저 게임을 데스크톱 플랫폼으로 제한해 개발하지 않아도 된다. 또한 게임을 네이티브 앱의 웹 뷰에 임베드하거나, 유니티의 프로그레시브 웹 앱 템플릿을 사용해 고유한 바로 가기와 오프라인 기능을 가진 네이티브 앱처럼 게임이 작동하도록 구현할 수 있다. 모바일 기기 컴파스 지원과 GPS 위치 트래킹 같은 기능이 추가되어, 게이머가 플레이하는 플랫폼에 맞게 대응하도록 웹 게임을 구현할 수 있다. Emscripten 3.1.38 툴체인 업데이트와 부호 확장 명령 코드, 트랩 없는 부동 소수점-정수 변환, 벌크 메모리, BigInt, Wasm 테이블, 네이티브 Wasm 예외, Wasm SIMD와 같은 새로운 WebAssembly 언어 기능 모음을 통한 최신 WebAssembly 2023 지원을 통해 웹 게임을 미세 조정할 수 있다. 또한 WebAssembly 2023은 힙 메모리를 4GB까지 지원하므로 최신 하드웨어에서 더 많은 RAM을 사용할 수 있다.   ▲ 아이폰 15 프로의 사파리에서 실행되는 유니티의 2D 샘플 프로젝트 해피 하비스트(Happy Harvest)   유니티 6 프리뷰에는 최신 안드로이드 툴, 즉시 사용 가능한 자바(Java) 17 지원, 안드로이드 앱 번들에 디버그 심볼을 추가하는 기능 등을 비롯한 더 많은 모바일 개선 사항이 포함된다. 이를 통해 구글 플레이 스토어(Google Play Store)에 제출하는 시간을 절약하고 플레이 콘솔(Play Console)에서 항상 스택트레이스 정보를 확인할 수 있다.   WebGPU 백엔드 얼리 액세스 WebGPU 백엔드의 실험 단계 지원을 도입하는 것은 웹 기반 그래픽스 가속의 중대한 이정표로서, 앞으로 유니티 웹 게임의 그래픽스 렌더링 정확도를 도약시키는 디딤돌이 될 것이다. WebGPU는 컴퓨트 셰이더 지원과 같은 최신 GPU 기능을 웹에 노출하고 활용하려는 목적으로 설계되었다. WebGPU는 새로운 웹 API로서, 다이렉트X 12(DirectX 12), 벌칸(Vulkan), 메탈(Metal)과 같은 네이티브 GPU API를 통해 내부적으로 구현하는 최신 그래픽스 가속 인터페이스를 데스크톱 기기에 따라 제공한다. WebGPU 그래픽스 백엔드는 여전히 실험 단계이므로 정식 제작에 사용하는 것은 권장하지 않는다.   ▲ GPU(컴퓨트) 스키닝의 장점을 활용해 높은 프레임 속도를 유지하면서 로봇들의 골격 위에 스킨을 메시 처리한 데모   유니티 에디터의 ARM 기반 윈도우 기기 지원 유니티는 2023.1에서 ARM 기반 윈도우 기기에 대한 지원을 제공하여 새로운 하드웨어로 타이틀을 가져올 수 있게 했다. 유니티 6 프리뷰를 통해 유니티 6에서 ARM 기반 윈도우 기기에 대한 네이티브 유니티 에디터 지원을 제공한다. 따라서 이제 ARM 기반 기기의 성능과 유연성을 활용하여 유니티 게임을 제작할 수 있다.   다이렉트X 12 백엔드 개선 사항 유니티의 다이렉트X 12 그래픽스 백엔드가 정식으로 제작에 사용 가능하며, DX12를 지원하는 윈도우 플랫폼을 타깃으로 제작할 때 사용할 수 있다. 이번 변경에 앞서 렌더링 안정성과 성능에 대한 포괄적인 향상이 이루어진 바 있다. 유니티 에디터와 유니티 플레이어는 DX12에서 Split Graphics Jobs를 사용하여 향상된 CPU 성능의 혜택을 누릴 수 있다. 성능 향상 수준은 신의 복잡도와 제출되는 드로 콜 횟수에 따라 다를 수 있다.     무엇보다도 DX12 그래픽스 API는 광범위한 최신 그래픽스 성능을 지원할 수 있으므로, 유니티의 레이트레이싱 파이프라인 같은 차세대 렌더링 기법을 사용할 수 있다. 조만간 그래픽스에서 머신러닝에 이르는 DX12의 고급 기능을 활용하여, 높은 수준의 정확도와 성능을 실현할 수 있을 것이다.   마이크로소프트 GDK 패키지로 마이크로소프트 플랫폼 생태계 도입 마이크로소프트와 유니티의 지속적인 파트너십 덕분에 이제 유니티 6 프리뷰와 2022 LTS, 2021 LTS에서 2개의 새로운 마이크로소프트 GDK 패키지를 이용할 수 있다. Microsoft GDK Tools와 Microsoft GDK API 패키지를 동일한 구성 및 코드 베이스로 마이크로소프트 게이밍 플랫폼에서 사용할 수 있다. 이 패키지를 사용하면 사용자 ID, 플레이어 데이터, 소셜, 클라우드 스토리지 등의 엑스박스(Xbox) 서비스를 활용할 때와 같은 코드를 사용하여, 윈도우 및 엑스박스같은 마이크로소프트 게이밍 플랫폼에서 더욱 손쉽게 게임을 빌드할 수 있다. 통합 마이크로소프트 GDK 패키지를 사용하면 공유 코드 베이스와 API를 통한 빌드 프로세스 자동화 기능을 활용하여 마이크로소프트 플랫폼에서 게임을 제작할 수 있다. 패키지에 포함된 다양한 기능을 선보이는 새로운 샘플도 제공된다. 이전에는 엑스박스 콘솔과 윈도우의 마이크로소프트 스토어를 타깃으로 삼는 경우 마이크로소프트와 유니티에서 제공하는 별도의 GDK 패키지를 설치하는 것이 지침이었다. 그렇게 하려면 타깃으로 삼은 각 마이크로소프트 플랫폼별로 다른 코드 브랜치를 관리해야 했다. 새로운 마이크로소프트 GDK 패키지를 사용하면 그럴 필요가 없다. 또한 이제 빌드 서버에서 직접 API로 MicrosoftGame.config 파일을 수정할 수 있다. 유니티 6의 새로운 빌드 프로필 기능과 함께 사용하면 하나의 프로젝트만으로도 손쉽게 마이크로소프트 게이밍 생태계에 게임을 공개할 수 있다.   ▲ 유니티 패키지 관리자의 새로운 마이크로소프트 GDK API(1단계) 및 마이크로소프트 GDK 툴즈(2단계). 유니티 패키지 관리자에서 직접 마이크로소프트 GDK 패키지를 설치하고 마이크로소프트 GDK를 사용해 개발을 시작할 수 있다.   XR 경험 유니티는 AR킷(ARKit), AR코어(ARCore), 비전OS(visionOS), 메타 퀘스트, 플레이스테이션 VR, 윈도우 MR(Windows Mixed Reality) 등 많이 알려진 알려진 XR(확장현실) 플랫폼을 지원한다. 유니티 6 프리뷰는 혼합 현실, 손 및 시선 입력, 개선된 시각적 정확도 같은 최신 크로스 플랫폼 기능을 포함한다. 이제 향상된 템플릿에 이러한 많은 최신 기능이 통합되어 더 빠르게 시작할 수 있다.   현실 세계를 게임에서 구현하기 기존 게임을 혼합 현실로 확장하려 할 때나 아니면 완전히 새로운 게임을 제작하려는 경우에도 AR 파운데이션(AR Foundation)을 사용하면 크로스 플랫폼 방식으로 현실 세계를 플레이어 경험에 통합할 수 있다. 유니티 6 프리뷰에는 AR코어에서의 이미지 안정화 지원을 추가하였으며, 메타 퀘스트(Meta Quest)와 같은 혼합 현실 플랫폼을 대상으로 메시 및 바운딩 박스 기능 등에 대한 지원을 개선했다.   ▲ 최신 AR 파운데이션 메시 기능   XR 입력 및 상호작용 상호작용을 간소화할 수 있도록 XRI(XR Interaction Toolkit) 3.0에 여러 주요 개선 사항이 추가되었다. 그중에서도 Near-Far Interactor라는 새로운 인터랙터는 프로젝트에서 인터랙터의 동작을 커스터마이즈할 때 유연성과 모듈성을 향상시킬 수 있다.  새로운 Input Reader의 추가로 XRI 입력 처리 방식이 개선되었으며, 이를 통해 입력 프로세스가 간소화되고 다양한 입력 유형 전반에서 코드의 복잡도가 줄어든다. 마지막으로, 크로스 플랫폼 방식으로 게임 내 키보드를 구현하고 커스터마이즈할 수 있도록 새로운 가상 키보드 샘플을 출시할 계획이다.   고유의 손 제스처 손을 사용하여 콘텐츠와 상호작용하도록 하는 플랫폼이 점점 더 많아지는 추세이다. 유니티의 XR Hands 패키지를 사용하면 커스텀 손 제스처(예 : 엄지 척, 엄지 다운, 가리키기)나 일반적인 오픈XR 손 제스처를 구현할 수 있다. 샘플이 포함되어 있어 빠르게 작업을 시작할 수 있다. 손 모양과 제스처의 제작, 미세 조정 및 디버깅을 위한 툴이 함께 지원되므로 더 많은 사용자를 대상으로 폭넓은 콘텐츠를 제공할 수 있다.   시각적 정확도 향상 게임의 시각적 정확도를 향상하려는 방법의 하나로 현재 실험 단계 패키지로만 이용할 수 있는 Composition Layers 기능이 있다. 이 기능은 런타임의 합성 레이어에 대한 네이티브 지원을 사용하여 텍스트, 비디오, UI 및 이미지를 더욱 양호한 품질로 렌더링하고, 더 선명한 텍스트, 뚜렷한 윤곽선을 비롯해 전반적으로 더 나은 결과물을 제공하는 동시에 아티팩트도 상당히 줄일 수 있다.   멀티플레이어 제작 간소화 유니티 6 프리뷰는 간단한 엔드 투 엔드 통합 솔루션으로, 멀티플레이어 게임의 제작, 출시, 성장을 가속한다. 실험 단계 멀티플레이어 센터 유니티는 패키지 레지스트리에서 사용할 새로운 실험 단계 멀티플레이어 센터(Experimental Multiplayer Center) 패키지를 제작했다. 멀티플레이어 센터는 멀티플레이어 개발을 시작할 수 있도록 안내하는 간소화된 가이드 툴이다. 에디터의 중심에 있는 이 가이드를 활용하면 프로젝트별 요구 사항에 맞는 유니티 툴과 서비스에 액세스할 수 있다.  멀티플레이어 센터는 프로젝트의 멀티플레이어 사양에 따른 인터랙티브 가이드, 리소스와 교육 자료에 대한 액세스, 그리고 멀티플레이어 기능을 빠르게 배포하고 간단하게 실험할 간편한 방법을 제공한다.   멀티플레이어 플레이 모드 유니티 에디터 내에서 각 프로세스 전반의 멀티플레이어 기능을 테스트해 볼 수 있는 멀티플레이어 플레이 모드(Multiplayer Play Mode) 1.0 버전이 릴리스되었다. 디스크의 동일한 소스 애셋을 사용하면서 하나의 개발 기기에서 최대 4명의 플레이어(기본 에디터 플레이어 및 가상의 플레이어 3명)를 동시에 시뮬레이션할 수 있다. 멀티플레이어 플레이 모드를 사용하면 프로젝트를 빌드하고, 로컬에서 실행하고, 서버-클라이언트 관계를 테스트하는 데 걸리는 시간을 단축하는 멀티플레이어 개발 워크플로를 구축할 수 있다.   ▲ 멀티플레이어 플레이 모드는 개발 과정에서 멀티플레이어 게임을 테스트하기 위한 설정 시간을 단축하고 빠른 반복 루프를 유지한다.   멀티플레이어 툴즈 멀티플레이어 툴즈(Multiplayer Tools) 패키지를 2.1.0 버전으로 업데이트하며, 새로운 디버깅 시각화 툴인 네트워크 신 비주얼라이제이션(Network Scene Visualization)을 추가했다. 네트워크 신 비주얼라이제이션(NetSceneVis)은 멀티플레이어 툴즈 패키지에 포함된 강력한 툴로, 유니티 에디터 신 뷰에서 프로젝트를 보며 메시 셰이딩이나 텍스트 오버레이와 같은 시각화 기능을 통해 오브젝트별 네트워크 커뮤니케이션을 시각화하고 디버깅할 수 있다.   Netcode for GameObjects용 실험 단계 분산형 권한 새로운 Experimental Multiplayer Services SDK 0.4.0 버전(com.unity.services.multiplayer)과 함께 사용할 때의 분산형 권한 모드를 Netcode for GameObjects 2.0.0-exp.2 버전(com.unity.netcode.gameobjects)에 추가했다. 분산형 권한 모드에서는 클라이언트가 게임 세션에서 생성된 넷코드(Netcode) 오브젝트에 대해 분산된 소유권/권한을 가진다. 넷코드 시뮬레이션 워크로드는 클라이언트 전반에 분산되며, 네트워크 상태는 유니티가 제공하는 고성능 클라우드 백엔드를 통해 조율된다.   넷코드 포 엔티티즈 게임 오브젝트가 디버그 바운딩 박스를 렌더링할 수 있도록 지원하여 넷코드 포 엔티티즈(Netcode for Entities) 경험을 개선했다. 또한 코드를 수정할 필요 없이 커스터마이즈할 수 있는 넷코드 설정 변수 대부분이 포함된 NetCodeConfig ScriptableObject를 추가했다.   데디케이디드 서버 패키지 프로젝트를 별도로 만들지 않아도 프로젝트에서 서버와 클라이언트 역할을 전환하도록 허용하는 데디케이디드 서버(Dedicated Server) 패키지를 출시했다. 멀티플레이어 역할을 사용하면 클라이언트 및 서버 전반에 게임 오브젝트와 컴포넌트를 배분할 수 있다.  멀티플레이어 역할로 각 빌드 타깃에서 사용할 멀티플레이어 역할(클라이언트, 서버)을 결정할 수 있다. 이는 다음과 같이 구성된다. 콘텐츠 선택 : 여러 멀티플레이어 역할을 대상으로 포함하거나 제거할 콘텐츠(게임 오브젝트, 컴포넌트)를 선택하는 UI 및 API를 제공한다. 자동 선택 : 여러 멀티플레이어 역할에서 자동으로 제거되어야 할 컴포넌트 유형을 선택하는 UI 및 API를 제공한다. 안전성 확인 : 멀티플레이어 역할에서 오브젝트를 제거하여 발생할 수 있는 잠재적인 널(null) 참조 예외를 감지하기 위한 경고를 활성화한다. 이 패키지에는 데디케이디드 서버 플랫폼 개발에 추가로 필요한 최적화 및 워크플로 개선 사항도 포함된다.   Experimental Multiplayer Services SDK Experimental Multiplayer Services SDK는 유니티 6 프리뷰에서 개발하는 게임에 온라인 멀티플레이어 요소를 한 번에 추가할 수 있는 솔루션이다. UGS(Unity Gaming Services)를 기반으로 릴레이(Relay) 및 로비(Lobby) 서비스의 여러 기능을 새로운 단일 ‘세션’ 시스템으로 결합한 솔루션으로, 빠르게 플레이어 그룹의 연결 방식을 정의할 수 있도록 지원한다. Experimental Multiplayer Services SDK 0.4.0 버전(com.unity.services.multiplayer)을 사용하면 P2P(peer-to-peer) 세션을 생성하고 플레이어가 참여 코드, 활성 세션 목록 검색 또는 ‘빠른 참여’ 기능 등 다양한 방법으로 참여하도록 구현할 수 있다.   유니티 6 프리뷰의 멀티플레이어 유니티 6 프리뷰에 포함된 많은 기능은 아직 실험 단계에 있으며, 아직 정식 제작에 사용할 수는 없다. 유니티 6가 완전한 지원 경험을 갖출 수 있도록 사용자의 피드백을 바탕으로 해당 기능을 빠르게 사전 릴리스 및 릴리스 단계로 전환할 예정이다.   엔티티 워크플로 개선 사항 유니티 6 프리뷰는 ECS 워크플로를 간소화하고 사용자가 흔히 겪는 어려움을 해결한다. 이러한 노력의 하나로, 유니티는 향후 엔티티와 게임 오브젝트 워크플로가 통합되는 상황에 대비하여 엔티티의 저장 방식을 변경했다. 이제 엔티티 ID가 전역적으로 고유의 값을 가지며, 한 엔티티 시스템에서 다른 시스템으로 원활하게 옮길 수 있다. 이러한 변경이 ECS 워크플로에 영향을 주지는 않지만, 항상 정확한 엔티티를 표시하므로 디버깅 시 모호함을 줄일 수 있다. 또한 유니티 2022 LTS에 제공된 최신 ECS 개선 사항이 유니티 6 프리뷰에도 적용되었다. ECS 1.1 : 주요 물리 콜라이더 워크플로 및 성능 개선, ECS 프레임워크 전반에서 80개 이상의 수정 사항 ECS 1.2 : 에디터 워크플로 전반의 편의성 및 성능 개선, 직렬화, 베이킹, 50개 이상의 수정 사항 및 유니티 6 호환성   AI를 활용한 동적 런타임 경험 제공 유니티 6 프리뷰에는 런타임에 AI 모델을 통합하는 뉴럴 엔진인 유니티 센티스(Unity Sentis)가 포함된다. 센티스를 통해 오브젝트 인식, 스마트 NPC, 그래픽스 최적화 같은 새로운 AI 기반 기능을 활용할 수 있다. 센티스는 최근에 성능과 사용 초기 경험 간소화에 집중하여 개선이 이루어졌다.   성능 이제 유니티 에디터에서 AI 모델 가중치 양자화(FP16 또는 UINT8)를 지원하므로 필요한 경우 모델 크기를 최대 75%까지 줄일 수 있다. 모바일 게임을 출시하는 경우 상당한 절약 효과를 볼 수 있다. 모델 스케줄링 속도 또한 2배 향상되었고, 메모리 누수와 가비지 컬렉션은 줄어들었다. 마지막으로, 이제 더 많은 ONNX 연산자를 지원한다.   시작하기 프로젝트에 적합한 AI 모델을 더 쉽게 찾을 수 있도록, 유니티는 대규모 60만 개 이상의 AI 모델을 보유한 AI 모델 허브인 허깅 페이스(Hugging Face)와 협력 관계를 맺었다. 이제 센티스에서 ‘바로 사용할 수 있는’ AI 모델을 즉시 찾을 수 있으므로 손쉬운 연동이 가능하다.  적합한 모델을 찾았으면 이제 게임에 연결해야 한다. 더 쉽게 연결할 수 있도록 유니티는 AI 모델을 제작, 수정, 연결하는 데 활용할 새로운 Functional API를 도입했다. 직관적이고, 안정적이며, 인퍼런스에 최적화된 API이다. 메모리 관리 및 스케줄링 전반을 제어하기 위해 완전히 커스터마이즈할 수 있는 낮은 레벨의 API가 필요하다면 Backend API를 계속 사용할 수 있다.   생산성 및 기능성 향상 유니티 엔진은 비주얼 스크립팅에서부터 UI 툴킷까지 사용자의 생산성과 기능성을 향상하기 위한 다양한 툴을 제공한다. 기존 툴에 더해 유니티 6 프리뷰에서는 특히 프로파일링 툴 포트폴리오에 두 가지 업데이트가 추가되었다.   메모리 프로파일러 유니티 6 프리뷰에서는 메모리 프로파일러(Memory Profiler)와 관련해 두 가지 주요 업데이트가 적용되었다. 우선, 기존에는 분류되지 않았던 그래픽스 메모리가 이제 측정되며 리소스별 보고가 이루어진다.(예 : 렌더 텍스처 및 컴퓨트 셰이더) 그리고, 상주 메모리에 대한 정보가 더 자세히 보고된다. 예를 들어 디스크로 전환되는 메모리는 더 이상 여기에 포함되지 않는다. 이러한 업데이트는 특히 네이티브 메모리 사용량을 파악하기 어렵다는 사용자의 직접적인 피드백을 해결한다.   ▲ 업데이트된 메모리 프로파일러     ■ 기사 내용은 PDF로도 제공됩니다.
작성일 : 2024-07-03
엔비디아, KT의 초거대 AI 모델 구축 위한 플랫폼 제공
엔비디아는 KT가 엔비디아 DGX 슈퍼팟(NVIDIA DGX SuperPOD) 플랫폼을 기반으로 초거대 AI 모델 ‘믿음(Mi:dm)’을 구축했다고 전했다. KT는 경량 모델부터 초대형 모델에 이르기까지 기업 규모와 사용 목적에 맞게 완전 맞춤형으로 사용 가능한 AI 모델을 제공한다. 또한 AI 풀스택을 통해 KT클라우드와 함께 믿음의 기업 전용 AI인 믿음 클라우드팜(Mi:dm CloudFarm)을 패키지로 제공한다. 이를 통해 기업은 별도 개발과 학습 인프라가 없어도 합리적인 비용으로 초거대 AI를 활용한 서비스를 개발할 수 있다. KT는 초거대 AI를 활용하고 학습하고자 하는 모든 기업에게 믿음의 파운데이션 모델(foundation model)을 개방하고 있다. 이를 위해 KT 믿음 스튜디오(KT Mi:dm Studio)라는 전용 포털을 오픈해 고객에게 편리한 개발 환경을 제공한다. 여기서는 KT 믿음의 파운데이션 모델을 직접 선택해 학습 및 서빙할 수 있는 맞춤형 환경이 구성된다.  KT는 LLM(대규모 언어 모델)의 B2B 사업화를 가속하고, 궁극적으로 기업들이 원하는 AI 사업 모델과 응용 서비스의 확산을 이끌어낸다는 계획이다. 또한, 기존 대비 약 27% 가까운 GPU 학습 비용 절감이 가능한 KT 클라우드의 HAC(Hyperscale AI Computing) 서비스, 추론 비용을 기존 대비 50% 절감한 리벨리온(Rebellions)의 NPU 인프라 등 AI 풀스택을 효율적인 AI 개발 환경을 위한 맞춤형 통합 패키지로 함께 제공할 예정이다.     KT는 엔비디아 DGX 슈퍼팟 플랫폼을 기반으로 믿음을 개발했다. 믿음은 대규모의 데이터를 학습한 LLM으로, 설계된 목적 외 다양한 과제에 대한 답변도 생성 가능하다. 또한 목적에 따라 개별의 데이터 수집, 학습, 추론이 필요했던 기존 모델과 달리 하나의 모델로 여러가지 업무를 동시에 수행한다. 엔비디아의 네모 프레임워크(NeMo Framework)는 믿음 파운데이션 모델 학습에 활용됐다. 안전하고 확장 가능한 AI를 지원하는 엔비디아 AI 엔터프라이즈(AI Enterprise) 소프트웨어 제품군에 포함된 네모 프레임워크는 데이터 처리, 학습, 평가, 생성형 AI 모델 추론 등 LLM 파이프라인 전반에 걸친 솔루션이다. 엔비디아 네모는 대규모로 LLM을 신속하게 학습, 사용자 맞춤화, 배포함으로써 투자수익률(ROI)을 향상시킨다. 아울러 멀티 노드와 멀티 GPU 학습으로 처리량을 극대화해 LLM 학습 시간도 줄인다. 엔비디아는 KT와 협력해 최적의 3D 병렬처리(parallelism)를 찾아 초거대 AI인 믿음 학습에 사용되는 계산 처리량을 극대화했다. KT 믿음의 또 다른 장점은 강력한 신뢰 패키지(reliable package)를 제공한다는 것이다. 그간 생성형 AI가 산업 현장에서 폭넓게 사용되는데 큰 장애물로 여겨진 문제점은 ‘AI의 환각 답변(할루시네이션)’이었다. KT는 “검색과 추론, 답변 모든 단계에서 신뢰성을 높일 기술을 개발해 믿음에 적용했으며, 이로 인해 할루시네이션 현상을 일반 생성형 AI 서비스 대비 최대 70% 가까이 줄일 수 있다”고 설명했다. KT는 믿음의 출시를 계기로 기업 전용 LLM 사업화, 새로운 AI 혁신 사업 발굴 등 B2B 시장에 집중할 예정이다. 이후 스타트업 개방 생태계를 통해 초거대 AI 기반 비즈니스 혁신에 나선다는 계획이다. 한편 KT는 AICC와 지니TV, AI 통화비서 등 기존 AI 사업의 인공지능을 믿음으로 고도화하고, KT의 무선 서비스, IVI, 로봇 등에도 초거대 AI를 적용한 사업화를 계획하고 있다. 룰베이스(rule based) 모델을 통해 정해진 답변만 제공하는 것에서 나아가, 앞으로는 생성형 AI의 창의적 답변에 신뢰성 있는 정보를 더해 제공할 수 있을 전망이다. 아울러 믿음을 적용해 내부 업무 프로세스와 고객 서비스도 개선하고, 금융과 통신영역, 지니TV 마케팅, 시니어와 육아상담 등의 영역에서도 믿음을 적용한 업무 프로세스 개선이 진행될 예정이다. KT는 엔비디아 네모 프레임워크를 통해 믿음 서비스에서 파운데이션 모델을 쉽고 빠르고 안정적으로 훈련하고 배포할 수 있을 것으로 보고 있다. 또한, 엔비디아와 협업으로 최첨단 미세 조정과 정렬 기술을 적용해 모델 성능을 향상시켰으며, 특히 양자화같은 엔비디아 TRT-LLM 소프트웨어의 다양한 기술 덕분에 총소유비용(TCO)을 절감할 수 있었다.
작성일 : 2024-01-16
엔비디아, 클라우드부터 엣지까지 대화형 AI 구축 돕는 추론 소프트웨어 ‘텐서RT 8’ 출시
  엔비디아가 텐서RT(TensorRT) 8을 출시했다. 텐서RT 8은 엔비디아의 8세대 AI 소프트웨어로, 언어 쿼리에 대한 추론 시간을 절반으로 줄여 개발자들이 고성능의 검색 엔진, 광고 추천 플랫폼, 챗봇을 개발하도록 돕고, 이를 클라우드부터 엣지에서 제공하도록 지원한다. 텐서RT 8의 최적화 기능은 언어 애플리케이션을 위한 빠른 속도를 제공하여, 많이 사용되는 트랜스포머 기반 모델 중 하나인 BERT-라지(BERT-Large) 모델의 추론을 1.2밀리세컨드(ms) 만에 완료한다. 과거에는 기업들이 모델 크기를 줄이게 되면 결과의 정확성이 크게 떨어졌다. 텐서RT 8을 통해 이제 기업들은 모델 크기는 두 배 또는 세 배로 늘리면서 정확도를 개선할 수 있게 됐다. 트랜스포머 최적화 외에도 텐서RT 8은 두 가지의 주요 기능을 통해 AI 추론의 혁신을 추구한다. 희소성(sparsity)은 효율성을 높이는 엔비디아 암페어(Ampere) 아키텍처 GPU의 새로운 성능 기술로, 개발자가 컴퓨팅 작업을 줄여 신경망을 가속화할 수 있도록 지원한다. 또한, 양자화 인식(quantization aware) 훈련 기능을 통해 개발자는 훈련된 모델을 사용하여 정확도를 유지하면서 INT8 정밀도로 추론을 실행할 수 있는데, 이는 텐서 코어 상의 효율적인 추론을 위해 컴퓨팅 및 스토리지 오버헤드를 줄여준다.     엔비디아의 그레그 에스테스(Greg Estes) 개발자 프로그램 담당 부사장은 “AI 모델은 기하급수적으로 점점 더 복잡해지고 있으며, AI를 사용하는 실시간 애플리케이션에 대한 수요는 전 세계적으로 급증하고 있다. 따라서, 기업들은 최첨단 추론 솔루션을 반드시 구축해야 한다”면서, “최신 버전의 텐서RT는 기업들이 이전에는 불가능했던 수준의 품질과 응답성을 갖춘 대화형 AI 애플리케이션을 제공하도록 돕는 새로운 기능을 지원한다”고 설명했다. 엔비디아에 따르면, 지난 5년 간 헬스케어, 자동차, 금융, 소매를 포함한 다양한 분야의 2만 7500여 개 기업에서 35만 이상의 개발자가 텐서RT를 250만 번 가까이 다운로드했다. 텐서RT 애플리케이션은 하이퍼스케일 데이터센터, 임베디드 혹은 오토모티브 제품 플랫폼에서 활용할 수 있다.
작성일 : 2021-07-21
IoT용 아두이노 나노 33 BLE 보드와 TinyML 기반 딥러닝 처리
BIM 칼럼니스트 강태욱의 이슈 & 토크   이번 호에서는 IoT용으로 개발된 아두이노 나노 33 BLE보드(Arduino Nano 33 BLE 보드)와 TinyML 기반 딥러닝 활용 방법에 대해 소개한다. 아두이노 마이크로 컨트롤러는 20달러의 저가 단일칩 독립형 컴퓨터이다. 웨어러블, 드론, 3D 프린터, 장난감, 스마트 플러그, 전기 스쿠터, 세탁기와 같은 장치에 내장된 컴퓨터로, 이러한 장치를 인터넷으로 연결하면 사물인터넷이 된다.   ■ 강태욱 | 건설환경 공학을 전공하였고 소프트웨어 공학을 융합하여 세상이 돌아가는 원리를 분석하거나 성찰하기를 좋아한다. 건설과 소프트웨어 공학의 조화로운 융합을 추구하고 있다. 팟캐스트 방송을 통해 Engineering digest와 관련된 작은 메시지를 만들어 나가고 있다. 현재 한국건설기술연구원에서 BIM/GIS/FM/BEMS/역설계 등과 관련해 연구를 하고 있으며, 연구위원으로 근무하고 있다. 이메일 | laputa99999@gmail.com 페이스북 | www.facebook.com/laputa999 홈페이지 | https://sites.google.com/site/bimprinciple 팟캐스트 | http://www.facebook.com/groups/digestpodcast   아두이노 커뮤니티는 TensorFlow Lite Micro를 새롭게 개발된 아두이노 나노 33 BLE 센스 보드(Arduino Nano 33 BLE Sense 보드)에 도입했다. 이를 사용하면 다양한 딥러닝 기계학습 애플리케이션을 손가락 만한 아두이노 임베디드 보드에서 실행할 수 있다. 아두이노에 사용하는 보드는 64MHz에서 실행되는 Arm Cortex-M4 마이크로 컨트롤러가 있으며 1MB 플래시 메모리와 256KB RAM이 있다. 아두이노 나노 33 BLE 센스 보드는 손가락 길이보다 작다. 이번 호에서는 아두이노 나노 33 센스 보드를 이용한 딥러닝 처리 방법을 간단히 이야기한다.   1. 아두이노와 TinyML 기계학습(ML : Machine Learning)에는 신경망 모델을 마이크로 컨트롤러와 같은 메모리 제약이 있는 장치에서 실행할 때 사용할 수 있는 기술이 있다. 핵심 단계 중 하나는 부동 소수점을 8비트 정수로 변환해 양자화하는 것이다. 이를 통해 딥러닝 계산을 더 빠르게 실행할 수 있다. 이런 임베디드 컴퓨터에서 기계학습을 처리하는 방법 중 하나가 TinyML이다. TinyML은 텐서플로우로 학습된 모델을 경량화해 메모리 크기가 작은 아두이노와 같은 소형 임베디드 컴퓨터에서 실행할 수 있도록 도와준다.   그림 1   TinyML은 떠오르는 분야이다. 수십억 개의 마이크로 컨트롤러가 모든 종류의 장소에서 다양한 센서와 결합되어 창의적이고 가치있는 TinyML 애플리케이션을 만들 수 있다. 다음 링크를 방문하면, TinyML 커뮤니티 글, 기술, 내용 및 예제를 확인할 수 있다. ■ TinyML community : https://tinyml.org/home/  
작성일 : 2021-03-02
인텔, 세계 5위 슈퍼컴 '프론테라'에 제온 스케일러블 프로세서 탑재
인텔은 미국 텍사스주립대 오스틴 캠퍼스의 텍사스 첨단 컴퓨팅 센터(Texas Advanced Computing Center: TACC), 미국 국립과학재단(National Science Foundation: NSF), 델 테크놀로지 등 과학 및 기술 파트너들과 함께 전세계에서 5번째로 강력한 학술용 슈퍼컴퓨터 ‘프론테라(Frontera)’를 공개했다. 2세대 인텔 제온 스케일러블 프로세서와 인텔 옵테인 DC 퍼시스턴트 메모리가 탑재된 프론테라 시스템은 과학 연구와 혁신을 가속화할 예정이다. 2018년 8월 처음 발표된 프론테라(Frontera)는 2019년 초 구축됐으며, 2019년 6월 세계에서 가장 강력한 슈퍼컴퓨터 상위 500대 리스트(Top 500 list)에서 5위를 차지했다. 2세대 인텔 제온 프로세서 기반의 델 EMC 파워엣지(PowerEdge) 서버가 탑재된 프론테라의 8008 컴퓨팅 노드는 최고 38.75페타플롭(Petaflop: 1초에 1000조회 연산)의 성능을 제공한다. 프론테라는 과학 모델링 및 시뮬레이션, 빅데이터 및 AI를 포함하여 시스템에서 운용되는 다양한 워크로드의 성능 및 메모리 용량 요건을 해결하고자 인텔 옵테인 DC 퍼시스턴트 메모리를 탑재하고 있다.     현재 프론테라를 통해 천체물리, 의료, 양자화학, 에너지 등 다양한 연구 프로젝트가 진행되고 있다. 로체스터공과대는 프론테라를 활용해 중력파에 대한 이해를 넓히는 시뮬레이션을 개발하고 있다. 중성자 항성 통합(Neutron Star Merger: NSM) 과정에서 방출되는 전자기 신호 또는 강력한 에너지 폭발의 원인을 설명하는 것을 목표로 한다. 연구팀은 프론테라를 통해 기존 슈퍼컴퓨터 대비 2배 이상 빠른 속도로 복잡한 시뮬레이션을 수행할 수 있다. 텍사스주립대 오스틴 캠퍼스는 프론테라를 사용해 뇌종양의 일종인 신경교종(gloima)을 더욱 효과적으로 진단 및 치료하고자 뇌종양 발병의 복잡한 생체물리학 모델을 구축하고 있다. 프론테라는 암의 진행 정도를 감지하는 자동 의료 영상 처리를 지원한다. 노스캐롤라이나대 채플힐 캠퍼스는 프론테라로 신경망을 훈련시켜 힘의 장 및 3D 구조에 기반한 분자의 잠재 에너지를 기반으로 정확하게 측정한다. 연구팀은 프론테라 시스템을 통해 연구를 확장하여 24시간 동안 300만 번의 계산 기록을 달성했다. 이 연구는 질병을 치료하기 위해 특정 단백질과 상호작용할 수 있는 새로운 분자를 찾는 ‘신약 개발’에 활용할 수 있다. 미국 버지니아대에서는 신종 바이러스의 매커니즘을 연구하고자 현미경 연구와 바이러스의 컴퓨터 모델을 결합하고, 한 번에 한 개의 원자씩 만든 다음 원자가 어떻게 상호작용하는지 매커니즘을 시뮬레이션하고 있다. 프론테라를 통한 초기 프로젝트는 기존 슈퍼컴퓨터 대비 두 세배 빠른 시뮬레이션을 지원한다. 미국 리하이대는 프론테라의 초기 사용자들 중 한 명으로 유기 광전 물질의 역학을 연구하며, 유연한 차세대 태양광 발전에 효율적인 방법을 개발하고 있다. 인텔 부사장 겸 익스트림 컴퓨팅 부문 총괄 매니저인 트리쉬 댐크로저(Trish Damkroger)는 “프론테라 시스템은 학계 연구에 있어 전례 없는 컴퓨팅 및 AI 역량을 제공할 것이다. 이 새로운 슈퍼컴퓨터는 인텔 기술을 통해 과학 및 공학 분야에서 우주 이해, 의학 치료 및 에너지 수요 등의 연구를 진전시킬 새로운 가능성을 열어준다”고 전했다.
작성일 : 2019-09-10