• 회원가입
  • |
  • 로그인
  • |
  • 장바구니
  • News
    뉴스 신제품 신간 Culture & Life
  • 강좌/특집
    특집 강좌 자료창고 갤러리
  • 리뷰
    리뷰
  • 매거진
    목차 및 부록보기 잡지 세션별 성격 뉴스레터 정기구독안내 정기구독하기 단행본 및 기타 구입
  • 행사/이벤트
    행사 전체보기 캐드앤그래픽스 행사
  • CNG TV
    방송리스트 방송 다시보기 공지사항
  • 커뮤니티
    업체홍보 공지사항 설문조사 자유게시판 Q&A게시판 구인구직/학원소식
  • 디렉토리
    디렉토리 전체보기 소프트웨어 공급업체 하드웨어 공급업체 기계관련 서비스 건축관련 업체 및 서비스 교육기관/학원 관련DB 추천 사이트
  • 회사소개
    회사소개 회사연혁 출판사업부 광고안내 제휴 및 협력제안 회사조직 및 연락처 오시는길
  • 고객지원센터
    고객지원 Q&A 이메일 문의 기사제보 및 기고 개인정보 취급방침 기타 결제 업체등록결제
  • 쇼핑몰
통합검색 " MLPerf"에 대한 통합 검색 내용이 9개 있습니다
원하시는 검색 결과가 잘 나타나지 않을 때는 홈페이지의 해당 게시판 하단의 검색을 이용하시거나 구글 사이트 맞춤 검색 을 이용해 보시기 바랍니다.
CNG TV 방송 내용은 검색 속도 관계로 캐드앤그래픽스 전체 검색에서는 지원되지 않으므로 해당 게시판에서 직접 검색하시기 바랍니다
인텔, 아크 프로 B-시리즈 GPU 및 제온 6 프로세서의 AI 추론 벤치마크 결과 소개
인텔은 ML커먼스(MLCommons)가 발표한 최신 MLPerf 추론 v5.1 벤치마크에서 P코어를 탑재한 인텔 제온(Intel Xeon) 및 인텔 아크 프로 B60(Intel Arc Pro B60) 그래픽으로 구성된 인텔 GPU 시스템(코드명 프로젝트 배틀매트릭스)의 추론용 워크스테이션이 달성한 결과를 공개했다. 6가지 주요 벤치마크 테스트 결과, 라마(Llama)4 80B 모델 추론 처리량에서 인텔 아크 프로 B60은 엔비디아 RTX 프로 6000 및 L40S에 비해 각각 최대 1.25배 및 최대 4배의 가격 대비 성능 우위를 보였다. 인텔은 “이는 하이엔드 워크스테이션 및 에지 애플리케이션 전반에 걸쳐 새로운 AI 추론 워크로드를 처리하는 인텔 기반 플랫폼의 성능과 접근 우수성을 보여주는 결과”라고 평가했다. 인텔의 리사 피어스(Lisa Pearce) 소프트웨어, GPU 및 NPU IP 그룹 총괄은 “MLPerf v5.1 벤치마크 결과는 인텔의 GPU 및 AI 전략을 강력히 입증하고 있다. 새로운 추론 최적화 소프트웨어 스택을 탑재한 아크 프로 B-시리즈 GPU는 기업과 개발자가 강력하면서도 설정하기 쉽고, 합리적인 가격에 확장 가능한 추론 워크스테이션으로 AI 분야에서 경쟁력을 높여준다”고 밝혔다.     이전까지는 높은 추론 성능을 제공하면서 데이터 프라이버시 침해에서 자유로운 플랫폼을 우선시하는 전문가들이 독점적인 AI 모델에 의한 과도한 구독 비용 부담 없이 LLM(대형 언어 모델)을 배포하기에 필요한 역량을 갖추기 위한 선택지가 제한적이었다. 새로운 인텔 GPU 시스템은 최신 AI 추론 요구사항을 충족하도록 설계되었으며, 풀스택 하드웨어와 소프트웨어를 결합한 올인원(all-in-one) 추론 플랫폼을 제공한다. 인텔 GPU 시스템은 리눅스 환경을 위한 새로운 컨테이너 기반 설루션을 통해 간소화된 도입과 사용 편의성을 목표로 한다. 또한 멀티 GPU 스케일링 및 PCle P2P 데이터 전송으로 높은 추론 성능을 발휘하도록 최적화되었으며, ECC, SRIOV, 텔레메트리(telemetry) 및 원격 펌웨어 업데이트 등과 같은 엔터프라이즈급 안전성 및 관리 용이성을 갖추고 있다. CPU는 AI 시스템에서 계속해서 중요한 역할을 수행하고 있다. 오케스트레이션 허브로서 CPU는 데이터 전처리, 전송 및 전반적인 시스템 조율을 담당한다. 지난 4년간 인텔은 CPU 기반 AI 성능을 지속적으로 향상시켜왔다. P 코어를 탑재한 인텔 제온 6는 MLPerf 추론 v5.1에서 이전 세대 대비 1.9배의 성능 향상을 달성했다.
작성일 : 2025-09-10
HPE, 엔비디아와 협력해 AI 팩토리 포트폴리오 강화
HPE는 전체 AI 수명주기를 지원하고 기업, 서비스 제공업체, 공공기관, 연구기관 등 다양한 고객의 요구를 충족하는 ‘HPE 기반 엔비디아 AI 컴퓨팅(NVIDIA AI Computing by HPE)’ 설루션 포트폴리오를 강화한다고 발표했다. 이번 업데이트는 엔비디아 AI 엔터프라이즈(NVIDIA AI Enterprise)와의 통합을 강화하고, 가속 컴퓨팅을 통해 HPE 프라이빗 클라우드 AI(HPE Private Cloud AI)에 대한 지원을 확대했다. 또한 엔비디아 AI 데이터 플랫폼(NVIDIA AI Data Platform)용 HPE 알레트라 스토리지 MP X10000(HPE Alletra Storage MP X10000) 소프트웨어 개발 키트(SDK)를 새롭게 출시했다. 이와 함께 HPE는 엔비디아 RTX PRO 6000 블랙웰 서버 에디션(NVIDIA RTX PRO 6000 Blackwell Server Edition) GPU 및 엔비디아 엔터프라이즈 AI 팩토리(NVIDIA Enterprise AI Factory)의 검증된 설계에 기반한 컴퓨팅 및 소프트웨어 제품도 출시했다. 엔비디아와 공동 개발한 턴키 방식의 클라우드 기반 AI 팩토리인 ‘HPE 프라이빗 클라우드 AI(HPE Private Cloud AI)’는 통합된 AI 전략을 비즈니스 전반에 확산하고 수익성 높은 워크로드를 지원하며 리스크를 대폭 줄일 수 있도록 지원하는 전용 개발자 설루션을 포함하고 있다. 또한, 이는 AI 프레임워크, 사전 훈련 모델을 위한 엔비디아 NIM 마이크로서비스(NVIDIA NIM microservices) 및 SDK를 포함하는 엔비디아 AI 엔터프라이즈(NVIDIA AI Enterprise)의 피쳐 브랜치(Feature Branch) 모델 업데이트를 지원할 예정이다. 피쳐 브랜치 모델 지원을 통해 개발자는 AI 워크로드를 위한 소프트웨어 기능과 최적화 사항을 테스트하고 검증할 수 있다.  가드레일이 내장된 프로덕션 브랜치 모델에 대한 기존 지원과 더불어, HPE 프라이빗 클라우드 AI는 모든 규모의 기업이 개발자 시스템을 구축하고 이를 프로덕션-레디 에이전틱 및 생성형 AI 애플리케이션으로 확장하는 한편, 기업 전반에 걸쳐 안전한 다계층 접근 방식을 도입할 수 있도록 지원한다. HPE 알레트라 스토리지 MP X10000은 엔비디아 AI 데이터 플랫폼 레퍼런스 설계와 연동되는 SDK를 선보일 예정이다. HPE의 최신 데이터 플랫폼과 엔비디아의 맞춤형 레퍼런스 설계를 연결함으로써, 고객은 에이전틱 AI 구현을 위한 가속화된 성능과 인텔리전트 파이프라인 오케스트레이션을 활용할 수 있다. 이번 X10000 SDK는 HPE의 데이터 인텔리전스 전략 확대의 일환으로, 컨텍스트 기반의 AI-레디 데이터를 엔비디아 AI 생태계에 직접 통합할 수 있도록 지원한다. 이를 통해 기업은 엔비디아 가속 인프라 전반에서 수집, 추론, 훈련 및 지속적인 학습을 위한 비정형 데이터 파이프라인을 간소화할 수 있다. HPE는 SDK 통합을 통해 데이터 가치 극대화, AI 데이터 플랫폼의 효율 향상, 워크로드 요구사항에 맞는 구축 최적화 등의 이점을 얻을 수 있을 것으로 보고 있다. 엔비디아 H100 NVL, H200 NVL 및 L40S GPU를 탑재한 HPE 프로라이언트 컴퓨트 DL380a Gen12(HPE ProLiant Compute DL380a Gen12) 서버는 최근 MLPerf Inference : Datacenter v5.0 벤치마크의 GPT-J, Llama2-70B, ResNet50 및 RetinaNet을 포함한 10개 테스트에서 최고 수준의 성능을 기록했다. 이 AI 서버는 곧 최대 10개의 엔비디아 RTX PRO 6000 블랙웰 서버 에디션 GPU를 탑재하여 출시될 예정이며, 이를 통해 향상된 기능과 함께 에이전틱 멀티모달 AI 추론, 피지컬 AI, 모델 미세조정 뿐만 아니라 디자인, 그래픽 및 비디오 애플리케이션을 포함한 엔터프라이즈 AI 워크로드를 위한 탁월한 성능을 제공할 예정이다. HPE 프로라이언트 컴퓨트 DL380a Gen12는 공랭식 및 직접 수냉 방식(DLC)으로 제공되며, HPE 프로라이언트 컴퓨트 Gen12 포트폴리오에 탑재된 HPE iLO(Integrated Lights Out) 7은 실리콘 RoT(Root of Trust) 기반으로 한 내장된 보호 기능을 갖추고 있다. 또한, HPE 컴퓨트 옵스 매니지먼트(HPE Compute Ops Management)는 사전 알림 기능 및 예측적 AI 기반 인사이트를 통해 서버 환경을 위한 안전하고 자동화된 수명 주기 관리를 지원한다. HPE 옵스램프 소프트웨어(HPE OpsRamp Software)는 AI 워크로드 모니터링을 위한 차세대 엔비디아 RTX PRO 6000 블랙웰 서버 에디션 GPU까지 지원할 수 있는 AI 인프라 최적화 설루션으로 확장됐다. HPE 그린레이크 플랫폼(HPE GreenLake Platform) SaaS(서비스형 소프트웨어) 방식으로 구성되는 이 설루션은 기업 내 IT 팀이 하이브리드 환경 전반에 분산된 AI 인프라를 모니터링하고, 최적화를 통해 AI인프라 운영을 효율적으로 관리, 지원한다. HPE 옵스램프는 풀스택 AI 워크로드에서 인프라 옵저버빌리티, 워크플로 자동화, AI 기반 분석 및 이벤트 관리를 가능하게 하고, 엔비디아의 모든 인프라를 정밀하게 모니터링하는 한편, AI 인프라의 성능과 복원력을 모니터링할 수 있는 세분화된 측정 지표를 제공한다. HPE의 안토니오 네리(Antonio Neri) 사장 겸 최고경영자(CEO)는 “HPE는 엔비디아와의 협업을 통해 고객에게 지속적인 혁신과 실질적인 성과를 제공하고 있으며, 강력한 설루션을 기반으로 공동 개발한 첨단 AI 기술을 통해 기업이 AI 도입의 어느 단계에 있든 기업 전반에서 그 잠재력을 효과적으로 실현할 수 있도록 지원하고 있다”면서, “HPE는 오늘날의 요구를 충족하는 동시에, AI 중심의 미래를 함께 만들어가고 있다”고 밝혔다. 엔비디아의 젠슨 황(Jensen Huang) 창립자 겸 CEO는 “기업은 HPE 시스템을 활용해 최첨단 엔비디아 AI 팩토리를 구축함으로써 생성형 및 에이전틱 AI 시대에 최적화된 IT 인프라를 준비할 수 있다”면서, “엔비디아와 HPE는 데이터센터부터 클라우드, 에지에 이르기까지 인텔리전스를 확장 가능한 새로운 산업 자원으로 활용할 수 있도록 기업을 위한 기반을 함께 만들어가고 있다”고 밝혔다.
작성일 : 2025-05-23
인텔, “최신 AI 추론 벤치마크에서 제온 6의 성능 입증”
인텔은 ML커먼스(MLCommons)가 발표한 최신 MLPerf 추론 v5.0(MLPerf Interference v5.0) 벤치마크에서 인제온 6 P-코어(Intel Xeon 6 with Performance-cores)의 성능을 입증했다고 밝혔다. 6가지 주요 벤치마크에서 진행된 테스트 결과, 제온 6는 이전 세대 프로세서 대비 인공지능(AI) 성능이 1.9배 향상된 것으로 나타났다. AI 도입이 가속화됨에 따라, CPU는 데이터 전처리, 전송, 시스템 오케스트레이션 등 핵심 기능을 관리하는 호스트 노드로서 AI 시스템 운영에 필수 요소로 자리잡고 있다. 인텔은 MLPerf에 서버용 CPU 성능 결과를 제출했는데, 인텔 제온 6 P-코어는 MLPerf 추론 v5.0의 ResNet50, RetinaNet, 3D-UNet 및 신규 GNN-RGAT를 포함한 주요 벤치마크에서 5세대 인텔 제온 프로세서 대비 평균 1.9배 높은 성능을 기록했다. 이런 결과에 대해 인텔은 “제온 6가 AI에 적합한 CPU임을 입증하는 동시에, 소형 언어 모델(SLM)을 위한 경쟁력 있는 대안이 될 수 있음을 보여준다”고 설명했다.     인텔은 지난 2021년 3세대 인텔 제온 프로세서를 MLPerf에 처음 제출한 이후 ResNet50 성능은 15 배 향상됐으며, 소프트웨어 최적화를 통해 GPT-J에서는 22%, 3D U-Net에서는 11% 추가 성능 향상을 달성했다고 소개했다. 또한, “새로운 MLPerf 결과는 OEM(주문자 상표부착 생산) 및 생태계 파트너 설루션 전반에서 인텔 제온의 성능을 입증한다”면서, “AI 워크로드가 엔터프라이즈 시스템과 점점 더 통합됨에 따라, OEM은 고객이 최상의 AI 성능을 구현할 수 있도록 제온 기반 시스템을 우선 채택하고 있다”고 전했다. 인텔은 시스코, 델 테크놀로지스, 콴타, 슈퍼마이크로 등 4개의 주요 OEM 파트너사와 협력해 인텔 제온 6 P코어에 대한 MLPerf 결과를 함께 제출하며 다양한 AI 워크로드와 배포 역량을 선보였다. 인텔의 데이터센터 및 AI 그룹을 임시 총괄하는 카린 엡시츠 시갈(Karin Eibschitz Segal) 부사장은 “이번 MLPerf 벤치마크 결과는 인텔 제온 6가 고성능과 에너지 효율의 완벽한 균형을 제공하는 AI 워크로드에 가장 적합한 중앙처리장치(CPU)임을 입증한다”면서, “세대를 거듭할수록 다양한 AI 벤치마크에서도 꾸준히 성능이 개선되고 있어, 인텔 제온이 여전히 AI 시스템용 CPU 시장에서 선도적인 입지를 유지하고 있음을 보여준다”고 설명했다.
작성일 : 2025-04-04
인텔, 컴퓨텍스 2024에서 ‘AI 에브리웨어’ 구현 가속화하는 기술 소개
인텔은 대만에서 진행된 컴퓨텍스(Computex)에서 데이터센터, 클라우드와 네트워크에서 에지 및 PC에 이르기까지 AI 생태계를 가속화할 기술 및 아키텍처를 공개했다. 인텔은 “이를 통해 고객은 더 많은 처리 능력, 첨단 전력 효율성, 낮은 총소유비용(TCO)을 통해 AI 시스템에서의 가능성을 실현할 수 있다”고 설명했다. 인텔의 팻 겔싱어(Pat Gelsinger) CEO는 컴퓨텍스 기조연설에서 AI 기회를 가속화할 개방형 표준과 인텔의 생태계를 강조하면서, 인텔이 AI 혁신을 이끌고 차세대 기술을 예정보다 앞서 제공하고 있다는 점을 소개했다. 인텔은 6개월 만에 5세대 인텔 제온(5th Gen Intel Xeon) 프로세서를 출시한데 이어 제온 6 첫 제품을 선보였으며, 가우디 AI 가속기를 선공개하고 기업 고객에게 비용 효율적인 고성능 생성형 AI 훈련 및 추론 시스템을 제공했다. 또한, 800만 대 이상의 디바이스에 인텔 코어 Ultra(Intel Core Ultra) 프로세서를 탑재해 AI PC 시대를 열었고, 올해 말 출시 예정인 클라이언트 아키텍처도 공개했다. 디지털 혁신이 가속화됨에 따라 기업들은 노후화된 데이터센터 시스템을 교체하여 비용 절감, 지속 가능성 목표 달성, 물리적 공간 및 랙 공간 활용 극대화하고 기업 전반에 걸쳐 새로운 디지털 역량을 창출해야 한다는 압박에 직면해 있다. 제온 6 플랫폼 및 프로세서 제품군은 이러한 과제를 해결할 목적으로 효율 코어(Efficient -core) 및 성능 코어(Performance-core) 모델이 설계되었으며, AI 및 기타 고성능 컴퓨팅 요구사항부터 확장 가능한 클라우드 네이티브 애플리케이션에 이르기까지 폭넓은 워크로드 및 사용 사례를 처리할 수 있다는 점을 내세운다. E-코어와 P-코어는 모두 공통의 소프트웨어 스택과 하드웨어 및 소프트웨어 공급업체의 개방형 생태계와 호환 가능한 아키텍처를 기반으로 구축되었다. 가장 먼저 출시되는 제온 6 프로세서는 인텔 제온 6 E-코어(코드명 시에라 포레스트)이며, 제온 6 P-코어(코드명 그래나이트 래피즈)는 다음 분기에 출시될 예정이다. 고집적도 코어 및 높은 와트당 성능을 갖춘 인텔 제온 6 E-코어는 전력 비용을 낮추면서 효율적인 컴퓨팅을 제공한다. 향상된 성능 및 전력 효율성은 클라우드 네이티브 애플리케이션 및 콘텐츠 전송 네트워크, 네트워크 마이크로서비스, 소비자 디지털 서비스 등 가장 까다로운 고밀도 스케일아웃 워크로드에 적합하다. 또한, 제온 6 E-코어는 집적도를 높여 랙 수준을 3대 1로 통합할 수 있으며, 미디어 트랜스코딩 워크로드에서 2세대 인텔 제온 프로세서 대비 최대 4.2배의 랙 레벨 성능 향상과 최대 2.6배의 와트당 성능 향상을 고객에게 제공할 수 있다. 더 적은 전력과 랙 공간을 사용하는 제온 6 프로세서는 혁신적인 새로운 AI 프로젝트를 위한 컴퓨팅 용량과 인프라를 확보한다. 인텔 제온 프로세서는 AI 워크로드를 위해 특별히 설계된 인텔 가우디 AI 가속기와 함께 시스템에서 구동한다. 인텔은 “대규모 언어 모델(LLM)의 훈련 및 추론을 위한 MLPerf 벤치마크 결과에서 가우디 아키텍처는 엔비디아의 H100보다 낮은 총 운영 비용으로 빠른 배포 시간을 제공하는 가격 대비 성능의 이점을 제공하여 고객이 원하는 생성형 AI 성능을 제공할 수 있다”고 전했다. 시스템 공급업체(SP)에 제공되는 8개의 인텔 가우디 2 가속기와 범용 베이스보드(UBB)가 포함된 표준 AI 키트는 6만 5000 달러로 동급 경쟁 플랫폼 가격의 3분의 1 수준으로 예상된다. 8개의 인텔 가우디 3 가속기와 UBB가 포함된 키트는 12만 5000 달러에 판매되며, 이는 동급 경쟁 플랫폼 가격의 약 3분의 2 수준이다. 인텔 가우디 3 가속기는 생성형 모델 훈련 및 추론 작업에서 성능 향상을 제공하여 기업이 자체 데이터의 가치를 실현할 수 있도록 지원한다. 인텔은 “8192개 가속기 클러스터를 갖춘 인텔 가우디 3는 동급 규모의 엔비디아 H100 GPU 클러스터에 비해 학습 시간이 최대 40% 빠르며, 64개 가속기 클러스터의 경우 엔비디아 H100의 라마2 700억개(Llama2-70B) 모델에 비해 최대 15% 빠른 학습 처리량을 제공할 것으로 예상된다”면서, “또한 인텔 가우디 3는 라마2 700억개(Llama2-70B) 및 미스트랄 70억개(Mistral-7B)와 같은 LLM을 실행할 때 엔비디아 H100 대비 평균 최대 2배 빠른 추론7을 제공할 것으로 예상된다”고 전했다. 인텔은 데이터센터를 넘어 에지와 PC에서도 AI를 강화하고 있다. AI PC가 2027년까지 신규 PC 중 60%를 차지할 것으로 예상됨에 따라, 인텔은 AI PC를 위한 하드웨어 및 소프트웨어 플랫폼을 발빠르게 구축했다. 100개 이상의 독립 소프트웨어 제작사(ISV)와 협력해 300개의 기능을 제공하고, 코어 울트라 플랫폼 전반에 걸쳐 500개의 AI 모델을 지원하고 있다. 인텔은 AI PC용 차세대 플래그십 프로세서인 루나 레이크(Lunar Lake)의 아키텍처와 관련한 세부 내용을 공개했다. 그래픽과 AI 처리 성능에서 발전을 이루고, 얇고 가벼운 디자인을 위한 전력 효율적인 컴퓨팅 성능에 중점을 둔 루나 레이크는 최대 40% SoC 전력과 3배 이상의 AI 컴퓨팅을 제공한다. 연말 성수기를 겨냥해 2024년 3분기에 시장에 출시할 예정이다. 인텔은 “다른 기업들이 AI PC 시장에 진입할 준비를 하는 동안, 인텔은 이미 대규모로 제품을 공급하고 있으며, 2024년 1분기 동안 경쟁사를 모두 합친 것보다 더 많은 AI PC 프로세서를 공급하고 있다”면서, “루나 레이크는 20개의 PC 제조사를 통해 80개 이상의 다양한 AI PC 디자인을 공급할 예정이며, 올해 4000만 개 이상의 코어 울트라 프로세서 출하 목표 달성을 예상하고 있다”고 전했다. 겔싱어 CEO는 “AI는 업계 역사상 가장 중대한 혁신의 시대를 주도하고 있다. 실리콘의 마법은 다시 한번 기하급수적인 컴퓨팅 성능의 진전을 가져올 것이며 이는 인간의 잠재력의 한계를 뛰어넘고 향후 수년간 전세계 경제를 견인할 것”이라면서, “인텔은 반도체 제조부터 PC, 네트워크, 에지 및 데이터센터 시스템에 이르기까지 AI 시장 기회의 전 영역에 걸쳐 혁신을 창출하고 있는 기업이다. 인텔의 최신 제온, 가우디 및 코어 울트라 플랫폼은 인텔의 하드웨어 및 소프트웨어 생태계의 역량과 결합하여, 미래의 엄청난 기회를 극대화하는 데 필요한 유연하고 안전하며 지속가능하고 비용효율적인 솔루션을 고객에게 제공한다”고 전했다.
작성일 : 2024-06-04
인텔, “5세대 제온 및 코어 울트라 프로세서로 AI PC 시대를 주도한다”
인텔은 데이터 센터부터 클라우드, 네트워크, PC, 에지 등 다양한 인프라에서 AI 솔루션을 구현할 수 있도록 지원하는 5세대 인텔 제온 프로세서와 인텔 코어 울트라 프로세서를 출시했다. 5세대 인텔 제온(Intel Xeon) 프로세서 제품군은 모든 코어에 AI 가속기를 내장해 AI 성능 및 전반적인 성능을 높이고 총소유비용(TCO)을 줄인다. 그리고 노트북용 인텔 코어 울트라(Intel Core Ultra) 프로세서 제품군은 인텔 4 공정 기술 및 40년 만에 최대 규모로 변화한 아키텍처를 기반으로 설계된 프로세서로 높은 전력 효율을 제공한다. 또한, 인텔은 2024년 출시 예정인 차세대 AI 가속기 ‘인텔 가우디3(Intel Gaudi3)’에서 기업의 대규모 언어 모델(LLM) 및 딥러닝 워크로드 실행에 최적화된 성능을 제공할 예정이라고 밝혔다.   ▲ 5세대 인텔 제온 스케일러블 프로세서를 선보인 인텔코리아 나승주 상무   5세대 인텔 제온 프로세서 제품군은 이전 세대 제품 대비 성능과 효율성에서 큰 폭의 개선을 보이면서, 초대형 AI 모델뿐 아니라 에지 및 클라이언트에서 점차 증가하는 민첩한 소규모 AI 모델 수요를 충족시키며 하이브리드 AI 성장을 지원한다. 4세대 제온과 비교해, 새로운 제온 프로세서는 동일한 전력 범위 내에서 평균 21% 향상된 범용 컴퓨팅 성능을 제공하며, 평균 36% 향상된 와트당 성능을 제공해 기업의 광범위한 워크로드 요구사항을 충족시킨다. 인텔은 5년 주기로 업그레이드하는 고객 및 이전 세대에서 업그레이드하는 고객이 최대 77%까지 TCO를 절감할 수 있다고 전했다. 제온은 AI 가속기를 내장한 메인스트림 데이터 센터 프로세서다. 새롭게 출시되는 5세대 제온은 최대 200억 개 파라미터 규모의 대형 모델 상에서 최대 42% 향상된 추론 및 미세 조정 성능을 구현한다. 그 밖에도 MLPerf 훈련 및 추론 벤치마크 결과에서 일관적으로 성능을 향상시켜 온 것으로 나타났다. 제온에 내장된 AI 가속기는 통신 서비스 제공업체, 콘텐츠 전송 네트워크 및 소매·의료·제조를 포함한 다양한 시장을 대상으로 최적화된 소프트웨어 및 향상된 텔레메트리(원격자료송수신) 기술과의 결합을 통해 까다로운 네트워크 및 에지 워크로드를 더욱 손쉽고 효율적으로 배포할 수 있도록 지원한다. 인텔코리아의 나승주 상무는 “5세대 인텔 제온 프로세서는 AI 워크로드를 효율적으로 처리하기 위해 설계된 제품으로, 고객이 클라우드, 네트워크에서 에지에 이르는 광범위한 인프라에서 AI 역량을 갖추도록 지원할 것”라며, “인텔은 AI 인프라 구축 및 배포를 쉽게 만드는 하드웨어와 소프트웨어를 함께 제공함으로써 개발자가 어디서나 AI를 구현할 수 있도록 지원할 것”이라고 말했다.   ▲ 인텔 코어 울트라 프로세서를 선보인 인텔코리아 최원혁 상무   인텔 코어 울트라는 인텔 최초의 클라이언트 온칩 AI 가속기인 ‘신경처리장치(NPU)’가 새로 탑재돼 이전 세대와 비교해 2.5배 높은 전력 효율성을 제공하며, AI 가속 기능을 지원한다. 높은 수준의 GPU 및 CPU가 탑재돼 AI 솔루션 실행 속도를 더욱 가속화시킨다. 인텔 코어 울트라는 2024년 전 세계 노트북 및 PC 제조사의 230여 가지의 제품에 탑재돼 AI 가속 기능을 지원할 예정이며, 인텔은 앞으로 100여 개의 독립 소프트웨어 공급업체(ISV)와 협력해 PC 시장에 AI로 개선된 수백 가지의 애플리케이션을 선보일 계획이다. 인텔은 일반 소비자 및 기업 고객이 자신의 PC에서 이전보다 더 큰 규모로 더욱 광범위해진 AI 기반 애플리케이션의 성능을 활용할 수 있게 될 것으로 보고 있으며, AI의 성능 향상 이점에 힘입어 AI PC가 2028년까지 PC 시장에서 80%의 비중을 차지할 것으로 예상한다. 인텔코리아의 최원혁 상무는 “앞으로 2년 동안 인텔은 전용 AI 가속기를 탑재한 1억 개의 클라이언트 프로세서를 공급할 것이며, 이는 시장에서 가장 많은 물량을 공급하는 것”이라면서, “인텔은 폭넓은 하드웨어와 소프트웨어 파트너사들이 포함된 생태계와 협력해 차세대 컴퓨팅인 AI PC에서 최고의 위치를 점유해 나갈 것”이라고 설명했다. 인텔은 5세대 제온과 코어 울트라가 다양한 분야에서 에지 컴퓨팅의 새로운 활용 사례를 제시할 것으로 전망했다. 에지 컴퓨팅은 컴퓨팅 시장에서 가장 빠르게 성장하고 있으며, 향후 10년 안에 전 세계적으로 4450억 달러(약 578조 550억 원)의 가치를 지닌 시장으로 성장할 전망이다. 특히 에지 및 클라이언트 장치는 데이터 센터와 비교해 1.4배 더 많은 AI 추론 수요를 견인하고 있으며, AI는 가장 빠르게 성장하는 에지 컴퓨팅 워크로드가 됐다. 한편, 인텔은 “개발자가 사용하는 AI 프레임워크에 대한 최적화 기능 및 원API(oneAPI)를 통한 라이브러리 제공, AI 워크로드/솔루션에 하드웨어 가속 기능을 적용한 고급 개발자 도구 등 AI 하드웨어 기술의 접근성과 사용 편의성을 높이기 위해 노력하고 있다”면서, 딥러닝 및 대규모 생성형 AI 모델용 차세대 AI 가속기인 ‘인텔 가우디3(Intel Gaudi3)’가 2024년 출시될 것이라고 밝혔다. 인텔은 경쟁력 높은 TCO 및 가격대와 함께 더욱 향상된 성능 혜택을 바탕으로 가우디 파이프라인을 빠르게 확장하고 있다. 인텔은 생성형 AI 솔루션 수요가 증가하면서 2024년에는 가우디가 주도하는 AI 가속기 제품군을 주축으로 가속기 시장 점유율을 넓히겠다는 전략도 제시했다. 인텔코리아의 권명숙 사장은 “현재 전 산업의 디지털 전환 수요가 고도화되는 가운데, AI 혁신의 가속화로 인해 현재 GDP의 약 15%를 차지하는 디지털 경제의 비중이 앞으로 10년 안에 약 25%로 증가할 것이며, AI는 이를 가속화해 결국엔 GDP의 1/3 규모로 성장할 것”이라면서, “인텔은 효율적인 최상의 AI 성능을 제공하는 하드웨어 및 소프트웨어 솔루션을 지원해 고객이 클라우드, 네트워크는 물론 PC와 에지 인프라까지 AI를 원활하게 구축하고 확장해나갈 수 있도록 지원할 것”이라고 전했다.
작성일 : 2023-12-18
인텔, “4세대 제온 프로세서와 가우디 가속기로 GPT-3 성능 향상”
인텔은 ML커먼스가 인텔 가우디2(Intel Gaudi2) 가속기 및 인텔 어드밴스드 매트릭스 익스텐션(Intel AMX)이 탑재된 4세대 인텔 제온 스케일러블 프로세서의 AI 모델 학습에 대한 업계 표준 MLPerf 트레이닝(MLPerf Training) v3.1 벤치마크 측정 결과를 발표했다고 밝혔다.  최신 ML커먼스의 MLPerf 결과는 지난 6월 발표한 MLPerf 트레이닝 결과보다 강력한 인텔의 AI 성능을 기반으로 한다. 벤치마크 결과에 따르면, 가우디2는 v3.1 학습 GPT-3 벤치마크에서 FP8 데이터 유형을 적용해 두 배 높은 성능을 보여줬다.  인텔 가우디2 및 4세대 제온 프로세서는 다양한 하드웨어 구성으로 우수한 AI 학습 성능을 입증해 점점 더 다양해지는 고객의 AI 컴퓨팅 요구 사항을 해결할 수 있다. 인텔은 “가우디2는 AI 컴퓨팅 요구사항에 있어 가격 대비 높은 성능을 제공한다. 가우디2에 대한 MLPerf 결과는 AI 가속기의 학습 성능이 향상되었음을 입증한다”고 밝혔다.   ▲ 인텔 가우디2 가속기   가우디2는 FP8 데이터 유형 구현으로 v3.1 학습 GPT-3 벤치마크에서 두 배의 성능 향상을 보였다. 6월 MLPerf 벤치마크 대비 학습 시간이 절반 이상으로 단축됐으며, 384개의 인텔 가우디2 가속기를 사용해 153.38분 만에 학습을 완료하기도 했다. 가우디2 가속기는 E5M2 및 E4M3 형식 모두에서 FP8을 지원하며 필요 시 지연 스케일링 옵션도 제공한다. 인텔 가우디2는 BF16을 사용해 20.2분 만에 64개의 가속기로 스테이블 디퓨전(Stable Diffusion) 멀티모달 모델에 대한 학습을 시연했다. 향후 MLPerf 트레이닝 벤치마크에서는 FP8 데이터 유형에 대한 스테이블 디퓨전 성능이 제출될 예정이다. 8개의 인텔 가우디2 가속기에서 BERT와 ResNet-50에 대한 벤치마크 결과는 각각 BF16을 사용하여 13.27분과 15.92분을 나타냈다. 한편, 4세대 제온 스케일러블 프로세서의 ResNet50, RetinaNet 및 BERT에 대한 결과는 2023년 6월 MLPerf 벤치마크에 제출된 기본 성능 결과와 유사하게 나타났다. DLRM dcnv2는 6월에 제출된 새로운 CPU 모델로, 4개의 노드만 사용해 227분의 학습 시간을 기록했다. 인텔은 “4세대 제온 프로세서의 성능을 통해 많은 엔터프라이즈 기업이 범용 CPU를 사용하여 기존 엔터프라이즈 IT 인프라에서 중소 규모의 딥 러닝 모델을 경제적이고 지속적으로 학습할 수 있으며, 특히 학습이 간헐적인 워크로드인 사용 사례에 적합하다”고 전했다. 한편, 인텔은 소프트웨어 업데이트 및 최적화를 통해 향후 MLPerf 벤치마크에서 AI 성능 결과가 더욱 향상될 것으로 예상하고 있다. 인텔은 고객에게 성능, 효율성 및 유용성을 요구하는 동적인 요구 사항을 충족하는 AI 솔루션에 대한 더 많은 선택지를 제공하겠다는 전략이다. 인텔 데이터센터 및 AI 그룹 총괄 산드라 리베라(Sandra Rivera) 수석부사장은 “인텔은 AI 포트폴리오를 지속적으로 혁신하고 있으며, 연이은 MLPerf 성능 결과를 통해 ML커먼스 AI 벤치마크의 기준을 높이고 있다. 인텔 가우디 및 4세대 제온 프로세서는 고객에게 뚜렷한 가격 대비 성능 이점을 제공하며 즉시 사용 가능하다. 인텔의 다양한 AI 하드웨어 및 소프트웨어 구성은 고객에게 AI 워크로드에 맞는 포괄적인 솔루션과 선택지를 제공한다”고 말했다.  
작성일 : 2023-11-10
인텔, "2세대 하바나 가우디2의 딥러닝 학습 성능이 엔비디아 A100을 넘어섰다"
인텔은 MLPerf 산업 벤치마크의 측정 결과, 자사의 2세대 하바나 가우디2 딥 러닝 프로세서가 엔비디아 A100보다 AI 총 학습 시간(Time-to-Train, 이하 TTT) 성능이 높았다고 밝혔다. MLPerf 공동체는 머신러닝 솔루션에 대해 '정확성, 속도, 효율성에 대한 일관적인 측정치'를 제공하는 공정하고 유용한 벤치마크를 설계하는 것을 목표로 한다. 학계, 연구실, 업계의 AI 분야 리더들이 벤치마크를 결정하며, 공급업체 간 공정한 비교를 보장하는 규칙을 정의하고 있다. MLPerf에 결과를 제출하는 경우, 이를 검증하기 위해 한 달 동안의 동료 검토 프로세스를 거친다. 인텔 데이터 센터 팀은 하바나 랩스(Habana Labs)의 가우디 플랫폼을 활용해 딥 러닝 프로세서 기술에 중점을 두었으며, 데이터 과학자 및 머신러닝 엔지니어가 학습을 가속화할 수 있도록 지원했다. 아울러, 몇 줄의 코드로 새로운 모델을 구축하거나 기존 모델을 이전해 생산성을 높이고 운영 비용을 절감할 수 있도록 구현했다.   ▲ 하바나 가우디2 메자닌 카드   하바나 랩스는 8개의 GPU 서버 및 HLS-가우디2 레퍼런스 서버 상에서 가우디1 및 가우디2와 기존 상용 소프트웨어 간 성능을 비교했다. 학습 처리량은 NGC 및 하바나 공용 저장소의 텐서플로우 도커를 사용해 측정했으며, 제조사에서 권장하는 최고의 성능 매개 변수를 채택했다. 하바나 가우디2는 1세대 가우디 제품에 비해 TTT 부문에 있어 발전을 이루었다. 하바나 랩스는 지난 2022년 5월 진행한 MLPerf 벤치마크를 통해 가우디2가 8개의 가속기를 사용하는 비전 및 언어 모델에서 엔비디아 A100-80G 대비 높은 성능을 기록했다고 밝혔다. ResNet-50 모델의 경우, 가우디2는 엔비디아 A100-80G 제품 대비 학습 시간이 36% 단축됐다. 델이 진행한 8개의 가속기 서버에서 진행한 ResNet-50 모델 및 BERT 모델 학습 테스트 결과 가우디2가 엔비디아 A100-40GB 대비 학습 시간을 45% 단축했다. 또한, 가우디2는 1세대 가우디 대비 ResNet-50 및 BERT 모델에서 각각 3배와 4.7배 높은 학습 처리량을 기록했다. 인텔은 해당 프로세서를 기존 16나노 공정에서 7나노 공정으로 전환해 텐서 프로세서 코어 수를 3배 늘렸고, GEMM 엔진 컴퓨팅 용량 증설, 패키지 내 고대역폭 메모리 용량 3배 확대, 대역폭 및 SRAM 크기 2배 확장을 통해 이번 성과를 달성했다. 비전 모델의 경우 가우디2는 독립적으로 작동해 AI 학습에 필요한 데이터 증강을 포함, 압축 영상화를 위한 전반적인 전처리 파이프를 처리할 수 있는 통합 미디어 엔진 형태의 기능을 갖췄다. 하바나 랩스의 에이탄 메디나(Eitan Medina) 최고운영책임자는 “가우디2는 최신 MLPerf 결과로도 입증됐듯이 모델 학습에 있어 업계 선도적인 성능을 제공한다”며 “하바나 랩스는 비용 경쟁력이 높은 AI 학습 솔루션을 제공하기 위해 딥 러닝 교육 아키텍처와 소프트웨어를 지속적으로 혁신하고 있다”고 말했다. 인텔의 데이터센터 및 AI 그룹을 총괄하는 산드라 리베라(Sandra Rivera) 수석부사장은 “가우디2가 출시 한 달 만에 MLPerf 벤치마크에서 뛰어난 성능을 기록해 기쁘다”면서, “인텔은 비전 및 언어 모델 모두에서 동급 최고의 성능을 제공해, 고객에 가치를 제공하고 AI 딥러닝 솔루션 개발을 가속화하도록 지원할 것”이라고 전했다.
작성일 : 2022-07-01
엔비디아, "톱 500 슈퍼컴퓨터의 70%에 가속화·네트워크·AI 등 기술 제공"
엔비디아가 최근 슈퍼컴퓨팅 컨퍼런스 2021(SC21)에서 발표된 전세계 슈퍼컴퓨터 톱 500(Top500) 리스트 중 70%에 이르는 355개 시스템이 엔비디아 기술로 가속되고 있으며, 에너지 효율이 가장 높은 시스템을 꼽는 그린500(Green500)의 상위 25개 시스템 중 23개가 엔비디아 기술로 구동되고 있다고 밝혔다. 톱 500 슈퍼컴퓨터 리스트는 매년 6월과 11월 두 차례 발표된다. 올해 11월에는 후지쯔의 후가쿠(Fugaku)가 톱 500 리스트 1위를 차지했는데, Arm 마이크로 아키텍처를 채택한 후가쿠는 2020년 6월 첫 톱 500 진입부터 네 차례에 걸쳐 1위를 유지하고 있다. 이어서 IBM 파워시스템 기반의 서밋(Summit), 시에라(Sierra), 중국의 선웨이 타이후라이트(Sunway TaihuLight), HPE 크레이(HPE Cray) 기반의 펄머터(Perlmutter) 등이 순위 변동 없이 상위권을 차지했다. 이외에 마이크로소프트의 GPU 가속 애저(Azure) 슈퍼컴퓨터가 10위에 오르면서 클라우드 기반 시스템으로는 최초로 10위권에 진입했다. 엔비디아는 GPU 가속 프로세싱, 스마트 네트워킹, GPU 최적화 애플리케이션, AI와 HPC 융합 지원 라이브러리 등 슈퍼컴퓨팅을 위한 전체 스택을 커버한다는 점을 내세우고 있다. 이런 접근법을 통해 워크로드를 가속하고 과학적 혁신을 이룩할 수 있다는 설명이다. 엔비디아는 GPU의 병렬 처리 기능과 2500개 이상의 GPU 최적화 애플리케이션을 결합해 HPC(고성능컴퓨팅) 작업에 걸리는 시간을 단축할 수 있다는 점을 강조한다. HPC 성능 향상을 위해 엔비디아는 쿠다-X(CUDA-X) 라이브러리와 GPU 가속 애플리케이션을 지속적으로 최적화하고 있다. 또한 엔비디아는 강력한 HPC 성능을 빠르게 활용할 수 있도록 AI와 HPC 소프트웨어의 최신 버전을 NGC 카탈로그의 컨테이너로 제공하고 있다. HPC와 AI를 융합하면 기존 시뮬레이션 방식의 정확도를 유지하면서 더욱 빠른 시뮬레이션이 가능하다. 이런 이점에 주목해 AI로 작업을 가속하는 연구자가 늘고 있으며, HPC와 AI의 결합을 지원하는 엑사스케일(exascale) AI 컴퓨터의 구축이나 HPL-AI와 MLPerf HPC처럼 HPC와 AI 융합 모델의 성능을 측정하기 위한 벤치마크도 등장하고 있다.  엔비디아는 이런 추세에 맞춰 물류, 양자 컴퓨팅 연구, 머신러닝 등 다양한 라이브러리와 HPC용 소프트웨어 개발 키트를 새로 공개했다. 이 모두를 연결하는 것은 3D 워크플로를 위한 가상 세계 시뮬레이션 및 협업 플랫폼인 옴니버스(Omniverse)이다. 엔비디아는 옴니버스 기반의 슈퍼컴퓨터인 E-2(Earth-2)의 구축 계획을 발표했는데, E-2는 지구의 디지털 트윈을 만들어 기후 변화를 예측하는 데에 쓰일 예정이다. 데이터 애널리틱스와 AI, 시뮬레이션과 가상화 전반에서 슈퍼컴퓨터가 담당하는 워크로드가 증가하는 추세다. 이에 따라 크고 복잡한 시스템의 운영에 수반되는 통신 작업을 지원해야 할 CPU의 부담 또한 늘고 있다. 엔비디아는 이러한 프로세스의 일부를 오프로드하여 CPU의 스트레스를 줄이는 데이터처리장치(DPU)를 내세우고 있다. 엔비디아 블루필드(BlueField) DPU는 호스트 프로세서 대신 데이터센터의 인프라 업무를 오프로드하고 관리해 슈퍼컴퓨터를 보다 효율적으로 조정하고 보안을 강화한다. 엔비디아는 블루필드 DPU 아키텍처와 엔비디아 퀀텀 인피니밴드(Quantum InfiniBand) 플랫폼을 결합해 최적의 베어메탈(bare-metal) 성능을 제공하는 한편, 차세대 분산 방화벽과 회선당 데이터 암호화를 지원하는 DOCA 1.2 및 딥 러닝 기반으로 침입자의 활동을 실시간 감지하는 모피우스(Morpheus) 등을 선보였다. 엔비디아 퀀텀-2(Quantum-2)는 400Gbps 인피니밴드 플랫폼으로, 차세대 슈퍼컴퓨터를 클라우드 네이티브에서 더욱 안전하고 효과적으로 활용할 수 있도록 지원한다.
작성일 : 2021-11-19
엔비디아 A100 텐서코어 GPU, 아마존 EC2 P4d 인스턴스에 채택
엔비디아는 아마존웹서비스(Amazon Web Services)의 새로운 EC2 P4d 인스턴스에 엔비디아 A100 텐서코어(Tensor Core) GPU가 탑재된다고 밝혔다. 지난 7월 구글 클라우드, 8월 마이크로소프트 애저가 A100 기반 인스턴스를 공개한데 이어 이번에 AWS에도 A100이 탑재된 것이다. AWS의 새로운 P4d 인스턴스는 머신러닝 훈련 및 고성능컴퓨팅(HPC) 애플리케이션을 위해 높은 성능과 비용 효율성을 제공하는 GPU 기반 플랫폼을 지원한다. 이는 기본 FP32 정밀도 대비 각각 FP16에서 최대 3배, T432에서 머신러닝 모델 훈련 시간을 최대 6배 단축한다. 또한 P4d 인스턴스는 높은 추론 성능을 제공한다. 지난달 MLPerf 추론 벤치마크에서 엔비디아 A100 GPU는 CPU 대비 최대 237배 빠른 성능을 보였다.     각각의 P4d 인스턴스는 8개의 엔비디아 A100 GPU로 구동되며, AWS 울트라클러스터즈(AWS UltraClusters)를 통해 고객은 AWS EFA(Elastic Fabric Adaptor)를 사용하여 한번에 4000개 이상의 GPU에 대한 확장 가능한 온-디맨드 액세스를 얻을 수 있다. 또한, P4d는 400Gbps 네트워킹을 제공하고, NV링크(NVLink), NV스위치(NVSwitch), NCCL, GPUDirect RDMA 등의 엔비디아 기술을 통해 딥 러닝 훈련 워크로드를 더욱 가속화한다. AWS EFA를 통한 엔비디아 GPUDirect RDMA 기술로 CPU와 시스템 메모리를 통과하지 않고도 서버 간 GPU에서 GPU로 데이터를 전송해 낮은 레이턴시(지연시간) 네트워킹을 보장한다. P4d 인스턴스는 아마존 ECS(Amazon Elastic Container Service), 아마존 EKS(Elastic Kubernetes Service), AWS 패러렐클러스터(AWS ParallelCluster), 아마존 세이지메이커(Amazon SageMaker) 등의 AWS 소프트웨어를 활용한다. 이 외에도 P4d 인스턴스는 HPC 애플리케이션, AI 프레임워크, 사전 훈련된 모델, 헬름 차트 및 텐서RT(TensorRT)와 트리톤 추론 서버(Triton Inference Server)와 같은 소프트웨어를 포함한 NGC에서 사용할 수 있는 최적화된 컨테이너형 소프트웨어를 모두 활용할 수 있다.     P4d 인스턴스는 현재 미국 동부와 서부에서 사용할 수 있으며, 곧 이용가능 지역이 추가될 예정이다. 세이빙 플랜(Savings Plans), 리저브드 인스턴스(Reserved Instances)와 함께 온-디맨드 또는 스팟 인스턴스(Spot Instances)로 구매할 수 있다.
작성일 : 2020-11-03