• 회원가입
  • |
  • 로그인
  • |
  • 장바구니
  • News
    뉴스 신제품 신간 Culture & Life
  • 강좌/특집
    특집 강좌 자료창고 갤러리
  • 리뷰
    리뷰
  • 매거진
    목차 및 부록보기 잡지 세션별 성격 뉴스레터 정기구독안내 정기구독하기 단행본 및 기타 구입
  • 행사/이벤트
    행사 전체보기 캐드앤그래픽스 행사
  • CNG TV
    방송리스트 방송 다시보기 공지사항
  • 커뮤니티
    업체홍보 공지사항 설문조사 자유게시판 Q&A게시판 구인구직/학원소식
  • 디렉토리
    디렉토리 전체보기 소프트웨어 공급업체 하드웨어 공급업체 기계관련 서비스 건축관련 업체 및 서비스 교육기관/학원 관련DB 추천 사이트
  • 회사소개
    회사소개 회사연혁 출판사업부 광고안내 제휴 및 협력제안 회사조직 및 연락처 오시는길
  • 고객지원센터
    고객지원 Q&A 이메일 문의 기사제보 및 기고 개인정보 취급방침 기타 결제 업체등록결제
  • 쇼핑몰
BIM 칼럼니스트 강태욱의 이슈 & 토크
2017-11-30 1,295 26

딥러닝과 학습 데이터 오픈소스

이번 호에서는 딥러닝을 위해 필요한 학습 데이터 오픈소스 사례를 살펴본다. BIM과 같은 엔지니어링 분야에서도 이러한 학습 데이터를 구축하려는 시도를 통해 급속히 발전하고 있는 딥러닝 분야에서 유의미한 결과를 얻을 수 있을 것으로 보인다.


최근 이슈인 딥러닝(Deep Learning)이 유명해진 계기는 신경망 학습에 필요한 오픈 데이터를 무료로 제공한 이미지넷(ImageNet)의 역할이 컸다. 딥러닝을 위해서는 데이터와 데이터 의미를 가르키는 레이블(label)이 필수적이다. 수많은 데이터에 대한 의미를 학습시키기 위해서 데이터를 정규화하고, 레이블링하는 작업은 매우 많은 시간이 소요된다.
일단 학습에 필요한 학습용 데이터세트가 준비되어 있다면, 다양한 딥러닝 모델을 이용해 신경망을 학습하여 신경망 가중치(Weight Factor)와 파라미터를 얻는 것은 그리 어렵지 않다. 딥러닝 분야의 대가들은 많은 노력을 들인 학습용 데이터를 오픈소스로 공개함으로써 딥러닝 분야에 큰 공헌을 하였으며, 많은 연구자들이 이를 이용해 발전된 알고리즘을 개발하고 공유함으로써 기술이 급격히 발전하였다.
이번 호에서는 딥러닝을 위해 필요한 학습 데이터 오픈소스 사례를 살펴본다. BIM과 같은 엔지니어링 분야에서도 이러한 학습 데이터를 구축하려는 시도가 있어야, 급속히 발전하고 있는 딥러닝 분야에서 유의미한 결과를 얻을 수 있다고 생각한다.


1. MNIST
MNIST는 딥러닝 학습 시 Hello world 프로그램과 같은 데이터세트이다.
얀 르쿤(Yann LeCun)이 공유하고 있는 MNIST는 딥러닝 신경망 학습에 필요한 필기체 숫자 이미지 6만 개의 훈련 집합과 1만 개의 테스트 집합을 제공한다. 이를 이용해 패턴 인식 연구에 필요한 데이터 수집 노력을 줄일 수 있다.
이 이미지는 원래 흑백이었지만, 20 x 20 픽셀 크기에 맞춰 정규화된 그레이 이미지로 처리되었다. 이를 위해, 안티 앤리어싱 기술을 적용해 이미지 픽셀 중심을 계산하고, 28x28 크기로 변환하였다.
MNIST 데이터는 SD-3와 SD-1이 있으며, SD-3이 노이즈가 별로 없고 쉽게 인식할 수 있다. 참고로 SD-1은 500명의 사람이 쓴 5만 8527개의 이미지가 포함되어 있다.
MNIST 파일 형식은 MSB(Most Significant Bit : 가장 큰 숫자를 왼쪽에 기록하는 자리 표기법) 방식으로 저장된다.


MNIST1.jpg
▲ MNIST 필기체 학습용 데이터세트


2. CIFAR
CIFAR-10과 CIFAR-100은 8000만 개의 소형 이미지 데이터세트이다. 이 데이터는 알렉스 크리제브스키(Alex Krizhevsky), 비노드 나이르(Vinod Nair), 제프리 힌튼(Geoffrey Hinton)이 작성했다. 이 이미지를 이용해, 다양한 머신러닝 기법이 테스트되고 있다. 구글의 텐서플로(Tensor Flow)에는 기본 예제로 포함되어 있기도 하다.
CIFAR-10은 6만 개(32x32)의 컬러 이미지, 10개의 클래스로 구성된다. 여기에는 5만 개의 훈련 이미지와 1만 개의 테스트 이미지가 있다.
데이터세트는 5개의 훈련 배치 세트와 한 개 테스트 배치 세트로 구분되며, 각 세트는 1만 개의 이미지이다. 테스트 배치 세트는 1000개의 선택된 임의 이미지가 포함되어 있다. 훈련 배치 세트는 각 클래스 별로 5000개의 이미지로 구성된다.


MNIST2.jpg
▲ CIFAR 이미지 데이터세트


강태욱 laputa99999@gmail.com


출처 : CAD&Graphics 2017년 12월호

포인트 : 1,000P (정기구독자 무료 다운로드)

© 캐드앤그래픽스 무단전재 및 재배포금지, 기사 게재 희망시 당사 문의
  • kakao

댓글 0

로그인 후 댓글을 달수있습니다
등록된 코멘트가 없습니다.