BIM 칼럼니스트 강태욱의 이슈 & 토크

딥러닝과 학습 데이터 오픈소스

이번 호에서는 딥러닝을 위해 필요한 학습 데이터 오픈소스 사례를 살펴본다. BIM과 같은 엔지니어링 분야에서도 이러한 학습 데이터를 구축하려는 시도를 통해 급속히 발전하고 있는 딥러닝 분야에서 유의미한 결과를 얻을 수 있을 것으로 보인다.

최근 이슈인 딥러닝(Deep Learning)이 유명해진 계기는 신경망 학습에 필요한 오픈 데이터를 무료로 제공한 이미지넷(ImageNet)의 역할이 컸다. 딥러닝을 위해서는 데이터와 데이터 의미를 가르키는 레이블(label)이 필수적이다. 수많은 데이터에 대한 의미를 학습시키기 위해서 데이터를 정규화하고, 레이블링하는 작업은 매우 많은 시간이 소요된다.
일단 학습에 필요한 학습용 데이터세트가 준비되어 있다면, 다양한 딥러닝 모델을 이용해 신경망을 학습하여 신경망 가중치(Weight Factor)와 파라미터를 얻는 것은 그리 어렵지 않다. 딥러닝 분야의 대가들은 많은 노력을 들인 학습용 데이터를 오픈소스로 공개함으로써 딥러닝 분야에 큰 공헌을 하였으며, 많은 연구자들이 이를 이용해 발전된 알고리즘을 개발하고 공유함으로써 기술이 급격히 발전하였다.
이번 호에서는 딥러닝을 위해 필요한 학습 데이터 오픈소스 사례를 살펴본다. BIM과 같은 엔지니어링 분야에서도 이러한 학습 데이터를 구축하려는 시도가 있어야, 급속히 발전하고 있는 딥러닝 분야에서 유의미한 결과를 얻을 수 있다고 생각한다.

1. MNIST
MNIST는 딥러닝 학습 시 Hello world 프로그램과 같은 데이터세트이다.
얀 르쿤(Yann LeCun)이 공유하고 있는 MNIST는 딥러닝 신경망 학습에 필요한 필기체 숫자 이미지 6만 개의 훈련 집합과 1만 개의 테스트 집합을 제공한다. 이를 이용해 패턴 인식 연구에 필요한 데이터 수집 노력을 줄일 수 있다.
이 이미지는 원래 흑백이었지만, 20 x 20 픽셀 크기에 맞춰 정규화된 그레이 이미지로 처리되었다. 이를 위해, 안티 앤리어싱 기술을 적용해 이미지 픽셀 중심을 계산하고, 28x28 크기로 변환하였다.
MNIST 데이터는 SD-3와 SD-1이 있으며, SD-3이 노이즈가 별로 없고 쉽게 인식할 수 있다. 참고로 SD-1은 500명의 사람이 쓴 5만 8527개의 이미지가 포함되어 있다.
MNIST 파일 형식은 MSB(Most Significant Bit : 가장 큰 숫자를 왼쪽에 기록하는 자리 표기법) 방식으로 저장된다.

▲ MNIST 필기체 학습용 데이터세트

2. CIFAR
CIFAR-10과 CIFAR-100은 8000만 개의 소형 이미지 데이터세트이다. 이 데이터는 알렉스 크리제브스키(Alex Krizhevsky), 비노드 나이르(Vinod Nair), 제프리 힌튼(Geoffrey Hinton)이 작성했다. 이 이미지를 이용해, 다양한 머신러닝 기법이 테스트되고 있다. 구글의 텐서플로(Tensor Flow)에는 기본 예제로 포함되어 있기도 하다.
CIFAR-10은 6만 개(32x32)의 컬러 이미지, 10개의 클래스로 구성된다. 여기에는 5만 개의 훈련 이미지와 1만 개의 테스트 이미지가 있다.
데이터세트는 5개의 훈련 배치 세트와 한 개 테스트 배치 세트로 구분되며, 각 세트는 1만 개의 이미지이다. 테스트 배치 세트는 1000개의 선택된 임의 이미지가 포함되어 있다. 훈련 배치 세트는 각 클래스 별로 5000개의 이미지로 구성된다.

▲ CIFAR 이미지 데이터세트

딥러닝과 학습 데이터 오픈소스

ㆍ업체 홍보

ㆍ인기