자율주행의 인지 성능을 위한 데이터셋의 역할 및 요건

자율주행의 인지 성능 향상을 위한 데이터셋 생성 기술 (1)

스스로 보고 생각하고 행동하는 자율주행 기술의 기본 원리는 ‘인지-판단-제어’의 3단계로 나눌 수 있다. 자율주행의 완성도를 높이기 위한 핵심은 ‘정확한 인지’ 데이터를 기반으로 한 정확한 판단과 제어이기 때문에 카메라, 라이다와 같은 정밀 센서를 활용한 정확한 인지 기술의 구현이 선행되어야 한다.

최근 자율주행을 위한 인지 기술로 딥러닝 기반의 객체 인식 기술, 특정 사물을 파악하는 원리를 스스로 파악하는 머신 러닝 기술이 각광받는 가운데, 인지 성능의 개선을 위한 양질의 학습 데이터가 필수적으로 요구되고 있다.

이번 호부터 2회에 걸쳐, 국내 자율 주행 개발 환경에 맞춰, 자율주행의 인지성능을 이끄는 학습 데이터셋(dataset)의 역할 및 요건, 그리고 양질의 학습 데이터셋을 구축하기 위한 모라이 심(MORAI SIM)의 학습 데이터셋 생성 기술을 알아본다.

■ 연재순서

제1회 자율주행의 인지 성능을 위한 데이터셋의 역할 및 요건
제2회 모라이 심의 데이터셋 생성 기술 소개

■ 김은정
모라이 엔지니어링 서비스팀
홈페이지 | www.morai.ai

머신러닝에 필요한 교과서, 데이터셋

데이터셋은 특정한 작업을 위해서 방대하게 수집된 디지털 정보로, AI 학습에 사용된다. 데이터셋은 기압 및 기온과 같은 날씨 정보부터 사진, 음악 등 AI가 학습에 도움이 되는 모든 정보를 포함할 수 있다. 마치 AI가 학습하기 위한 교과서와 같다.

AI 학습에서 비롯된 기술이 바로 머신러닝(machine learning) 혹은 딥러닝(deep learning)이다. 머신러닝은 AI가 데이터와 경험을 통해 스스로 학습하는 기술이다. 머신러닝은 AI가 학습하는 방법에 따라 다음과 같이 분류할 수 있다.

지도 학습(supervised learning) : 정답(label)이 있는 데이터를 학습
비지도 학습(unsupervised learning) : 답이 없는 데이터를 학습(unsupervised learning), 즉 라벨이 없는 데이터를 비슷한 특징끼리 군집화하여 새로운 데이터에 대한 결과를 예측
강화 학습(Reinforcement Learning) : 정의된 주체(agent)가 행동에 대한 보상을 받으며 학습, 보상을 최대화할 수 있는 행동 또는 행동 순서를 선택

머신러닝은 다음과 같이 세 가지 데이터를 통해 AI를 학습시키고 검증하며 평가한다.

학습 데이터(Train dataset) : 인공지능 모델을 학습하는 데 사용(정답 데이터를 포함)
검증 데이터(Validation dataset) : 학습된 모델의 성능을 검증하고 파라미터를 조정하는 데 활용
테스트 데이터(Test dataset) : 최종 학습이 완료된 모델의 성능 평가하는 데에 사용

머신러닝의 궁극적인 목표는 사람의 개입 없이 새로운 데이터에 대한 목표 값을 예측하는 것이기 때문에, 이에 활용되는 데이터는 머신러닝의 시작과 끝이라고 할만큼 매우 중요하다.

정답 데이터 이해하기 : 자율주행의 인지 모델이 학습하는 정답 데이터

정답 데이터는 말 그대로 답이 있는 데이터로, 앞서 설명한 머신러닝의 지도 학습에 사용된다. 예를 들어, AI가 동물 그림을 보고 어떤 동물에 대한 그림인지를 학습하는 경우, 각 그림마다 해당 동물의 이름이 적혀 있다면 이 이름이 정답 데이터이다.

머신러닝은 데이터를 인지하고 분류하는데 활용하는 기술로, 정답 데이터를 사용하면 머신러닝 모델을 설계할 수 있다. 예를 들어, 머신러닝 모델을 ‘y = ax + b’ 함수로 표현했을 때, 입력 데이터 x에 대한 정답 데이터 y를 예측하려면 파라미터 a와 b 값을 알아야 한다. 즉, 학습 결과에 영향을 주는 a와 b 값을 찾으면 머신러닝 모델을 설계할 수 있다. 학습 파라미터를 찾는 과정을 모델 최적화라고 하며, 최적화를 잘 할 수록 ‘예측을 잘한다’ 혹은 ‘모델의 성능이 좋다’라고 표현할 수 있다. 정답 데이터는 이러한 학습 파라미터를 결정 짓는 중요한 요소 중 하나로, 머신러닝 모델에서 반드시 필요하다.

머신러닝을 활용한 자율주행 분야에서 정답 데이터는 차량이 주행 환경을 파악하여 스스로 제어하기까지 중요한 역할을 한다. 정답 데이터는 대상 객체가 속하는 카테고리(클래스) 정보와 대상 객체가 위치하는 좌표 정보를 포함하기 때문에, 자율주행의 인지 모델은 이러한 정답 데이터를 가지고 학습할 수 있다.