데이터 분석에 로코드 설루션이 필요한 이유
로코드를 활용하여 엔지니어링 데이터 분석 극대화하기 (1)
이번 호부터 로코드(low code) 설루션을 활용하여 데이터 분석을 활용하는 방법에 대해 설명하고자 한다. 앞으로 4회에 걸쳐 데이터 분석을 위한 로코드 분석 설루션이 어떤 장점을 가지고 있으며 어떻게 활용될 수 있는지 살펴보고, 간단한 데이터 분석 예제를 따라해 보면서 활용하는 방법을 배워보도록 하겠다.
■ 연재순서
제1회 데이터 분석에 로코드 설루션이 필요한 이유
제2회 데이터 분석 로코드 설루션을 배워보자
제3회 로코드를 활용하여 시뮬레이션 데이터 분석을 따라해 보자
제4회 데이터 분석 로코드 설루션을 클라우드로 확장해 보자
■ 윤경렬
현대자동차 연구개발본부 책임연구원
■ 김도희
잘레시아 DX 프로
머신러닝 및 딥러닝 기술의 급격한 발전에 힘입어 최근 몇 년사이에 데이터 분석 시장은 폭발적으로 성장해 왔다. 데이터의 분석을 통해서 패턴을 찾고 이를 통해 행동을 예측할 수 있는 사례는 많은 이들의 관심을 불러 일으켰고, 파이썬(Python) 언어와 관련 라이브러리의 사용법을 배우는 강좌도 덩달아 큰 인기를 누리게 되었다.
이는 지식의 저변 확대와 관련 산업의 활성화라는 측면에서 상당히 좋은 방향이지만, 실제 현장에서는 상대적으로 쉽다고 알려져 있는 파이썬 언어도 교육 강좌를 수강한 이후 막상 본인의 업무에 적용하려고 하면 적지 않은 어려움에 직면하게 된다. 이유는 파이썬 언어의 사용이 어려워서라기보다는 CDS(Citizen Data Scientist : 시민 데이터 과학자)에게는 익숙하지 않기 때문이다. 특히 프로그래밍 언어를 이용한 코딩은 텍스트에 기반한 정보이기 때문에 직관적이지 않고 시행착오를 반복해야 어느 정도 활용 레벨에 올라갈 수 있다.
최근 이러한 문제를 해결하기 위해 로코드 분석 설루션(low code analysis solution)이 대안으로 시도되고 있으며 유의미한 결과를 보여주고 있다.
일반적인 데이터 분석 과정
데이터 분석은 보통 요청을 접수하는 것부터 시작되며, 이 단계에서는 무엇을 분석해야 하는지, 분석의 목적은 무엇인지 명확히 파악하는 것이 중요하다. 분석 대상과 기대하는 결과가 정해지면 그에 필요한 관련 데이터를 확보하게 된다. 이 때 데이터는 내부 시스템, 데이터베이스, 외부 파일 등 다양한 경로를 통해 수집될 수 있다.
다음은 확보한 데이터를 개괄적으로 파악하는 과정인데, 이 때 주요 칼럼과 데이터의 값을 확인하고 누락된 값 또는 이상치가 있는지 등을 점검하게 된다. 데이터의 품질을 빠르게 진단하는 이 단계는 이후 분석의 방향에 큰 영향을 미치게 되기 때문에 아주 중요하다. 이렇게 데이터의 상태를 파악하고 난 뒤에는 분석 전략을 수립하게 되는데, 여기서는 어떤 방식으로 데이터를 다루는 것이 좋을지, 어떤 분석 기법을 적용하는 게 좋을지를 구체적으로 준비하게 된다.
세 번째 단계로는 그 동안 수립한 분석 계획에 따라 본격적인 데이터 정제 작업을 시작하게 된다. 구체적으로는 전처리, 필터링, 파생 변수 생성 등의 작업을 포함하여 분석에 적합한 형태로 데이터를 정돈하는 단계로 볼 수 있다.
다음은 실제 분석을 수행하고 필요한 시각화를 통해 인사이트를 도출하는 것으로 통계 분석, 머신러닝 모델링, 상관관계 파악 등 다양한 방법이 이 부분에 포함된다.
마지막으로 분석 결과는 보고서 형태로 문서화하거나 대시보드로 시각화하여 공유되며, 이는 분석 요청자 또는 조직 내 이해관계자가 쉽게 결과를 활용하여 의사결정을 수행하도록 지원할 수 있다.
요청 접수 → 데이터 확보 → 데이터 검토(칼럼/누락/이상치 확인) → 분석 전략 수립 → 데이터 정제 및 가공 → 분석 수행 및 시각화 → 결과 공유
파이썬 코딩과 로코드 기반 분석의 비교
이제부터 본격적으로 데이터 분석을 진행하기 위해, 우리는 데이터 분석에 대한 요청을 받은 CDS라고 가정을 해 보자. 우리는 유관부서로부터 전력 판매량(Electric Power Sales) 예측에 대한 분석을 요청 받은 상태이고, 언제나처럼 기한은 촉박한 상황이다. 우리에게 주어진 데이터는 발전소 데이터, 기상 정보 데이터, 날짜 및 요일 데이터 등 세 가지로 다행스럽게도 소스 데이터는 엑셀 형태로 정리되어 입수한 상태이다.
우선 ‘발전소 데이터’를 살펴 보면 일자별로 특정 발전소에서 일일 발전량이 자세하게 표시되어 있다. 결국 첫 번째 데이터는 Electricity_sales로, 발전소 명칭, 측정 일자(년, 월, 일), 시간대별 전력 판매량으로 구성되어 있는데 이는 머신러닝에서 예측하게 될 Y값(종속변수)이 포함된 핵심 데이터 영역이다.
그림 1. 발전소 데이터
다음은 ‘기상 정보 데이터’로 일자별로 특정 지역의 날씨 정보가 정리되어 있다. 발전소 위치에 따른 기상 정보로 일시, 평균기온, 강수량, 풍속, 습도, 일사량 등의 정보가 담겨 있다.
그림 2. 기상 정보 데이터
마지막으로 ‘날짜 및 요일 데이터’는 일자별로 요일을 숫자로 매핑한 데이터이다. 날짜 데이터에 매핑 가능한 공휴일 정보가 담겨 있는 데이터 영역이다.
그림 3. 날짜 및 요일 데이터
결국 요청 받은 데이터 분석을 완료하기 위해서는 입수한 데이터에 전처리를 수행하고 이를 기반으로 다중 회귀 분석을 수행하여 머신러닝 예측 모델을 구성해야 한다.
■ 자세한 기사 내용은 PDF로 제공됩니다.
작성일 : 2025-08-04