[핫윈도우]빅데이터의 허와 실
더 나은 삶과 기업 경쟁력을 위한 빅데이터 제대로 이해하기
최근 빅데이터(Big Data)에 대한 관심이 커지면서 인터넷이나 뉴스매체에서 빅데이터가 세상을 바꾼다거나 빅데이터를 새로운 오일 산업으로까지 비유하는 것을 많이 볼 수 있다. 하지만 과연 뉴스 매체에서 보도하는 것처럼 빅데이터라는 것이 기존에 존재하지 않았던 100% 새로운 것일까? 이 글에서는 빅데이터에서 부풀려진 부분과 빅데이터 전문가에 대한 정확한 정의, 그리고 빅데이터를 제대로 활용하기 위한 전략에 대해 논의하고자 한다.
■ 정현수 : 한국델켐 기술연구소의 전략기획 본부장이다
이미 오래 전부터 입자 물리학자들과 천문학자들은 우리가 상상하는 것 이상으로 방대한 양의 데이터 분석을 해 오고 있었으며, 심지어는 전자공학에서 다루는 디지털 신호 처리 이론은 현재 빅데이터 분석 카테고리 중 사회 망 분석에 있어서 기존 통계 분석 방식을 보완할 수 있는 대안으로 떠오르고 있다.
또한, 빅데이터 전문가에 대한 수요가 기하급수적으로 늘어나며 그들의 연봉이 미국의 경우 1억 원을 훌쩍 넘어선다는 뉴스 기사도 한번쯤은 봤을 것이다. 그렇다면 어떤 역량을 갖고 있는 사람이‘ 빅데이터 전문가’일까? 사실‘ 빅데이터 전문가’라는 용어 자체가 상당히 포괄적이고 애매모호한 표현이다. 빅데이터라는 단어가 만들어진 미국에서조차 어떤 회사에서는 통계학자를 빅데이터 전문가라고 지칭하며, 또 다른 회사에서는 데이터베이스 엔지니어와 파이썬(Python) 프로그래머 모두를 빅데이터 전문가라고 하며, 카드나 보험업 관련 회사에서는 마케팅 부서에서 데이터 마이닝(Data Mining)을 담당하는 직원을 빅데이터 전문가라고 부르기도 한다.
빅데이터의 특성 상 대용량이나 다양한 형태의 데이터를 저장 및 처리하는 데이터 엔지니어의 중요성이 부각되는 동시에 기존의 통계분석과 데이터 마이닝, 기계학습(Machine Learning) 관련 테크닉을 활용할 줄 아는 데이터 사이언티스트(Data Scientist)의 역할 또한 중요해졌기 때문에 이들 모두를 빅데이터 전문가라고 부르고 있는 것이다. 하지만, 엄밀히 말해서 이들 부류 모두 진정한 빅데이터 전문가라고 부르기에는 무리가 있다. 빅데이터 전문가라고 말할 수 있기 위해서는 다음과 같은 네 가지 기본 조건들을 충족해야 하기 때문이다.
■ 특정 산업 및 비즈니스에 대한 통찰력■ 대용량 데이터 처리를 위한 데이터베이스및 분산처리 시스템에 관한 지식■ 데이터 분석 및 모델링을 위한 수학/통계적 지식■ 데이터 분석 및 모델링과 관련된 코드 작성에 필요한 프로그래밍 스킬
또한, 일부 통계 분석 관련 소프트웨어 패키지도 기존의 기능에 몇 가지 기능만 추가되어 ‘빅데이터 솔루션’이라는 새로운 이름으로 출시되고, 일부 데이터 분석 컨설팅도 ‘빅데이터 컨설팅’이라는 이름으로 포장되어 있는 것도 자주 보이지만 이는 어디까지나 고객들의 현명한 판단이 필요한 부분이다.
이와 같이 빅데이터와 관련된 여러 부분 중 부풀려지거나 명확하게 정의되지 않은 부분이 많지만, 빅데이터가 가져올 수 있는 효용은 무시할 수 없다. 예를 들어 1일 단위 1년치 주가 데이터에서는 보이지 않던 패턴이 1분 단위 1년치 주가 데이터에서는 새롭게 보여질 수 있는 것이고, 해당 주가 데이터와 SNS 등에서 불러올 수 있는 다양한 외부 데이터를 함께 분석하여 통계적으로 유의미한 조절변수(Controlling Factor)를 찾아낼 수 있다면 이는 금융 회사 입장에서 볼 때 상당한 이득이 될 수 있는 것이다.
빅데이터가 대세임에는 틀림없으나 어느 정도 유행을 타고 있다는 사실도 간과하면 안될 것이다. 따라서 이를 맹신하는 것보다 데이터 분석이 어떠한 문제 해결에 효과적으로 활용될 수 있을지 ‘적용 가능성’을 우선적으로 고려하는 것이 중요하다. 즉, 회사가 처한 모든 문제들을 먼저 정의하고 해당 문제들을 해결하기 위해 구체적으로 어떠한 데이터 분석 기법이 적용될 수 있는지 단계적으로 접근하는 자세가 필요한 것이다.
예를 들어 구글의 독감 트렌드(Flu Trend)의 경우, 구글을 통해 검색되는 검색어를 활용하여 거의 실시간으로 전세계 독감 트렌드를 예측한다. 이의 정확도는 미국 질병 통제 센터에서 공개한 인플루엔자 의사환자(ILI) 데이터와 거의 일치할 정도로 상당히 높은 정확도를 보이고 있다. 구글 독감 트렌드는 경험적으로 독감이 유행하기 이전에 이와 관련된 특정 검색어들이 증가한다는 사실에 착안하여 텍스트 마이닝(Text Mining) 기법을 활용한 빅데이터 활용의 성공사례 중 하나로 꼽힌다.
이와 같이 어떤 문제를 해결하기 위해서 대용량의 비정형(Unstructured) 데이터 분석이 필요한 경우 기존의 데이터 분석 방식이 아닌 빅데이터 분석 방식으로 접근해야 하는 것이다. 하지만 어떤 문제를 해결하기 위해 50MB 정도의 수치 데이터 분석만 필요하다고 할 경우, 기존의 통계 분석 방법으로도 얼마든지 유의미한 결과를 얻을 수 있으므로 이 경우는 빅데이터를 위한 기법들을 제외한 기존의 통계 분석 방식으로 접근하는 것이 회사 자원 활용 측면에서 효율적일 것이다.
빅데이터 시대의 도래
최근 들어 ‘빅데이터’가 여기저기서 회자되면서 누구나 한번쯤은 ‘빅데이터’라는 말을 들어봤을 것이다. 그렇다면 빅데이터란 무엇일까?
빅데이터는 기존의 데이터베이스 관리 시스템(Database Management System, DBMS)으로는 저장 및 처리하기 힘들 정도로 절대량이 큰 데이터 셋을 분석 대상으로 삼고, 데이터의 형태가 정형(Structured)인 것 이외에 반정형(Semi-Structured), 비정형(Unstructured)인 것을 포함한다. 이들 중 비정형(Unstructured) 데이터는 일정한 규격이나 형태를 지닌 수치 데이터와 달리 그림이나 영상, 문서처럼 형태가 다른 구조화되지 않은 데이터를 말한다.
최근 빅데이터가 주목 받게 된 배경에는 무어의 법칙에 따른 집적회로(Integrated Circuit, IC)를 구성하는 트랜지스터의 밀도 증가에 따른 저장 가능한 데이터량의 증가와 그에 따른 칩의 지속적인 소형화, 그리고, 데이터를 저장할 수 있는 스토리지 가격의 지속적 하락이 많은 영향을 주었다고 볼 수 있다.
기업 전사적 측면에서 살펴봤을 때 빅데이터는 트랜젝션(Transactions) + 상호작용(Interactions) + 관찰(Observations)의 항목들로 이해할 수 있을 것이다. 즉 기업 솔루션의 발전 방향과 그에 따른 데이터 양의 변화를 살펴봄으로써 이를 확인할 수 있는 것이다. 예를 들어 초창기 전사적 자원 관리(Enterprise Resource Planning, ERP) 시스템에서는 메가바이트 단위의 데이터가 주로 처리되었으며, 이후 고객 관계 관리(Customer Relationship Management, CRM) 시스템에서는 기가바이트 단위의 데이터가, 그리고 웹을 통해서는 테라바이트 단위의 데이터가 처리되었다. 그리고 최근의 빅데이터에서 페타바이트 단위의 데이터가 처리될 수 있다.
다만 기존의 데이터 처리 방식과 달리 빅데이터는 대용량 데이터의 빠른 처리를 위해 분산 코드를 통한 병렬식 처리가 일반적이며, 이를 위해 자바 기반의 맵리듀스 프레임워크(MapReduce Framework)를 제공해주는 하둡 분산 파일 시스템(Hadoop Distributed File System, HDFS)과 같은 오픈 소스 분산 처리기술이 사용된다.
또한, 반정형과 비정형 같은 다양한 형태의 데이터를 보관하기 위해서는 기존의 관계형 데이터베이스 관리 시스템(Relational Database Management System, RDBMS)을 활용할 수 없으므로 NoSQL과 같은 비관계형 데이터베이스를 사용해야 한다. 그 이유는 RDBMS에서는 테이블 형태 관계(Tabular Relation)를 기반으로 데이터가 저장되므로 비정형 데이터를 보관하기에 적합하지 않기 때문이다. 또한, NoSQL은 테이블 스키마(Table Schema)를 사용하지 않고 수평적 확장이 용이하므로 빅데이터와 실시간 웹 애플리케이션에 널리 활용되고 있다. 문서 기반의 MONGODB, 키 값(Key-Value) 기반의 Riak, 컬럼 기반(Column-Based)의 Cassandra, 그래프 기반(Graph-Based)의 Neo4j가 NoSQL의 종류이다.
이와 같이 데이터 처리 시스템의 발전에 따라 저장 및 처리 가능한 데이터의 다양성과 복잡도가 급속도로 늘어나게 되면서 이제 빅데이터의 시대가 도래했다고 말할 수 있는 것이다.
빅데이터는 남의 일?
최근 들어 뉴스나 인터넷 상에서 ‘빅데이터’라는 단어가 자주 등장함에 따라 누구나 한번쯤 빅데이터에 대해 들어봤을 것이다. 그러나 이를 실제로 체감했다는 사람을 만나는 경우는 상당히 드물다. 심지어는 주변에서 ‘빅데이터는 나와는 상관없는 일이야’, ‘빅데이터는 IT 담당자나 프로그래머와 같은 사람들이 상관할 일이지’, ‘빅데이터는 뜬구름 잡는 이야기야’와 같은 의견을 갖고 있는 사람들을 자주 볼 수 있다. 하지만 우리는 빅데이터에 둘러싸여 살고 있다고 해도 과언이 아니다.
우리의 일과를 예로 들어보자. 전 세계 최대 도시 중 하나인 미국 뉴욕시 Taxi & Limousine Commision에서 발행한 2014 Taxicab Fact Book에 따르면, 2014년에 하루 평균 1만 3000대의 택시가 약 48만 5000회에 걸쳐 약 60만명의 승객들을 나르고 있고, 연간 약 1억 7000회의 승하차가 이뤄지고 있다. 이와 같은 엄청난 양의 승하차 및 이동거리 데이터가 택시 미터기에 쌓이고 있는 것이다.
American Civil Liberties Union에 따르면 뉴욕 맨하탄에서만 4000대 이상의 CCTV가 설치되어 있으며, 이를 통해 실시간으로 녹화되는 영상의 양은 실로 방대하다고 할 수 있다. 또한 2013년 U.S. CENSUS에 의하면 뉴욕에 840만 명 이상이 거주하고 있는 것으로 나와있는데, 뉴욕에서 직장을 갖고 있는 상당수의 사람들이 맨하탄 인근 뉴저지에 거주하고 있다는 사실을 감안할 때 맨하탄에서 생활하는 사람들의 핸드폰으로부터 수집될 수 있는 통화량 및 위치 데이터의 양 또한 상당히 방대하다고 할 수 있다.
뿐만 아니라 최근에는 4G와 같은 이동통신 기술 도입과 무료 와이파이를 사용할 수 있는 거리 및 건물들이 늘어남에 따라 누구나 쉽게 휴대폰을 통해 페이스북, 트위터와 같은 SNS를 이용하고 있다. 이를 통해 생성 및 저장되는 사진, 동영상, 텍스트 데이터의 양 또한 기하급수적으로 늘어나고 있다.
누구나 쉽게 드나드는 편의점, 약국, 대형 마트, 레스토랑 등 제품 및 서비스에 대한 결제를 필요로 하는 곳에서도 바코드 스캐너, POS의 보급으로 인해 오래 전부터 구매 관련 데이터가 지속적으로 쌓여오고 있다. 게다가 소형 센서의 발달로 인해 음성, 온도, 진동 등과 관련된 데이터가 실시간 수집이 가능해짐에 따라 실로 우리 모두는 빅데이터에 둘러싸여 산다고 해도 과언이 아니다.
보다 나은 삶을 위한 빅데이터
우리가 빅데이터 속에서 살고 있다면, 이를 분석함으로써 우리의 삶에 직접적인 도움을 줄 수 있을까? 이에 대한 답을 하기에 앞서 몇 가지 사례를 들어 보도록 하겠다.
2014년 봄 미국 메사추세츠주 보스턴에서 개최된 보스턴 마라톤 현장. 결승선 근처에서 두 번의 폭발음과 함께 흰 먼지폭풍이 트리니티 교회, 보스턴 미술관, 존핸콕 타워 등이 모여있는 코플리 광장을 뒤흔들었다. 압력밥솥 원리를 활용한 사제 폭발물로 인해 보스턴 마라톤 테러는 참가자 및 참가자 가족들 중 3명의 사망자와 183명의 부상자라는 큰 상처를 남긴 채 범인 검거와 함께 종료되었다. 그러나 이를 직접 지켜보던 보스턴 시민들뿐만 아니라 전 세계 사람들이 상당히 큰 충격을 받았다. 이 테러 사건으로 인해 최신 데이터 분석 기술을 활용하여 보다 빨리 범인 검거를 해야 한다는 목소리가 나왔고, 기존의 영상 분석 방식이 아닌 새로운 머신 러닝 기법을 활용한 영상 분석 시스템 개발로 이어지게 되었다.
지금까지 CCTV 영상 분석은 주로 안면인식 기법에 의존해 왔으나 이는 빛의 밝기 변화, 얼굴의 각도, 저해상도 등에 민감하게 반응하여 예측 결과 정확도에 많은 문제점을 보여왔다. 따라서 기존의 안면인식 기법이 아닌 안경 착용여부, 옷 색깔/길이, 머리색깔, 콧수염 등 신체의 특징을 통해 원하는 사람을 찾아 낼 수 있는 속성기반 탐지(Attribute-Based Detection) 기법을 활용함으로써 기존의 CCTV 분석의 한계를 극복할 수 있게 되었다. 예를 들어 ‘지난 주 목요일에 붉은색 바지를 입은 사람’ 또는 ‘지난 주 금요일 오전에 안경을 착용하고 파란색 후드를 입고 그랜드 센트럴 역을 지나간 사람’으로 검색 쿼리를 보내면 그에 해당하는 인물들을 CCTV 동영상 속에서 찾아주는 것이다. 이러한 기법은 범죄 용의자 검거, 혹은 실종자를 찾아내는데 크게 활용될 수 있다.
그리고 필자가 속해 있었던 뉴욕 시장실 장기 계획 및 지속 가능성(Long-Term Planning and Sustainability, OLTPS) 부서에서는 The Greener, Greater Buildings Plan(GGBP)이라는 에너지 효율 관련 법과 관련된 빅데이터 분석이 진행되고 있다. GGBP란 미국 내에서 가장 포괄적인 에너지 효율과 관련된 법이다. 뉴욕 면적의 반을 차지하며 뉴욕 전체 탄소 배출량의 45%를 차지하고 있는 대형 빌딩을 대상으로 연간 에너지와 수도 사용 등에 관련된 벤치마킹과 관련 데이터 공개, 에너지 실사 등을 골자로 하고 있다. GGBP는 이전 뉴욕시의 시장이었던 블룸버그에 의해 설립된 뉴욕 시장실 장기 계획 및 지속 가능성 부서에서 주관하고 있는 정책으로, 2030년까지 뉴욕의 지속 가능한 성장을 위해 100만 뉴욕 시민들에게 깨끗한 공기와 물, 그리고 집을 제공하고 도시 전역의 온실가스를 2030년까지 30% 줄이는 것 등 주요 10가지 목표를 삼고 있다.
이와 같이 빅데이터는 우리 삶을 보다 나은 방향으로 이끌어 줄 수 있는 수많은 가능성을 보여주며 실제로 그러한 노력들은 뉴욕을 선두로 하여 런던, 암스테르담 등 전 세계 주요 도시를 거점으로 ‘도시 정보학(Urban Informatics)’이라는 이름으로 급속도로 발전해 오고 있다. 특히 뉴욕의 경우, 데이터 분석의 중요성을 이미 오래 전부터 인식하고 금융 기관에 다양한 데이터를 제공해주는 회사인 Bloomberg L.P.를 설립한 블룸버그 시장에 의해 뉴욕 시장실을 필두로 하여 전략적으로 빅데이터 관련 프로젝트를 진행해 오고 있다.
블룸버그는 시장 재임시절 데이터 분석 부서, 장기 계획 및 지속가능성 부서 등 빅데이터 관련 핵심 기관들을 다수 설립하여 뉴욕 소속 관련 기관들인 뉴욕 경찰국, 긴급상황 관리국, 빌딩 관리국 등 다양한 기관들과의 공조를 통해 뉴욕에서 발생하는, 주민들의 생활과 직접적으로 연계되어있는 다양한 문제들을 해결해오고 있다. 더불어 이러한 데이터에 기반한 문제 해결 방식을 더욱 공고히 하기 위하여 뉴욕시의 응용과학 경쟁력을 키우기 위한‘ 뉴욕 응용과학 계획(Applied Sciences NYC Initiative)’을 추진하게 되었다. 이 계획의 일환으로 뉴욕대학교에 도시 정보학만을 위한 새로운 연구센터를 만들게 되었으며, 해당 연구센터에는 메사추세츠 공과대학, 카네기 멜론 대학, 캠브리지 대학, 캘리포니아 버클리 대학 등 전세계 주요 대학과 힉스 입자(Higgs Boson) 연구로 유명한 유럽 원자 핵 공동 연구소, IBM 왓슨 연구소 등 전세계 주요 연구기관들에서 빅데이터 관련 핵심 연구진들이 포진하여 뉴욕 전체를 실험실 삼아 도시에서 발생하는 수많은 문제들을 해결하기 위해 연구에 매진하고 있다.
그뿐만 아니라 뉴욕에서는 뉴욕 오픈 데이터(NYC Open Data) 플랫폼을 통한 공공부문 데이터의 공개로 인해 다양한 비즈니스 기회 창출의 효과 또한 나타나고 있다. 뉴욕 브루클린에 위치한 덤보(DUMBO) 및 메트로 테크 센터(MetroTech Center) 지역은 신생기업 인큐베이터(Startup Incubator)로의 역할을 톡톡히 해오면서 빅데이터와 관련된 수많은 벤처 기업들의 산실이 되어가고 있으며 이는 일자리 창출로 인한 경제적 효과를 기대할 수 있게 해주고 있다.
기업 경쟁력 재고를 위한 빅데이터
지금까지 빅데이터가 어떻게 우리 삶에 도움을 주는지, 그리고 이를 위해 공공부문에서 어떠한 정책을 갖고 전략적으로 빅데이터 관련 산업을 육성하고 있는지 확인하였다. 그렇다면, 빅데이터가 우리 회사 경쟁력을 키워줄 수 있을까? 이 질문에‘ YES’라는 대답을 듣기 위해서는 다음의 3가지 전제 조건이 충족되어야 한다.
1. 빅데이터에 대한 전반적인 이해가 있는 최고 경영진 또는 프로젝트 리더
빅데이터와 관련된 프로젝트는 수많은 시행착오를 감수할 수 있어야 하며, 경우에 따라서는 효과를 검증하기까지 상당한 시일이 요구된다. 따라서 관련 프로젝트를 진행함에 있어서 강력한 리더십을 필요로 하는 경우가 많다. 또한 강력한 리더십이 나오기 위해서는 관련 프로젝트에 대한 믿음이 있어야 하는데, 그러기 위해서는 최고 경영진이 빅데이터 프로젝트의 한계 및 기대효과에 대한 이해가 충분히 있어야 하는 것이다. 그렇지 않은 경우 빅데이터 프로젝트가 시작조차 되지 않을 수도 있으며, 만일 시작된다 하더라도 도중에 중단될 가능성이 높다. 또한, 어떠한 비즈니스 이슈가 빅데이터 프로젝트에 의해 해결될 수 있을지에 대한 큰 그림을 그릴 수 있는 프로젝트 리더 또는 최고 경영진이 필요하다. 회사가 현재 당면한 문제 또는 앞으로 예측 가능한 문제들 중 데이터 분석을 통해 가장 큰 효과를 볼 수 있는 것이 어떤 것인지에 대한 전체론적인 시각(Holistic View)이 필요하며 이러한 능력을 지닌 리더의 존재는 빅데이터 프로젝트의 시작을 위한 필수 요소인 것이다.
2. 심도 깊은 데이터 분석 기술 및 수많은 데이터 분석 경험을 지닌 데이터 분석가
빅데이터 분석에 사용되는 통계 및 데이터 마이닝 기법은 각각 Top-Down 접근법과 Bottom-up 접근법으로 구분할 수 있으며, 이에 대한 차이를 명확히 아는 데이터 분석가가 필요하다.
빅데이터 프로젝트는 분석 대상 데이터의 절대량 및 형태에 따라 다양한 종류의 자율 학습 및 지도 학습 분석 기법들을 필요로 한다. 우선, 자율 학습에서는 레이블이 없고 트레이닝을 할 필요가 없으므로, 우선적으로 데이터들 사이의 유사성을 매칭시킨 후 군집화(Clustering)를 통해 데이터를 분석하게 된다. 자율 학습에서는 k-means와 Hierarchical Clustering과 같은 군집화, Hidden Markov Models, 그리고 Principal Component Analysis(PCA)가 포함된다. 그리고, 지도 학습에는 Decision Trees, Ensembles(Bagging, Boosting, Random forest), k-NN, Linear Regression, Naive Bayes, Neural Networks, Logistic Regression, Support Vector Machine(SVM), Relevance Vector Machine(RVM)이 포함되며, 인과관계 모델(Causal Modeling)과 Link Prediction을 포함한 Predictive Modeling을 핵심으로 한다. 즉, 지도 학습을 위한 데이터 셋에는 과거 데이터와 트레이닝 데이터, 레이블이 존재하며 과거의 패턴이 미래에도 이어진다는 가정하에 모델이 만들어지며 모든 지도 학습은 트레이닝과 테스팅의 두 단계를 거치면서 모델이 만들어진다.
일반적으로 데이터 셋에 피처가 추가될수록 좋은 모델이 만들어 질 수 있으나 각 피처는 완벽한 랜덤 데이터 셋으로, 예측이 불가능해야 한다. 또한, 모델의 복잡도가 높아질수록 트레이닝 셋의 에러율이 줄어들 수 있으나 이는 과적합의 영향일 수 있으며, 이 경우 미래값에 대한 예상치는 어느 순간부터 현저하게 떨어지게 된다. 따라서, 이러한 과적합을 막기 위해 Cross-Validation, Regularization, Early Stopping, Pruning, Model Comparison과 같은 기법들이 사용된다.
이와 같이 지도 학습 기법만을 가지고 모델을 만들기 위해서도 상당히 많은 기법이 사용될 수 있으며, 주어진 데이터 셋에 적합한 기법을 찾아서 적절한 파라미터 값을 지정하고, 모델 성능 평가를 통해 최적 모델을 만들어내야 하는 복잡한 과정을 거치게 된다. 모델 성능 평가에 있어서 측정 척도로는 Accuracy, AUC, Lift가 사용될 수 있으며 어떠한 측정 척도를 사용해야 하는지는 주어진 문제의 비즈니스 측면에서의 특징, 데이터 셋의 분포 형태 등에 따라서 달라질 수 있다.
따라서 최적 모델을 만들어 내기 위해서는 데이터 모델링에 관한 수많은 경험과 노하우를 지닌 데이터 분석가가 필요한 것이다. 예를 들어 특정 비즈니스 문제 해결을 위한 데이터 마이닝에서는 Support Vector Machine(SVM)이 Factor Analysis, Decision Trees, Logistic Regression model보다 Accuracy가 좋게 나오는 경우가 많으며, 나이와 관련된 데이터는 일반적으로 그룹화하여 분석하는 것이 유리하므로 해당 데이터는 수치 데이터로 보지 않고 범주형 데이터로 보는 것이 좋다. 또한, 상당수 비즈니스 관련 데이터 셋은 불균형한 데이터 셋이 많으므로 Accuracy만 확인해서 최종 모델을 선택할 수 없다. 예를 들어 회계 부정적발 프로젝트를 진행할 경우, 관련된 데이터 셋은 전형적인 불균형한 데이터 셋이므로 Accuracy만을 가지고 모델 평가를 하면 큰 오류가 나올 수 있다.
이처럼 데이터 분석을 통한 모델링은 해당 분석 작업을 담당하고 있는 데이터 분석가의 역량에 따라 최종 모델의 성능이 천차만별로 나올 수 있으므로, 빅데이터 프로젝트가 성공하기 위해서는 최고 역량을 지닌 데이터 분석가가 필수적이다.
3. 회사가 속한 산업과 비즈니스에 관한 해박한 지식과 다양한 경험을 지닌 현업직
일반적으로 수많은 데이터 모델링 경험을 지닌 데이터 분석가라 할지라도 자신의 회사 및 조직이 속해 있는 산업 및 비즈니스에 대해 해박한 지식과 다양한 경험을 갖고 있기는 현실적으로 어렵다. 따라서 특정 산업 내에서 회사가 처한 상황을 올바로 파악하여 특정 문제를 해결하기 위한 데이터 분석 모델을 만들어내기 위해서는 회사가 속해 있는 산업에 대한 깊은 이해도가 필수적이다. 산업 및 비즈니스에 대한 이해를 제외시킨 상태에서 만들어진 최적 모델은 최고 경영진의 의사 결정에 잘못된 정보를 제공하여 회사로 하여금 큰 손실을 입게 하거나 최악의 경우 비즈니스 실패로까지 귀결될 수 있다.
앞서 언급되었던 뉴욕대학교의 빅데이터 연구센터의 경우, 빅데이터의 잠재력을 인지한 전 뉴욕 시장 블룸버그의 강력한 리더십으로 인해 설립될 수 있었으며, 이후 뉴욕에서 발생하는 이슈들을 해결하기 위해 전 세계 주요 대학들과 연구기관에서 물리학자, 수학자들이 대거 영입되었다. 이는 풍부한 데이터 분석 경험을 지닌 데이터 분석가의 전제를 충족시켜주었으며, 해당 연구센터는 뉴욕 산하 여러 기관들과의 파트너십을 통해 뉴욕 운영과 관련된 지식 및 경험을 얻을 수 있었으며, 이를 통해 위에서 언급한 빅데이터 프로젝트가 성공하기 위한 세가지 조건을 모두 충족시킬 수 있었다.
한국델켐의 빅데이터 서비스
현재까지 전 세계적으로 빅데이터 프로젝트가 가장 활발하게 전개되고 있는 분야는 앞서 언급한 공공부문과 마케팅, 그리고 물류부문이라고 볼 수 있다. 하지만, 초경량 소형 센서의 발달로 인해 전 세계 제조 업에서도 빅데이터 프로젝트가 점차적으로 늘어나고 있는 상황이며, 이러한 기술적 흐름에 발맞춰 한국델켐은 국내 제조업계 경쟁력 강화를 위한 빅데이터 프로젝트에 시동을 걸고 있다.
25년 이상을 고객사와 함께하며 국내 금형 제조업에 대한 다양한 지식과 경험을 지닌 한국델켐 컨설팅부서 및 기술개발본부의 역량은 앞서 언급한 빅데이터 프로젝트의 성공 조건 중 세 번째 조건을 만족시켜 줄 것이며, 수많은 데이터 분석 경험을 지닌 데이터 분석가들을 보유한 한국델켐 기술연구소 인원들은 두 번째 조건을 만족시켜 줄 수 있을 것이다. 또한 한국델켐의 차별화된 컨설팅 서비스와 유저 그룹 컨퍼런스 등을 통해 현재 고객사가 당면한 문제들 중 어떠한 항목들이 빅데이터 프로젝트를 통해 해결될 수 있는지를 제시함으로써 앞서 언급한 세가지 조건 중 첫 번째 조건을 만족시켜줌으로써 이를 통해 국내 금형 제조업뿐만 아니라 전세계 제조업 빅데이터 시장에서도 한국델켐이 두각을 나타낼 것으로 기대해본다.
기사 상세 내용은 PDF로 제공됩니다.
작성일 : 2015-07-31