데이터 분석은 기계가 다 해주는 것 아닌가요?

데이터 분석 솔루션과 데이터 분석가의 역할

기존에는 데이터베이스 관리자 정도만 데이터 분석을 했다면, 이제는 기술의 발달로 인해 다양한 분야에서 데이터 분석을 하고 있습니다.

또한 좋은 데이터 분석 솔루션으로 인해, 전문적인 기술 지식(프로그래밍 관련)이 없더라도 쉽게 원하는 데이터를 취합하고, 분석할 수 있게 되었습니다.

하지만 아무리 좋은 데이터 분석 솔루션을 도입해도, 직접 업무를 수행하면서 적지 않은 시행착오를 거쳐야 원하는 결과를 얻을 수 있는 것이 바로 데이터 분석의 영역입니다. 그래서 데이터 분석을 전문적으로 하는 데이터 분석가라는 직군이 생겨났고, 많은 기업에서 해당 직군의 전문가를 채용하고 있습니다.

과연 데이터 분석가가 하는 일은 무엇이며, 기술은 어디까지 이를 도와줄 수 있는 것일까요?

데이터 분석 솔루션이 보여줄 수 있는 결과의 경계 인식

현재의 데이터 분석 솔루션은 고객들과의 접점에서 생성된 데이터를 취합하고 세분화(segmentation)해 인간이 분석하는 걸 도와줍니다. 또한, 온라인과 오프라인으로 나뉜 고객의 행동을 시각화하고 또 통합하기도 합니다. 온라인이라 하더라도 웹사이트와 모바일 앱을 통해 들어온 데이터가 나누어질 수 있습니다.

그런 데이터들을 모으고 분석하는 속도가 가장 최신의 데이터에 맞춰지고 그 갱신속도가 빠른 경우 ‘실시간 분석’이라는 개념으로 불리기도 합니다. 그와는 반대로 일정한 시간마다 생성되는 데이터의 양이 많아질 수록 그 데이터를 패턴화할 수 있어, 그 패턴과 다른 이상 현상이 감지되거나 연관성이 분석될 때는 ‘예측’의 개념으로 모델링을 할 수도 있습니다.

핵심 중 하나는 데이터 분석 솔수션을 통해 ‘무엇을’ ‘언제까지’ ‘왜’하는지에 대한 명확한 인식이고 그 인식이 구체적일수록 분석에 대한 시행착오도 줄어들며 각각의 기능들이 서로 맞물려 여백 없는 고객 데이터 분석이 가능해진다는 것이죠.

데이터 분석 과정에서의 분석가의 역할과 책임

솔루션이라는 이름의 기술적인 무게에 의지하다 보면 그 솔루션을 제어하고 활용하는 사람의 역할이 가려질 때가 많습니다. 그러나 데이터 분석 솔루션에서 무엇보다 중요한 것은 그 솔루션을 움직이는 사람입니다.

그 총체적인 역할을 책임지는 사람이 데이터 분석가라고 할 수 있습니다. 데이터 분석가는 솔루션을 통해 생성되는 리포트가 어떤 의미를 담고 있는지를 파악하고 그 데이터 값을 필요로 하는 다른 부서가 데이터를 쉽게 공유할 수 있도록 의사소통하는데 많은 시간과 노력을 기울이게 됩니다.

그러니 통계 리포트가 만들어지기 전에 그 세부 데이터가 관찰되고 수집되는 영역에서의 상관 관계를 구분하고 추측하는 것 또한 데이터 분석가의 역할이라고 할 수 있습니다.

그 상관 관계를 알아내는 과정에서 데이터 수집의 배경이 어떤지 서로 어떤 관계를 맺고 있는지 현황을 파악하고 추측하는 것 또한 데이터 분석가가 거치는 과정이라고 할 수 있는데요.

그 과정이 명확하고 합리적일수록 해당 부서 혹은 기업 전체의 합리적인 의사 결정이 내려질 수 있다는 점에서 데이터 분석가는 의사결정이 비합리적인 결론에 도달하지 않도록, 데이터의 값과 상관 관계를 엮어 전체적인 비즈니스 사례를 만들어 내야 합니다.

비즈니스 사례를 끌어내기 위한 데이터 분석

예를 들어 쇼핑 애플리케이션을 통해 고객의 데이터를 모으고 분석해야 한다면 어떻게 해야 할까요. 그 고객의 데이터를 측정하고자 하는 영역을 구체적으로 나눠야 할 것입니다.

고객이 특정한 상품을 구매하기 위해 어떻게 그 상품을 알게 되고(유입), 어떻게 찾았고(검색), 어떤 디바이스를 통해 접근하는지(방문), 구매를 위해 회원 가입을 하였는지 기존에 가입된 상태였는지(관여), 실제 결제가 이뤄지는지 이뤄지지 않는다면 어떤 과정에서 고객 여정이 마무리 되는지(목표 달성 여부) 등을 구분하는 것이죠.

구분된 항목들을 토대로 고객의 데이터가 확보된다면 이제 그 측정된 데이터에 ‘왜’라는 의문으로 원인을 파악합니다.

예를 들어 스마트폰에서의 방문자수가 태블릿이나 PC보다 떨어진다면 ‘모바일 앱으로부터의 접근이 어렵다.’ 혹은 ‘모바일을 통해 알려지지 않다’ 의 가설을 세우고 그 가설 여부가 각각 입증될 수 있는지를 파악하는 것이죠. 혹은 장바구니에 상품이 담긴 뒤 실제 결제로 이어져 있지 않는 값이 반복적으로 쌓일 경우 결제 수단에 문제가 있거나 상품의 필요성에 비해 가격이 부담스러울 경우 가설을 세우고 역시 그 가설을 검증하는 것입니다.

이상감지(Anomaly Detection)와 데이터 함정

데이터 분석 솔루션에서 특별한 패턴을 감지하는 것은 매우 중요하지만 어떤 특정한 항목이나 규칙을 찾지 못하면, 분석에 걸리는 많은 시간에 비해 만족스러운 결과를 못 얻을 수 있습니다.

이상(Anomaly)을 감지하기 전에, 정상(normal)적인 상태를 제대로 정의해야 합니다. 그렇지 않으면 무엇이 정상이고 비 정상인지의 경계가 모호해 그 자료 수집의 범위도 늘어나기 때문입니다. 그러므로 특이점을 알아내기 위해서는 기존에 쌓인 데이터가 그만큼 규칙화 되어있는지 또 되어있지 않다면 어떻게 규칙화해야 하는 지를 먼저 고려해야 할 것입니다.

어느 날 어느 디바이스에서 어떤 사이트가 폭발적인 반응을 얻었는데 이것을 흔한 호응으로 여기고 그 원인을 정확히 파악하고 검증해보지 않으면 잘못된 비즈니스 정책을 끌어낼 수 있기 때문입니다.

일례로 특정 제품의 품질이 매우 나빠 비난의 대상이 되고 화제에 오를 경우에도 반응 지수는 폭발적으로 일어날 수 있기 때문입니다. 그런데, 이를 제대로 그 데이터를 이상으로 감지하지 않은 채 후속 상품을 준비한다면 잘못된 분석이 잘못된 예측을 불러 결과적으로 고객과 시장을 잃게 되겠죠.

또 특이점은 흔히 부정적인 상황에 대해서만 고려하기 쉽지만 실제로는 긍정적인 상황도 포함되어야 합니다.

이렇듯 데이터 분석 솔루션에서 그 숫자와 그래프만으로 막연한 마케팅을 하기보다 그 관계를 보다 직관적으로 파악하고 예측하는 데이터 분석가의 역할이 중요하다 할 수 있습니다.