마케팅을 위한 데이터 분석 방법 2- 판별분석, 군집분석 (계층적, 비계층적 군집분석)

2020년 10월 5일 업데이트됨

판별분석과 군집분석


데이터를 분석하는 일에 있어 데이터를 통해 인사이트를 도출하는 일도 중요한 것이겠지만,

첫 단추인 데이터 자체를 ‘분류’하는 행위도 그 이상으로 중요한 일일 것입니다.


판별분석과 군집분석 그런 의미에서 마케터들에게 자신이 분류한 데이터가 제대로 분류된 것인지,

자신이 그리고 있는 그림이 옳은 그림인지 판단할 수 있는 기준을 제시해 줍니다.


판별분석과 군집분석은 흔히 비교되는 두 가지 데이터 분석 방법입니다.

둘의 공통점으로는 앞서 밝힌 바와 같이 대상들을 일정 기준에 따라 분류한다는 점입니다.


그러나, 둘을 가르는 결정적인 차이점 또한 존재합니다. 판별분석의 경우는 사전에 집단이 이미 나누어져 있고 집단 사이의 차별적인 특성을 발견하는 것이 그 핵심입니다.


반면에, 군집분석은 사전에 집단이 나누어져 있지 않으며, 차별점에 주목하기 보다는 유사점에 주목해 서로 비슷한 대상들을 그룹화 한다는 점에서 판별분석과 그 차이가 존재합니다.



판별분석


판별분석은 종속변수 그룹이 두개인 경우에는 ‘두 집단 판별분석’을 실행할 수 있으며, 종속변수 범주가

세 개 이상인 경우에는 ‘다중 판별분석’을 실행할 수 있습니다. 이와 같은 판별분석을 실시하기 위해서는

두 가지의 가정이 필요합니다.


첫번째로 독립변수들이 다변량 정규분포를 구성하고 있어야 합니다.

여기서 다변량 정규분포란 우리에게 익숙한 정규분포가 다차원 공간으로 확장된 것을 의미합니다.


두번째로는 종속변수에 의해 범주화 되는 집단들의 분산-공분산행렬이 일치해야 합니다.

분산-공분산행렬이 동질성을 띄어야 한다라는 것에 의미는 또래 집단 내에 변수들 간의 공분산 정도가

같아야 함을 의미합니다. 이 조건은 표본 수가 적을수록 더욱 엄격하게 따라야 하는 가정입니다.


판별분석을 사용하게 된다면, 마케터들은 재화에 대한 개인의 구매행동을 분석해서 일정 기준에 따라

라이트 유저, 뉴트럴 유저, 헤비 유저 등으로 분류할 수 있게 됩니다.


여기서 각 집단에 따라 구매 전환율을 높이거나 재방문율을 높일 수 있는 방안에 대해 차별적인 전략을

수립하여 마케팅 효율을 극대화할 수 있습니다. 판별 분석의 장점은 여러가지가 있습니다.


소비자의 행동을 예측할 수 있게 되고, 분석을 기반으로 머신 러닝 시스템을 구축할 수도 있으며, 마케팅 가설을 세우고 실행하는 데에 있어 그 의사결정의 속도 또한 올라가게 됩니다.


군집분석


군집분석은 전에 언급한 바와 같이 판별분석과 비슷한 듯 다르기도 합니다. 군집분석에 있어 가장 기본적인 가정은 같은 군집에 속한 객체들의 특성은 서로 동질적이며, 군집 외의 속한 객체들과는 상이해야 합니다.


각각의 군집은 군집에 속한 객체들의

평균값으로 나타낼 수 있으며,

이를 Profile이라고 부릅니다. 최적의 군집분석이란 이 Profile이 집단 내에 객체들과는 최대한 가깝게,

그리고 집단 외의 객체들과는 최대한 멀게 하는 것입니다.


마케팅 환경에서는 이 군집분석을 활용하게 된다면 판별분석과 마찬가지로 고객을 일정 기준에 따라

분류하고, 이 분류에 속한 고객들을 대상으로 효과적인 마케팅 전략을 수립할 수 있게 됩니다.


단순한 고객 세분화은 그저 마케터가 설정한 기준에 따라 분류가 이루어지기 때문에 통계적이지 못하고,

따라서 마케터의 역량이나 경험에 지나치게 의존하는 경향이 짙습니다.


그러나, 군집분석에 경우는 엄격한 기준에 따라 개인의 유사성을 찾아내고 이 유사성을 기반으로 개인들을 군집화 하기 때문에 상대적으로 인지적 오류로부터 자유롭습니다.


예를 들어, 아이스 커피를 판매한다고 가정해 보겠습니다. 세분화의 경우 지난 10년간 아이스 커피를 가장 많이 구매하는 고객이 20대 남성 고객이라는 연구 결과가 있었다면, 연령대의 남성들을 상대로 마케팅을 전개하게 됩니다.


그러나, 군집화의 경우 단순히 연령이나 성별 등에 따라 개인을 분류하는 것이 아니라, 도심공항타워에

직장을 둔 남색 바지를 입은 직장인 남성과 같이 특수한 군집에 따라 개인을 분류하고, 그 군집으로부터

전에 보지 못한 새로운 마케팅 세그먼트를 발견할 수 있기 때문에 더욱 더 세밀한 마케팅 메시지를 전달할 수 있게 됩니다.


마무리


전편에서 다루었던 데이터 분석 방법에 더하여 이번에는 판별분석과 군집분석에 대해 알아보았습니다.


판별분석과 군집분석을 실행하기 위해서는 까다로운 통계학적 수식과 이론을

충분히 인지하고 있어야 하지만, 이 둘의 정의를 이해하고 이 둘을 통해 어떤

방식으로 한층 개인화된 마케팅 전략을


수립하게 되는지에 대해 이해하는 것만으로도, 과거의 경험 의존적인 마케팅 방식으로부터 한 발자국 멀어질 수 있는 첫 걸음이 되리라 생각합니다. 세상은 넓고 그만큼 자동화된 마케팅 서비스를 제공하는 업체의 숫자 또한 늘었으나, 그 중에서 마케터들이 부디 AIM 연구소와 담대한 동행을 함께 하기를 바라며 글을 마칩니다.



참조:

-Discriminant Analysis, https://www.sciencedirect.com/topics/medicine-and-dentistry/discriminant-analysis (Sciencedirect)

-Discriminant Analysis, https://www.researchoptimus.com/article/what-is-descriminant-analysis.php (Research Optimus) 

-Cluster Analysis, https://www.statisticssolutions.com/directory-of-statistical-analyses-cluster-analysis/ (Statistics Solutions) 

-군집 분석 -Clustering, https://intothedata.com/02.scholar_category/data_mining/clustering/ (인투더데이터)

 AI마케팅연구소ㅣ [06164] 서울특별시 강남구 테헤란로87길 36 3층(삼성동, 도심공항타워)

AI@allisonpr.com

 

Copyright © AI마케팅연구소. All rights reserved.