본문 바로가기

군집화3

# 17. 군집화 평가 지표 (실루엣 계수, 응집도) 이번 포스트에서는 저번 포스트에서 다루었던 군집화 알고리즘이 잘 수행되었는지 판단하기 위한 지표에 대해 알아본다. 이번에 알아볼 지표로는 두 가지로 실루엣 계수와 응집도가 있다. 실루엣 계수 (silhouette score) 실루엣 계수는 각각의 데이터가 해당 데이터와 같은 군집 내의 데이터와는 얼마나 가깝게 군집화가 되었고, 다른 군집에 있는 데이터와는 얼마나 멀리 분포되어 있는지를 나타내는 지표이다. 실루엣 계수가 가질 수 있는 값은 -1~1이며, 1에 가까울수록 군집화가 잘 되었음을 의미한다. 하지만, 데이터 하나에 대한 실루엣 계수만 좋다고 군집화가 잘 이루어졌다고 일반화를 할 수 없다. 각 군집별 데이터의 수가 고르게 분포되어야 하며, 각 군집별 실루엣 계수 평균값이 전체 실루엣 계수 평균값에 .. 2021. 12. 21.
# 16. 군집화 알고리즘 (K-Means Clustering) 이번 포스트에서는 저번 포스트에서 다루었던 군집화 알고리즘 중 대표적인 방법인 K-Means Clustering에 대해 알아보겠다. K-Means Clustering 알고리즘은 이름에서 알 수 있다시피 K개의 군집을 정하며, 데이터들의 평균 중심(거리의 평균)을 각 군집의 중심점으로 삼는다. STEP 1 : 군집의 갯수만큼 임의의 위치에 중심점을 정한다. STEP 2 : 각 데이터를 가장 가까운 중심점에 해당하는 군집에 소속시킨다. STEP 3 : 각 군집에 속해있는 데이터들의 평균 거리를 갖는 중심위치로 군집의 중심점을 이동시킨다. STEP 2~3의 과정을 반복하고, 중심점의 위치에 변화가 없을 경우 군집화 과정을 멈춘다. 알고리즘 자체는 단순하지만, 피처 수가 많아지면 기하급수적으로 느려지는 현상이 .. 2021. 12. 9.
# 15. 군집화 알고리즘 (Clustering Algorithm) 이번 포스트에서는 비지도 학습 방법 중 군집화에 대해 알아보고, 군집화 알고리즘 유형에 대해 알아보겠다. 그렇다면 군집화는 무엇을 의미할까? 군집화는 다른 그룹보다 특성이 비슷한 데이터들끼리 그루핑하는 것을 의미한다. 예를 들어, 이 글을 읽는 독자가 사장이라고 가정해보자. 사장이 고객의 등급에 따른 새로운 비즈니스 전략을 세우려고 한다. (예를 들면, VVIP, VIP, 일반) 이 때, RFM (Recency, Frequency, Monetary) 분석을 통해 고객의 등급(=군집)을 분류할 수 있다. Recency : 고객이 얼마나 최근에 구매하였는가? Frequency : 고객이 얼마나 자주 구매하였는가? Monetary : 고객이 얼마나 많이(크게) 구매하였는가? 즉, 이 세 가지 특성을 통해 클러.. 2021. 12. 6.