본문 바로가기

사이킷런2

# 16. 군집화 알고리즘 (K-Means Clustering) 이번 포스트에서는 저번 포스트에서 다루었던 군집화 알고리즘 중 대표적인 방법인 K-Means Clustering에 대해 알아보겠다. K-Means Clustering 알고리즘은 이름에서 알 수 있다시피 K개의 군집을 정하며, 데이터들의 평균 중심(거리의 평균)을 각 군집의 중심점으로 삼는다. STEP 1 : 군집의 갯수만큼 임의의 위치에 중심점을 정한다. STEP 2 : 각 데이터를 가장 가까운 중심점에 해당하는 군집에 소속시킨다. STEP 3 : 각 군집에 속해있는 데이터들의 평균 거리를 갖는 중심위치로 군집의 중심점을 이동시킨다. STEP 2~3의 과정을 반복하고, 중심점의 위치에 변화가 없을 경우 군집화 과정을 멈춘다. 알고리즘 자체는 단순하지만, 피처 수가 많아지면 기하급수적으로 느려지는 현상이 .. 2021. 12. 9.
#0. Scikit-learn의 주요모듈 예제 데이터 sklearn.datasets 사이킷런에 내장되어 있는 예제 데이터셋 피처 처리 sklearn.preprocessing 데이터 전처리에 필요한 다양한 가공 기능 제공 (원핫인코딩, 정규화, 스케일링..) sklearn.feature_selection 알고리즘에 큰 영향을 미치는 피처를 우선순위대로 셀렉션 작업을 수행하는 다양한 기능 제공 sklearn.feature_extraction.text sklearn.feature_extraction.image 텍스트나 이미지 데이터의 벡터화된 피처 추출 ex) 텍스트 데이터의 Count vectorizer, tf-idf vectorizer 피처 처리 & 차원 축소 sklearn.decomposition 차원 축소와 관련한 알고리즘 ex) PCA, N.. 2021. 4. 1.