본문 바로가기

MachineLearning14

# 1. 교차 검증 (K-폴드 교차 검증) 교차 검증은 오버피팅(Overfitting)을 방지하기 위한 프로세스 중 하나이다. 오버피팅이 발생하는 이유는 모델의 학습이 Training-Set에만 너무 의존되어 있기 때문에 일반화가 잘 이루어지지 않아 다른 데이터가 들어오면 성능이 떨어진다. 그래서 Training-Set을 Training-Set과 Validation-Set으로 세분화하는 것이 교차 검증이다. 이를 세분화해서 무엇을 하느냐? Training-Set으로 학습된 모델을 Test-Set으로 평가하기 전에 Validation-Set으로 평가하는 것이다. 즉, 모의고사를 본다고 생각하면 된다. 우선 K-폴드 교차 검증부터 확인해보겠다. Training-Set을 K등분한다. 예를들어, 100개의 Training-Set이 있다면.. K = 1(.. 2021. 4. 1.
#0. Scikit-learn의 주요모듈 예제 데이터 sklearn.datasets 사이킷런에 내장되어 있는 예제 데이터셋 피처 처리 sklearn.preprocessing 데이터 전처리에 필요한 다양한 가공 기능 제공 (원핫인코딩, 정규화, 스케일링..) sklearn.feature_selection 알고리즘에 큰 영향을 미치는 피처를 우선순위대로 셀렉션 작업을 수행하는 다양한 기능 제공 sklearn.feature_extraction.text sklearn.feature_extraction.image 텍스트나 이미지 데이터의 벡터화된 피처 추출 ex) 텍스트 데이터의 Count vectorizer, tf-idf vectorizer 피처 처리 & 차원 축소 sklearn.decomposition 차원 축소와 관련한 알고리즘 ex) PCA, N.. 2021. 4. 1.