머신러닝3 # 14. 선형 분류 (Linear Classification) 지난 포스트에서 선형 분류에 대해 자세히 다루지 못한것 같아 이번에 좀 자세히 다루려고 한다. 복습을 간단하게 하자면, 지도 학습에는 크게 분류와 회귀 문제가 존재한다. 그리고 회귀 문제는 데이터들을 가장 잘 나타내는 선을 찾는 것이 목적이다. 분류 문제도 회귀 문제와 메커니즘은 비슷하지만, 찾고자 하는 선의 목적이 다르다. 분류는 데이터들을 가장 잘 분류하는 선을 찾는 것이 목적이다. 즉, 회귀의 선은 데이터들 사이의 거리가 가까운 선을 찾으려고 하지만, 분류는 (클래스별로)거리가 먼 것을 찾으려고 하는 것이다. 사실 위의 그림을 이해를 위해 선으로 표현했지만, 선형 분류의 의미를 엄밀히 말하면 데이터를 잘 분류할 수 있는 초평면(hyperplane)을 찾는 것이라고 해야 정확한 의미이다. 이번 포스트.. 2021. 12. 3. # 9. 앙상블 기법 (Ensemble) 지난 포스트에서는 의사 결정 나무에 대해서 다루었다. 의사 결정 나무는 단 하나의 분류기를 사용하지만, 이번 포스트에서는 여러 분류기들을 결합한 방법인 앙상블 기법에 대해 다룰 것이다. 마치 오케스트라처럼 여러 악기가 모여 화음을 이루듯, 여러 분류기들을 결합하는 것이다. P.S) 이미지, 영상, 음성과 같은 비정형 데이터의 분류는 딥러닝이, 정형 데이터에서는 앙상블이 좋은 성능을 낸다. 우선 앙상블의 조합 기법 4가지를 간단하게 살펴볼 것이다. 1. Voting 기법 특징 1 : 서로 다른 알고리즘 결합 특징 2 : 전체 데이터 셋을 알고리즘 사이에서 공유 2. Bagging 기법 특징 1 : 같은 알고리즘 결합 특징 2 : 전체 데이터 셋에 대하여 Bootstraping sampling (복원 추출).. 2021. 10. 28. # 8. 의사 결정 나무 (Decision Tree) 의사 결정 나무에 대한 내용을 다루기 이전에 지금까지 정리했던 내용을 큰 맥락으로 한번 짚고 넘어갈까 한다. 1. 전처리 1.1 encoding from sklearn.preprocessing import LabelEncoder from skelarn.preprocessing import OneHotEncoder 1.2 feature scaling from sklearn.preprocessing import StandardScaler from sklearn.preprocessing improt MinMaxScaler 1.3 학습 데이터 분리 & 교차검증 from sklearn.model_selection import train_test_split from sklearn.model_selection imp.. 2021. 10. 24. 이전 1 다음