본문 바로가기

value2

# 11. PCA (Principal Component Analysis) 이론 PCA는 고차원의 데이터의 분포를 유지한채(최대한 중요한 정보를 유지한채) 차원을 낮추기 위한 알고리즘이다. 고차원에서 저차원으로 변환하는 과정에는 초평면 혹은 벡터에 정사영 혹은 투영(projection) 과정이 수행된다. 우선, 고차원 데이터에 대한 데이터의 분포를 파악하는 것이 중요하다. 분포는 데이터가 어느정도 넓게 퍼져있는가를 의미한다. 만약 위와 같은 2차원 파란색 데이터가 존재한다고 가정할 때, 1~3번 선중 어느 선이 가장 데이터를 잘 표현한다고 할 수 있을까? 직관적으로 보았을 때, 데이터가 가장 넓게 분포한 방향으로 기울어진 2번 선을 선택할 수 있을 것이다. 2번 선(벡터)에 대해 사영시키면 빨간점으로 이루어진 데이터들을 볼 수 있다. 이 점들은 하나의 선(1차원)으로 표현되며 .. 2022. 3. 7.
# 9. 고유값 분해 (Eigen-value Decomposition) - 1 고유값 분해를 다루기 이전에 고유값과 고유벡터의 개념에 대해서 먼저 다루려고 한다. 먼저 이 포스트를 보기 이전에 선형변환에 대한 개념을 숙지하고 보는 것을 추천한다. 우리는 선형변환을 하나의 함수로써 생각했다. 예를 들어 임의의 벡터 x를 행렬 A의 선형변환 연산을 취했을 경우, 또 다른 벡터가 나오는 것처럼.. 보통은 선형변환을 통해 크기와 방향 모두 바뀐다. 하지만, 우리가 이번에 다룰 선형변환은 크기만 바뀌는 경우에 대해서만이다. 그렇다면, 고유값과 고유벡터는 어떤 의미를 지닐까? 고유값은 방향이 변하지 않은 벡터에 대해 어느정도 크기가 바뀌었는가의 의미이고, 고유벡터는 해당 고유값에 대응하는 벡터 x를 의미한다. 수학적으로는 다음과 같이 정의할 수 있다. 위 식을 이항하면 다음과 같이 표현할 수.. 2021. 11. 23.