목표

Vector Transformation 이해
Eigenvector / Eigenvalue에 대한 이해
데이터의 feature 수(차원 수)가 늘어나면 생기는 문제점 및 이를 handling하기 위한 방법
PCA의 기본 원리와 목적에 대한 이해

Vector transformation

R^2 공간에서 벡터를 변환 즉, 선형 변환은 임의의 두 벡터를 더하거나 혹은 스칼라값을 곱하는 것
$$T(u+v)=T(u)+T(v)$$ $$T(cu)=cT(u)$$

벡터변환으로서의 '매트릭스와 벡터의 곱'

f라는 transformation을 사용하여 임의의 벡터 [x1, x2]에 대해 [2x1 + x2, x1 - 3x2]로 변환을 한다.

\begin{align}
f(\begin{bmatrix}x_1 \\ x_2 \end{bmatrix}) = \begin{bmatrix} 2x_1 + x_2 \\ x_1 -3x_2 \ \end{bmatrix}
\end{align}

$$\begin{align} T = \begin{bmatrix} 2 & 1 \\ 1 & -3 \end{bmatrix} \end{align}$$

위와 같은 매트릭스 T를 곱하는 것과 같은 의미이다.

즉, 임의의 R^2 벡터를 다른 벡터로 변환하는 과정은 특정 T라는 매트릭스를 곱하는 것과 동일한 과정
예를 들어
\begin{align}
\begin{bmatrix} 2 & 1 \\ 1 & -3 \end{bmatrix}\begin{bmatrix} 3 \\ 4 \end{bmatrix} = \begin{bmatrix} 10 \\ -9 \end{bmatrix}
\end{align}
한번 더 생각해보면, 위 식에서 매트릭스 T는 [2 1], [1 -3]의 두 벡터로 이루어진 행렬이고, [3 4]라는 벡터의 기저벡터([1 0], [0 1])를 바꾸는 행위로 볼 수 있다.
벡터 transformation은 선형(곱하고 더하는 것으로만 이루어진) 변환이기 때문에 매트릭스와 벡터의 곱으로 표현이 된다.

고유벡터(Eigenvector)

위에서 봤다시피 Transformation은 matrix를 곱함으로써 벡터(데이터)를 다른 위치로 옮기는 개념이다.
R^3 공간에서 예시를 들어보자면

R^3 공간이 회전할 때(자전할 때), 위도에 따라 위치의 변화 정도가 다르다.
회전축에 있는 경우 transformation을 통한 위치가 변하지 않는다.
이렇게 transformation에 영향을 받지 않는 회전축(혹은 벡터)를 그 공간의 고유벡터(Eigenvector라고 부른다.

고유값(Eigenvalue)

위에서 고유벡터는 transformation 시, 방향은 변하지 않고 크기만 바뀌는 벡터였는데, 이 때 변하는 크기의 정도를 나타내는 값이 Eigenvalue로 고유값이라 부른다.(얼마나 변했느냐)

$$T \cdot v = v' = \lambda \cdot v $$
\begin{align} \begin{bmatrix} a & b \\ c & d \end{bmatrix}\begin{bmatrix} x \\ y \end{bmatrix} = \begin{bmatrix} ax+by \\ cx+dy \end{bmatrix} = \lambda \begin{bmatrix} x \\ y \end{bmatrix} \end{align}

예를 들면,

\begin{align} \begin{bmatrix} 4 & 2 \\ 2 & 4 \end{bmatrix}\begin{bmatrix} 3 \\ -3 \end{bmatrix} = \begin{bmatrix} 6 \\ -6 \end{bmatrix} = 2 \begin{bmatrix} 3 \\ -3 \end{bmatrix} \end{align}

매트릭스를 곱한 것이 상수 2 를 곱한 것과 같은 효과이다. 즉 [3 -3] 벡터는 선형변환 시 방향은 유지하고 크기만 바뀌는 것

고유값 계산

$$T \cdot v = \lambda \cdot v $$
에서 좌변으로 옮긴 후 det()=0이 되게끔 하여 람다를 계산한다.(역행렬이 없는 조건)

고유값을 배우는 이유

vector teansformation은 결국 '데이터를 변환한다.'라는 목적의 단계 중 하나이다.

차원의 저주(고차원의 문제 ; The Curse of Dimensionality)

피쳐의 수(차원의 수)가 많을수록 데이터셋을 모델링하거나 분석할 때 발생하는 여러 문제점들
또한, 차원이 증가할수록 사람이 직관적으로 이해하기(시각화하기) 어렵다.
데이터셋에서 인사이트를 찾기 위해 쓰이는 모든 feature가 동일하게 중요하지는 않다.
데이터를 일부 제한해도, 의미 파악에는(우리가 얻으려는 인사이트에는) 큰 차이가 없다면 너무 많은 input은 오히려 방해가 될 수 있다.
또다른 문제로 '오버피팅'(과적합)의 문제가 있다. training data에만 너무 많은 학습이 되어버리면 오히려 test data에서 제대로 된 결과가 나오기 어려워진다.

Dimension Reduction(차원 축소)

위의 문제를 해결하기 위한 방안으로, 적절히 데이터를 처리하여 충분한 의미를 담게 할 수는 없을까?

Feature Selection(변수 선택)

변수(차원)가 100개 있을 때, 데이터셋 중 가장 분산이 큰(분포가 넓은 ; 다양한 정보를 담고 있는) 변수만 선택하고 나머지는 제외하는 방법
장점 : 선택된 변수의 해석이 쉽다.(직관적)
단점 : 변수들 사이의 연관성을 고려해서 선택해야한다.(중복 안되게끔)
ex) LASSD, Genetic algorithm 등

Feature Extraction(변수 추출)

기존에 있는 변수(차원)를 조합하여 새로운 설명력이 좋은 변수를 만들어 사용하는 방법
장점 : 변수들간의 연관성이 고려된다. 변수의 수를 많이 줄일 수 있다.
단점 : 만들어진 변수를 해석하기 어려움(그 변수가 정확히 무엇을 의미하는지 파악하는 게 어렵다.)
ex) PCA, Auto-encoder 등

PCA(Principal Component Analysis; 주성분 분석)

고차원 데이터를 효과적으로 분석하기 위한 기법
낮은 차원으로 차원 축소
고차원 데이터의 정보(분산)을 최대한 유지하는 벡터(변수)를 찾고 해당 벡터에 대해 데이터를 (Linear) Projection
데이터의 분산 == 정보* 기억하기

import pandas as pd
import matplotlib.pyplot as plt

x = \[-2.2, -2, -2, -1, -1, 0, 0, 1, 1, 2, 2, 2.2\]  
y = \[0, .5, -.5, .8, -.8, .9, -.9, .8, -.8, .5, -.5, 0\]

df = pd.DataFrame({"x": x, "y": y})

print('variance of X : ' + str(np.var(x)))  
print('variance of Y : ' + str(np.var(y)))

plt.scatter(df\['x'\], df\['y'\])  
plt.arrow(-3, 0, 6, 0, head\_width = .05, head\_length = .05, color ='#d63031')  
plt.arrow(0, -1, 0, 6, head\_width = .05, head\_length = .05, color ='#00b894');

variance of X : 2.473333333333333
variance of Y : 0.4316666666666668

이 때, 우리는 데이터의 분산(정보)을 가장 잘 담고 있는 빨간색 축에 우선적으로 projection해야한다. 그게 첫번째 주성분 pc1이 된다.

PCA process

데이터 준비

import numpy as np

X = np.array([ 
              [0.2, 5.6, 3.56], 
              [0.45, 5.89, 2.4],
              [0.33, 6.37, 1.95],
              [0.54, 7.9, 1.32],
              [0.77, 7.87, 0.98]
])
print("Data: ", X)

Data: [[0.2 5.6 3.56]
[0.45 5.89 2.4 ]
[0.33 6.37 1.95]
[0.54 7.9 1.32]
[0.77 7.87 0.98]]

 np.mean(X, axis=0) # 이렇게 하면 열마다(칼럼마다, 변수마다)의 평균 및 분산값들을 구해준다.

각 열에 대해 평균을 빼고, 표준편차로 나누어 Normalize(정규화)한다. 스케일을 맞추는 작업
standardized_data = ( X - np.mean(X, axis = 0) ) / np.std(X, ddof = 1, axis = 0) print("\n Standardized Data: \n", standardized_data)

Standardized Data:
[[-1.19298785 -1.0299848 1.5011907 ]
[-0.03699187 -0.76471341 0.35403575]
[-0.59186994 -0.32564351 -0.09098125]
[ 0.37916668 1.07389179 -0.71400506]
[ 1.44268298 1.04644992 -1.05024014]]

정규화 진행한 값'의 분산-공분산 매트릭스를 계산
covariance_matrix = np.cov(standardized_data.T) print("\n Covariance Matrix: \n", covariance_matrix)

Covariance Matrix:
[[ 1. 0.84166641 -0.88401004]
[ 0.84166641 1. -0.91327498]
[-0.88401004 -0.91327498 1. ]]

분산-공분산 매트릭스의 고유값과 고유벡터를 계산한다.(분산, 즉 정보양을 가장 크게 가져가는 성분들을 찾기 위해서)
values, vectors = np.linalg.eig(covariance_matrix) print("\n Eigenvalues: \n", values) print("\n Eigenvectors: \n", vectors)

Eigenvalues:
[2.75962684 0.1618075 0.07856566]

Eigenvectors:
[[ 0.56991376 0.77982119 0.25899269]
[ 0.57650106 -0.60406359 0.55023059]
[-0.58552953 0.16427443 0.7938319 ]]

데이터를 고유 벡터에 projection한다.(matmul)

Z = np.matmul(standardized_data, vectors)
print("\\n Projected Data: \\n", Z)

Projected Data:
[[-2.15267901 -0.06153364 0.31598878]
[-0.66923865 0.4912475 -0.14930446]
[-0.47177644 -0.27978923 -0.40469283]
[ 1.25326312 -0.47030949 0.12228952]
[ 2.04043099 0.32038486 0.11571899]]

여기서 의문. 차원 축소를 했는데 왜 그대로 변수가 3개??

$$X = $$

$$x_1$$	$$x_2$$	$$x_3$$
0.2	5.6	3.56
0.45	5.89	2.4
0.33	6.37	1.95
0.54	7.9	1.32
0.77	7.87	0.98

에서

$$Z = $$

$$pc_1$$	$$pc_2$$	$$pc_3$$
-2.1527	-0.0615	0.3160
-0.6692	0.4912	-0.1493
-0.4718	-0.2798	-0.4047
1.2533	-0.4703	0.1223
2.0404	0.3204	0.1157

가 된 것이다. 즉, 데이터를 잘 설명하는 축 3개의 좌표계로 바꿨다고 생각하면 좋다.

이제 이렇게 한 후, 고유값을 비교하여 pc2까지 가져갈지 등의 고민을 하는 것!

근데 이제 여기서 sklearn(사이킷런)이라는 라이브러리로 위의 과정을 아주 ez하게 가능(부들부들)

from sklearn.preprocessing import StandardScaler, Normalizer
from sklearn.decomposition import PCA

print("Data: \n", X)

scaler = StandardScaler()
Z = scaler.fit_transform(X)
print("\n Standardized Data: \n", Z)

pca = PCA(2)

pca.fit(Z)

print("\n Eigenvectors: \n", pca.components_)
print("\n Eigenvalues: \n",pca.explained_variance_)

B = pca.transform(Z)
print("\n Projected Data: \n", B)

Data:
[[0.2 5.6 3.56]
[0.45 5.89 2.4 ]
[0.33 6.37 1.95]
[0.54 7.9 1.32]
[0.77 7.87 0.98]]

Standardized Data:
[[-1.33380097 -1.15155802 1.67838223]
[-0.04135817 -0.85497558 0.395824 ]
[-0.66173071 -0.36408051 -0.10172014]
[ 0.42392124 1.20064752 -0.79828193]
[ 1.61296861 1.16996658 -1.17420417]]

Eigenvectors:
[[-0.13020816 -0.73000041 0.67092863]
[-0.08905388 0.68256517 0.72537866]]

Eigenvalues:
[2.15851707 0.09625196]

Projected Data:
[[ 1.87404384 0.35553233]
[ 0.85151446 -0.31022649]
[ 0.21482136 -0.29832914]
[-1.35210803 0.27030569]
[-1.58827163 -0.0172824 ]]

중간에 standardized data가 이전과 다른 이유?
standardized_data = ( X - np.mean(X, axis = 0) ) / np.std(X, ddof = 1, axis = 0) print("\n Standardized Data: \n", standardized_data)

에서 standard deviation에 쓰이는 자유도가 0이냐 1이냐의 차이(모집단일 땐 0, 표본집단일 땐 1)

PCA의 특징

데이터에 대해 독립적인 축을 찾는데 유용하다.
데이터의 분포가 정규성을 띄지 않는 경우 적용이 어렵다.
- 당연한 게, 분산을 가장 크게 갖는 새로운 축들을 찾는건데 그 분산 조차 찾기 어려운 데이터라면 당연히 어렵다.
분류/예측 문제에 대해서 데이터의 라벨을 고려하지 않기에 효과적 분리가 어렵다.
- 이 경우는 PLS 사용 가능

'💿 Data > 부트캠프' 카테고리의 다른 글

[TIL]15.스챌3 (0)	2021.12.08
[TIL]14.Clustering(군집화) (0)	2021.12.07
[TIL]12.Linear Algebra + (0)	2021.12.03
[TIL]11.Vector and Matrix (0)	2021.12.01
[TIL]10.스프린트 챌린지 (0)	2021.12.01

[TIL]13.High Dimensional Data

목표