[TIL]46_Section1_review_마무리

Section1_sprint3

키워드 위주로 정리

set : list와 비슷, 단 중복치 허용 x 순서 개념 x

Determinant

모집단 : population -> parameter
표본집단 : sample -> statistic

Covariance(공분산)
Correlation coefficient(상관계수) : 공분산을 스케일링한 것

보통 우리가 아는 상관계수가 Pearson Corr이고 categorical data에 순서를 부여하고 이를 토대로 corr을 구하는 게
Spearman Corr -> 데이터가 갖는 값이 아닌 우리가 부여한 '순서 혹은 순위'로만 상관계수를 따진다.

단위벡터 : 길이가 1인 벡터

Span : 주어진 벡터의 조합으로 만들 수 있는 모든 가능한 벡터의 집합
Basis : 어떤 공간 U를 채울 수 있는 선형관계에 있지 않은 벡터들

Orthogonal Basis : Basis 중에서도 수직관계에 있는 조합

rank : 어떤 공간 U의 차원

Gaussian Elimination

Linear projection

차원 축소(특성 줄이기) 개념과 엮어서 기억 -> 약간의 정보를 포기하고 메모리 확보

고유벡터(eigen vector) : matrix를 통한 transformation에 대해 크기만 변하고 방향은 유지하는 벡터

Ax = λx (A는 행렬, x는 벡터, λ는 scalar 값으로 '고윳값')

고차원 문제(차원의 저주) 해결

Feature Selection ex) 특성 제거(drop)
Feature Extraction ex) PCA(기존 컬럼에서 더 유의미한 컬럼을 만들어내는 것)

PCA(Principal Component Analysis)
가장 데이터의 원래 분포를 잘 설명해주는 축에 projection(최대한 분산을 유지하면서 특성을 줄이는)

예시1)

import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd
import numpy as np
%matplotlib inline
from sklearn.datasets import make_blobs # 랜덤하게 시뮬레이션 데이터를 생성할 것이다.
from sklearn import decomposition

X1, Y1 = make_blobs(n_features = 10, n_samples = 100, centers = 4, random_state = 4, cluster_std = 2) ## random 하게 simulation data 생성

pca = decomposition.PCA(n_components = 4)
pc = pca.fit_transform(X1)

pc_df = pd.DataFrame(data = pc, columns = ['PC1', 'PC2', 'PC3', 'PC4'])
pc_df['Cluster'] = Y1
pc_df.head()

이 때, 차원을 몇개로 축소할 지 정할 때 보는 게 scree plot

예시2)

def scree_plot(pca):
    num_components = len(pca.explained_variance_ratio_)
    ind = np.arange(num_components)
    vals = pca.explained_variance_ratio_

    ax = plt.subplot()
    cumvals = np.cumsum(vals)
    ax.bar(ind, vals, color = ['#00da75', '#f1c40f',  '#ff6f15', '#3498db']) # Bar plot
    ax.plot(ind, cumvals, color = '#c0392b') # Line plot 

    for i in range(num_components):
        ax.annotate(r"%s" % ((str(vals[i]*100)[:3])), (ind[i], vals[i]), va = "bottom", ha = "center", fontsize = 13)

    ax.set_xlabel("PC")
    ax.set_ylabel("Variance")
    plt.title('Scree plot')

scree_plot(pca)

지도학습 vs 비지도학습 vs 강화학습

Cluster(군집화)

비지도학습 중 하나(label 없음)
K-means clustering이 대표적 -> K개의 군집을 만들 것이고 그 군집의 중심(기준)은 mean(평균)을 이용하여 정하겠다는 의미

과정

k개의 랜덤한 데이터를 cluster의 중심점으로 설정
해당 cluster에 근접해 있는 데이터를 cluster로 할당
변경된 cluster에 대해 중심점을 새로 계산
cluster에 유의미한 변화가 없을 때까지 2~3번을 반복

k를 결정하는 방법(몇개의 군집으로 나눌지) : Elbow method -> PCA 의 scree plot과 살짝 닮아있음

cf) K-means는 KNN이랑 다르다.헷갈리지 말기

'💿 Data > 부트캠프' 카테고리의 다른 글

[TIL]48_DataBase, SQL_Basics(SQLite) (0)	2022.01.19
[TIL]47_Git&Github and conda(가상환경) (0)	2022.01.19
[TIL]45.8_Section1_sprint2_개인복습(주말) (0)	2022.01.17
[TIL]45.3_Section2_sprint3_개인복습(주말) (0)	2022.01.16
[TIL]45.5_Section1_sprint1_개인복습(주말) (0)	2022.01.16

Section1_sprint3

'💿 Data > 부트캠프' 카테고리의 다른 글

티스토리툴바