'💿 Data/이모저모' 카테고리의 글 목록 (11 Page)

벡터 내적 및 projection

2021.12.07

주어진 데이터 (x, y)에 대해서 y = x 라는 벡터에 대해 projection을 계산하는 함수를 작성하세요. (x, y) 는 (0, 0) 에서 (x, y)로 가는 벡터라 가정합니다. 이후 입력된 데이터를 파란색 선으로, y = x 라는 벡터를 빨간색 선으로, 마지막으로 projection 된 선을 녹색 점선(dashed)으로 그래프에 그리세요. y=x에 해당하는 임의의 벡터([10, 10])를 설정하여 내적 및 projection을 진행하였습니다. import numpy as np v = [7, 4] a = [10, 10] # y = x 상의 임의의 벡터 선정 # u는 v를 y = x 상에 projection한 벡터 def myProjection(v, a): v = np.array(v) a = np..

💿 Data/이모저모

Scree Plot 활용법

2021.12.07

"Scree Plot" 에 대해서 알아보고, 위에서 PCA로 만든 데이터셋을 사용하여 만들어보세요. 90%의 내용을 설명하기 위해서, 몇개의 PC를 사용해야 하나요? 위의 여러 과정은 생략하겠습니다. :) 먼저 각 주성분에 대한 아이겐벨류값을 모두 더하고 나눠, 각각의 proportion을 계산합니다. values = values / np.sum(values) # 위 의 값을 시각화 plt.title('Scree plot') plt.xlabel('numberofcomp') plt.ylabel('proposion') plt.plot(values); 각각의 고유값의 비중을 계산해봅니다. print(values[:2].sum()) print(values[:3].sum..

💿 Data/이모저모

Dendrogram을 통한 Clustering 시각화 및 Elbow Method

2021.12.06

1. 정규화부터!(각 변수의 기준을 맞추기 위해 정규화 작업을 해줬습니다.) from sklearn.preprocessing import StandardScaler scaler = StandardScaler() Z = scaler.fit_transform(df) Z 2-1. Hierarchical Clustering 및 Dendrogram을 통한 시각화 import numpy as np from matplotlib import pyplot as plt from scipy.cluster.hierarchy import linkage, dendrogram from sklearn.cluster import AgglomerativeClustering Z = linkage(Z, method='ward&#39..

💿 Data/이모저모

Clustering(군집화)

2021.12.06

Machine Learning에서 Supervised Learning / Unsupervised Learning / Reinforce Learning 3가지의 차이는 무엇일까?(예시도 함께!) 먼저 Machine Learning(기계 학습)이란 인공지능의 하위 집합으로 컴퓨터가 데이터를 통해 학습하고 경험을 통해 개선하도록 학습시키는 것을 말한다. 머신러닝에서 알고리즘은 대규모 데이터에서 패턴과 상관관계 등의 분석을 토대로 최적의 의사결정과 예측을 수행하는 것에 초점을 맞춘다. Supervised Learning(지도학습) : 정답이 있는 데이터를 활용해 데이터를 학습시키는 방법. 입력값이 주어지면 입력값에 대한 Label도 주어 학습시키는 것으로 그 종류에는 분류, 회귀 등이 있다. 예시) 강아지 사진..

💿 Data/이모저모

Dimension Reduction(차원 축소)

2021.12.04

'Dimension이 커진다.'의 의미는 무엇일까요? 차원이 늘어난다. -> 변수가 늘어난다. -> matrix(혹은 dataframe)에서 열(칼럼)의 수가 늘어난다. 차원 축소(Dimensionality Reduction)를 하는 이유 효율성이 떨어지는 변수를 줄이기 위해서(input 대비 output이 좋지 못한 경우 ; 설명력이 떨어지는 경우) Dimension이 커졌을 때 어떤 문제가 발생할까? 단순하게 생각하면, 인간이 이해하기(비슷하게 다른 의미로는 시각화하기) 어려워진다. 즉, 직관적으로 이해가 되지 않는다는 것 또한, 설명력이 높은 차원(변수, 칼럼)들만 있다면 큰 문제가 아닐 수 있지만 설명력이 떨어지는 차원의 경우 쓸데없이 컴퓨터 계산 과정이나 메모리만 낭비하는 꼴이 될..

벡터 내적 및 projection

Scree Plot 활용법

Dendrogram을 통한 Clustering 시각화 및 Elbow Method

Clustering(군집화)

Dimension Reduction(차원 축소)

티스토리툴바