1. 정규화부터!(각 변수의 기준을 맞추기 위해 정규화 작업을 해줬습니다.)

from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
Z = scaler.fit_transform(df)
Z

2-1. Hierarchical Clustering 및 Dendrogram을 통한 시각화

import numpy as np

from matplotlib import pyplot as plt
from scipy.cluster.hierarchy import linkage, dendrogram
from sklearn.cluster import AgglomerativeClustering

Z = linkage(Z, method='ward', metric='euclidean') # Z에 대해 linkage matrix 생성
dendrogram(Z, p=2, truncate_mode='lastp') # 군집개수 2개로 해보기

dendrogram(Z, p=5, truncate_mode='lastp') # 군집개수 5개

dendrogram(Z, p=569, truncate_mode='lastp') # 극단적으로 데이터 갯수만큼 569개 군집

대략 군집을 2개로 했을 때의 y값이 가장 큰 차이를 보이는 것으로 추측됩니다.

덴드로그램을 통해 대략적으로 군집 2개가 효율적일 것이라 추측, 따라서 K-means를 적용하여 elbow method를 통한 적절한 군집 개수를 확인해보려합니다.(시각화에 편하게 PCA(2)로 적용하여 진행합니다.

위의 1번 이후 새로운 2-2. PCA를 통해 변수를 2개로 줄이고 시각화

from sklearn.decomposition import PCA
pca = PCA(2)

pca.fit(Z)

B = pca.transform(Z)

pc1 = B.T[0]
pc2 = B.T[1] # B를 통해 얻은 array를 뒤집어서 각각 의 series를 pc1과 pc2로 두었습니다.

plt.scatter(pc1, pc2)
plt.show()

3. Kmeans의 elbow method 시각화해보기

B_df1 = pd.DataFrame(B, columns=['pc1','pc2']) # 위의 B를 dataframe화

sum_of_squared_distances = []
K = range(1, 15)
for k in K:
    km = KMeans(n_clusters = k)
    km = km.fit(B_df1)
    sum_of_squared_distances.append(km.inertia_)

plt.plot(K, sum_of_squared_distances, 'bx-')
plt.xlabel('k')
plt.ylabel('Sum_of_squared_distances')
plt.title('Elbow Method For Optimal k')
plt.show()

다소 애매하긴 하지만 k=2일 때가 급격하게 줄어드는 것을 볼 수 있습니다.

'💿 Data > 이모저모' 카테고리의 다른 글

벡터 내적 및 projection (0)	2021.12.07
Scree Plot 활용법 (0)	2021.12.07
Clustering(군집화) (0)	2021.12.06
Dimension Reduction(차원 축소) (0)	2021.12.04
Linear Algebra + (Cov ;공분산, Cor ; 상관계수) (0)	2021.12.02

Dendrogram을 통한 Clustering 시각화 및 Elbow Method

1. 정규화부터!(각 변수의 기준을 맞추기 위해 정규화 작업을 해줬습니다.)

2-1. Hierarchical Clustering 및 Dendrogram을 통한 시각화

대략 군집을 2개로 했을 때의 y값이 가장 큰 차이를 보이는 것으로 추측됩니다.

위의 1번 이후 새로운 2-2. PCA를 통해 변수를 2개로 줄이고 시각화

3. Kmeans의 elbow method 시각화해보기

'💿 Data > 이모저모' 카테고리의 다른 글

티스토리툴바