# Import Packages
import pandas as pd
import numpy as np
import seaborn as sns
# dataset upload
df = sns.load_dataset("titanic")
df
1. ๊ฒฐ์ธก์น ๋ค๋ฃจ๊ธฐ
Q. 'deck'์ปฌ๋ผ์ ๊ฒฐ์ธก์น ๊ฐ์๋ ๋ช ๊ฐ์ธ๊ฐ์?
df['deck'].isna().sum() # ํน์ ์ปฌ๋ผ์ ๊ฒฐ์ธก์น ๊ฐ์ ์ธ๊ธฐ
Q. ๋ชจ๋ ๊ฒฐ์ธก์น๋ ์ปฌ๋ผ๊ธฐ์ค ์ง์ ์ ๊ฐ์ผ๋ก ๋์ฒดํ๊ณ , ์ฒซ๋ฒ์งธ ํ์ ๊ฒฐ์ธก์น๊ฐ ์์ ๊ฒฝ์ฐ ๋ค์ ์๋ ๊ฐ์ผ๋ก ๋์ฒดํ์ธ์
df['deck'].fillna(method='ffill', inplace=True) # ๋จผ์ ์ ์ฒด์ ๋ํด์ ์ง์ ๊ฐ ์ ์ฉ
df['deck'].fillna(method='bfill', inplace=True) # ์ฒซ ํ์ ์ ์ฉ์๋์์ ํ
๋, ํ์ ๊ฐ์ผ๋ก ์ ์ฉ
2. ๋ฐ์ดํฐ์ ํ ๋ณํ
Q. Data Type์ ํ์ธํ์ธ์
df.dtypes
Q. 'fare' column์ 'int64'ํํ๋ก ๋ฐ๊พธ์ธ์
def toint(value):
return int(value)
df['fare'].apply(toint)
3. ์ปฌ๋ผ ์ถ๊ฐ ๋ฐ ์ญ์
Q. (์ปฌ๋ผ์ถ๊ฐ) ๊ธฐ์กด Column์ ์ด์ฉํด์ ์๋ก์ด Column์ ๋ง๋ค์ด ๋ด
๋๋ค.
'fare' Column๊ณผ 'pclass'Column ์ ์ด์ฉํด์ fare_per_class๋ผ๋ Column์ ๋ง๋ค์ด ๋ด
๋๋ค.
df['fare_per_class'] = df['fare'] / df['pclass']
Q. (์ปฌ๋ผ์ญ์ ) ๋ง๋ Column์ ์ง์ ๋ด
๋๋ค.
'fare_per_class' Column ์ ์ด์ฉํ์ผ๋ ์ง์๋ด
์๋ค.
df.drop(['fare_per_class'], axis=1, inplace=True)
4. loc ๋ฐ iloc ๋ค๋ฃจ๊ธฐ
Q. df์ ๋ฐ์ดํฐ ์ค embark_town ๊ฐ์ Southampton ๋ค์ด๊ฐ์ง ์๋ ๊ฒฝ์ฐ์ ๊ฐฏ์๋ ๋ช ๊ฐ์ธ๊ฐ์?
df[df['embark_town'] != 'Southampton'].count()
Q. 7๋ฒ์งธ ์ปฌ๋ผ์ 3๋ฒ์งธ ๊ฐ์ ๋ฌด์์ธ๊ฐ?
df.iloc[2, 6]
5. ๋ฐ์ดํฐ ํํฐ๋ง
Q. age ๊ฐ์ด 30๋ณด๋ค ์์ ๋ฐ์ดํฐ๋ฅผ ์ถ์ถํ์ฌ index๋ฅผ 0๋ถํฐ ์ ๋ ฌํ๊ณ ์ฒซ 5ํ์ ์ถ๋ ฅํ๋ผ
condition = (df['age'] < 30)
df1 = df[condition].reset_index(drop=True)
Q. pclass๊ฐ์ด 2 ์ดํ์ด๊ณ alive ๊ฐ์ด yes ์ธ ๋ฐ์ดํฐ ํ๋ ์์ ์ถ์ถํ๋ผ
condition1 = (df['pclass'] <= 2)
condition2 = (df['alive'] == 'yes')
df[condition1 & condition2]
'๐ฟ Data > ์ด๋ชจ์ ๋ชจ' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
Seaborn 'penguins' (0) | 2021.12.09 |
---|---|
๋ฐ์ดํฐ ๋ค๋ฃจ๊ธฐ ์์2 (0) | 2021.12.07 |
Cramer's rule(ํฌ๋ ์ด๋จธ ์๊ฑฐ๋ฒ) (0) | 2021.12.07 |
๋ฒกํฐ ๋ด์ ๋ฐ projection (0) | 2021.12.07 |
Scree Plot ํ์ฉ๋ฒ (0) | 2021.12.07 |