๐Ÿ’ฟ Data/๋ถ€ํŠธ์บ ํ”„

๐Ÿ’ฟ Data/๋ถ€ํŠธ์บ ํ”„

    [TIL]1.Exploratory Data Analysis(EDA)

    ๋ฐ์ดํ„ฐ์…‹ ๋ถˆ๋Ÿฌ์˜ค๊ธฐ import pandas as pd pd.read_csv('') ๋ฐ์ดํ„ฐ์…‹ ๊ฐ„๋‹จํ•˜๊ฒŒ ํ™•์ธ ์ฒซ๋ฒˆ์งธ๋ถ€ํ„ฐ ๋‹ค์„ฏ๋ฒˆ์งธ row ํ™•์ธ(์‹ค์ œ ๋ฐ์ดํ„ฐ๋ฅผ ๋Œ€๋žต ์ฒดํฌํ•  ๋•Œ ์•„์ฃผ ์ž์ฃผ ์‚ฌ์šฉ๋จ) ๊ฑ ์‹œ๋„๋•Œ๋„ ์—†์ด ์‚ฌ์šฉ๋จ df.head() ๋ฐ์ดํ„ฐ์…‹ ๋ชจ์–‘ ํ™•์ธ(df์˜ ํ–‰๊ณผ ์—ด ๊ฐฏ์ˆ˜, ๊ตฌ์กฐ๋ฅผ ๊ฐ„๋‹จํ•˜๊ฒŒ ํŠœํ”Œ ๋ณด์—ฌ์คŒ) df.shape EDA(Exploratory Data Analysis) ์•„์ฃผ ์ค‘์š”ํ•œ ๊ฐœ๋…์“ฐ ์šฐ๋ฆฌ๊ฐ€ ์ง€์ธ์œผ๋กœ๋ถ€ํ„ฐ ์ƒ์„  ์„ ๋ฌผ์„ ๋ฐ›์•˜๋‹ค. ์ด์ œ ์ด๊ฑธ ์–ด๋–ป๊ฒŒ ํ• ๊นŒ. ์ช„๋จน์„๊นŒ ํƒ•ํ•ด๋จน์„๊นŒ ์•„๋‹ˆ๋ฉด ํ’€์–ด์ค„๊นŒ ๋ญ ์–ด๋–ป๊ฒŒ ํ• ๊นŒ ์ƒ์„ ์— ๋…์€ ์—†์„๊นŒ ๋จน์„ ์ˆ˜ ์—†๋Š” ๋ถ€๋ถ„์€ ์žˆ๋‚˜ ์ƒ์„ ์ด ๋งž๊ธด ํ•ด? ์š”๋ฆฌํ•˜๊ธฐ ์œ„ํ•œ ์—ฌ๋Ÿฌ ๊ฐ€์ • ex)์‹ ์„ ํ•˜๋ฉด ํšŒ๋„ ๊ฐ€๋Šฅํ•˜๋‹ค! ์™€ ๊ฐ™์ด ๋ฐ์ดํ„ฐ๋„ ์ด๋ฆฌ์ €๋ฆฌ ๊ฒฐ์ธก์น˜๋Š” ์žˆ๋Š”์ง€, ๋ญ ๋ฐ์ดํ„ฐ ํฌ๊ธฐ๋Š” ์–ด๋–ค์ง€, ์นผ๋Ÿผ๋ณ„๋กœ..

    [TIL]6.Hypothesis Test

    Hypothesis Test ๊ธฐ์ˆ  ํ†ต๊ณ„์น˜(descriptive Statistics)๋ž€ count, mean, standard dev, min, 1Q, median, 3Q, max ๋“ฑ์˜ ๋ฐ์ดํ„ฐ๋ฅผ ์„ค๋ช…ํ•˜๋Š” ํ†ต๊ณ„์น˜๊ธฐ์ˆ  ํ†ต๊ณ„์น˜์˜ ์‹œ๊ฐํ™” Boxplot Bagplot(๊ฐ€๋ฐฉ์ฒ˜๋Ÿผ ์ƒ๊น€, ๋‚œํ•ดํ•ด์„œ ์ž˜ ์“ฐ์ด์ง„ ์•Š๋Š”๋‹ค.) Violinplot(๋ฐ•์Šคํ”Œ๋กฏ์—์„œ ๋ฐ์ดํ„ฐ ๋ถ„ํฌ๊นŒ์ง€ ๋ณด์—ฌ์ค€๋‹ค. ๊ฐœ์ธ์ ์œผ๋กœ ๊ฐ€์žฅ ๋ง˜์— ๋“œ๋Š” ํ”Œ๋ž) ๊ธฐ์ˆ  ํ†ต๊ณ„์น˜ ๋ณด๋Š” ์ฝ”๋“œ์ด์™ธ์—๋„ Mode, Range, Var / SD, Kurtosis(์ฒจ๋„), Skewness(์™œ๋„) ๋“ฑ์ด ์žˆ๋‹ค๋ฆฌ~ df.describe() ์ถ”๋ฆฌ ํ†ต๊ณ„์น˜(Inferential Statistics)๋ž€ Population, Parameter ,Statistics, Estimator, Standard ..

    [TIL]5.์ฝ”๋“œ์Šคํ…Œ์ด์ธ  AI ์Šคํ”„๋ฆฐํŠธ ์ฑŒ๋ฆฐ์ง€

    ์ฝ”๋“œ์Šคํ…Œ์ดํŠธ AI ๋ถ€ํŠธ์บ ํ”„ ์ฒซ ์Šคํ”„๋ฆฐํŠธ ์ฑŒ๋ฆฐ์ง€ ๋ฌธ์ œ๋Š” ๊ณต๊ฐœํ•˜๋ฉด ์•ˆ๋  ๊ฒƒ ๊ฐ™์•„ ๋‹ค์‹œ ๋ณต์Šตํ•˜๋Š” ์˜๋ฏธ๋กœ ์ž‘์„ฑ Data Preprocessing & Exploratory Data Analysis Data Preprocessing ๋ฐ์ดํ„ฐ ๋กœ๋“œ import pandas as pd df = pd.read_csv('') ๊ฒฐ์ธก์น˜ ์—ฌ๋ถ€ ์ฒดํฌ df.isna() ์Šค์บํ„ฐ ํ”Œ๋ž ๊ทธ๋ฆฌ๊ธฐ df.plot.scatter('a', 'b') ์—ฌ๊ธฐ์„œ a์™€ b๋Š” df์˜ ๊ฐ ์ปฌ๋Ÿผ join data df.drop(columns='') ํ•ด๋‹นํ•˜๋Š” ์นผ๋Ÿผ ๋ฒ„๋ฆฌ๊ธฐ df1.merge(df2, how = '', on ='') df1์„ ๊ธฐ์ค€์œผ๋กœ df2๋ฅผ ํ•ฉ์นœ๋‹ค. how์—๋Š” ํ•ฉ์น˜๋Š” ๋ฐฉ๋ฒ•(๊ตฌ๊ธ€๋งํ•ด๋ณด๊ธฐ), on์—๋Š” ํ•ฉ์น  ๋•Œ ๊ธฐ์ค€์ด ๋˜๋Š” ์นผ๋Ÿผ Feature Engin..

    00. ๋ถ€ํŠธ์บ ํ”„์— ๋“ค์–ด๊ฐ€๊ธฐ์— ์•ž์„œ

    1. ๋™๊ธฐ-๋‚ด๊ฐ€ ๋ฐ์ดํ„ฐ ์‚ฌ์ด์–ธ์Šค๋ฅผ ์‹œ์ž‘ํ•œ ์ด์œ  ์ด ๋ถ„์•ผ๊ฐ€ ์•ž์œผ๋กœ ์ •๋ง ์œ ๋งํ•  ๊ฒƒ์ด๊ณ  ์ด ๊ณต๋ถ€๋ฅผ ํ•˜์ง€ ์•Š์œผ๋ฉด ๋ฏธ๋ž˜์— ๋‚ด๊ฐ€ ํ›„ํšŒํ•  ๊ฒƒ ๊ฐ™์•„์„œ ํ•œ๊ฐ€์ง€ ๊ฑฑ์ •๋˜๋Š” ๊ฒƒ์€, ๋‚ด๊ฐ€ ์ด ๋ถ„์•ผ๊ฐ€ ์•ˆ๋งž๋Š” ์‚ฌ๋žŒ์ผ ์ˆ˜๋„ ์žˆ๋‹ค๋Š” ๊ฒƒ๊ณผ ๋‚ด๊ฐ€ ๋‚˜์ด๊ฐ€ ๋“ค์ˆ˜๋ก ์ด ๋ถ„์•ผ์—์„œ ๊ฒฝ์Ÿ๋ ฅ์ด ์—†์–ด์งˆ ์ˆ˜ ์žˆ๋‹ค๋Š” ๊ฒƒ ๊ทธ๋Ÿฌ๋‚˜ ์ด ๋ถ„์•ผ๋„ ๊ฒฐ๊ตญ์—” ๊ฒฝํ—˜์ด ์Œ“์ด๋ฉด ๋” ์œ ๋ฆฌํ•˜๊ณ  ๋” ์ข‹์€ ํฌ์ง€์…˜์„ ๊ฐ€์ ธ๊ฐˆ ์ˆ˜ ์žˆ์„ ๊ฒƒ์ด๋‹ค. ๋˜ํ•œ, ์ด ๋ถ„์•ผ๋ฅผ ๊ณต๋ถ€ํ•˜๋ฉด ๋˜๋‹ค๋ฅธ ๋ถ„์•ผ์— ํ˜์‹ ์„ ๊ฐ€์ ธ์˜ฌ ์ˆ˜ ์žˆ์„ ๊ฒƒ์ด๋ผ ๋ฏฟ๊ธฐ ๋•Œ๋ฌธ์—. ์˜ˆ๋ฅผ ๋“ค์–ด ๋‚˜๋Š” ์ •์˜๋กœ์šด ์ผ์„ ํ•˜๊ณ  ์‹ถ๋‹ค๋ฉด, ์ด ๋ถ„์•ผ๋ฅผ ๊ณต๋ถ€ํ•ด์„œ CV ์ชฝ์œผ๋กœ ๋ฒ”์ฃ„์ž๋ฅผ ์žก๋Š”๋ฐ ML,DL์„ ์‚ฌ์šฉํ•œ๋‹ค๋“ ์ง€ ํ˜น์€ ์Šค๋งˆํŠธํŒœ์— ๊ด€์‹ฌ์ด ์žˆ๋‹ค๋ฉด ๊ทธ ์ชฝ์— ์ ์šฉํ•  ์ˆ˜ ์žˆ๋‹ค๋“ ์ง€..! ๋ญ”๊ฐ€ ์‚ฌ๋žŒ์„ ๋„์šธ ์ˆ˜ ์žˆ๋Š” ๋ถ„์•ผ์— ์ ์šฉํ•˜๊ณ  ์‹ถ๋‹ค. ํŠนํžˆ ์‚ฌํšŒ์  ์•ฝ์ž๋“ค์—๊ฒŒ ๋„์›€..