Jayden`s

    [TIL]5.์ฝ”๋“œ์Šคํ…Œ์ด์ธ  AI ์Šคํ”„๋ฆฐํŠธ ์ฑŒ๋ฆฐ์ง€

    ์ฝ”๋“œ์Šคํ…Œ์ดํŠธ AI ๋ถ€ํŠธ์บ ํ”„ ์ฒซ ์Šคํ”„๋ฆฐํŠธ ์ฑŒ๋ฆฐ์ง€ ๋ฌธ์ œ๋Š” ๊ณต๊ฐœํ•˜๋ฉด ์•ˆ๋  ๊ฒƒ ๊ฐ™์•„ ๋‹ค์‹œ ๋ณต์Šตํ•˜๋Š” ์˜๋ฏธ๋กœ ์ž‘์„ฑ Data Preprocessing & Exploratory Data Analysis Data Preprocessing ๋ฐ์ดํ„ฐ ๋กœ๋“œ import pandas as pd df = pd.read_csv('') ๊ฒฐ์ธก์น˜ ์—ฌ๋ถ€ ์ฒดํฌ df.isna() ์Šค์บํ„ฐ ํ”Œ๋ž ๊ทธ๋ฆฌ๊ธฐ df.plot.scatter('a', 'b') ์—ฌ๊ธฐ์„œ a์™€ b๋Š” df์˜ ๊ฐ ์ปฌ๋Ÿผ join data df.drop(columns='') ํ•ด๋‹นํ•˜๋Š” ์นผ๋Ÿผ ๋ฒ„๋ฆฌ๊ธฐ df1.merge(df2, how = '', on ='') df1์„ ๊ธฐ์ค€์œผ๋กœ df2๋ฅผ ํ•ฉ์นœ๋‹ค. how์—๋Š” ํ•ฉ์น˜๋Š” ๋ฐฉ๋ฒ•(๊ตฌ๊ธ€๋งํ•ด๋ณด๊ธฐ), on์—๋Š” ํ•ฉ์น  ๋•Œ ๊ธฐ์ค€์ด ๋˜๋Š” ์นผ๋Ÿผ Feature Engin..

    '21.11.17(์ˆ˜)_๋งค์ผ ๊ฒฝ์ œ

    # ๋ฐ”์ด๋“ , ์‹œ์ง„ํ•‘ ์ฒซ ์ •์ƒํšŒ๋‹ด - ๋ฐ”์ด๋“  '๋Œ€๋งŒ ๋…๋ฆฝ ์ง€์ง€ ์•ˆํ•ด' ์‹œ์ง„ํ•‘์— ์œ ํ™” ์†์ง“ ## ๋‹ค๋งŒ, ๋ฏธ๊ตญ : ๋Œ€๋งŒ ์ƒํ™ฉ ๋ฐ”๊พธ๋ผ๋Š” ์ผ๋ฐฉ์  ๋…ธ๋ ฅ์€ ๋ฐ˜๋Œ€, ์ค‘๊ตญ : ๋Œ€๋งŒ ๋…๋ฆฝ์„ธ๋ ฅ ๋ ˆ๋“œ๋ผ์ธ ๋„˜์œผ๋ฉด ๋‹จํ˜ธํ•œ ์กฐ์น˜ ### ๊ทธ๋ž˜๋„ ์•ฝ 3์‹œ๊ฐ„์˜ ์ฒซ ์ •์ƒํšŒ๋‹ด์—์„œ ๋ฏธ๊ตญ๊ณผ ์ค‘๊ตญ์˜ ๊ด€๊ณ„๊ฐ€ ์™„ํ™”๋˜๋Š” ๋Š๋‚Œ..? ๋‹ค๋งŒ, ๋ฏธ๊ตญ๊ณผ ์ค‘๊ตญ ๋ชจ๋‘ ์˜ˆ๋ฏผํ•œ ์‚ฌ์•ˆ์€ ๊ฒ‰๋Œ๊ณ  ํฌ๊ฒŒํฌ๊ฒŒ ์šฐ๋ฆฌ ์„œ๋กœ ๋‹คํˆฌ์ง€ ๋ง์ž ๊ทธ๋Ÿฌ๋ฉด ์šฐ๋ฆฌ ์†ํ•ด๋‹ค ์ด๋Ÿฐ ๋Š๋‚Œ์ด๋ผ์„œ ์•„์ฃผ ํฐ ์˜๋ฏธ๊ฐ€ ์žˆ์—ˆ์„๊นŒ ์ƒ๊ฐํ•œ๋‹ค. ํ•œํŽธ์œผ๋ก  ๊ฒฐ๊ตญ ์ •์น˜๋ผ๋Š” ๊ฒŒ ๊ทธ๋Ÿฐ๊ฑด๊ฐ€ ์‹ถ๊ธฐ๋„ ํ•˜๊ณ ...... ๋‹จ์ˆœํžˆ ํšŒ์˜ ํ•œ ๋ฒˆ์œผ๋กœ ๋ชจ๋“  ๋ฌธ์ œ๋“ค์— ๋Œ€ํ•œ ์˜๊ฒฌ์ด ์ „๋‹ฌ๋˜๊ณ  ์ˆ˜์ •๋˜๋Š” ๊ฑด ๋ง์ด ์•ˆ๋˜๋‹ˆ๊นŒ ์กฐ๊ธˆ์”ฉ ์กฐ๊ธˆ์”ฉ ๋ฐ”๋€Œ๋Š” ๊ฒŒ ์•„๋‹๊นŒ ์‹ถ๋‹ค. # ํ•œ๊ตญ์‹œ์žฅ ๋– ๋‚˜๋Š” ์™ธ๊ตญ๊ณ„ ์€ํ–‰ ## ์ง€๋‚œ์นœ ์ •๋ถ€๊ทœ์ œ, ๋…ธ๋™์‹œ์žฅ ๊ฒฝ์ง, ๋‚ฎ์€ ์ˆ˜์ต์„ฑ, ๋‚ฎ์€ ..

    '21.11.16(ํ™”)_๋งค์ผ ๊ฒฝ์ œ

    # ์•„ํŒŒํŠธ ์ „์„ธ์ง€์ˆ˜ 1๋…„ ์‚ฌ์ด 11% ์˜ฌ๋ผ ## ์ž‘๋…„ '11.19 ์ „์„ธ๋Œ€์ฑ…'์ด ์‹œํ–‰๋œ์ง€ 1๋…„... ### ์—ฌ์ „ํžˆ ๊ตญ๋‚ด ์•„ํŒŒํŠธ ๋ฌธ์ œ ์ž์ฒด๊ฐ€ ํ•ซํ•œ ๊ฑฐ ๊ฐ™๋‹ค. ์ด์ „์—๋Š” ๋งค๋งค๊ฐ€๊ฐ€ ๋„ˆ๋ฌด ์ƒ์Šนํ•ด์„œ ๋ถ€๋‹ด์ด์—ˆ๋Š”๋ฐ, ํ˜„์žฌ ๋งค๋งค ์‹œ์žฅ์€ ์–ผ์–ด๋ถ™์—ˆ๊ณ  ์˜คํžˆ๋ ค ์ „์„ธ๊ฐ€๊ฐ€ ๊ณ„์† ์˜ค๋ฅด๊ณ  ์žˆ๋‹ค. ๋”๊ตฐ๋‹ค๋‚˜ ๋ถ€๋™์‚ฐ๊ด€๋ จ ๊ทœ์ œ๊ฐ€ ๋” ์—„๊ฒฉํ•ด์ง€๋ฉด์„œ ์ง‘์ฃผ์ธ๋“ค์ด ์ „์„ธ๋ฅผ ๋‚ด๋†“๊ธฐ๋ณด๋‹ค ์‹ค๊ฑฐ์ฃผํ•˜๋Š” ๊ฒฝ์šฐ๊ฐ€ ์ƒ๊ธฐ๋ฉด์„œ ์˜คํžˆ๋ ค ์ „์„ธ ์‹œ์žฅ ์ž์ฒด๋„ ๋” ๊ฐ€๊ฒฉ์ด ์˜ค๋ฅด๋Š” ์ค‘...... ์–ด๋ ต๋‹ค # ํƒ์‹œ ์ง€ํ‚ค๋ ค ์šด์†กํ”Œ๋žซํผ ํ‡ด์ถœํ–ˆ์ง€๋งŒ, ์•„์ด๋Ÿฌ๋‹ˆํ•˜๊ฒŒ ๊ธฐ์‚ฌ๋“ค์€ '๋ฐฐ๋ฏผ์œผ๋กœ ์ „์ง' ## ์œ„๋“œ ์ฝ”๋กœ๋‚˜๋กœ ๋‹จ๊ณ„์  ํšŒ๋ณต ์‹œํ–‰ํ•˜์ž ์‹ฌ์•ผ ํƒ์‹œ ์ˆ˜์š” ๊ธ‰์ฆ ๊ทธ๋Ÿฌ๋‚˜ ํƒ์‹œ ๊ธฐ์‚ฌ๋“ค์ด ๋ชจ์ž๋ž€ ํ˜„์‹ค ### ๊ทธ ๋™์•ˆ ์šด์†ก์—…๊ณ„์—์„œ ์ •๋ถ€๋Š” ๋Œ€๋ถ€๋ถ„ ํƒ์‹œ ์—…๊ณ„์˜ ํŽธ์„ ๋“ค์–ด์ฃผ์—ˆ๋‹ค๊ณ  ํ•œ๋‹ค. (์ •์น˜์ ์ธ ๋ฌธ์ œ๋„ ์žˆ๊ณ  ๋“ฑ๋“ฑ)..

    PCA(Principal Component Analysis)

    PCA(Principal Component Analysis)

    PCA(Principal Component Analysis); ์ฃผ์„ฑ๋ถ„ ๋ถ„์„ ๊ณ ์ฐจ์›์˜ ๋ฐ์ดํ„ฐ๋ฅผ ์ €์ฐจ์›์˜ ๋ฐ์ดํ„ฐ๋กœ ํ™˜์›์‹œํ‚ค๋Š” ๊ธฐ๋ฒ•์„ ๋งํ•œ๋‹ค. ๋ฐ์ดํ„ฐ์˜ ๊ตฌ์กฐ๋ฅผ ์œ ์ง€ํ•˜๋ฉด์„œ ์ฐจ์›์„ ์ถ•์†Œํ•˜๋Š” ๋ฐฉ๋ฒ• ๋ถ„ํฌ๋œ ๋ฐ์ดํ„ฐ๋“ค์˜ ์ฃผ์„ฑ๋ถ„์„ ์ฐพ๋Š” ๋ฐฉ๋ฒ•์œผ๋กœ ์œ„ ๊ทธ๋ฆผ์ฒ˜๋Ÿผ ๋ฐ์ดํ„ฐ๊ฐ€ 2์ฐจ์› ์ขŒํ‘œํ‰๋ฉด์— n๊ฐœ์˜ ์ ๋“ค๋กœ ๋ถ„ํฌ๋˜์–ด ์žˆ์„ ๋•Œ, ๋ฐ์ดํ„ฐ๋“ค์˜ ๋ถ„ํฌ ํŠน์„ฑ์„ ๊ฐ€์žฅ ์ž˜ ์„ค๋ช…ํ•ด์ฃผ๋Š” ๋ฒกํ„ฐ๋ฅผ ์ฐพ๋Š” ๊ฒƒ์ด๋‹ค. ๋จผ์ € ๋ฐ์ดํ„ฐ๋“ค์˜ ๋ถ„์‚ฐ(ํฉ์–ด์ง„ ์ •๋„)์ด ๊ฐ€์žฅ ํฐ ๋ฐฉํ–ฅ๋ฒกํ„ฐ์ธ e1์„ ์„ค์ •ํ•˜๊ณ  e1๊ณผ ์ˆ˜์ง์ด๋ฉด์„œ ๋ฐ์ดํ„ฐ์˜ ๋ถ„์‚ฐ์„ ๊ฐ€์žฅ ์ž˜ ๋‚˜ํƒ€๋‚ด๋Š” ๋ฒกํ„ฐ(e2)๋ฅผ ์ฐพ๋Š”๋‹ค. ์ฃผ์„ฑ๋ถ„ ๋ฒกํ„ฐ e1, e2์„ ์ด์šฉํ•ด์„œ ํƒ€์›ํ˜•์˜ ๋ฐ์ดํ„ฐ๋“ค์„ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋œ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ์„ฑ์  ๋ฐ์ดํ„ฐ๊ฐ€ '๊ตญ์–ด', '์˜์–ด', '์ˆ˜ํ•™', '๊ณผํ•™'์ด ์žˆ์„ ๋•Œ, (๊ตญ์–ด, ์˜์–ด)๋ฅผ ๋ฌธ๊ณผ ๊ณ„ํ†ต, (์ˆ˜ํ•™, ..

    00. ๋ถ€ํŠธ์บ ํ”„์— ๋“ค์–ด๊ฐ€๊ธฐ์— ์•ž์„œ

    1. ๋™๊ธฐ-๋‚ด๊ฐ€ ๋ฐ์ดํ„ฐ ์‚ฌ์ด์–ธ์Šค๋ฅผ ์‹œ์ž‘ํ•œ ์ด์œ  ์ด ๋ถ„์•ผ๊ฐ€ ์•ž์œผ๋กœ ์ •๋ง ์œ ๋งํ•  ๊ฒƒ์ด๊ณ  ์ด ๊ณต๋ถ€๋ฅผ ํ•˜์ง€ ์•Š์œผ๋ฉด ๋ฏธ๋ž˜์— ๋‚ด๊ฐ€ ํ›„ํšŒํ•  ๊ฒƒ ๊ฐ™์•„์„œ ํ•œ๊ฐ€์ง€ ๊ฑฑ์ •๋˜๋Š” ๊ฒƒ์€, ๋‚ด๊ฐ€ ์ด ๋ถ„์•ผ๊ฐ€ ์•ˆ๋งž๋Š” ์‚ฌ๋žŒ์ผ ์ˆ˜๋„ ์žˆ๋‹ค๋Š” ๊ฒƒ๊ณผ ๋‚ด๊ฐ€ ๋‚˜์ด๊ฐ€ ๋“ค์ˆ˜๋ก ์ด ๋ถ„์•ผ์—์„œ ๊ฒฝ์Ÿ๋ ฅ์ด ์—†์–ด์งˆ ์ˆ˜ ์žˆ๋‹ค๋Š” ๊ฒƒ ๊ทธ๋Ÿฌ๋‚˜ ์ด ๋ถ„์•ผ๋„ ๊ฒฐ๊ตญ์—” ๊ฒฝํ—˜์ด ์Œ“์ด๋ฉด ๋” ์œ ๋ฆฌํ•˜๊ณ  ๋” ์ข‹์€ ํฌ์ง€์…˜์„ ๊ฐ€์ ธ๊ฐˆ ์ˆ˜ ์žˆ์„ ๊ฒƒ์ด๋‹ค. ๋˜ํ•œ, ์ด ๋ถ„์•ผ๋ฅผ ๊ณต๋ถ€ํ•˜๋ฉด ๋˜๋‹ค๋ฅธ ๋ถ„์•ผ์— ํ˜์‹ ์„ ๊ฐ€์ ธ์˜ฌ ์ˆ˜ ์žˆ์„ ๊ฒƒ์ด๋ผ ๋ฏฟ๊ธฐ ๋•Œ๋ฌธ์—. ์˜ˆ๋ฅผ ๋“ค์–ด ๋‚˜๋Š” ์ •์˜๋กœ์šด ์ผ์„ ํ•˜๊ณ  ์‹ถ๋‹ค๋ฉด, ์ด ๋ถ„์•ผ๋ฅผ ๊ณต๋ถ€ํ•ด์„œ CV ์ชฝ์œผ๋กœ ๋ฒ”์ฃ„์ž๋ฅผ ์žก๋Š”๋ฐ ML,DL์„ ์‚ฌ์šฉํ•œ๋‹ค๋“ ์ง€ ํ˜น์€ ์Šค๋งˆํŠธํŒœ์— ๊ด€์‹ฌ์ด ์žˆ๋‹ค๋ฉด ๊ทธ ์ชฝ์— ์ ์šฉํ•  ์ˆ˜ ์žˆ๋‹ค๋“ ์ง€..! ๋ญ”๊ฐ€ ์‚ฌ๋žŒ์„ ๋„์šธ ์ˆ˜ ์žˆ๋Š” ๋ถ„์•ผ์— ์ ์šฉํ•˜๊ณ  ์‹ถ๋‹ค. ํŠนํžˆ ์‚ฌํšŒ์  ์•ฝ์ž๋“ค์—๊ฒŒ ๋„์›€..