๐Ÿ’ฟ Data/์ด๋ชจ์ €๋ชจ

Clustering(๊ตฐ์ง‘ํ™”)

Jayden1116 2021. 12. 6. 18:16

Machine Learning์—์„œ Supervised Learning / Unsupervised Learning / Reinforce Learning 3๊ฐ€์ง€์˜ ์ฐจ์ด๋Š” ๋ฌด์—‡์ผ๊นŒ?(์˜ˆ์‹œ๋„ ํ•จ๊ป˜!)

๋จผ์ € Machine Learning(๊ธฐ๊ณ„ ํ•™์Šต)์ด๋ž€ ์ธ๊ณต์ง€๋Šฅ์˜ ํ•˜์œ„ ์ง‘ํ•ฉ์œผ๋กœ ์ปดํ“จํ„ฐ๊ฐ€ ๋ฐ์ดํ„ฐ๋ฅผ ํ†ตํ•ด ํ•™์Šตํ•˜๊ณ  ๊ฒฝํ—˜์„ ํ†ตํ•ด ๊ฐœ์„ ํ•˜๋„๋ก ํ•™์Šต์‹œํ‚ค๋Š” ๊ฒƒ์„ ๋งํ•œ๋‹ค. ๋จธ์‹ ๋Ÿฌ๋‹์—์„œ ์•Œ๊ณ ๋ฆฌ์ฆ˜์€ ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ์—์„œ ํŒจํ„ด๊ณผ ์ƒ๊ด€๊ด€๊ณ„ ๋“ฑ์˜ ๋ถ„์„์„ ํ† ๋Œ€๋กœ ์ตœ์ ์˜ ์˜์‚ฌ๊ฒฐ์ •๊ณผ ์˜ˆ์ธก์„ ์ˆ˜ํ–‰ํ•˜๋Š” ๊ฒƒ์— ์ดˆ์ ์„ ๋งž์ถ˜๋‹ค.

  • Supervised Learning(์ง€๋„ํ•™์Šต) : ์ •๋‹ต์ด ์žˆ๋Š” ๋ฐ์ดํ„ฐ๋ฅผ ํ™œ์šฉํ•ด ๋ฐ์ดํ„ฐ๋ฅผ ํ•™์Šต์‹œํ‚ค๋Š” ๋ฐฉ๋ฒ•. ์ž…๋ ฅ๊ฐ’์ด ์ฃผ์–ด์ง€๋ฉด ์ž…๋ ฅ๊ฐ’์— ๋Œ€ํ•œ Label๋„ ์ฃผ์–ด ํ•™์Šต์‹œํ‚ค๋Š” ๊ฒƒ์œผ๋กœ ๊ทธ ์ข…๋ฅ˜์—๋Š” ๋ถ„๋ฅ˜, ํšŒ๊ท€ ๋“ฑ์ด ์žˆ๋‹ค. ์˜ˆ์‹œ) ๊ฐ•์•„์ง€ ์‚ฌ์ง„์—” '๊ฐ•์•„์ง€', ๊ณ ์–‘์ด ์‚ฌ์ง„์—” '๊ณ ์–‘์ด' ๋ผ๋Š” ๊ฐ’์„ ์ฃผ๊ณ  ํ•™์Šต. ์ถ”ํ›„ ์‚ฌ์ง„์ด ๋“ค์–ด์˜ค๋ฉด '๊ฐ•์•„์ง€' ํ˜น์€ '๊ณ ์–‘์ด'๋กœ ๋ถ„๋ฅ˜ ๊ฐ€๋Šฅ
  • Unstupervised Learning(๋น„์ง€๋„ํ•™์Šต) : ์ •๋‹ต์ด ์—†๋Š” ๋ฐ์ดํ„ฐ๋ฅผ ํ™œ์šฉํ•ด ๋ฐ์ดํ„ฐ๋ฅผ ํ•™์Šต์‹œํ‚ค๋Š” ๊ฒƒ. ๊ทธ๋ƒฅ ์ž…๋ ฅ๊ฐ’์ด ์ฃผ์–ด์ง€๋ฉด ์ž…๋ ฅ๊ฐ’๋ผ๋ฆฌ ์œ ์‚ฌ์ (๊ฑฐ๋ฆฌ๊ฐ€ ๊ฐ€๊นŒ์šด ์ )์„ ๋”ฐ์ง€๋ฉฐ ์กฐ๊ธˆ์”ฉ ๋ฐ์ดํ„ฐ๋ฅผ ๊ตฐ์ง‘์œผ๋กœ ๋‚˜๋ˆˆ๋‹ค. ์˜ˆ์‹œ) ๊ฐ•์•„์ง€, ๊ณ ์–‘์ด ์‚ฌ์ง„์„ ๊ทธ๋ƒฅ ์ž…๋ ฅํ•ด์คŒ. ๊ทธ๋Ÿฌ๋ฉด ๊ธฐ๊ณ„๊ฐ€ ์ฃผ์–ด์ง„ ์กฐ๊ฑด(๋‹ค๋ฆฌ๊ฐ€ 4๊ฐœ, ๊ท€๊ฐ€ ๋พฐ์กฑ ๋“ฑ)์—์„œ ์ฃผ์–ด์ง„ ์ž…๋ ฅ๊ฐ’์„ ๋ฌถ๋Š”๋‹ค. ๋น„์ง€๋„ํ•™์Šต์€ ์šฐ๋ฆฌ๊ฐ€ ์ •๋‹ต์„ ๋ชจ๋ฅผ ๋–„(์ฆ‰, ์ง€๋„ํ•™์Šต์„ ํ•˜๊ณ  ์‹ถ์€๋ฐ, Label์„ ๋ถ€์—ฌํ•˜๊ธฐ ์–ด๋ ค์šธ ๋•Œ) ์‚ฌ์šฉํ•˜๊ธฐ๋„ ํ•œ๋‹ค. ๋น„์ง€๋„ํ•™์Šต์„ ํ†ตํ•ด Label์„ ๋ถ€์—ฌํ•˜๊ณ  ์ง€๋„ํ•™์Šต์„ ํ•˜๋Š” ์‹
  • Reinforce Learning(๊ฐ•ํ™”ํ•™์Šต) : ์‚ฌ์ „์— ์ฃผ์–ด์ง„ ํ™˜๊ฒฝ์— ๋Œ€ํ•œ ์ •๋ณด ์—†์ด ํ–‰๋™์— ๋”ฐ๋ฅธ ๊ฒฐ๊ณผ๋ฅผ ์–ป๊ณ  ์ด๋ฅผ ํ†ตํ•ด '์‹œํ–‰์ฐฉ์˜ค'๋ฅผ ๊ฒช์œผ๋ฉฐ ์ตœ์ ์˜ ๋ณด์ƒ์„ ์–ป๋Š” ๊ฐ’์„ ๋„์ถœํ•˜๋Š” ๋ฐฉ์‹. ex) ์–ด๋–ค ์ง€์ ๊นŒ์ง€ ์ด๋™ํ•ด์•ผํ•  ๋•Œ, ๋™์„œ๋‚จ๋ถ ๋ชจ๋“  ๋ฐฉํ–ฅ์„ ๋‹ค ๊ฐ€๋ณด๊ณ  ์ตœ์ข… ๋„๋‹ฌํ–ˆ์„ ๋•Œ ๊ฐ€์žฅ ๊ฒฐ๊ณผ๊ฐ’์ด ์ข‹์•˜๋˜ ๋ฐฉ๋ฒ•์„ ํ•™์Šต

Clustering์€ ๋ฐ์ดํ„ฐ ๋ถ„์„ ๊ณผ์ •์—์„œ ์–ธ์ œ ์“ฐ์ด๋Š” ๊ฒƒ์ด ์ข‹์„๊นŒ?

๋‹จ์ˆœํ•˜๊ฒŒ ์ƒ๊ฐํ•˜๋ฉด, ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•œ ๊ฒฐ๊ณผ๊ฐ’์„ ๋„๋ฌด์ง€ ์˜ˆ์ธกํ•  ์ˆ˜ ์—†์„ ๋•Œ..!
๋ฐ์ดํ„ฐ ๋ถ„์„ ๊ณผ์ • : 1. ๋ฌธ์ œ ์ •์˜ 2. ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ 3. ๋ฐ์ดํ„ฐ ์ „์ฒ˜๋ฆฌ 4. ๋ฐ์ดํ„ฐ ๋ชจ๋ธ๋ง 5. ๋ฐ์ดํ„ฐ ์‹œ๊ฐํ™” ๋ฐ ํƒ์ƒ‰
์ •ํ™•ํžˆ ์–ด๋ ต์ง€๋งŒ... ๋‹จ์ˆœํ•˜๊ฒŒ ์ƒ๊ฐํ•˜๋ฉด ์ผ๋‹จ ๋ฐ์ดํ„ฐ๊ฐ€ ์ˆ˜์ง‘๋˜์–ด์žˆ์–ด์•ผํ•˜๋‹ˆ ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ ํ›„ ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•œ ๊ฒฐ๊ณผ๊ฐ’์„ ๊ตฌ๋ถ„ํ•ด์•ผํ•  ๋•Œ ์“ฐ์ผ ์ˆ˜ ์žˆ์„ ๊ฒƒ ๊ฐ™๋‹ค..! ์‚ฌ์‹ค ์ •ํ™•ํžˆ ์–ด๋–ค ๋‹จ๊ณ„๋ผ๊ณ  ๋”ฑ ์ž๋ฅด๊ธฐ๋Š” ํž˜๋“ค์–ด๋ณด์ธ๋‹ค.(์•„๋ฌดํŠผ ๋ชจ๋ธ๋ง ์ „์— ์“ฐ์ด๋Š” ๊ฒŒ ๋งž๊ฒ ๋‹ค! ๊ฒฐ๊ณผ๊ฐ’์„ ์ฐพ์•„์•ผ ๋ชจ๋ธ๋ง์— ์“ฐ์ผํ…Œ๋‹ˆ!)

DBSCAN Clustering์ด๋ž€ ๋ฌด์—‡์ธ๊ฐ€?

K-means๋Š” ํŠน์ • ์ดˆ๊ธฐ๊ฐ’(๊ธฐ์ค€)์„ ๋ฐฐ์น˜ํ•˜๊ณ  ๊ธฐ์ค€ ์™ธ์˜ ๋ฐ์ดํ„ฐ ์ž…์žฅ์—์„œ ์ž์‹ ๊ณผ ๊ฐ€์žฅ ๊ฐ€๊นŒ์šด ๊ธฐ์ค€์ธ ์• ํ•œํ…Œ ๋ถ™๊ณ , ๋‹ค์‹œ ๊ทธ ์ง‘๋‹จ ๋‚ด์—์„œ ๊ฑฐ๋ฆฌ ํ•ฉ์„ ์ตœ์†Œํ˜ธ ๊ฐ–๋Š” ์• ๊ฐ€ ๊ธฐ์ค€์ด ๋˜๊ณ  ์ด๊ฑธ ๋ฐ˜๋ณตํ•˜๋Š” ๋ฐฉ๋ฒ•. ๊ทธ๋ ‡๋‹ค๋ฉด DBSCAN์€ 'Density Based' ์ฆ‰, ๋ฐ€๋„ ๊ธฐ๋ฐ˜์ด๋ผ๋Š” ๋ง์ฒ˜๋Ÿผ ๋งˆ์ฐฌ๊ฐ€์ง€๋กœ ํ•œ ๊ธฐ์ค€์—์„œ ์ผ์ • ์ง๊ฒฝ๊ฐ’์„ ์ฃผ๊ณ  ๊ทธ ๋ฒ”์œ„ ์•ˆ์— ๋ฐ€๋„(๊ฐฏ์ˆ˜)๊ฐ€ ๋ช‡ ์ด์ƒ์ด๋ฉด ๊ตฐ์ง‘์œผ๋กœ ๋ถ„๋ฅ˜ํ•˜๋ฉด์„œ ๊ตฐ์ง‘๋˜๋Š” ๋ฐฉ์‹!
'๋‚˜๋ฅผ ๊ธฐ์ค€ ๋ฐ˜๊ฒฝ 5m ๋‚ด์— 5๋ช…์˜ ์‚ฌ๋žŒ์ด ์žˆ๋‹ค๋ฉด ์šฐ๋ฆฌ๋Š” ํ•œํŒ€!'์ด๋ผ๊ณ  ์™ธ์น˜๊ณ  ์ด ๋ฌธ์žฅ ๊ทœ์น™๋Œ€๋กœ ์ˆ˜ํ–‰ํ•ด๋‚˜์•„๊ฐ€๋Š” ๋ฐฉ์‹!