K-์ต๊ทผ์ ์ด์ ์๊ณ ๋ฆฌ์ฆ์ ์ฃผ๋ณ์ ๊ฐ์ฅ ๊ฐ๊น์ด K๊ฐ์ ๋ฐ์ดํฐ๋ฅผ ๋ณด๊ณ ์๋ก์ด ๋ฐ์ดํฐ๋ฅผ ํ๋จํ๋ ์๊ณ ๋ฆฌ์ฆ์ ๋งํ๋ค.
N๊ฐ์ ํน์ฑ(feature)์ ๊ฐ์ง ๋ฐ์ดํฐ๋ n์ฐจ์์ ๊ณต๊ฐ์ ์ ์ผ๋ก ํํ๋๋๋ฐ, ์ ์ฌํ ๋ฐ์ดํฐ๋ผ๋ฆฌ๋ ๊ฑฐ๋ฆฌ๊ฐ ๊ฐ๊น๋ค.
์ด๋, ๋ค์ํ ๊ฑฐ๋ฆฌํจ์๋ฅผ ํตํด ๋ฐ์ดํฐ ๊ฐ์ ๊ฑฐ๋ฆฌ๋ฅผ ๊ตฌํ ์ ์๋ค.
์ด ์๊ณ ๋ฆฌ์ฆ์ ๋ชจ๋ธ์ ํจ๊ณผ๋ฅผ ๋์ด๊ธฐ ์ํด ํ๋ผ๋ฏธํฐ์ธ K๋ฅผ ์กฐ์ ํ๋ค.
K-์ต๊ทผ์ ์ด์ ์๊ณ ๋ฆฌ์ฆ์ KNN ๋ถ๋ฅ์ KNN ํ๊ท์ ๋ชจ๋ ์ ์ฉ ๊ฐ๋ฅํ๋ฐ, KNN ํ๊ท์๋ ๋ค์๊ณผ ๊ฐ์ด ์ ์ฉ๋๋ค.
1. ๋ค์ํ ๊ฑฐ๋ฆฌ ํจ์๋ฅผ ์ด์ฉํด ๊ฐ๊น์ด k๊ฐ์ ์ด์์ ์ฐพ๋๋ค. (์ ํด๋ฆฌ๋ ๊ฑฐ๋ฆฌ, ๋งจํดํผ ๊ฑฐ๋ฆฌ, ํด๋ฐ ๊ฑฐ๋ฆฌ ๋ฑ)
2. ์ด์ ์ํ์ ํ๊น๊ฐ์ ํ๊ท ํ์ฌ ์์ธกํ๊ณ ์ ํ๋ ๋ฐ์ดํฐ์ ์์ธก๊ฐ์ผ๋ก ์ฌ์ฉํ๋ค.
3. ๋ค์ํ ํ๊ท ๋ชจ๋ธ์ ํ๊ฐ์งํ๋ฅผ ์ด์ฉํด ๋ชจ๋ธ์ ์ฑ๋ฅ์ ์ธก์ ํ๋ค. (๊ฒฐ์ ๊ณ์ R^2, MSE, RMSE, MAE, MAPE, MPE ๋ฑ)
4. ํ๋ จ ์ธํธ, ํ ์คํธ ์ธํธ์ ๋ํ ํ๊ฐ ์ ์๋ฅผ ํตํด ๊ณผ๋์ ํฉ/๊ณผ์์ ํฉ/์ ์ ์ ํ๋จํ๋ค.
* ํ๋ จ์ธํธ ์ ์ < ํ ์คํธ ์ธํธ ์ ์์ด๋ฉด ๊ณผ์์ ํฉ
ํ๋ จ์ธํธ ์ ์ > ํ ์คํธ ์ธํธ ์ ์์ด๋ฉด ๊ณผ๋์ ํฉ์ด๋ค.
์ด ์๊ณ ๋ฆฌ์ฆ์ ํ์ต ๋ฐ์ดํฐ์ ๋ ธ์ด์ฆ์ ํฌ๊ฒ ์ํฅ์ ๋ฐ์ง ์๊ณ , ํ๋ จ ๋จ๊ณ๊ฐ ๋น ๋ฅด๋ฉฐ ์ด์์น์ ์ํฅ์ ๋ ๋ฐ์์ ๋ฐ์ดํฐ์ ๋ถ์ฐ๊น์ง ๊ณ ๋ คํ๋ฉด ์๋นํ ๋ก๋ฒ์คํธํ๋ค๋ ์ฅ์ ์ด ์๋ค. ๊ทธ๋ฌ๋ ๋ชจ๋ธ์ ์์ฑํ์ง ์์์ ํน์ง๊ณผ ํด๋์ค ๊ฐ ๊ด๊ณ๋ฅผ ์ดํดํ๋๋ฐ ์ ํ์ ์ด๋ฉฐ ์ต์ ์ด์์ ์์ ์ฌ์ฉํ ๊ฑฐ๋ฆฌ ์ฒ๋๋ฅผ ๋ฐ์ดํฐ ๊ฐ๊ฐ์ ํน์ฑ์ ๋ง๊ฒ ์ฐ๊ตฌ์๊ฐ ์์๋ก ์ค์ ํด์ผํ๋ค๋ ๋จ์ ์ด ์๋ค. (*์ฃผ๋ก ์ต์ ์ด์ ์๋ ํ์์ด๋ค)
๊ฑฐ๋ฆฌํจ์์ ์ข ๋ฅ์๋ ์ ํด๋ฆฌ๋ ๊ฑฐ๋ฆฌํจ์, ๋งจํดํผ ๊ฑฐ๋ฆฌํจ์, ํด๋ฐ ๊ฑฐ๋ฆฌํจ์๊ฐ ์๋ค.
์ด์ค ์ ํด๋ฆฌ๋ ๊ฑฐ๋ฆฌํจ์๋
๊ฐ ์ฐจ์์ ์ฐจ๋ฅผ ์ ๊ณฑํด์ ๋ชจ๋ ๋ํ ๊ฐ์ ์ ๊ณฑ๊ทผ์ผ๋ก, 2์ฐจ์์์๋ ํผํ๊ณ ๋ผ์ค ์ ๋ฆฌ์ ๊ฐ๋ค.
์ด๋, k๊ฐ์ ์ ํด์ผ ํ๊ธฐ ๋๋ฌธ์ x์ y ๋ฒกํฐ๋ฅผ ์ ๊ทํ ํ ๊ฑฐ๋ฆฌํจ์๋ฅผ ๊ณ์ฐํด์ค๋ค.
๋งจํดํผ ๊ฑฐ๋ฆฌํจ์๋
๋ค์๊ณผ ๊ฐ์ด ๊ฐ ์ฐจ์์ ์ฐจ์ ์ ๋๊ฐ์ ๋ฐ๋ก ํฉ์ฐํด์ค๋ค.
ํด๋ฐ ๊ฑฐ๋ฆฌํจ์๋ ๊ฐ ์ฐจ์๋ง๋ค ์ฐจ์ด๋ฅผ ์ฐพ๋๊ฒ ์๋ '์ ํํ ๊ฐ์์ง'์ ์ฌ๋ถ๋ง ๊ณ ๋ คํ๊ธฐ ๋๋ฌธ์ ์ฃผ๋ก ๋๊ฐ์ ์ด์ง ๋ฐ์ดํฐ
๋ฌธ์์ด์ ๋น๊ตํ๊ธฐ ์ํ ์งํ๋ก ์ฌ์ฉ๋๋ค. (*๋นํธ ํ๋๊ฐ ๋ค๋ฅผ ๋๋ง๋ค ํด๋ฐ๊ฑฐ๋ฆฌ๊ฐ ์ฆ๊ฐํ๋ค)
์ต์ ์ k๊ฐ์ ๋ฐ์ดํฐ์ ์์กด์ ์ด๋ฉฐ ๋ค์ํ ๋ฐ๊ฒฌ์ ๊ธฐ๋ฒ์ผ๋ก ์ ํ๋๋ค. -> Trial & Error (python ๋ฐ๋ณต๋ฌธ ์ฌ์ฉ)
์๋ฌ์จ์ด ๊ฐ์ฅ ์์ k๋ฅผ ์ ํํ๊ฒ ๋๋๋ฐ, K๊ฐ ๋๋ฌด ์์ผ๋ฉด ๊ณผ๋์ ํฉ๋์ด ๋ฐ์ดํฐ์ ์ง์ญ์ ํน์ฑ์ ์ง๋์น๊ฒ ๋ฐ์ํ๊ฒ ๋๊ณ , K๊ฐ ๋๋ฌด ํฌ๋ฉด ๊ณผ์์ ํฉ๋์ด ๋ชจ๋ธ์ด ๊ณผํ๊ฒ ์ ๊ทํ๋๋ค.
์ข ์ ๋ณ์๊ฐ ์ฐ์ํ์ธ ๊ฒฝ์ฐ ๊ฑฐ๋ฆฌ๊ฐ ๊ฐ๊น์ด ๊ด์ธก์น๋ค์๊ฒ ๊ฐ์ค์น(weight)๋ฅผ ๋ถ๊ณผํด ๊ฐ์คํ๊ท ์ผ๋ก ๊ตฌํ๋ ๊ฒ์ ์๋ฏธํ๋ฉฐ Inverse distance weighted average๊ฐ ๊ณ ๋ ค ๊ฐ๋ฅํ๋ค.
์ข ์ ๋ณ์๊ฐ ๋ฒ์ฃผํ์ผ ๊ฒฝ์ฐ Tie ๋ฌธ์ ๋ฅผ ๋ง๊ธฐ ์ํด k๋ ํ์๊ฐ ๊ถ์ฅ๋๋ค.
๋น์ฉํจ์๋ผ๊ณ ๋ ๋ถ๋ฆฌ๋ ํ๊ท ๋ชจ๋ธ์ ํ๊ฐ ์งํ๋ ์๋์ ๊ฐ๊ณผ ๊ฐ์ฅ ์ค์ฐจ๊ฐ ์์ ๊ฐ์คํจ์ ๋ฅผ ๋์ถํ๊ธฐ ์ํด ์ฌ์ฉ๋๋ ํจ์์ด๋ค.
๊ฐ์ฅ ํํ ์ฐ์ด๋ ๊ฒฐ์ ๊ณ์ R^2์ ํต๊ณํ ํ๊ท ๋ถ์์์ ์์ฃผ ์ฐ์ด๋ฉฐ ๋ชจ๋ธ์ด ๋ฐ์ดํฐ๋ฅผ
์ผ๋ง๋ ์ ์์ธกํ๋์ง์ ๋ํ ์งํ์ด๋ค.
ํ๊ท ์ผ๋ก ์์ธกํ์ ๋๋ณด๋ค ๋ชจ๋ธ์ ์ฌ์ฉํ์ ๋
์ผ๋ง๋ ๋ ์ข์ ์ฑ๋ฅ์ ๋ด๋์ง์ ๋ํ ๋น์จ๋ก ๋ํ๋ธ ๊ฐ์ ์๋ฏธํ๋ค.
์ค์ฐจ ์ ๊ณฑ ํ๊ท ์ธ MSE (Mean Squared Error)๋ ์์ธก๊ฐ๊ณผ ์ค์ ๊ฐ์ ์ฐจ์ด์ ๋ํ ์ ๊ณฑ์ ๋ํ์ฌ ํ๊ท ์ ๋ธ ๊ฐ์ผ๋ก,
๊ฐ์ฅ ๋ง์ด ์ฌ์ฉ๋๋ฉฐ ์ด์์น์ ๋ฏผ๊ฐํ๋ค. ์ค์ฐจ๊ฐ ์์ผ๋ฉด ์์์๋ก ์ข์ง๋ง ๊ณผ๋์ ํฉ์ด ๋ ์ ์๋ค.
ํ๊ท ์ ๊ณฑ๊ทผ ์ค์ฐจ์ธ RMSE(Root Mean Squared Error)๋ MSE์ ๋ฃจํธ๋ฅผ ์์ด ๊ฐ์ผ๋ก,
MSE์ ์ฅ๋จ์ ์ ๊ฑฐ์ ๋ฐ๋ผ๊ฐ์ง๋ง ์ ๊ณฑ์ค์ฐจ์ ๋ํ ์๊ณก์ ์ค์ฌ์ฃผ๋ฉฐ ๋ก๋ฒ์คํธํ๋ค๋ ์ฅ์ ์ด ์๋ค.
์ค๋ฅ ์งํ๋ฅผ ๋ฃจํธ๋ฅผ ํตํด ์ค์ ๊ฐ๊ณผ ์ ์ฌํ ๋ค์๋ก ๋ณํํ๊ธฐ ๋๋ฌธ์ ํด์์ด ์ฌ์ฐ๋ ์ค์ํ์์ ์ฐ๋ ๊ณ์ฐ๋ฒ์ ๋ฒ์ด๋ฌ๋ค๊ณ ํ ์ ์๋ค. ๊ทธ๋ผ์๋ ํฐ ์ค๋ฅ๊ฐ ์ฐจ์ด์ ๋ํ ํฐ ํจ๋ํฐ๋ฅผ ์ฃผ๋ ์ด์ ์ด ์์ด ๋ง์ด ์ฐ์ธ๋ค.
ํ๊ท ์ ๋ ์ค์ฐจ์ธ MAE(Mean Absolute Error)๋ ์ ๋๊ฐ์ ์ทจํ๊ธฐ ๋๋ฌธ์ ๊ฐ์ ์ง๊ด์ ์ผ๋ก ์ ์ ์๋ ์งํ์ด๋ค.
MSE๋ณด๋ค ํน์ด์น์ robustํ๋ค.(*์ ๊ณฑํ์ง ์๊ธฐ ๋๋ฌธ์ ์ด์์น์ ๋ ๋ฏผ๊ฐ)
๊ทธ๋ฌ๋ ์ ๋๊ฐ์ ์ทจํ๊ธฐ ๋๋ฌธ์ ๋ชจ๋ธ์ด ์ค์ ๋ณด๋ค ์ค์ ๋ณด๋ค ๋์ ๊ฐ์ผ๋ก ์์ธก๋์๋์ง(overperformance),
๋ฎ์ ๊ฐ์ผ๋ก ์์ธก๋์๋์ง(underperformance) ์ ์ ์๋ค.
ํ๊ท ์ ๋๋น ์ค์ฐจ์ธ MAPE(Mean Absolute Percentage Error)๋ MAE์ ๋ง์ฐฌ๊ฐ์ง๋ก MSE๋ณด๋ค ํน์ด์น์ robustํ๋ฉฐ
MAE์ ๊ฐ์ ๋จ์ ์ ๊ฐ์ง๋ค. ํผ์ผํธ ๊ฐ์ ๊ฐ์ง๋ฉฐ 0์ ๊ฐ๊น์ธ์๋ก ํ๊ท ๋ชจํ์ ์ฑ๋ฅ์ด ์ข๋ค๊ณ ํด์ํ ์ ์์ผ๋ฉฐ,
๋ชจ๋ธ์ ๋ํ ํธํฅ์ด ์กด์ฌํ๋ค.
MPE(Mean Percentage Error)๋ MAPE์์ ์ ๋๊ฐ์ ์ ์ธํ ์งํ๋ก, ๊ณผ์ํ๊ฐ์ธ์ง ๊ณผ๋ํ๊ฐ์ธ์ง ์ ์ ์์ด์ ํธ๋ฆฌํ๋ค.
MAE, MSE์ ๊ฐ์ ์ ๋์ค์ฐจ ์ธก์ ์ด ์๋ MAPE, MPE์ ๊ฐ์ ์๋์ค์ฐจ ์ธก์ ์ด๋ค.
<KNN ํ๊ท ๊ตฌํ>
*๊ณผ๋์ ํฉ์ด๋ ๋ชจ๋ธ์ด ํ๋ จ ์ธํธ์์๋ ์ข์ ์ฑ๋ฅ์ ๋ด์ง๋ง ๊ฒ์ฆ ์ธํธ์์๋ ๋ฎ์ ์ฑ๋ฅ์ ๋ด๋ ๊ฒฝ์ฐ๋ฅผ ๋งํ๋ฉฐ,
๋ถ์ฐ์ด ํฌ๋ค. -> ํ๋ จ ์ธํธ์ ์ถฉ๋ถํ ๋ค์ํ ์ํ์ด ํฌํจ๋์ง ์์์ ์ผ์ด๋๋ค.
ํ๋ จ ์ธํธ์ ๋ค์ํ ์ํ์ ํฌํจ์ํค๊ฑฐ๋, ํ๋ จ ์ํ์ ๋ ๋ชจ์ ์ ์๋ ๊ฒฝ์ฐ ๋ชจ๋ธ์ด ํ๋ จ ์ธํธ์ ์ง์ฐฉํ์ง ์๊ฒ
๊ฐ์ค์น๋ฅผ ์ ํํด ๋ชจ๋ธ์ ๋ณต์ก๋๋ฅผ ๋ฎ์ถ๊ฑฐ๋, outlier๋ error๋ฅผ ์ ๊ฑฐํด ์ก์์ ์ค์ฌ์ ํด๊ฒฐํ ์ ์๋ค.
*๊ณผ์ ์ ํฉ์ด๋ ํ๋ จ ์ธํธ์ ๊ฒ์ฆ ์ธํธ์ ์ฑ๋ฅ์๋ ์ฐจ์ด๊ฐ ํฌ์ง ์์ผ๋ ๋ชจ๋ ๋ฎ์ ์ฑ๋ฅ์ ๋ด๋ ๊ฒฝ์ฐ๋ฅผ ๋งํ๋ฉฐ,
ํธํฅ์ด ํฌ๋ค๊ณ ํ ์ ์๋ค. -> ๋ณต์ก๋๊ฐ ๋ ๋์, ํ๋ผ๋ฏธํฐ๊ฐ ๋ ๋ง์ ๋ชจ๋ธ์ ์ฌ์ฉํ๊ฑฐ๋ ๊ฐ์ค์น ๊ท์ ๋ฅผ ์ํํด ํด๊ฒฐํ ์ ์๋ค.
ํ๊ท ๋ถ์ : ๋ ๋ฆฝ๋ณ์ x์ ๋์ํ๋ ์ข ์๋ณ์ y์ ๊ฐ์ฅ ๋น์ทํ ๊ฐ์ ๊ฐ์ง๋ ํจ์ f(x)๋ฅผ ์ฐพ๋ ๊ณผ์ -> ํจ์ f(x)๋ฅผ ํตํด ๋ฏธ๋ ์ฌ๊ฑด์ ์์ธก
์ ํ ํ๊ท ๋ชจํ : ํ๊ท ๋ถ์์ ํตํด ๊ตฌํ ํจ์ f(x)๊ฐ ์ ํ ํจ์์ผ ๋ f(x) = ํ๊ท ์ง์
์ ํ ํ๊ท ๋ถ์ : ์ ํ ํ๊ท ๋ชจํ์ ์ฌ์ฉํ๋ ํ๊ท๋ถ์ : ํน์ฑ๊ณผ ํ๊น ์ฌ์ด์ ๊ด๊ณ๋ฅผ ์ ๋ํ๋ด๋ ์ ํ ํ๊ท ๋ชจํ์ ์ฐพ๊ณ ์ด๋ค์ ์๊ด ๊ด๊ณ๋ ๊ฐ์ค์น/๊ณ์(m), ํธํฅ(b)์ ์ ์ฅ๋๋ค.
๋น์ฉํจ์(= ์์ค ํจ์) : ์ ํ ๋ชจ๋ธ์ ์์ธก๊ณผ ํ๋ จ ๋ฐ์ดํฐ ์ฌ์ด์ ๊ฑฐ๋ฆฌ๋ฅผ ์ฌ๋ ํจ์ -> ๋น์ฉ ํจ์์ ๊ฒฐ๊ณผ๊ฐ์ด ์์์๋ก ์ ํ ๋ชจ๋ธ์ ์์ธก์ด ์ ํํจ์ ๋ํ๋ธ๋ค.
*์ ํ ํ๊ท๋ ์ ํ ๋ชจ๋ธ์ด๋ผ๋ ๊ฐ์ค์ ์ธ์ ๋ฐ์ดํฐ๋ฅผ ์ ํ ๋ชจ๋ธ ์์ ์๋ค๊ณ ๊ฐ์ ํ๋ ๋ฐฉ์์ด๋ฏ๋ก
์ค์ ๋ฐ์ดํฐ(ํ๋ จ ๋ฐ์ดํฐ)์ ์ ํ ๋ชจ๋ธ์ ์์ธก ์ฌ์ด์ ์ฐจ์ด๊ฐ ์กด์ฌํ๋ค.
์ฐ์ ๋๋ก ์ ํํ๊ท๊ฐ ์ ์ด๋ฃจ์ด์ก๋์ง ํ์ธํด๋ณผ ์ ์๋๋ฐ,
์์ ๊ฒฝ์ฐ ๊ณผ์ ์ ํฉ๋์์ผ๋ฏ๋ก ๋คํญํ๊ท๋ฅผ ์ฌ์ฉํ์ฌ ๋ชจ๋ธ์ ๋ณต์ก๋๋ฅผ ๋์ฌ์ฃผ๋ฉด ํด๊ฒฐ ๊ฐ๋ฅํ๋ค.
๋คํญ ํ๊ท๋ ๋คํญ์์ ์ฌ์ฉํ ์ ํ ํ๊ท๋ก ๋น์ ํ์ฑ์ ๋๋ ๋ฐ์ดํฐ๋ ์ ํ ๋ชจ๋ธ์ ์ฌ์ฉํ์ฌ ์ต์ ์ ๊ณก์ ์ ์ฐพ์ ์ ์๋ค.
<๊ฒฝ์ฌํ๊ฐ๋ฒ>
๊ฒฝ์ฌํ๊ฐ๋ฒ์ด๋ ๋จธ์ ๋ฌ๋, ๋ฅ๋ฌ๋ ์๊ณ ๋ฆฌ์ฆ์ ํ์ต์ํฌ ๋ ์ฌ์ฉํ๋ ๋ฐฉ๋ฒ์ผ๋ก ๋น์ฉํจ์์ ๊ธฐ์ธ๊ธฐ๋ฅผ ๊ณ์ ๋ฎ์ ์ชฝ์ผ๋ก ์ด๋์์ผ ๊ทน๊ฐ(์ต์ ๊ฐ)์ ์ด๋ฅผ ๋๊น์ง ๋ฐ๋ณตํ๋ ๊ฒ์ ๋งํ๋ค.
๊ฒฝ์ฌํ๊ฐ๋ฒ์ ์ด์ฉํ์ฌ ๋น์ฉํจ์์์ ๊ธฐ์ธ๊ธฐ๊ฐ "0"์ผ๋ ๋น์ฉ๊ฐ(์ค์ฐจ)์ ๊ตฌํ ์ ์์ผ๋ฉฐ ๋น์ฉํจ์์ ์ต์๊ฐ์ ๊ตฌํ๋ฉด
์ด๋ ํ๊ทํจ์๋ฅผ ์ต์ ํํ ์ ์๊ฒ ๋๋ค.
ํ์ด์ฌ์ผ๋ก ๊ตฌํ ํ Y = mx + b ํจ์๋ฅผ ๊ทธ๋ ค๋ณด๋ฉด
์ฌ๊ธฐ์ Learning rate๋ ํ์ต๋ฅ ๋ก, ์ ํํ๊ท์์ ๊ฐ์ค์น์ ํธํฅ์ ๊ฒฝ์ฌํ๊ฐ๋ฒ์์ ๋ฐ๋ณตํ์ต ์ํฌ ๋, ํ๋ฒ ๋ฐ๋ณตํ์ต ์ํฌ ๋๋ง๋ค ํฌ์ธํธ๋ฅผ ์ผ๋งํผ์ฉ ์ด๋์ํฌ ๊ฒ์ธ์ง ์ ํ๋ ์์์ด๋ค. ํ์ต๋ฅ ์ด ๋๋ฌด ์์ ๊ฒฝ์ฐ local minimum์ ๋น ์ง ์ ์๊ณ , ๋๋ฌด ํฐ ๊ฒฝ์ฐ ์๋ ด์ด ์ผ์ด๋์ง ์์ผ๋ฏ๋ก ์ ๋นํ ํ์ต๋ฅ ์ ์ฐพ๋ ๊ฒ์ด ์ค์ํ๋ค.
์์ ํ์ด์ฌ ์ฝ๋๋ฅผ ์คํํ๋ฉด ๋ฐ๋ณต๋ฌธ์ด ์คํ๋๋ฉด์ ์ค์ฐจ๊ฐ ์ ์ ์์์ง์ ์ ์ ์๋ค.
์ต์ข ์ ์ผ๋ก ์ค์ฐจ๊ฐ ์ค์ด๋ค๋ฉฐ ์ค์ ๊ฐ์ ์ ํํ ์ถ์ ํ ์ ์๋ค.
์ค์ต
Credit.csv ์ถ์ฒ
Datasets for ISRL
For the labs specified in An Introduction to Statistical Learning
www.kaggle.com
1. KNN ํ๊ท
1-1
1.2
ํ์์๋ ์ด์ ์ ๊ฑฐํด์ credit_c์ ์ ์ฅํด์ค๋๋ค.
Rating ๊ณผ Limit์ ๋ณ์์ ์ ์ฅ ํ ๋ฐ์ดํฐ์ ๋ถํฌ๋ฅผ ํ์ธํด์ค๋๋ค.
1.3
๋ ๋ฆฝ๋ณ์๋ rating, ์ข ์๋ณ์๋ limit์ด ๋๋๋ก ํ์ฌ train_input, test_input, train_target, test_target์ ๋ถ๋ฆฌํด์ค๋๋ค.
์ด๋, train_input ์ test_input์ ๋น์จ์ 7:3์ด๊ณ , random_state๋ 5๋ก ์ค์ ํด์ random ๊ฐ์ ๊ณ ์ ํด์ค๋๋ค.
1.4
*์ด๋ ๊ฒ np.newaxis๋ฅผ ์ฌ์ฉํด์ฃผ๋ฉด 1 ์ญํ ์ ํ๋ฉฐ ํ์ํ ์ฐจ์์ ์ฑ์์ค๋๋ค.
1.5
train_input๊ณผ train_target์ ํ์ฉํด k-์ต๊ทผ์ ์ด์ ํ๊ท ๋ชจ๋ธ์ ํ๋ จ์ํค๊ณ , train set๊ณผ test set์ ๊ดํ ๊ฒฐ์ ๊ณ์๋ฅผ ๊ฐ๊ฐ ์ถ๋ ฅํด์ค๋๋ค.

2. ์ ํํ๊ท
2.1
Credit ์ ์ฒด์์ Rating์ด 700 ๋ฏธ๋ง์ธ ํ๋ง credit_r ๋ณ์์ ์ ์ฅํด์ค๋๋ค.
2.2
credit_r์์ Balance ์ Rating ๋ณ์๋ฅผ ๋ฐ๋ก ์ ์ฅํด์ค ํ scatterplot์ผ๋ก ๋ถํฌ๋ฅผ ํ์ธํด๋ด ๋๋ค.
2.3
StandardScaler ๋งค์๋๋ฅผ ํ์ฉํด balance์ rating์ ์ ๊ทํํด์ค ํ ์ ๊ทํ ํ ๊ฐ์ ๋ฐ๋ก ์ ์ฅํด์ฃผ์ด์ผ ํฉ๋๋ค.
์ด๋ ๋ ๋ณ์์ ํ๊ท ๊ณผ ๋ถ์ฐ์ ๊ฐ๊ฐ ์ถ๋ ฅํด๋ณด๋ฉด 0๊ณผ 1์ ๋งค์ฐ ๊ฐ๊น์์ก์์ ํ์ธํ ์ ์์ต๋๋ค.
2.4
์์์ ์ ์ฅํด์ค ๋ณ์๋ค์ ์ด ์ด๋ฆ์ Balance์ Rating์ผ๋ก ์ง์ ํด์ค ํ Dataframe์ ์ ์ฅํด์ค๋๋ค.
2.5
DBSCAN์ ํ์ฉํด์ ์ ์ค๋ก ์ด 0.25, min_samples๋ฅผ 5๋ก ์ค์ ํด์ค ํ data๋ฅผ fit_predict ํด์ strange ๋ณ์์ ์ ์ฅํฉ๋๋ค.
์ด๋, -1์ ๊ฐ์ ๊ฐ๋ ๋ฐ์ดํฐ๋ค์ ์ด์์น๋ก ๋ถ๋ฅ๋ฉ๋๋ค.
์ด๋ DBSCAN์์๋ ๊ตฐ์งํ๋ฅผ ํ๋ ๊ธฐ์ค์ผ๋ก ์ ํด๋ฆฌ๋์ ๊ฑฐ๋ฆฌ๋ฅผ ํ์ฉํด ๊ฐ ๋ฐ์ดํฐ๋ณ๋ก ๊ฑฐ๋ฆฌ๋ฅผ ๊ตฌํ ๋ค, ์ค์ ํ eps ๊ฐ ์ด๋ด์ ํด๋นํ๋ ๋ฐ์ดํฐ๋ผ๋ฆฌ ๊ตฐ์งํ๋ฅผ ํฉ๋๋ค. ์ด๋ ๋ฐ์ดํฐ๊ฐ ์ ๊ทํ๋์ง ์์์ ํด๋น ๋ฐ์ดํฐ๋ฅผ ๋ํ๋ด๋ ์งํ๋ค์ ์ค์ผ์ผ์ด ๋ค๋ฅด๋ค๋ฉด ๋ฐ์ดํฐ ๊ฐ์ ์ค์ง์ ์ธ ๊ฑฐ๋ฆฌ๋ฅผ ์ธก์ ํ๊ธฐ ์ด๋ ต๊ธฐ ๋๋ฌธ์ ์ ๊ทํ ํ์ DBSCAN์ ํ์ฉํฉ๋๋ค.
2.6
2.7
x๋ฅผ ๋ ๋ฆฝ๋ณ์, y๋ฅผ ์ข ์๋ณ์๋ก ๋๊ณ ํ๋ จ์ธํธ์ ํ ์คํธ์ธํธ๋ก ๋๋ ์ค๋๋ค.
train_input์ test_input์ 2์ฐจ์ ๋ฐฐ์ด๋ก ๋ฐ๊พธ์ด ์ ์ฅํด์ค๋๋ค.
2.8
2.9
2.10
์ ํํ๊ท๋ชจ๋ธ l2๋ฅผ ๋ง๋ค์ด ์์์ ๋ง๋ train_poly ์ test_poly๋ก ํ์ต์ํจ ํ, score์ ์ถ๋ ฅํด์ฃผ๊ณ scatterplot๋ ๊ทธ๋ ค์ค๋๋ค. scrore๊ฐ ๋ ๋์์ก์์ ํ์ธํ ์ ์์ต๋๋ค.
2.11
'BITAmin 9๊ธฐ๐' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[BITAmin] 6์ฃผ์ฐจ - ๋ก์ง์คํฑ ํ๊ท (0) | 2022.10.02 |
---|---|
[BITAmin] 5์ฃผ์ฐจ - ํ๊ท ์๊ณ ๋ฆฌ์ฆ ๋ณต์ต ๋ฐ ์ฌํ, ๊ด๋ จ ์ค์ต (0) | 2022.08.06 |
[BITAmin] 4์ฃผ์ฐจ - ํน์ฑ๊ณตํ๊ณผ ๊ท์ (0) | 2022.08.05 |
[BITAmin] 2์ฃผ์ฐจ - ํ๋ จ ์ธํธ์ ํ ์คํธ ์ธํธ & ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ (0) | 2022.04.30 |
[Bitamin] 1. ์ธ๊ณต์ง๋ฅ ์ ๋ฌธ (0) | 2022.03.14 |