Importance inversion transfer identifies shared principles for cross-domain learning
๐ Abstract
**
๋ณธ ์ฐ๊ตฌ๋ ์๋ก ๋ค๋ฅธ ๊ณผํ ๋ถ์ผ(์๋ฌผํ, ์ธ์ดํ, ๋ถ์ ๊ณผํ, ์ฌํ ๊ณผํ) ๊ฐ ์ง์ ์ ์ด๋ฅผ ๊ฐ๋ฅํ๊ฒ ํ๋ ๊ณตํต ์กฐ์ง ์๋ฆฌ๋ฅผ ๊ท๋ช
ํ๊ณ ์ ํ๋ค. ๊ธฐ์กด ์ ์ด ํ์ต ๋ฐฉ๋ฒ์ ๋ฐ์ดํฐ๊ฐ ๊ทนํ ๋ถ์กฑํ๊ฑฐ๋ ์ก์์ด ์ฌํ ์ํฉ์์ ์ด์ง์ ์ธ ์์คํ
์ ์ฐ๊ฒฐํ๋ ๋ฐ ํ๊ณ๋ฅผ ๋ณด์๋ค. ์ด๋ฅผ ๊ทน๋ณตํ๊ธฐ ์ํด ๋คํธ์ํฌ ๊ณผํ๊ณผ ์ค๋ช
๊ฐ๋ฅํ ์ธ๊ณต์ง๋ฅ(XAI)์ ๊ฒฐํฉํ Explainable CrossโDomain Transfer Learning (XโCDTL) ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ค. ํต์ฌ ๋ฉ์ปค๋์ฆ์ธ **Importance Inversion Transfer (IIT)**๋ ๋๋ฉ์ธ ํน์ด์ ์ธ ๊ณ ๋ถ๋ณ ํน์ง๋ณด๋ค ๋๋ฉ์ธโ๋ถ๋ณ ๊ตฌ์กฐ์ ์ต์ปค๋ฅผ ์ฐ์ ์ํ๋ค. ๋คํธ์ํฌ ํ ํด๋ก์ง 12๊ฐ์ง ์งํ๋ฅผ ํ์ฉํด ๊ฐ ๋ถ์ผ์ ๊ตฌ์กฐ์ ํน์ฑ์ ์ ๋ํํ๊ณ , IIT ์ ์๋ฅผ ํตํด ์ ์ด ๊ฐ๋ฅ์ฑ์ด ๋์ ๊ตฌ์กฐ์ โ์ต์ปคโ๋ฅผ ๋์ถํ๋ค. ์ด์ ํ์ง ์คํ์์ IITโ๊ธฐ๋ฐ ๋ชจ๋ธ์ ๊ทน์ฌํ ์ก์ ํ์์๋ ์์ฌ๊ฒฐ์ ์์ ์ฑ์ด 56โฏ% ํฅ์๋๋ ๋ฑ ๊ธฐ์กด ๋ฒ ์ด์ค๋ผ์ธ์ ํฌ๊ฒ ๋ฅ๊ฐํ๋ค. ๊ฒฐ๊ณผ๋ ์ด์ง์ ์ธ ๋๋ฉ์ธ ๊ฐ์๋ ๊ณต์ ๋๋ ์กฐ์ง ์๋ช
์ด ์กด์ฌํจ์ ์ค์ฆํ๊ณ , ๋ถํฌ๋ช
ํ ์ ์ฌ ํํ์ ๋์ด ๋ช
์์ ๊ตฌ์กฐ ๋ฒ์น์ผ๋ก ์ง์ ์ ์ด๋ฅผ ๊ตฌํํ๋ ์๋ก์ด ํจ๋ฌ๋ค์์ ์ ์ํ๋ค.
**
๐ก Deep Analysis
**
1. ์ฐ๊ตฌ ๋ฐฐ๊ฒฝ ๋ฐ ํ์์ฑ
- ๋คํ์ ์ง์ ์ ์ด์ ํต์ฌ ๊ฐ์ : ์๋ก ๋ค๋ฅธ ๋ถ์ผ๊ฐ ๋์ผํ ์กฐ์ง ์๋ฆฌ๋ฅผ ๊ณต์ ํ๋ค๋ ์ ์ ๋ ๊ธฐ์กด ์ ์ด ํ์ต ์ด๋ก (๋ถํฌ ์ฐจ์ด, ์ค๋ฅ ๊ฒฝ๊ณ)๊ณผ๋ ๋ณ๊ฐ๋ก, ์ค์ ๊ณผํยท๊ณตํ ๋ฌธ์ ์์ โ๊ณตํต ๊ตฌ์กฐโ๋ฅผ ์ฐพ์์ผ ํจ์ ๊ฐ์กฐํ๋ค.
- ๊ธฐ์กด ๋ฐฉ๋ฒ์ ํ๊ณ:
- **์ ์ฌ ๊ณต๊ฐ ์ ๋ ฌ(Latent Alignment)**์ ๊ณ ์ฐจ์ ์๋ฒ ๋ฉ์ ํตํด ๋๋ฉ์ธ ์ฐจ์ด๋ฅผ ์ต์ํํ์ง๋ง, ์ด ๊ณผ์ ์ด ๋ถํฌ๋ช ํ๊ณ ๋๋ฉ์ธ ํน์ด์ ์ก์์ ์ทจ์ฝํ๋ค.
- ๋ฐ์ดํฐ ํฌ์ยท๋ ธ์ด์ฆ ์ํฉ์์ ์ ๊ทํ๋ ์๋ฒ ๋ฉ์ด ๋ถ๊ดด๋๋ ํ์์ด ๋น๋ฒํ ๋ณด๊ณ ๋๋ค.
2. XโCDTL ํ๋ ์์ํฌ ์ค๊ณ
- ๋คํธ์ํฌ ๊ณผํ ๊ธฐ๋ฐ ํํ: ๋ชจ๋ ๋์ ์์คํ ์ ๊ทธ๋ํ(๋ ธ๋ยท์ฃ์ง)๋ก ๋ชจ๋ธ๋งํ๊ณ , 12๊ฐ์ ํ ํด๋ก์ง ์งํ(๋ฐ๋, ํด๋ฌ์คํฐ๋ง, ์คํํธ๋ด ๋ฐ๊ฒฝ, ฮปโ ๋ฑ)๋ฅผ ํ์คํํ๋ค.
- ์ค๋ช ๊ฐ๋ฅ์ฑ(XAI) ํตํฉ: ๊ฐ ์งํ์ ์ ์ด ๊ธฐ์ฌ๋๋ฅผ ์ ๋ํํ๋ IIT ์ค์ฝ์ด๋ฅผ ๋์ , ์ ํต์ ์ธ Borda ์์์ ๋๋นํด โ์ญ์ โ๋ ์ค์๋ ์์๋ฅผ ๋์ถํ๋ค.
- ์ ์ด ์ ๋ต:
- ์ ์ญ ํฉ์ IIT(G) โ ๋๋ฉ์ธโ๋ถ๋ณ ๊ตฌ์กฐ ์ต์ปค(์: ํจ์จ์ฑ, ฮปโ, ๋ฐ๋) ์ ์ .
- ์๋ณ Directed IIT โ ํน์ ์์คโํ๊น ์กฐํฉ์ ๋ง๋ ๋ณด์กฐ ์ต์ปค(์: ๋ชจ๋๋ฌ๋ฆฌํฐ) ์ถ๊ฐ.
3. ์คํ ์ค๊ณ ๋ฐ ์ฃผ์ ๊ฒฐ๊ณผ
| ์คํ | ๋ฐ์ดํฐ | ๋ชจ๋ธ | ์ฃผ์ ์งํ | ๊ฒฐ๊ณผ |
|---|---|---|---|---|
| ๋๋ฉ์ธ ๊ตฌ๋ถ | 4๊ฐ ๋คํธ์ํฌ(์ฌํยท๋ถ์ยท๋จ๋ฐฑ์งยท์ธ์ด) | Gradient Boosting / Logistic Regression / Random Forest | ์ ํ๋, ROCโAUC | 96.5โฏ%~96.9โฏ% ์ ํ๋, AUCโฏโฅโฏ0.996 (์ ํ ๋ชจ๋ธ๋ ๋์ผ ์์ค) |
| IIT ๊ธฐ๋ฐ ์ ์ด | ์ด์ ํ์ง (๋ ธ์ด์ฆ 0โ90โฏ%) | XโCDTL + IIT | ๊ฒฐ์ ์์ ์ฑ, F1 | ๋ ธ์ด์ฆ 80โฏ% ์ด์์์ 56โฏ% ์๋ ํฅ์ |
| ๊ตฌ์กฐ ์ต์ปค vs ์ ์ฒด ํน์ง | ์ ์ด ํ์ต | TopโฏFeats(8๊ฐ) vs AllโฏFeats(12๊ฐ) | ROCโAUC, AP, F1 | TopโฏFeats๊ฐ ์ ๋ฐ์ ์ฑ๋ฅ ์ ํ ์์ด ์ฐจ์ ์ถ์ ํจ๊ณผ ์ ์ฆ |
- ๊ตฌ์กฐ์ ์ต์ปค์ ๋ณดํธ์ฑ: ํจ์จ์ฑ, ฮปโ, ๋ฐ๋๋ ๋ชจ๋ ๋๋ฉ์ธ ์์์ ๋์ IIT ์ ์๋ฅผ ๊ธฐ๋ก, ์ด๋ โ์ ๋ณด ํ๋ฆยท์ ์ญ ์ฐ๊ฒฐยท์ง์ญ ๋ฐ๋โ๊ฐ ๋ณต์ก๊ณ ์ ๋ฐ์ ๊ฑธ์น ๊ธฐ๋ณธ ์ ์ฝ์์ ์์ฌํ๋ค.
- ๋๋ฉ์ธ ํน์ด์ ๋ณ์ด: ํด๋ฌ์คํฐ๋ง ๊ณ์ยท์คํํธ๋ด ๋ฐ๊ฒฝ์ ๋๋ฉ์ธ ๊ตฌ๋ถ์๋ ๊ฐ๋ ฅํ์ง๋ง ์ ์ด์๋ ๋ณ๋์ฑ์ด ์ปค์ IIT์์ ํ์๋ก ๋ฐ๋ ค๋๋ค.
4. ์ด๋ก ์ ยท์ค์ฉ์ ์์
- ๊ตฌ์กฐ์ ๋ถ๋ณ์ฑ์ ์ ๋ํ: IIT๋ โ์ค์๋ ์ญ์ โ์ด๋ผ๋ ์๋ก์ด ์๊ฐ์ ์ ๊ณต, ์ ํต์ ์ธ discriminative importance์ ์ ์ด ๊ฐ๋ฅ์ฑ ์ฌ์ด์ ํธ๋ ์ด๋์คํ๋ฅผ ๋ช ์์ ์ผ๋ก ์ธก์ ํ๋ค.
- ์ค๋ช ๊ฐ๋ฅํ ์ ์ด: ์ ์ด ๊ณผ์ ์ด ์ด๋ค ๊ตฌ์กฐ์ ํน์ฑ์ ๊ธฐ๋ฐํ๋์ง ํฌ๋ช ํ๊ฒ ์ ์ํจ์ผ๋ก์จ, ๊ณผํ์ ๋ฐ๊ฒฌ ๊ณผ์ ์์ โ์ ์ ์ด๊ฐ ๊ฐ๋ฅํ๊ฐ?โ์ ๋ํ ๋ต์ ์ ๊ณตํ๋ค.
- ๊ทนํ ์ํฉ์์์ ๊ฒฌ๊ณ ์ฑ: ๋ฐ์ดํฐ๊ฐ ๊ทนํ ์ ๊ฑฐ๋ ์ก์์ด ์ฌํ ๊ฒฝ์ฐ์๋ ๊ตฌ์กฐ ์ต์ปค ์ค์ฌ ์ ์ด๋ ๋ชจ๋ธ์ ์์ ํ์์ผ, ์คํยท์๋ฎฌ๋ ์ด์ ๋ฐ์ดํฐ๊ฐ ์ ํ๋ ๋ถ์ผ(์: ํฌ๊ท ์ง๋ณ, ์ ์์ฌ)์์ ํ์ฉ ๊ฐ๋ฅ์ฑ์ ๋์ธ๋ค.
- ๋คํ์ ์ฐ๊ตฌ ์ด์ง: ์ฌํยท๋ถ์ยท๋จ๋ฐฑ์งยท์ธ์ด ๋คํธ์ํฌ ๊ฐ ๊ณตํต ํ ํด๋ก์ง(ํจ์จ์ฑยทฮปโยท๋ฐ๋)๋ฅผ ๊ธฐ๋ฐ์ผ๋ก, ์๋ฅผ ๋ค์ด โ์ฌํ์ ํธ๋ผ์ด์ด๋ ํ์โ ์๋ฆฌ๋ฅผ โ๋ถ์ ๊ฒฐํฉ ์ผ์ค์ฑโ์ ๋งคํํ๋ ์๋ก์ด ๊ฐ์ค ์์ฑ์ด ๊ฐ๋ฅํด์ง๋ค.
5. ํ๊ณ ๋ฐ ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ
- ๋๋ฉ์ธ ๋ฒ์ ํ๋: ํ์ฌ 4๊ฐ์ง ๋คํธ์ํฌ์ ๊ตญํ๋์์ผ๋ฉฐ, ์๊ณ์ด ๋คํธ์ํฌ, ํ์ดํผ๊ทธ๋ํ ๋ฑ ๋ ๋ณต์กํ ๊ตฌ์กฐ์ ๋ํ ์ ์ฉ ๊ฒ์ฆ์ด ํ์ํ๋ค.
- IIT ์ค์ฝ์ด์ ์ํ์ ํน์ฑ: ํ์ฌ๋ ๊ฒฝํ์ ํ๊ท ๊ธฐ๋ฐ์ด๋ฏ๋ก, ํ๋ฅ ์ ์์ ์ฑ(์: ๋ถํธ์คํธ๋ฉ ์ ๋ขฐ๊ตฌ๊ฐ) ๋ฐ ์ด๋ก ์ ๊ฒฝ๊ณ ๋ถ์์ด ์ถ๊ฐ๋์ด์ผ ํ๋ค.
- ๋ค์ค ๋ชจ๋ฌ ๋ฐ์ดํฐ ํตํฉ: ๊ทธ๋ํ ์ธ์ ์ด๋ฏธ์งยทํ ์คํธยท์๊ณ์ด ๋ฑ ๋น๊ทธ๋ํํ ๋ฐ์ดํฐ์์ ์ฐ๊ณ ๋ฐฉ๋ฒ๋ก ์ ๊ฐ๋ฐํ๋ฉด, ์ง์ ํ โ์ ๋ถ์ผโ ์ ์ด ํ์ต์ด ์คํ๋ ์ ์๋ค.
**
๐ Full Content
๊ณผํ์ ์ง๋ณด๋ ์ ์ ๋ ๊ท๋ชจ, ์์, ๊ทธ๋ฆฌ๊ณ ๊ทผ๋ณธ์ ์ธ ๋ฉ์ปค๋์ฆ์ด ๊ธ๊ฒฉํ ๋ค๋ฅธ ์์ญ๋ค ๊ฐ์ ์ง์ ์ตํฉ์ ์๊ตฌํ๊ณ ์๋ค. ์๋ฌผํ์ ์ ์ฌ์ฑ์ ํ์ฉํด ๊ณตํ์ ์คํจ๋ฅผ ์์ธกํ๊ฑฐ๋ ์ฌํ์ ๋คํธ์ํฌ๋ก๋ถํฐ ์ธ์ด ์กฐ์ง์ ์ถ๋ก ํ๋ ๋ฑ ์๋ฏธ ์๋ ๊ต์ฐจํ๋ฌธ์ ์ ํ๋ ๊ณต์ ๋ ์กฐ์ง ์์น์ ์ ์ ๋ก ํ๋ค[1,2]. ์ด๋ฌํ ์์น์ ๊ท๋ช ํ๋ ์ผ์ ๋จ์ํ ์์ ์ ์ธ ์์ ์ ๊ทธ์น์ง ์์ผ๋ฉฐ, ์์น์ ๊ธฐ๋ฐํ ์ผ๋ฐํ์ ๊ฒฌ๊ณ ํ ์ง์ ์ ์ด๋ฅผ ์ํ ๊ทผ๋ณธ์ ์ธ ์ ์ ์กฐ๊ฑด์ด๋ค.
์ ์ด ํ์ต(TL)์ ํน์ง ํํ์ด๋ ๊ทผ๋ณธ์ ์ธ ์์ฑ ๊ณผ์ ์ ๊ณตํต์ฑ์ ํ์ฉํจ์ผ๋ก์จ ์ด์ง์ ์ธ ๋ฐ์ดํฐ์ ๊ฐ์ ์์ธก ํจ์๋ฅผ ์ ์์ํค๋ ๋ฉ์ปค๋์ฆ์ ์ ๊ณตํ๋ค[3,4]. ๊ณ ๋ฆฝ๋ ํ์ต์์ ์ง์ ์ ํ๋ก์ ํจ๋ฌ๋ค์ ์ ํ์ ์๋ก ๋ค๋ฅธ ํ๋ฅ ๋ถํฌ๋ฅผ ๊ฐ์ง ์๋ก์ด ์์ญ์ ์ง๋ฉดํ์ ๋ ํ์ค ๋จธ์ ๋ฌ๋์ด ๊ฐ๋ ๋ด์ฌ์ ํ๊ณ๋ฅผ ๊ทน๋ณตํ๋ค. ๊ทธ๋ฌ๋ ๋๋ฉ์ธ ์ ์ ์ด๋ก ์ ๋ชฉํ ์์ ์ ๋ํ ์ค๋ฅ ๊ฒฝ๊ณ๊ฐ ์์ค์ ํ๊น ๋ถํฌ ์ฌ์ด์ ๋ฐ์ฐ ์ ๋์ ์๊ฒฉํ ์์กดํ๋ค๋ ๊ฒ์ ์ ์ํ๋ค[5][6][7]. ์ค์ ๊ณผํ์ ์์ฉ์์๋ ํ๋ฅ ์ ์์๊ณผ ํน์ง ์ก์์ด ์ด ๋ฐ์ฐ์ ๋์ฑ ์ ํ์์ผ, ๊ธฐ์กด์ ์ ๋ ฌ ๋ฐฉ๋ฒ์ด ๋ถ๊ดด๋๋ ๊ฒฝ์ฐ๊ฐ ๋น๋ฒํ ๋ฐ์ํ๊ณ , ๋๋ฉ์ธ ๋ถ๋ณ ํํ์ ๋ถ๋ฆฌํ๊ธฐ ์ํ ๋ณด๋ค ๊ฒฌ๊ณ ํ ์ ๊ทผ๋ฒ์ด ํ์ํ๊ฒ ๋๋ค.
๊ฒ๋ค๊ฐ ๊ธฐ์กด ์ ์ด ๋ฐฉ๋ฒ๋ก ์ ์ฃผ๋ก ๋ฐ์ดํฐ์ ์ด ์ ์ฌํ ์์ฑ ์ญํ์ ๊ณต์ ํ๋ ๋ฐ์ ํ ์ค์ ์ ๋ชฉํ๋ก ํ๋ค[3,8]. ๊ทผ๋ณธ์ ์ผ๋ก ์ด์ง์ ์ธ ์์คํ ์ ์ ์ฉ๋ ๊ฒฝ์ฐ, ์ ํต์ ์ธ ์ ์ฌ ์ ๋ ฌ ๊ธฐ๋ฒ์ ์ข ์ข ํด์์ด ์ด๋ ค์ด ๋๋ฉ์ธ ํนํ ์๋ฒ ๋ฉ์ ์์ฑํ์ฌ ์ง์ ์ ํ์ ๋ฉ์ปค๋์ฆ ๊ฒฝ๋ก๋ฅผ ๊ฐ๋ ค๋ฒ๋ฆฐ๋ค. ์ด๋ฌํ ํฌ๋ช ์ฑ ๊ฒฐ์ฌ๋ ์๋ก ๋ค๋ฅธ ์์ญ์ ์ผ๊ด๋๊ฒ ์ฐ๊ฒฐํ๋ ๊ตฌ์กฐ์ ํน์ฑ์ ์๋ณํ๋ ๋ฐ ํฐ ์ฅ์ ๊ฐ ๋๋ค[9,10].
๋คํธ์ํฌ ๊ณผํ์ ๊ต์ฐจํ๋ฌธ์ ์ตํฉ์ ์ํ ๊ฐ๋ ฅํ ์ถ์ํ ์๋จ์ ์ ๊ณตํ๋ค. ๋ถ์ ๊ทธ๋ํ๋ถํฐ ์ฌํ ๊ตฌ์กฐ์ ์ด๋ฅด๊ธฐ๊น์ง ์์คํ ๋ด์ ๊ฐ์ฒด์ ์ํธ์์ฉ์ ๋ณต์ก ๋คํธ์ํฌ๋ก ๋งคํํ ์ ์๊ธฐ ๋๋ฌธ์ด๋ค[11,12]. ๊ฐ์ฒด๋ฅผ ๋ ธ๋, ์ํธ์์ฉ์ ์ฃ์ง๋ก ํํํจ์ผ๋ก์จ ์ฌ๋ฃ ๊ณผํ, ์ฐ์ฃผ๋ก , ์์คํ ์๋ฌผํ ๋ฑ ๋ค์ํ ๋ถ์ผ์์ ์์ ์ ์ด, ์ ๋ณด ํ์ฐ, ๊ธฐ์ ํ์ ๊ณผ ๊ฐ์ ๊ทผ๋ณธ ํ์์ ๋ถ์ํ๋ ๋ฐ ํญ๋๊ฒ ํ์ฉ๋๋ค[13][14][15][16][17][18][19][20][21][22].
ํ์ง๋ง ํ์ฌ ์์ผ๋ก ๋ง๋ ๋์คํฌ๋ฆฝํฐ์ ์์กดํ๋ ๋ฐฉ์์ ๊ธฐ๋ฅ์ ์ผ๋ก ์๋ฏธ ์๋ ๋ถ๋ณ๋์ ์ํ๋ง ์ํฐํฉํธ๋ ๋๋ฉ์ธ ๊ณ ์ ์ ์ฝ์ผ๋ก๋ถํฐ ๊ตฌ๋ถํ์ง ๋ชปํ๋ ๊ฒฝ์ฐ๊ฐ ๋ง์ผ๋ฉฐ, ํนํ ์ก์์ด ๋ง๊ฑฐ๋ ๋ฐ์ดํฐ๊ฐ ํฌ์ํ ์ํฉ์์ ๊ทธ ํ๊ณ๊ฐ ๋๋๋ฌ์ง๋ค[23,24]. ์ด๋ฌํ ๋๊ด์ ํด์ํ๊ณ ์ ๋ณธ ์ฐ๊ตฌ๋ Explainable CrossโDomain Transfer Learning(XโCDTL)์ด๋ผ๋ ํจ๋ฌ๋ค์์ ์ ํํํ๋ค. ์ด๋ ๋คํธ์ํฌ ๊ณผํ๊ณผ ์ค๋ช ๊ฐ๋ฅํ ์ธ๊ณต์ง๋ฅ(XAI)์ ๊ฒฐํฉํ ํ๋ ์์ํฌ๋ก, [25]์์ ์ ์๋ ์ด๋ก ์ ํ ๋๋ฅผ ๋ฐํ์ผ๋ก ์๋ก ๋ค๋ฅธ ํ๋ฌธ ๋ถ์ผ์ ๊ฑธ์ณ ๋ถ๋ณ์ธ ๊ณต์ ๊ตฌ์กฐ ์์น์ ์๋ณํ๋๋ก ์ค๊ณ๋์๋ค.
์ด๋ฌํ ๊ด์ ์์ ์ฌํ์ ์๊ณ โ๋คํธ์ํฌ์ ์๊ท๋ชจ ์ธ๊ณ ๊ตฌ์กฐ๋ถํฐ ๋ถ์ ๊ทธ๋ํ์ ํฌ์ํ๊ณ ์์๊ฐ ๊ฒฐํฉ ์ ์ฝ์ ๋ฐ๋ ๋ ์ด์์๊น์ง ๋ค์ํ ๋ณตํฉ ์์คํ ์ ์ดํด๋ณธ๋ค. ์ด๋ฌํ ๊ตฌ์กฐ์ ์ง๋ฌธ์ ๊ทผ๋ณธ์ ์ผ๋ก ๋ค๋ฅธ ์์ฑ ์ญํ์ ๊ฐ๋ ์์ญ ๊ฐ์ ํ๋ ์์ํฌ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ํ๊ฐํ๋ ํํํ์ ๊ธฐ๋ฐ์ ์ ๊ณตํ๋ค. ๋ํ์ ์ธ ๊ทธ๋ํ ์ํ์ ๋ฐ๋, ๋ชจ๋๋ฌ๋ฆฌํฐ, ๋ถ๊ธฐ ํจํด์ด ์๋ก ๋ค๋ฆ์ ๋ณด์ฌ์ค๋ค. ์ฐ๊ฒฐ ์ ์๋ ๊ณผํ์ ์ค์ผ์ผ์ ๋ฐ๋ผ ๋ฌ๋ผ์ง๋ค: ์ฌํ ๋คํธ์ํฌ์์๋ ๋ ธ๋๊ฐ ์ฌ์ฉ์์ด๋ฉฐ ์น๊ตฌ ๊ด๊ณ๋ก ์ฐ๊ฒฐ๋๊ณ , ๋ถ์ ๊ทธ๋ํ์์๋ ๋ ธ๋๊ฐ ์์์ด๋ฉฐ ํํ ๊ฒฐํฉ์ผ๋ก ์ฐ๊ฒฐ๋๋ฉฐ, ๋จ๋ฐฑ์ง ๋คํธ์ํฌ์์๋ ์๋ฏธ๋ ธ์ฐ์ด ๋ฌผ๋ฆฌ์ ์ํธ์์ฉ์ผ๋ก ์ฐ๊ฒฐ๋๊ณ , ์ธ์ด ๋คํธ์ํฌ์์๋ ๋จ์ด๊ฐ ๋ฌธ๋งฅ์ ๋์์ถํ์ผ๋ก ์ฐ๊ฒฐ๋๋ค. ์ด๋ฌํ ์ํคํ ์ฒ๋ ์ด์ง์ ์ธ ๊ตฌ์กฐ์ ์ฌ์ (prior)์ ์ ๊ณตํจ์ผ๋ก์จ ๋งค๋ํด๋ ์ ๋ ฌ ํ์ดํ๋ผ์ธ์ ํ ๋๊ฐ ๋๋ค.
์ฐ๊ฒฐ์ฑ, ํด๋ฌ์คํฐ๋ง, ์คํํธ๋ผ, ๋ชจ๋๋ฌ์ฑ ๋ฑ ๋ค ์ฐจ์์ ๊ฑธ์น 12๊ฐ์ ์์ ๋์คํฌ๋ฆฝํฐ๊ฐ ์ด ๋ค์์ฑ์ ์ ๋ํํ๋ค(๋ณด์กฐํ 8์ ์์๋ธ ํต๊ณ). ์ ํ๋ ๋๋ฉ์ธ๋ค์ ๊ตฌ์กฐ์ ํน์ง ๊ณต๊ฐ์์ ๋์ ๊ตฌ๋ถ์ฑ์ ๋ณด์ด๋ฉฐ, ์ด๋ ๋ณด์กฐ ๊ทธ๋ฆผ 5์์ ํ์ธํ ์ ์๋ค. ์ฌํ ๋คํธ์ํฌ๋ ํ๊ท ํด๋ฌ์คํฐ๋ง ๊ณ์ 0.84โฏยฑโฏ0.06, ๋ฐ๋ 0.65โฏยฑโฏ0.17 ๋ฑ ๋์ ์ง์ญ ์ค๋ณต์ฑ์ ๊ฐ์ง ์คโํด๋ฆฌํฌ ๊ตฌ์กฐ๋ฅผ ๋ํ๋ธ๋ค. ๋ฐ๋ฉด ๋ถ์ ๊ทธ๋ํ๋ ํํ์ ์์๊ฐ ๊ฒฐํฉ ์ ์ฝ์ ์ํด ์ฐ๊ฒฐ์ฑ์ด ์ ํ๋ ํฌ์ํ๊ณ ๊ฑฐ์ ๋น์ํ์ ์ธ ๊ณต๊ฐ์ผ๋ก, ํ๊ท ํด๋ฌ์คํฐ๋ง์ด 0.01โฏยฑโฏ0.03์ ๋ถ๊ณผํ๋ค. ๋จ๋ฐฑ์ง ๋ฐ ์ธ์ด ๋คํธ์ํฌ๋ ์ค๊ฐ ์์ญ์ ์์นํ๋๋ฐ, ํนํ ๋จ๋ฐฑ์ง ๋คํธ์ํฌ๋ ๋์ ๋ชจ๋๋ฌ์ฑ(0.52โฏยฑโฏ0.11)์ผ๋ก ์๋ฌผํ์ ๊ธฐ๋ฅ์ ํ์์ ์ธ ๊ณ์ธต์ ์ปค๋ฎค๋ํฐ ์กฐ์ง์ ๋ฐ์ํ๋ค.
์คํํธ๋ผ ์ง๋ฌธ ์ญ์ ์ด๋ฌํ ์ฐจ์ด๋ฅผ ๊ฐ์กฐํ๋ค. ์ฌํ ๋คํธ์ํฌ์ ์คํํธ๋ผ ๋ฐ๊ฒฝ์ 12.28โฏยฑโฏ4.32๋ก, ๋ถ์ ์์คํ (2.56โฏยฑโฏ0.21)๋ณด๋ค ์ฝ 5๋ฐฐ ํฌ๋ฉฐ, ์ด๋ ์ ์ญ ์ฐ๊ฒฐ์ฑ ๋ฐ ์ ๋ณด ์ ํ ์ ์ฌ๋ ฅ์ ์ฐจ์ด๋ฅผ ๋ํ๋ธ๋ค. ์ค์ ๊ด๊ณ ๋ฐ์ดํฐ๊ฐ ๋ดํฌํ๋ ๋ณ๋์ฑ์ ๊ฐ์ํ๋๋ผ๋, ์ฃผ์ ํน์ง์ธ ๋ฐ๋์ ์คํํธ๋ผ ๋ฐ๊ฒฝ์ ์ฌ๋ถ์ ๋ฒ์๋ ๋๋ถ๋ถ์ ๋๋ฉ์ธ ์์์ ๊ฒน์น์ง ์๋๋ค. ์ด๋ฌํ ๊ฒฌ๊ณ ํ ๊ตฌ๋ถ์ ์ ํ๋ ๋๋ฉ์ธ์ด ์์์ ์ผ๋ก ์๋ก ๋ค๋ฅด๋ฉด์๋ ๋ด๋ถ์ ์ผ๋ก ์ผ๊ด๋ ํน์ฑ์ ์ง๋์ ํ์ธ์์ผ ์ฃผ๋ฉฐ, ๊ต์ฐจโ๋๋ฉ์ธ ์ ๋ ฌ์ ๋ํ ๊น๋ค๋ก์ด ๋ฒค์น๋งํฌ๋ฅผ ์ ๊ณตํ๋ค.
๋๋ฉ์ธ ๊ฐ ์์์ ๋ฐ์ฐ์ ๋คํธ์ํฌ ์ ์ฒด์ฑ์ ๊ณ ์ถฉ์ค๋ ์ง๋ฌธ์ผ๋ก์ ๊ตฌ์กฐ์ ๋ฉํธ๋ฆญ์ด ์๋ํจ์ ์์ฌํ๋ค. ๋ค ๊ฐ์ ๋คํธ์ํฌ ํด๋์ค(์ฌํ, ๋ถ์, ๋จ๋ฐฑ์ง, ์ธ์ด)๋ฅผ ํ์คํ๋ ์์ ๋์คํฌ๋ฆฝํฐ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ๋ XML ํ๋ ์์ํฌ๋ก ๊ตฌ๋ถ ๊ฐ๋ฅ์ฑ์ ์ ๋ํํ๋ ํฌ๊ด์ ๋ฒค์น๋งํน ๋ถ์์ด ์ํ๋์๋ค.
์ธ ๊ฐ์ง ํ์ต ์ํคํ ์ฒ(Gradient Boosting, Logistic Regression, Random Forest) ์ ๋ฐ์ ๊ฑธ์น ์ฑ๋ฅ ํ๊ฐ๋ ์ผ๊ด๋ ๋์ ๊ตฌ๋ถ ํจ์ฉ์ ํ์ธํ๋ค. ํ 1์ ๋ณด๊ณ ๋ ๋ฐ์ ๊ฐ์ด, 10๊ฐ์ ๋ ๋ฆฝ ๋๋ค ์๋์ ๋ํด ํ๊ท ๋ถ๋ฅ ์ ํ๋๋ 96.5โฏ%~96.9โฏ% ๋ฒ์์ ๋จธ๋ฌผ๋ฉฐ, ROCโAUC๋ 0.996 ์ด์์ผ๋ก ๊ฑฐ์ ์๋ฒฝ์ ๊ฐ๊น๋ค. ์ด๋ ๊ตฌ์กฐ์ ํน์ง ๊ณต๊ฐ์ด ๋ณธ์ง์ ์ผ๋ก ์ ์ ๋๋์ด ์์ด ๊ฑฐ์ ์ต์ ์ ๊ฐ๊น์ด ๊ฒฐ์ ๊ฒฝ๊ณ๊ฐ ํ์ฑ๋๊ณ , ๋คํธ์ํฌ ์์๋ธ์ ๋ฌด์์ ์ฌํ๋ณธํ์๋ ๊ฒฌ๊ณ ํจ์ ์ ์งํจ์ ์๋ฏธํ๋ค.
Gradient Boosting ๋ชจ๋ธ๊ณผ ์ ํ Logistic Regression ๋ฒ ์ด์ค๋ผ์ธ ๊ฐ์ ์ฑ๋ฅ ๊ฒฉ์ฐจ(โ0.3โฏ%)๋ ์ด๋ก ์ ์ผ๋ก ์๋ฏธ๊ฐ ์๋ค. ์ ํ ๋ชจ๋ธ์ด Random Forest์ ๊ฐ์ ๋ณตํฉ ์์๋ธ ๋ฐฉ๋ฒ๊ณผ ๋๋ฑํ ์ฑ๋ฅ์ ๋ณด์ธ๋ค๋ ์ฌ์ค์ ๋คํธ์ํฌ ๋๋ฉ์ธ์ ์ ์ํ๋ ํํํ์ ์๋ช ์ด ํํ๋ ฅ์ด ๋ฐ์ด๋ ๋ฟ ์๋๋ผ ํ์คํ๋ ํน์ง ๊ณต๊ฐ ๋ด์์ ์ ํ์ ์ผ๋ก ์ ๊ทผ ๊ฐ๋ฅํจ์ ์์ฌํ๋ค. ์ด๋ฌํ ๊ฒฐ๊ณผ๋ ํน์ ์์ ๋์คํฌ๋ฆฝํฐ ์งํฉ์ด ๊ณ ๋๋ก ๊ตฌ๋ถ ๊ฐ๋ฅํ ํํํ์ ๋งค๋ํด๋๋ฅผ ํ์ฑํ๋ค๋ ๊ฐ์ค์ ๊ฒ์ฆํ๋ค. Gradient Boosting ๋ชจ๋ธ์ ๋ํ ์์๋ธ ํผ๋ ํ๋ ฌ ๋ฑ ์ถ๊ฐ ์ง๋จ์ ๋ณด์กฐ ๊ทธ๋ฆผ 6์ ์์ธํ ์ ์๋๋ค.
๊ตฌ์กฐ์ ์ต์ปค์ ์๋ณ์ ๊ตฌ๋ถ ํจ์ฉ, ์์ ์ผ๊ด์ฑ, ๋ฉํธ๋ฆญ ์์ ์ฑ์ด๋ผ๋ ๊ณ์ธต์ ์ง๊ณ์ ์ํด ์ข์ฐ๋๋ค. ๊ฐ๋ ํ์ต ๊ธฐ๋ฐ ์ง๋จ์ด ๋๋ฉ์ธ ๊ตฌ๋ถ์ ์ํ ์ฃผ์ ๊ตฌ๋ถ์๋ฅผ ๋ฐํ๋ด๋ ๋ฐ๋ฉด(๋ณด์กฐํ 9), ํ๋ ์์ํฌ๋ Global Consensus IIT ์ ์ G๋ฅผ ํตํด ๋๋ฉ์ธโํน์ ์ค์์ฑ์ ์ผ๋ฐ ์ ์ด ๊ฐ๋ฅ์ฑ์ผ๋ก ์ ํํ๋ค. ๊ฐ ์์ ๋์คํฌ๋ฆฝํฐ์ ๋ํด G๋ 12๊ฐ์ ์์คโํ๊น ์กฐํฉ ์ ๋ฐ์ ๊ฑธ์น ๋ฐฉํฅ์ฑ IIT ์ ์์ ํ๊ท ๊ฐ์ ๋ํ๋ด๋ฉฐ, ์ด์ง์ ์ธ ์์ฑ ์ญํ์ ์ฐ๊ฒฐํ ์ ์๋ ๊ตฌ์กฐ์ ์ ์ฌ์ฑ์ ์ถ์ถํ๋ค.
๊ทธ ๊ฒฐ๊ณผ ๊ณ์ธต ๊ตฌ์กฐ๋ ํน์ง ์ค์๋ ํ๋กํ์ผ์ ํฐ ์ ํ์ ๋ณด์ฌ์ค๋ค(๊ทธ๋ฆผ 2). ์์ Borda ์์์์๋ ํ๊ท ํด๋ฌ์คํฐ๋ง ๊ณ์(Borda ์ ์ 2.267), ์คํํธ๋ผ ๋ฐ๊ฒฝ(4.233), ์ง๊ฒฝ(4.333) ๋ฑ์ด ๋๋ฉ์ธ ์๋ณ์ ๊ฐ์ฅ ๊ฐ๋ ฅํ ๊ตฌ๋ถ์๋ก ๋ ์ค๋ฅธ๋ค. ๊ทธ๋ฌ๋ IIT ์ ์ G๋ ์ด๋ฌํ ํน์ง์ด ๊ณผํ์ ์ค์ผ์ผ ๊ฐ์ ๋ณ๋์ฑ์ด ํฌ๊ฑฐ๋ ๋๋ฉ์ธโํนํ ์ ๋ณด๊ฐ ๊ณผ๋คํด ์ ๋ ฌ์ ๋ถ์ ํฉํจ์ ๋ํ๋ธ๋ค. ๋ฐ๋ผ์ ์ ์ด ๊ฐ๋ฅ์ฑ ๊ณ์ธต์์ ์คํํธ๋ผ ๋ฐ ์ ์ญ ๊ท๋ชจ ๋ง์ปค๋ ํ์๋ก ๋ฐ๋ ค๋๋ค.
๋ฐ๋๋ก ํจ์จ์ฑ(efficiency), ฮปโ, ๋ฐ๋์ ๊ฐ์ ๋์คํฌ๋ฆฝํฐ๋ ์์ ๊ตฌ๋ถ ํจ์ฉ์์๋ ์ค๊ฐ ์์์ ๋จธ๋ฌผ์ง๋ง, ์ ์ญ ํฉ์์์๋ ์ต์์์ ์ค๋ฅด๋ฉฐ ์ด์ง์ ์ธ ๋งค๋ํด๋ ๊ฐ ์ ๋ ฌ ์ ์ฌ๋ ฅ์ด ๊ฐ์ฅ ๋๋ค. ์ด๋ฌํ ์ฌ์ ๋ ฌ์ ํตํด 8๊ฐ์ ๊ตฌ์กฐ์ ์ต์ปค(๊ทธ๋ฆผ 2์ ๋ น์ ๋ง๋)๊ฐ ํ๋ ์์ํฌ์ ๊ณต์ ์์ ๊ณจ๊ฒฉ์ ๊ตฌ์ฑํ๋ค. ์ด ๋ฒ์ ๋ด์์ ํจ์จ์ฑ๊ณผ ฮปโ๋ ๋ฐ์ด๋ ์์ ์ฑ์ ๋ณด์ฌ, ์ง์ ์ ํ๋ฅผ ์ํ ๊ฒฌ๊ณ ํ ๊ตฌ์กฐ์ ๋ฌธ๋ฒ์ ์ ๊ณตํ๋ค.
IIT ์ ์ G๊ฐ ์ ๋ฐ์ ์ธ ์ ๋ต์ ๊ธฐ๋ฐ์ ๋ง๋ จํ๋ ๋์์, ํ๋ ์์ํฌ๋ ํน์ ์์คโํ๊น ์กฐํฉ์ ๋ํด ๋ฐฉํฅ์ฑ IIT ์ ์๋ฅผ ํ์ฉํด ๊ณจ๊ฒฉ์ ์ธ๋ฐํ ์กฐ์ ํ๋ค. ์๋ณ ์์ ์ผ๊ด์ฑ๊ณผ ๋ถํฌ ๊ทผ์ ์ฑ์ ๊ณ ๋ คํจ์ผ๋ก์จ, ์ ์ญ์ ์ผ๋ก ๋ณ๋์ฑ์ด ํฌ์ง๋ง ํน์ ์ ์ด์์๋ ๋์ ๋ฉํธ๋ฆญ ํธํ์ฑ์ ๋ณด์ด๋ ๋์คํฌ๋ฆฝํฐ๋ฅผ ๋ก์ปฌ ๊ตฌ์กฐ์ ์ต์ปค๋ก ์๋ณํ๋ค. ์๋ฅผ ๋ค์ด, ๋ชจ๋๋ฌ์ฑ์ ์ ์ญ ์์์์๋ ์ค๊ฐ์ ๋จธ๋ฌผ์ง๋ง, ๋ถ์ ํน์ ์ฌํ ๋๋ฉ์ธ ๊ฐ ์ ์ด์์๋ ์ฃผ์ ๊ตฌ์กฐ์ ์ต์ปค๋ก ์ฌ๋ฑ์ฅํ๋ค. ์ด๋ฌํ ๊ณ์ธต์ ์งํ๋ฅผ ํตํฉํจ์ผ๋ก์จ, ํน์ง ์ ํ ๊ณผ์ ์ ๊ธฐ๋ฅ์ ๊ด๋ จ์ฑ๊ณผ ๋ฉํธ๋ฆญ ์์ ์ฑ ์ฌ์ด์ ํธ๋ ์ด๋์คํ๋ฅผ ์ต์ ํํ๋ ๋ฐฉํฅ์ผ๋ก ํด๋ฆฌ์คํฑ ์๊ณ๊ฐ์ ๋ฐฐ์ ํ๋ค. IIT ์ ์ G์ ๋ฐฉํฅ์ฑ IIT ์ ์๋ ์ ์ด ๊ณผ์ ์ด ๋๋ฉ์ธโ๋ถ๋ณ ๊ตฌ์กฐ ๊ณจ๊ฒฉ์ ๊ณ ์ ๋๋๋ก ๋ณด์ฅํ๋ฉฐ, ์์ ์ ํต๊ณ ํ๋กํ์ผ์์ ๋๋ฌ๋ ํน์ด ์ก์์ผ๋ก๋ถํฐ ์ง์ ์ ํ๋ฅผ ํจ๊ณผ์ ์ผ๋ก ์ฐจ๋จํ๋ค.
๋ชจ๋ ์์คโํ๊น ์กฐํฉ์ ๋ํ ๋ฐฉํฅ์ฑ ์๋ณ ์กฐ์ฌ(ํ 2)๋ ๊ตฌ์กฐ์ ์ ๋ณด ์ ํ๋ฅผ ์ธ๋ฐํ ๊ธฐ์ ํ๋ค. ๊ณ์ธต ์ ํ ํ๋กํ ์ฝ(์น์ 5.4.2)์ ๋ฐ๋ผ ๊ตฌ์กฐ์ ์ต์ปค์ ์๋ณ ๋ฐ ์์๋ ๋ณตํฉ IIT ์ ์โฏ(IITโฏscore)โฏ์ ์ํด ์ข์ฐ๋๋ค. ์ด ๊ธฐ์ค์ (i) ๊ตฌ๋ถ ์ค๋ฆฝ์ฑ, (ii) ์์ ์ผ๊ด์ฑ, (iii) ๋ฉํธ๋ฆญ ํธํ์ฑ์ ํตํฉํด ์ด์ง ๋งค๋ํด๋ ๊ฐ ์ ๋ ฌ ์ ์ฌ๋ ฅ์ ํ๊ฐํ๋ค. ํ 2์ ๋ณด๊ณ ๋ ํ๊ท IIT ์ ์๋ ๋๋ฉ์ธ ์ ๊ฐ ๊ตฌ์กฐ์ ๋ค๋ฆฌ์ ์ด ๊ฐ๋๋ฅผ ์ ๋ํํ๋ฉฐ, ์ ์ด๊ฐ ์ด๋ก ์ ์ผ๋ก ๋ถ๋ณ์ด๊ณ ๋ฉํธ๋ฆญ์ ์ผ๋ก ์์ ๋ ํน์ง์ ๊ธฐ๋ฐํจ์ ๋ณด์ฅํ๋ค.
๋ฐฉํฅ์ฑ ์ ๋ถ์์ ๋๋ฉ์ธโํน์ ์์ฑ ์ญํ์ด ์ ์ด ๊ฐ๋ฅํ ๊ตฌ์กฐ์ ์ฑ๊ฒฉ์ ์ด๋ป๊ฒ ํ์ฑํ๋์ง๋ฅผ ๋ณด์ฌ์ค๋ค. ํนํ ๋จ๋ฐฑ์งโฏโโฏ์ธ์ด ์ ์ด๋ ๊ฐ์ฅ ๋์ ๊ตฌ์กฐ์ ๋์ง์ฑ(IITโฏscoreโฏ=โฏ0.2480)์ ๋ณด์ด๋ฉฐ, ์ด๋ ๋ฐ๋, ํจ์จ์ฑ, nโฏnodes๊ฐ ์ฃผ์ ๊ธฐ์ฌ ์์ธ์์ ์์ฌํ๋ค. ์ด๋ ์ ๋ณดโ์ ๋ฌ ๋คํธ์ํฌ๊ฐ ๊ณต์ ํ๋ ๊ณ์ธต์ ์กฐ์ง์ ๋ฐ์ํ๋ฉฐ, ๊ธฐ๋ฅ์ ๋จ๋ฐฑ์ง ๋๋ฉ์ธ๊ณผ ๊ตฌ๋ฌธ์ ๋จ์ด ํด๋ฌ์คํฐ๊ฐ ๋ถ์ฐ๋ ์ ๋ณด ํ๋ฆ์ ์ด์งํ๋ค๋ ์ ์ ํ์ธํ๋ค.
์ฌํโฏโโฏ๋ถ์ ์ ์ด ์ญ์ ๋์ ํธํ์ฑ(IITโฏscoreโฏ=โฏ0.2111)์ ๋ณด์ด๋ฉฐ, ์ ์ด์ฑ์ ์ ์ด์ฑ(transitivity), ๋์์ ์ฐ๊ฒฐ์ฑ(ฮปโ), ํจ์จ์ฑ์ ์ํด ์ฃผ๋๋๋ค. ์ด๋ ์์ฑ ๋ฉ์ปค๋์ฆ์ด ํฌ๊ฒ ๋ค๋ฆ์๋ ๋ถ๊ตฌํ๊ณ ๋ ์์คํ ์ด ์ผ๊ฐํ ํ์์ ์ ์ญ ์ฐ๊ฒฐ ํ๋ ฅ์ฑ์ ๋ํ ๊ทผ๋ณธ์ ์ธ ์ ์ฝ์ ๊ณต์ ํ๋ค๋ ๊ฒ์ ์๋ฏธํ๋ค. ์ฌํ ์์คํ ์์๋ ์ผ๊ฐํ ํ์์ ์๊ท๋ชจ ์ธ๊ณ ํจ๊ณผ๊ฐ, ๋ถ์ ๊ทธ๋ํ์์๋ ํํ ๊ฒฐํฉ ์ ์ฝ๊ณผ ๊ณต๊ฐ ์๋ฒ ๋ฉ์ด ์ด๋ฌํ ํน์ฑ์ ๋ง๋ ๋ค.
๋ฐ๋ฉด ์ฌํ์ ์ธ์ด ๋คํธ์ํฌ ๊ฐ ์ ์ด๋ ๊ฐ์ฅ ๋ฎ์ IITโฏscoreโฏ(0.1430)๋ฅผ ๊ธฐ๋กํ๋ค. ์ฌํ ๋คํธ์ํฌ๋ ์ง์ญ์ ๊ฐํ์ ์ปค๋ฎค๋ํฐ ์ค์ฒฉ์ ์ํด ๊ตฌ๋๋๋ ๋ฐ๋ฉด, ์ธ์ด ๋คํธ์ํฌ๋ ๋ณตํฉ์ ์ธ ์๋ฏธ ๊ณ์ธต์ ์ธ์ฝ๋ฉํ๋ค. ๋ฐ๋ผ์ ์ด ์ ์ด์์ ๊ตฌ์กฐ์ ๋ค๋ฆฌ ์ญํ ์ ํ๋ ์ต์ปค๋ nโฏnodes์ ํจ์จ์ฑ ๊ฐ์ ๊ณ ๋๋ก ๋ถ๋ณ์ธ ๋์คํฌ๋ฆฝํฐ์ ๊ตญํ๋๋ค.
์ ์ฒด ๋ฐฉํฅ์ฑ ์์ ์ดํด๋ณด๋ฉด, ํจ์จ์ฑ, ฮปโ, ๋ชจ๋๋ฌ์ฑ์ ์ผ๊ด๋๊ฒ ๊ณต์ ๊ตฌ์กฐ ๊ณจ๊ฒฉ์ ์ผ๋ถ๋ก ๋ฑ์ฅํ๋ค. ์ด๋ค์ ์ ๋ณด ํ๋ฆ, ์คํํธ๋ด ๊ฒฌ๊ณ ์ฑ, ์ค๊ฐ ๊ท๋ชจ ์กฐ์ง์ ๊ณต๋์ผ๋ก ์ธ์ฝ๋ฉํ๋ค. ์ด๋ฌํ ๋ฐ๋ณต์ ์ธ ์ ํ์ ์ ์ด ๊ฐ๋ฅ์ฑ์ด ๋๋ฉ์ธโํนํ ๋ชจํฐํ๋ณด๋ค ๋ณตํฉ ๋คํธ์ํฌ๊ฐ ํตํฉ, ํ๋ณต์ฑ, ๊ตฌํํ๋ฅผ ๊ท ํ ์๊ฒ ์ ์งํ๋ ๊ณต์ ์ ์ฝ์ ์ํด ์ข์ฐ๋๋ค๋ ์ ์ ํ์ธํ๋ค. ๊ฒฐ๊ตญ, ์ด ๊ฒฐ๊ณผ๋ ์ ๋ขฐํ ์ ์๋ ๋งค๋ํด๋ ๋๊ธฐํ๋ฅผ ์ํด ํ์ํ ์ต์ํ์ ํด์ ๊ฐ๋ฅํ ๊ตฌ์กฐ์ ์ต์ปค ์งํฉ์ ๋ช ์ํ๋ค.
๊ต์ฐจโ๋๋ฉ์ธ ์ง์ ์ ํ ํ๊ฐ๋ ์ค์ง ํ์ฑ๋ ํน์ง ๊ตฌ์ฑ(TopโฏFeats)๋ง์ ๋์์ผ๋ก ํ์ฌ, ๊ณ ์ฐจ์ ์ค๋ณต์ฑ์ ๋ฐฐ์ ํ๊ณ ๊ธฐ๋ฅ์ ์ผ๋ก ๊ธฐ๋ฐํ ๊ตฌ์กฐ์ ์ต์ปค์ ์ํฅ์ ๋ถ๋ฆฌํ๋ค. ๋ชจ๋ ๋ณด๊ณ ๋ ๊ฐ์ 10โฏรโฏ3โฏรโฏ3 ์คํ ๊ฒฉ์ ์ ๋ฐ์ ๊ฑธ์น ์์๋ธ ํ๊ท ์ ๋ํ๋ธ๋ค. ์ ์ญ ์์ค์์, ๊ตฌ์กฐ์ ์ต์ปค์ ์ ๋ ฌ๋ ํํ์ ์ฌ์ฉํด ํ์ต๋ ํ๊นโ์ ์ฉ ๋ชจ๋ธ์ ๊ฑฐ์ ์ต์ ์ ๊ฐ๊น์ด ๋ฒ ์ด์ค๋ผ์ธ ์ฑ๋ฅ(ROCโAUCโฏ=โฏ0.987, APโฏ=โฏ0.917, F1โฏ=โฏ0.660)์ ๋ฌ์ฑํ๋ค. ๋์ผ ๊ตฌ์ฑ์์ ๊ต์ฐจโ๋๋ฉ์ธ ์ ์ด๋ฅผ ์ ์ฉํ๋ฉด ํ๊ท ๋ฉํธ๋ฆญ์ด ๋ค์ ๊ฐ์ํ๋ค(ROCโAUCโฏ=โฏ0.974, APโฏ=โฏ0.879, F1โฏ=โฏ0.559)(๋ณด์กฐํ 10). ์ด๋ ๋ถ๋ฆฌ๋๊ฐ ์ด๋ฏธ ๋์ ํ๊น ๋๋ฉ์ธ์์๋ ํ๊ท ์ฑ๋ฅ ํฅ์์ด ํต๊ณ์ ์ผ๋ก ์ ํ๋๋ค๋ โ์ฒ์ฅ ํจ๊ณผโ๋ฅผ ๋๋ฌ๋ธ๋ค. ๋น๋ชจ์ ๊ฒ์ ์ธ KruskalโWallis Hโํ ์คํธ๋ ๋ชจ๋ ๋ฉํธ๋ฆญ์์ ์ ์ํ ๋ณ๋์ฑ์ ํ์ธํ๋ค(ROCโAUC: Hโฏ=โฏ188.44, pโฏ<โฏ10โปโต; AP: Hโฏ=โฏ125.06, pโฏ<โฏ10โปโต; F1: Hโฏ=โฏ202.93, pโฏ<โฏ10โปโต).
์ ์ฒด ์์ ํน์ฑ(AllโฏFeats)๊ณผ ์ต์ ํ๋ ๊ตฌ์กฐ์ ์ต์ปค(TopโฏFeats) ๊ฐ ๋น๊ต๋ ์ฐจ์ ์ ์ด์ ๊ธฐ๋ฅ์ ๊ฐ์น๋ฅผ ๊ฐ์กฐํ๋ค. ๋ ๊ตฌ์ฑ ๋ชจ๋ ์ ์ด ์๋ ์ํฉ์์๋ ๊ฑฐ์ ๋์ผํ ๋ฒ ์ด์ค๋ผ์ธ ์ฑ๋ฅ์ ๋ณด์ด์ง๋ง, ์ ์ด ํ์ต ๊ณผ์ ์์๋ ๊ตฌ์กฐ์ ์ต์ปค ๊ตฌ์ฑ์ด ๋ ๋์ ๊ฒฌ๊ณ ์ฑ์ ๋ํ๋ธ๋ค. ๊ตฌ์ฒด์ ์ผ๋ก, ์ ์ด ํ์ต์์ 8๊ฐ์ ๊ตฌ์กฐ์ ์ต์ปค๋ฅผ ์ฌ์ฉํ ๊ฒฝ์ฐ ์ ์ญ F1โฏ์ ์(0.559)๊ฐ ์ ์ฒด ๋์คํฌ๋ฆฝํฐ ์งํฉ(0.556)๋ณด๋ค ๋์๋ค. ์ด๋ ๋ถ์์ ํ ๊ตฌ๋ถ์๋ฅผ ๋ฐฐ์ ํจ์ผ๋ก์จ ๋งค๋ํด๋ ๋๊ธฐํ ์ โํน์ง ์ค์ผ(feature pollution)โ์ ๋ฐฉ์งํ๊ณ , IIT ์ ๋ต์ด ๊ฒฐ์ ๋งค๋ํด๋๋ฅผ ํจ๊ณผ์ ์ผ๋ก ์ ๊ทํํจ์ ์ ์ฆํ๋ค.
์์ ๊ธฐ๋ฐ ๋ฉํธ๋ฆญ(ROCโAUCโฏโโฏ0.98, APโฏโโฏ0.91)๊ณผ ์๊ณ๊ฐ ์์กด์ F1โฏ์ ์(โโฏ0.66) ์ฌ์ด์ ์ฐจ์ด๋ ํด๋์ค ๋ถ๊ท ํ ํ์์ ๋น์ง๋ ์ด์ ํ์ง์ ๊ณ ์ ํ ์ด๋ ค์์ ๋ฐ์ํ๋ค. ROCโAUC๊ฐ ๊ฑฐ์ ์ต์ ์ ๊ฐ๊น์ด ๊ฒ์ ๊ณต์ ๊ตฌ์กฐ์ ์ต์ปค๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์ด์ ์ฌ๋ก๋ฅผ ์ ํํ ์์ ๋งค๊ธธ ์ ์์์ ์๋ฏธํ์ง๋ง, 10โฏ% ์ค์ผ ์๊ณ๊ฐ(์น์ โฏ5.5)์ผ๋ก ์ธํด F1โฏ์ ์๊ฐ ๋ฎ๊ฒ ๋ํ๋๋ค. ์ ์ด ์ํฉ์์ ROCโAUC๋ ์์ ์ ์ธ ๋ฐ๋ฉด F1โฏ์ ์๋ โ์๊ณ๊ฐ ์ด๋(threshold shift)โ ํจ๊ณผ๋ฅผ ๋ณด์ธ๋ค: ๊ธฐ๋ณธ์ ์ธ ์์ ์๋ช ์ ์ ์ง๋์ง๋ง, ํน์ง์ ์ ๋ ๊ท๋ชจ๊ฐ ๋น์ ํ ๋ณํ์ ๊ฒช๋๋ค. ํนํ TopโฏFeats ๊ตฌ์ฑ์ด AllโฏFeats๋ณด๋ค ๋์ F1โฏ์ ์๋ฅผ ์ ์งํ๋ค๋ ์ฌ์ค์ IIT ์ ๋ต์ด ํน์ง ํฌ์ํ๋ฅผ ํตํด ๋ถํฌ ์ก์์ ๋ํ ์์ฌ๊ฒฐ์ ๊ฒฌ๊ณ ์ฑ์ ํฌ๊ฒ ํฅ์์ํจ๋ค๋ ์ ์ ์ฌํ์ธํ๋ค. ์ด ํจ๊ณผ๋ ๋ฐ์ดํฐ๊ฐ ๊ทน๋๋ก ํฌ์ํ๊ณ (ฮฑโฏ=โฏ0.1) ์ก์์ด ์ฌํ ๊ฒฝ์ฐ(ฮทโฏ=โฏ0.9) ๋์ฑ ๋๋๋ฌ์ง๋ฉฐ, ๊ณ ์ฐจ์ ๋น์ ์ ํํ์ ์ฌ์ฉํ ๋ ๋ฐ์ํ๋ ๊ฒฐ์ ๋งค๋ํด๋์ ์์ ๋ถ๊ดด๋ฅผ ๋ฐฉ์งํ๋ค(์น์ โฏ2.3.3).
๋๋ฉ์ธโ์ ์์ค ๋ถ์์ ์ง์ญ์ ์ฑ๊ณผ ํฅ์๊ณผ ์ ์๋ ์ ์ ์ฒด๊ณ์ ์ค์ ์ฑ๊ณผ ์ฌ์ด์ ๋์ ์ผ๊ด์ฑ์ ๋ณด์ฌ์ค๋ค(ํโฏ3). IITโฏscore ์์์ ์คํ๋ ์ ์ด ํจ์ฉ ๊ฐ์ ์๊ด๊ด๊ณ๊ฐ ๊ฐํ๊ฒ ๋ํ๋๋ค. ์๋ฅผ ๋ค์ด, ์ ์ญ ํฉ์์์ ๊ฐ์ฅ ๋์ ๊ตฌ์กฐ์ ์นํ์ฑ์ ๋ณด์ธ ProteinsโฏโโฏLinguistic ์(IITโฏscoreโฏ=โฏ0.2470)์ TGIโฏF1โฏ=โฏ+0.019, TGIโฏAPโฏ=โฏ+0.007์ด๋ผ๋ ์๋์ง ํจ๊ณผ๋ฅผ ๊ธฐ๋กํ๋ค. ๋ํ, Molecular ๋ฐ Proteins ์์ค๋ก๋ถํฐ Social ๋๋ฉ์ธ์ผ๋ก์ ์ ์ด๋ ROCโAUC์ AP์์ ์์ TGI๋ฅผ ๋ณด์ฌ, ์กฐ๋ฐํ ์ฌํ ๋งค๋ํด๋๊ฐ ๋น์ค์ผ๋ ๊ตฌ์กฐ์ ์ฌ์ ์ผ๋ก ํจ๊ณผ์ ์ผ๋ก ์ ๊ทํ๋จ์ ํ์ธํ๋ค.
ํ์ง๋ง IITโฏscore๋ ๋๋ฉ์ธ ์์ ๋ํด ๋ณธ์ง์ ์ผ๋ก ๋์นญ์ ์ธ ๋ฐ๋ฉด, ์ค์ ์ฑ๋ฅ์ ์ข ์ข ๋๋ ทํ ๋ฐฉํฅ์ฑ์ ๋ณด์ธ๋ค. ์ด๋ ์์ค ๋๋ฉ์ธ์ ์์์ ๊ฐ์ง์ฑ์ด ์ ์ด ํจ์จ์ฑ์ ๊ฒฐ์ ์ ์ํฅ์ ๋ฏธ์น๋ค๋ ์ ์ ์์ฌํ๋ค. ๋จ๋ฐฑ์ง ๋คํธ์ํฌ์ ๊ฐ์ด ์๊ฒฉํ ์๋ฌผ๋ฌผ๋ฆฌยทํํ ์ ์ฝ์ ๊ฐ๋ ๋งค๋ํด๋๋ ์์ฑ ์ ๋์ฑ์ด ํฐ ์ฌํยท์ธ์ด ๋คํธ์ํฌ๋ฅผ ํจ๊ณผ์ ์ผ๋ก ์ ๊ทํํ๋ ๊ณ ์ถฉ์ค๋ ์ค์บํด๋ ์ญํ ์ ํ๋ค. ๋ฐ๋๋ก, ์ ๋์ฑ์ด ํฐ ๋๋ฉ์ธ์์ ๊ณ ๊ฐ์ง ๋งค๋ํด๋๋ก ์ ์ดํ ๊ฒฝ์ฐ ์ด๋์ด ๊ฐ์ํ๋ค. ์ด๋ฌํ ๋ฐฉํฅ์ฑ ํธํฅ์ ์์ ์ ์ธ ์ธ๋ถ ๊ตฌ์กฐ ๊ณจ๊ฒฉ์ด ์์๋ ํ๊น ๋งค๋ํด๋๋ฅผ ๊ณ ์ ์ํฌ ๋ ์ ์ด ํ์ต์ ๊ตฌ์ ํจ๊ณผ๊ฐ ๊ทน๋ํ๋๋ค๋ ์ ์ ๊ฐ์กฐํ๋ค. ์น์ โฏ2.3.2์์๋ ์ด๋ฌํ ๋์ญํ์ ์ธ๋ถ์ ์ผ๋ก ํ๊ตฌํ๋ค.
์ด๋ก ์ ๋งค๋ํด๋ ํธํ์ฑ๊ณผ ์ค์ฆ์ ์ ์ด ํจ์จ์ฑ ๊ฐ์ ์ฐ๊ด์ฑ์ ์ ์๋ ์ ํ ์ ๋ต์ ๊ฐ์ฅ ์๊ฒฉํ ๊ฒ์ฆ์ด๋ค. ๊ทธ๋ฆผโฏ3์ 12๊ฐ์ ๋ฐฉํฅ์ฑ ๋๋ฉ์ธ ์์ ๋ํด ์ง๊ณ๋ ์๋ณ IITโฏscore์ ์ ์ด ์ด๋ ์ง์(TGI, ROCโAUC ๊ธฐ์ค) ๊ฐ์ ๊ด๊ณ๋ฅผ ๋ณด์ฌ์ค๋ค. ํ๊ท ๋ถ์์ rโฏ=โฏ0.503์ด๋ผ๋ ๊ฐํ ๋จ์กฐ์ ์ถ์ธ๋ฅผ ๋ํ๋ด๋ฉฐ, IITโฏscore๊ฐ ์ ์ด ์ฑ๋ฅ์ ์ข์ ์งํ์์ ์ ์ฆํ๋ค. ๋ชฉํโ์ ์ฉ ๋ชจ๋ธ์ด ์ด๋ฏธ ๊ฑฐ์ ์ต์ (ROCโAUCโฏโโฏ0.98)์ธ ์ํฉ์์๋, IITโฏscore๊ฐ ์ฆ๊ฐํจ์ ๋ฐ๋ผ ์ ์ด๋ก ์ธํ ์ฑ๋ฅ ์ ํ๊ฐ ์ฒด๊ณ์ ์ผ๋ก ์ํ๋๋ค. ํนํ ProteinsโฏโโฏLinguistic์ ๊ฐ์ ์ ๋ณด ๋คํธ์ํฌ ์์ IITโฏscoreโฏ>โฏ0.24๋ฅผ ๊ธฐ๋กํ๋ฉฐ ์์ ์๋์ง ์ด๋์ ๋ฌ์ฑํ๋ค. ์ด๋ ์ ๋ณด ๋คํธ์ํฌ๊ฐ ๊ณต์ ํ๋ ์ ์ฌ์ ๊ณ์ธต ์กฐ์ง์ด ๊ฒฌ๊ณ ํ ๋ถ์ฐ ์ง์ ์ ํ๋ฅผ ์ด์งํ๋ค๋ ์ ์ ํ์ธํ๋ค.
ํ๊ท์ ์์ ์์นํ ์ด์์น, ์ฆ ๋์ TGI๋ฅผ ๋ณด์ด๋ฉด์๋ ์๋์ ์ผ๋ก ๋ฎ์ IITโฏscore๋ฅผ ๊ฐ์ง ๋๋ฉ์ธ ์์ ์ถ๊ฐ์ ์ธ ๋ฉ์ปค๋์ฆโ์๋ฅผ ๋ค์ด, ๋๋ฉ์ธโํนํ ์ ์ฒ๋ฆฌ ํน์ ๋ฐ์ดํฐ ์ค์ผ์ผ๋งโ์ด ์ ์ด ์ฑ๊ณต์ ๊ธฐ์ฌํ ์ ์์์ ์์ฌํ๋ค. ์ด๋ฌํ ์ฌ๋ก๋ IITโฏscore๊ฐ ์ ์ด ๊ฐ๋ฅ์ฑ์ ์์ธกํ๋ ๋ฐ ๊ฐ๋ ฅํ์ง๋ง, ์ค์ ์ ์ฉ์์๋ ๋ณด์กฐ์ ์ธ ์คํ์ ์กฐ์ ์ด ์ฌ์ ํ ํ์ํจ์ ๊ฐ์กฐํ๋ค.
์์ฝํ๋ฉด, ๋ณธ ์ฐ๊ตฌ๋ ๋คํธ์ํฌ ๊ณผํ๊ณผ ์ค๋ช ๊ฐ๋ฅํ ์ธ๊ณต์ง๋ฅ์ ๊ฒฐํฉํ XโCDTL ํ๋ ์์ํฌ๋ฅผ ํตํด, ์ด์ง์ ์ธ ๊ณผํ ์์ญ ๊ฐ์ ๊ณต์ ๋๋ ๊ตฌ์กฐ์ ์์น์ ์ฒด๊ณ์ ์ผ๋ก ๋ฐ๊ตดํ๊ณ , ์ด๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๊ฒฌ๊ณ ํ ์ ์ด ํ์ต์ ๊ตฌํํ๋ค. 12๊ฐ์ ๋๋ฉ์ธ(์ฌํ, ๋ถ์, ๋จ๋ฐฑ์ง, ์ธ์ด)์์ ์ ์๋ 12๊ฐ์ ์์ ๋์คํฌ๋ฆฝํฐ๋ ๋๋ฉ์ธ ๊ฐ ์์์ ์ฐจ์ด๋ฅผ ๋ช ํํ ๊ตฌ๋ถํ๋ฉด์๋ ๋ด๋ถ ์ผ๊ด์ฑ์ ์ ์งํ๋ค. Global Consensus IIT ์ ์์ ๋ฐฉํฅ์ฑ IIT ์ ์๋ฅผ ํ์ฉํ ๊ณ์ธต์ ํน์ง ์ ํ์ ์ ์ด ๊ณผ์ ์์ ๋๋ฉ์ธโ๋ถ๋ณ ๊ตฌ์กฐ ๊ณจ๊ฒฉ์ ํ๋ณดํ๊ณ , ๋ถ์์ ํ ๋๋ฉ์ธโํนํ ์ก์์ผ๋ก๋ถํฐ ์ ์ด๋ฅผ ๋ณดํธํ๋ค. ์คํ ๊ฒฐ๊ณผ๋ (1) ๊ตฌ์กฐ์ ์ต์ปค๊ฐ ํฌํจ๋ ์ ์ฐจ์ ํน์ง ์งํฉ์ด ์ ์ด ์ํฉ์์ ์ ๋ฐ์ ์ธ ์ฑ๋ฅ๊ณผ ๊ฒฌ๊ณ ์ฑ์ ํฅ์์ํจ๋ค, (2) IIT ์ ์๊ฐ ๋์ ๋๋ฉ์ธ ์์ผ์๋ก ์ ์ด ์ด๋์ด ํฌ๊ฒ ๋ํ๋๋ค, (3) ์ ์ด ํจ์จ์ฑ์ ์์ค ๋๋ฉ์ธ์ ๊ตฌ์กฐ์ ๊ฐ์ง์ฑ์ ํฌ๊ฒ ์์กดํ๋ค๋ ๋ฐฉํฅ์ฑ ๋น๋์นญ์ฑ์ ๋ณด์ธ๋ค, ๋ฑ์ ๋ณด์ฌ์ค๋ค. ์ด๋ฌํ ํต์ฐฐ์ ๊ณผํ์ ์ง์์ ์ง์ ํ ์ตํฉ์ ์ํ ์ด๋ก ์ ยท์ค์ฉ์ ํ ๋๋ฅผ ์ ๊ณตํ๋ฉฐ, ํฅํ ๋ณต์ก ์์คํ ์ฐ๊ตฌ์ ์ธ๊ณต์ง๋ฅ ๊ธฐ๋ฐ ์ง์ ์ ํ์ ์์ด ์๋ก์ด ํจ๋ฌ๋ค์์ ์ ์ํ๋ค.