Importance inversion transfer identifies shared principles for cross-domain learning

Importance inversion transfer identifies shared principles for cross-domain learning

๐Ÿ“ Abstract

**
๋ณธ ์—ฐ๊ตฌ๋Š” ์„œ๋กœ ๋‹ค๋ฅธ ๊ณผํ•™ ๋ถ„์•ผ(์ƒ๋ฌผํ•™, ์–ธ์–ดํ•™, ๋ถ„์ž ๊ณผํ•™, ์‚ฌํšŒ ๊ณผํ•™) ๊ฐ„ ์ง€์‹ ์ „์ด๋ฅผ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•˜๋Š” ๊ณตํ†ต ์กฐ์ง ์›๋ฆฌ๋ฅผ ๊ทœ๋ช…ํ•˜๊ณ ์ž ํ•œ๋‹ค. ๊ธฐ์กด ์ „์ด ํ•™์Šต ๋ฐฉ๋ฒ•์€ ๋ฐ์ดํ„ฐ๊ฐ€ ๊ทนํžˆ ๋ถ€์กฑํ•˜๊ฑฐ๋‚˜ ์žก์Œ์ด ์‹ฌํ•œ ์ƒํ™ฉ์—์„œ ์ด์งˆ์ ์ธ ์‹œ์Šคํ…œ์„ ์—ฐ๊ฒฐํ•˜๋Š” ๋ฐ ํ•œ๊ณ„๋ฅผ ๋ณด์˜€๋‹ค. ์ด๋ฅผ ๊ทน๋ณตํ•˜๊ธฐ ์œ„ํ•ด ๋„คํŠธ์›Œํฌ ๊ณผํ•™๊ณผ ์„ค๋ช… ๊ฐ€๋Šฅํ•œ ์ธ๊ณต์ง€๋Šฅ(XAI)์„ ๊ฒฐํ•ฉํ•œ Explainable Crossโ€‘Domain Transfer Learning (Xโ€‘CDTL) ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์•ˆํ•œ๋‹ค. ํ•ต์‹ฌ ๋ฉ”์ปค๋‹ˆ์ฆ˜์ธ **Importance Inversion Transfer (IIT)**๋Š” ๋„๋ฉ”์ธ ํŠน์ด์ ์ธ ๊ณ ๋ถ„๋ณ„ ํŠน์ง•๋ณด๋‹ค ๋„๋ฉ”์ธโ€‘๋ถˆ๋ณ€ ๊ตฌ์กฐ์  ์•ต์ปค๋ฅผ ์šฐ์„ ์‹œํ•œ๋‹ค. ๋„คํŠธ์›Œํฌ ํ† ํด๋กœ์ง€ 12๊ฐ€์ง€ ์ง€ํ‘œ๋ฅผ ํ™œ์šฉํ•ด ๊ฐ ๋ถ„์•ผ์˜ ๊ตฌ์กฐ์  ํŠน์„ฑ์„ ์ •๋Ÿ‰ํ™”ํ•˜๊ณ , IIT ์ ์ˆ˜๋ฅผ ํ†ตํ•ด ์ „์ด ๊ฐ€๋Šฅ์„ฑ์ด ๋†’์€ ๊ตฌ์กฐ์  โ€˜์•ต์ปคโ€™๋ฅผ ๋„์ถœํ•œ๋‹ค. ์ด์ƒ ํƒ์ง€ ์‹คํ—˜์—์„œ IITโ€‘๊ธฐ๋ฐ˜ ๋ชจ๋ธ์€ ๊ทน์‹ฌํ•œ ์žก์Œ ํ•˜์—์„œ๋„ ์˜์‚ฌ๊ฒฐ์ • ์•ˆ์ •์„ฑ์ด 56โ€ฏ% ํ–ฅ์ƒ๋˜๋Š” ๋“ฑ ๊ธฐ์กด ๋ฒ ์ด์Šค๋ผ์ธ์„ ํฌ๊ฒŒ ๋Šฅ๊ฐ€ํ•œ๋‹ค. ๊ฒฐ๊ณผ๋Š” ์ด์งˆ์ ์ธ ๋„๋ฉ”์ธ ๊ฐ„์—๋„ ๊ณต์œ ๋˜๋Š” ์กฐ์ง ์„œ๋ช…์ด ์กด์žฌํ•จ์„ ์‹ค์ฆํ•˜๊ณ , ๋ถˆํˆฌ๋ช…ํ•œ ์ž ์žฌ ํ‘œํ˜„์„ ๋„˜์–ด ๋ช…์‹œ์  ๊ตฌ์กฐ ๋ฒ•์น™์œผ๋กœ ์ง€์‹ ์ „์ด๋ฅผ ๊ตฌํ˜„ํ•˜๋Š” ์ƒˆ๋กœ์šด ํŒจ๋Ÿฌ๋‹ค์ž„์„ ์ œ์‹œํ•œ๋‹ค.


**

๐Ÿ’ก Deep Analysis

**

1. ์—ฐ๊ตฌ ๋ฐฐ๊ฒฝ ๋ฐ ํ•„์š”์„ฑ

  • ๋‹คํ•™์ œ ์ง€์‹ ์ „์ด์˜ ํ•ต์‹ฌ ๊ฐ€์ •: ์„œ๋กœ ๋‹ค๋ฅธ ๋ถ„์•ผ๊ฐ€ ๋™์ผํ•œ ์กฐ์ง ์›๋ฆฌ๋ฅผ ๊ณต์œ ํ•œ๋‹ค๋Š” ์ „์ œ๋Š” ๊ธฐ์กด ์ „์ด ํ•™์Šต ์ด๋ก (๋ถ„ํฌ ์ฐจ์ด, ์˜ค๋ฅ˜ ๊ฒฝ๊ณ„)๊ณผ๋Š” ๋ณ„๊ฐœ๋กœ, ์‹ค์ œ ๊ณผํ•™ยท๊ณตํ•™ ๋ฌธ์ œ์—์„œ โ€œ๊ณตํ†ต ๊ตฌ์กฐโ€๋ฅผ ์ฐพ์•„์•ผ ํ•จ์„ ๊ฐ•์กฐํ•œ๋‹ค.
  • ๊ธฐ์กด ๋ฐฉ๋ฒ•์˜ ํ•œ๊ณ„:
    • **์ž ์žฌ ๊ณต๊ฐ„ ์ •๋ ฌ(Latent Alignment)**์€ ๊ณ ์ฐจ์› ์ž„๋ฒ ๋”ฉ์„ ํ†ตํ•ด ๋„๋ฉ”์ธ ์ฐจ์ด๋ฅผ ์ตœ์†Œํ™”ํ•˜์ง€๋งŒ, ์ด ๊ณผ์ •์ด ๋ถˆํˆฌ๋ช…ํ•˜๊ณ  ๋„๋ฉ”์ธ ํŠน์ด์  ์žก์Œ์— ์ทจ์•ฝํ•˜๋‹ค.
    • ๋ฐ์ดํ„ฐ ํฌ์†Œยท๋…ธ์ด์ฆˆ ์ƒํ™ฉ์—์„œ ์ •๊ทœํ™”๋œ ์ž„๋ฒ ๋”ฉ์ด ๋ถ•๊ดด๋˜๋Š” ํ˜„์ƒ์ด ๋นˆ๋ฒˆํžˆ ๋ณด๊ณ ๋œ๋‹ค.

2. Xโ€‘CDTL ํ”„๋ ˆ์ž„์›Œํฌ ์„ค๊ณ„

  • ๋„คํŠธ์›Œํฌ ๊ณผํ•™ ๊ธฐ๋ฐ˜ ํ‘œํ˜„: ๋ชจ๋“  ๋Œ€์ƒ ์‹œ์Šคํ…œ์„ ๊ทธ๋ž˜ํ”„(๋…ธ๋“œยท์—ฃ์ง€)๋กœ ๋ชจ๋ธ๋งํ•˜๊ณ , 12๊ฐœ์˜ ํ† ํด๋กœ์ง€ ์ง€ํ‘œ(๋ฐ€๋„, ํด๋Ÿฌ์Šคํ„ฐ๋ง, ์ŠคํŽ™ํŠธ๋Ÿด ๋ฐ˜๊ฒฝ, ฮปโ‚‚ ๋“ฑ)๋ฅผ ํ‘œ์ค€ํ™”ํ•œ๋‹ค.
  • ์„ค๋ช… ๊ฐ€๋Šฅ์„ฑ(XAI) ํ†ตํ•ฉ: ๊ฐ ์ง€ํ‘œ์˜ ์ „์ด ๊ธฐ์—ฌ๋„๋ฅผ ์ •๋Ÿ‰ํ™”ํ•˜๋Š” IIT ์Šค์ฝ”์–ด๋ฅผ ๋„์ž…, ์ „ํ†ต์ ์ธ Borda ์ˆœ์œ„์™€ ๋Œ€๋น„ํ•ด โ€œ์—ญ์ „โ€๋œ ์ค‘์š”๋„ ์ˆœ์œ„๋ฅผ ๋„์ถœํ•œ๋‹ค.
  • ์ „์ด ์ „๋žต:
    1. ์ „์—ญ ํ•ฉ์˜ IIT(G) โ†’ ๋„๋ฉ”์ธโ€‘๋ถˆ๋ณ€ ๊ตฌ์กฐ ์•ต์ปค(์˜ˆ: ํšจ์œจ์„ฑ, ฮปโ‚‚, ๋ฐ€๋„) ์„ ์ •.
    2. ์Œ๋ณ„ Directed IIT โ†’ ํŠน์ • ์†Œ์Šคโ€‘ํƒ€๊นƒ ์กฐํ•ฉ์— ๋งž๋Š” ๋ณด์กฐ ์•ต์ปค(์˜ˆ: ๋ชจ๋“ˆ๋Ÿฌ๋ฆฌํ‹ฐ) ์ถ”๊ฐ€.

3. ์‹คํ—˜ ์„ค๊ณ„ ๋ฐ ์ฃผ์š” ๊ฒฐ๊ณผ

์‹คํ—˜ ๋ฐ์ดํ„ฐ ๋ชจ๋ธ ์ฃผ์š” ์ง€ํ‘œ ๊ฒฐ๊ณผ
๋„๋ฉ”์ธ ๊ตฌ๋ถ„ 4๊ฐœ ๋„คํŠธ์›Œํฌ(์‚ฌํšŒยท๋ถ„์žยท๋‹จ๋ฐฑ์งˆยท์–ธ์–ด) Gradient Boosting / Logistic Regression / Random Forest ์ •ํ™•๋„, ROCโ€‘AUC 96.5โ€ฏ%~96.9โ€ฏ% ์ •ํ™•๋„, AUCโ€ฏโ‰ฅโ€ฏ0.996 (์„ ํ˜• ๋ชจ๋ธ๋„ ๋™์ผ ์ˆ˜์ค€)
IIT ๊ธฐ๋ฐ˜ ์ „์ด ์ด์ƒ ํƒ์ง€ (๋…ธ์ด์ฆˆ 0โ€“90โ€ฏ%) Xโ€‘CDTL + IIT ๊ฒฐ์ • ์•ˆ์ •์„ฑ, F1 ๋…ธ์ด์ฆˆ 80โ€ฏ% ์ด์ƒ์—์„œ 56โ€ฏ% ์ƒ๋Œ€ ํ–ฅ์ƒ
๊ตฌ์กฐ ์•ต์ปค vs ์ „์ฒด ํŠน์ง• ์ „์ด ํ•™์Šต Topโ€ฏFeats(8๊ฐœ) vs Allโ€ฏFeats(12๊ฐœ) ROCโ€‘AUC, AP, F1 Topโ€ฏFeats๊ฐ€ ์ „๋ฐ˜์  ์„ฑ๋Šฅ ์ €ํ•˜ ์—†์ด ์ฐจ์› ์ถ•์†Œ ํšจ๊ณผ ์ž…์ฆ
  • ๊ตฌ์กฐ์  ์•ต์ปค์˜ ๋ณดํŽธ์„ฑ: ํšจ์œจ์„ฑ, ฮปโ‚‚, ๋ฐ€๋„๋Š” ๋ชจ๋“  ๋„๋ฉ”์ธ ์Œ์—์„œ ๋†’์€ IIT ์ ์ˆ˜๋ฅผ ๊ธฐ๋ก, ์ด๋Š” โ€œ์ •๋ณด ํ๋ฆ„ยท์ „์—ญ ์—ฐ๊ฒฐยท์ง€์—ญ ๋ฐ€๋„โ€๊ฐ€ ๋ณต์žก๊ณ„ ์ „๋ฐ˜์— ๊ฑธ์นœ ๊ธฐ๋ณธ ์ œ์•ฝ์ž„์„ ์‹œ์‚ฌํ•œ๋‹ค.
  • ๋„๋ฉ”์ธ ํŠน์ด์  ๋ณ€์ด: ํด๋Ÿฌ์Šคํ„ฐ๋ง ๊ณ„์ˆ˜ยท์ŠคํŽ™ํŠธ๋Ÿด ๋ฐ˜๊ฒฝ์€ ๋„๋ฉ”์ธ ๊ตฌ๋ถ„์—๋Š” ๊ฐ•๋ ฅํ•˜์ง€๋งŒ ์ „์ด์—๋Š” ๋ณ€๋™์„ฑ์ด ์ปค์„œ IIT์—์„œ ํ•˜์œ„๋กœ ๋ฐ€๋ ค๋‚œ๋‹ค.

4. ์ด๋ก ์ ยท์‹ค์šฉ์  ์˜์˜

  1. ๊ตฌ์กฐ์  ๋ถˆ๋ณ€์„ฑ์˜ ์ •๋Ÿ‰ํ™”: IIT๋Š” โ€œ์ค‘์š”๋„ ์—ญ์ „โ€์ด๋ผ๋Š” ์ƒˆ๋กœ์šด ์‹œ๊ฐ์„ ์ œ๊ณต, ์ „ํ†ต์ ์ธ discriminative importance์™€ ์ „์ด ๊ฐ€๋Šฅ์„ฑ ์‚ฌ์ด์˜ ํŠธ๋ ˆ์ด๋“œ์˜คํ”„๋ฅผ ๋ช…์‹œ์ ์œผ๋กœ ์ธก์ •ํ•œ๋‹ค.
  2. ์„ค๋ช… ๊ฐ€๋Šฅํ•œ ์ „์ด: ์ „์ด ๊ณผ์ •์ด ์–ด๋–ค ๊ตฌ์กฐ์  ํŠน์„ฑ์— ๊ธฐ๋ฐ˜ํ•˜๋Š”์ง€ ํˆฌ๋ช…ํ•˜๊ฒŒ ์ œ์‹œํ•จ์œผ๋กœ์จ, ๊ณผํ•™์  ๋ฐœ๊ฒฌ ๊ณผ์ •์—์„œ โ€œ์™œ ์ „์ด๊ฐ€ ๊ฐ€๋Šฅํ•œ๊ฐ€?โ€์— ๋Œ€ํ•œ ๋‹ต์„ ์ œ๊ณตํ•œ๋‹ค.
  3. ๊ทนํ•œ ์ƒํ™ฉ์—์„œ์˜ ๊ฒฌ๊ณ ์„ฑ: ๋ฐ์ดํ„ฐ๊ฐ€ ๊ทนํžˆ ์ ๊ฑฐ๋‚˜ ์žก์Œ์ด ์‹ฌํ•œ ๊ฒฝ์šฐ์—๋„ ๊ตฌ์กฐ ์•ต์ปค ์ค‘์‹ฌ ์ „์ด๋Š” ๋ชจ๋ธ์„ ์•ˆ์ •ํ™”์‹œ์ผœ, ์‹คํ—˜ยท์‹œ๋ฎฌ๋ ˆ์ด์…˜ ๋ฐ์ดํ„ฐ๊ฐ€ ์ œํ•œ๋œ ๋ถ„์•ผ(์˜ˆ: ํฌ๊ท€ ์งˆ๋ณ‘, ์‹ ์†Œ์žฌ)์—์„œ ํ™œ์šฉ ๊ฐ€๋Šฅ์„ฑ์„ ๋†’์ธ๋‹ค.
  4. ๋‹คํ•™์ œ ์—ฐ๊ตฌ ์ด‰์ง„: ์‚ฌํšŒยท๋ถ„์žยท๋‹จ๋ฐฑ์งˆยท์–ธ์–ด ๋„คํŠธ์›Œํฌ ๊ฐ„ ๊ณตํ†ต ํ† ํด๋กœ์ง€(ํšจ์œจ์„ฑยทฮปโ‚‚ยท๋ฐ€๋„)๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ, ์˜ˆ๋ฅผ ๋“ค์–ด โ€œ์‚ฌํšŒ์  ํŠธ๋ผ์ด์–ด๋“œ ํ์‡„โ€ ์›๋ฆฌ๋ฅผ โ€œ๋ถ„์ž ๊ฒฐํ•ฉ ์‚ผ์ค‘์„ฑโ€์— ๋งคํ•‘ํ•˜๋Š” ์ƒˆ๋กœ์šด ๊ฐ€์„ค ์ƒ์„ฑ์ด ๊ฐ€๋Šฅํ•ด์ง„๋‹ค.

5. ํ•œ๊ณ„ ๋ฐ ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ

  • ๋„๋ฉ”์ธ ๋ฒ”์œ„ ํ™•๋Œ€: ํ˜„์žฌ 4๊ฐ€์ง€ ๋„คํŠธ์›Œํฌ์— ๊ตญํ•œ๋˜์—ˆ์œผ๋ฉฐ, ์‹œ๊ณ„์—ด ๋„คํŠธ์›Œํฌ, ํ•˜์ดํผ๊ทธ๋ž˜ํ”„ ๋“ฑ ๋” ๋ณต์žกํ•œ ๊ตฌ์กฐ์— ๋Œ€ํ•œ ์ ์šฉ ๊ฒ€์ฆ์ด ํ•„์š”ํ•˜๋‹ค.
  • IIT ์Šค์ฝ”์–ด์˜ ์ˆ˜ํ•™์  ํŠน์„ฑ: ํ˜„์žฌ๋Š” ๊ฒฝํ—˜์  ํ‰๊ท  ๊ธฐ๋ฐ˜์ด๋ฏ€๋กœ, ํ™•๋ฅ ์  ์•ˆ์ •์„ฑ(์˜ˆ: ๋ถ€ํŠธ์ŠคํŠธ๋žฉ ์‹ ๋ขฐ๊ตฌ๊ฐ„) ๋ฐ ์ด๋ก ์  ๊ฒฝ๊ณ„ ๋ถ„์„์ด ์ถ”๊ฐ€๋˜์–ด์•ผ ํ•œ๋‹ค.
  • ๋‹ค์ค‘ ๋ชจ๋‹ฌ ๋ฐ์ดํ„ฐ ํ†ตํ•ฉ: ๊ทธ๋ž˜ํ”„ ์™ธ์— ์ด๋ฏธ์ง€ยทํ…์ŠคํŠธยท์‹œ๊ณ„์—ด ๋“ฑ ๋น„๊ทธ๋ž˜ํ”„ํ˜• ๋ฐ์ดํ„ฐ์™€์˜ ์—ฐ๊ณ„ ๋ฐฉ๋ฒ•๋ก ์„ ๊ฐœ๋ฐœํ•˜๋ฉด, ์ง„์ •ํ•œ โ€œ์ „ ๋ถ„์•ผโ€ ์ „์ด ํ•™์Šต์ด ์‹คํ˜„๋  ์ˆ˜ ์žˆ๋‹ค.

**

๐Ÿ“„ Full Content

๊ณผํ•™์  ์ง„๋ณด๋Š” ์ ์  ๋” ๊ทœ๋ชจ, ์–‘์‹, ๊ทธ๋ฆฌ๊ณ  ๊ทผ๋ณธ์ ์ธ ๋ฉ”์ปค๋‹ˆ์ฆ˜์ด ๊ธ‰๊ฒฉํžˆ ๋‹ค๋ฅธ ์˜์—ญ๋“ค ๊ฐ„์˜ ์ง€์‹ ์œตํ•ฉ์„ ์š”๊ตฌํ•˜๊ณ  ์žˆ๋‹ค. ์ƒ๋ฌผํ•™์  ์œ ์‚ฌ์„ฑ์„ ํ™œ์šฉํ•ด ๊ณตํ•™์  ์‹คํŒจ๋ฅผ ์˜ˆ์ธกํ•˜๊ฑฐ๋‚˜ ์‚ฌํšŒ์  ๋„คํŠธ์›Œํฌ๋กœ๋ถ€ํ„ฐ ์–ธ์–ด ์กฐ์ง์„ ์ถ”๋ก ํ•˜๋Š” ๋“ฑ ์˜๋ฏธ ์žˆ๋Š” ๊ต์ฐจํ•™๋ฌธ์  ์ „ํŒŒ๋Š” ๊ณต์œ ๋œ ์กฐ์ง ์›์น™์„ ์ „์ œ๋กœ ํ•œ๋‹ค[1,2]. ์ด๋Ÿฌํ•œ ์›์น™์„ ๊ทœ๋ช…ํ•˜๋Š” ์ผ์€ ๋‹จ์ˆœํžˆ ์„œ์ˆ ์ ์ธ ์ž‘์—…์— ๊ทธ์น˜์ง€ ์•Š์œผ๋ฉฐ, ์›์น™์— ๊ธฐ๋ฐ˜ํ•œ ์ผ๋ฐ˜ํ™”์™€ ๊ฒฌ๊ณ ํ•œ ์ง€์‹ ์ „์ด๋ฅผ ์œ„ํ•œ ๊ทผ๋ณธ์ ์ธ ์ „์ œ์กฐ๊ฑด์ด๋‹ค.

์ „์ด ํ•™์Šต(TL)์€ ํŠน์ง• ํ‘œํ˜„์ด๋‚˜ ๊ทผ๋ณธ์ ์ธ ์ƒ์„ฑ ๊ณผ์ •์˜ ๊ณตํ†ต์„ฑ์„ ํ™œ์šฉํ•จ์œผ๋กœ์จ ์ด์งˆ์ ์ธ ๋ฐ์ดํ„ฐ์…‹ ๊ฐ„์— ์˜ˆ์ธก ํ•จ์ˆ˜๋ฅผ ์ ์‘์‹œํ‚ค๋Š” ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ์ œ๊ณตํ•œ๋‹ค[3,4]. ๊ณ ๋ฆฝ๋œ ํ•™์Šต์—์„œ ์ง€์‹ ์ „ํŒŒ๋กœ์˜ ํŒจ๋Ÿฌ๋‹ค์ž„ ์ „ํ™˜์€ ์„œ๋กœ ๋‹ค๋ฅธ ํ™•๋ฅ  ๋ถ„ํฌ๋ฅผ ๊ฐ€์ง„ ์ƒˆ๋กœ์šด ์˜์—ญ์— ์ง๋ฉดํ–ˆ์„ ๋•Œ ํ‘œ์ค€ ๋จธ์‹ ๋Ÿฌ๋‹์ด ๊ฐ–๋Š” ๋‚ด์žฌ์  ํ•œ๊ณ„๋ฅผ ๊ทน๋ณตํ•œ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ๋„๋ฉ”์ธ ์ ์‘ ์ด๋ก ์€ ๋ชฉํ‘œ ์ž‘์—…์— ๋Œ€ํ•œ ์˜ค๋ฅ˜ ๊ฒฝ๊ณ„๊ฐ€ ์†Œ์Šค์™€ ํƒ€๊นƒ ๋ถ„ํฌ ์‚ฌ์ด์˜ ๋ฐœ์‚ฐ ์ •๋„์— ์—„๊ฒฉํžˆ ์˜์กดํ•œ๋‹ค๋Š” ๊ฒƒ์„ ์ œ์‹œํ•œ๋‹ค[5][6][7]. ์‹ค์ œ ๊ณผํ•™์  ์‘์šฉ์—์„œ๋Š” ํ™•๋ฅ ์  ์†์ƒ๊ณผ ํŠน์ง• ์žก์Œ์ด ์ด ๋ฐœ์‚ฐ์„ ๋”์šฑ ์•…ํ™”์‹œ์ผœ, ๊ธฐ์กด์˜ ์ •๋ ฌ ๋ฐฉ๋ฒ•์ด ๋ถ•๊ดด๋˜๋Š” ๊ฒฝ์šฐ๊ฐ€ ๋นˆ๋ฒˆํžˆ ๋ฐœ์ƒํ•˜๊ณ , ๋„๋ฉ”์ธ ๋ถˆ๋ณ€ ํ‘œํ˜„์„ ๋ถ„๋ฆฌํ•˜๊ธฐ ์œ„ํ•œ ๋ณด๋‹ค ๊ฒฌ๊ณ ํ•œ ์ ‘๊ทผ๋ฒ•์ด ํ•„์š”ํ•˜๊ฒŒ ๋œ๋‹ค.

๊ฒŒ๋‹ค๊ฐ€ ๊ธฐ์กด ์ „์ด ๋ฐฉ๋ฒ•๋ก ์€ ์ฃผ๋กœ ๋ฐ์ดํ„ฐ์…‹์ด ์œ ์‚ฌํ•œ ์ƒ์„ฑ ์—ญํ•™์„ ๊ณต์œ ํ•˜๋Š” ๋ฐ€์ ‘ํ•œ ์„ค์ •์„ ๋ชฉํ‘œ๋กœ ํ•œ๋‹ค[3,8]. ๊ทผ๋ณธ์ ์œผ๋กœ ์ด์งˆ์ ์ธ ์‹œ์Šคํ…œ์— ์ ์šฉ๋  ๊ฒฝ์šฐ, ์ „ํ†ต์ ์ธ ์ž ์žฌ ์ •๋ ฌ ๊ธฐ๋ฒ•์€ ์ข…์ข… ํ•ด์„์ด ์–ด๋ ค์šด ๋„๋ฉ”์ธ ํŠนํ™” ์ž„๋ฒ ๋”ฉ์„ ์ƒ์„ฑํ•˜์—ฌ ์ง€์‹ ์ „ํŒŒ์˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜ ๊ฒฝ๋กœ๋ฅผ ๊ฐ€๋ ค๋ฒ„๋ฆฐ๋‹ค. ์ด๋Ÿฌํ•œ ํˆฌ๋ช…์„ฑ ๊ฒฐ์—ฌ๋Š” ์„œ๋กœ ๋‹ค๋ฅธ ์˜์—ญ์„ ์ผ๊ด€๋˜๊ฒŒ ์—ฐ๊ฒฐํ•˜๋Š” ๊ตฌ์กฐ์  ํŠน์„ฑ์„ ์‹๋ณ„ํ•˜๋Š” ๋ฐ ํฐ ์žฅ์• ๊ฐ€ ๋œ๋‹ค[9,10].

๋„คํŠธ์›Œํฌ ๊ณผํ•™์€ ๊ต์ฐจํ•™๋ฌธ์  ์œตํ•ฉ์„ ์œ„ํ•œ ๊ฐ•๋ ฅํ•œ ์ถ”์ƒํ™” ์ˆ˜๋‹จ์„ ์ œ๊ณตํ•œ๋‹ค. ๋ถ„์ž ๊ทธ๋ž˜ํ”„๋ถ€ํ„ฐ ์‚ฌํšŒ ๊ตฌ์กฐ์— ์ด๋ฅด๊ธฐ๊นŒ์ง€ ์‹œ์Šคํ…œ ๋‚ด์˜ ๊ฐœ์ฒด์™€ ์ƒํ˜ธ์ž‘์šฉ์„ ๋ณต์žก ๋„คํŠธ์›Œํฌ๋กœ ๋งคํ•‘ํ•  ์ˆ˜ ์žˆ๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค[11,12]. ๊ฐœ์ฒด๋ฅผ ๋…ธ๋“œ, ์ƒํ˜ธ์ž‘์šฉ์„ ์—ฃ์ง€๋กœ ํ‘œํ˜„ํ•จ์œผ๋กœ์จ ์žฌ๋ฃŒ ๊ณผํ•™, ์šฐ์ฃผ๋ก , ์‹œ์Šคํ…œ ์ƒ๋ฌผํ•™ ๋“ฑ ๋‹ค์–‘ํ•œ ๋ถ„์•ผ์—์„œ ์œ„์ƒ ์ „์ด, ์ •๋ณด ํ™•์‚ฐ, ๊ธฐ์ˆ  ํ˜์‹ ๊ณผ ๊ฐ™์€ ๊ทผ๋ณธ ํ˜„์ƒ์„ ๋ถ„์„ํ•˜๋Š” ๋ฐ ํญ๋„“๊ฒŒ ํ™œ์šฉ๋œ๋‹ค[13][14][15][16][17][18][19][20][21][22].

ํ•˜์ง€๋งŒ ํ˜„์žฌ ์†์œผ๋กœ ๋งŒ๋“  ๋””์Šคํฌ๋ฆฝํ„ฐ์— ์˜์กดํ•˜๋Š” ๋ฐฉ์‹์€ ๊ธฐ๋Šฅ์ ์œผ๋กœ ์˜๋ฏธ ์žˆ๋Š” ๋ถˆ๋ณ€๋Ÿ‰์„ ์ƒ˜ํ”Œ๋ง ์•„ํ‹ฐํŒฉํŠธ๋‚˜ ๋„๋ฉ”์ธ ๊ณ ์œ  ์ œ์•ฝ์œผ๋กœ๋ถ€ํ„ฐ ๊ตฌ๋ถ„ํ•˜์ง€ ๋ชปํ•˜๋Š” ๊ฒฝ์šฐ๊ฐ€ ๋งŽ์œผ๋ฉฐ, ํŠนํžˆ ์žก์Œ์ด ๋งŽ๊ฑฐ๋‚˜ ๋ฐ์ดํ„ฐ๊ฐ€ ํฌ์†Œํ•œ ์ƒํ™ฉ์—์„œ ๊ทธ ํ•œ๊ณ„๊ฐ€ ๋‘๋“œ๋Ÿฌ์ง„๋‹ค[23,24]. ์ด๋Ÿฌํ•œ ๋‚œ๊ด€์„ ํ•ด์†Œํ•˜๊ณ ์ž ๋ณธ ์—ฐ๊ตฌ๋Š” Explainable Crossโ€‘Domain Transfer Learning(Xโ€‘CDTL)์ด๋ผ๋Š” ํŒจ๋Ÿฌ๋‹ค์ž„์„ ์ •ํ˜•ํ™”ํ•œ๋‹ค. ์ด๋Š” ๋„คํŠธ์›Œํฌ ๊ณผํ•™๊ณผ ์„ค๋ช… ๊ฐ€๋Šฅํ•œ ์ธ๊ณต์ง€๋Šฅ(XAI)์„ ๊ฒฐํ•ฉํ•œ ํ”„๋ ˆ์ž„์›Œํฌ๋กœ, [25]์—์„œ ์ œ์‹œ๋œ ์ด๋ก ์  ํ† ๋Œ€๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ์„œ๋กœ ๋‹ค๋ฅธ ํ•™๋ฌธ ๋ถ„์•ผ์— ๊ฑธ์ณ ๋ถˆ๋ณ€์ธ ๊ณต์œ  ๊ตฌ์กฐ ์›์น™์„ ์‹๋ณ„ํ•˜๋„๋ก ์„ค๊ณ„๋˜์—ˆ๋‹ค.

์ด๋Ÿฌํ•œ ๊ด€์ ์—์„œ ์‚ฌํšŒ์  ์—๊ณ โ€‘๋„คํŠธ์›Œํฌ์˜ ์†Œ๊ทœ๋ชจ ์„ธ๊ณ„ ๊ตฌ์กฐ๋ถ€ํ„ฐ ๋ถ„์ž ๊ทธ๋ž˜ํ”„์˜ ํฌ์†Œํ•˜๊ณ  ์›์ž๊ฐ€ ๊ฒฐํ•ฉ ์ œ์•ฝ์„ ๋ฐ›๋Š” ๋ ˆ์ด์•„์›ƒ๊นŒ์ง€ ๋‹ค์–‘ํ•œ ๋ณตํ•ฉ ์‹œ์Šคํ…œ์„ ์‚ดํŽด๋ณธ๋‹ค. ์ด๋Ÿฌํ•œ ๊ตฌ์กฐ์  ์ง€๋ฌธ์€ ๊ทผ๋ณธ์ ์œผ๋กœ ๋‹ค๋ฅธ ์ƒ์„ฑ ์—ญํ•™์„ ๊ฐ–๋Š” ์˜์—ญ ๊ฐ„์˜ ํ”„๋ ˆ์ž„์›Œํฌ ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๋Š” ํ˜•ํƒœํ•™์  ๊ธฐ๋ฐ˜์„ ์ œ๊ณตํ•œ๋‹ค. ๋Œ€ํ‘œ์ ์ธ ๊ทธ๋ž˜ํ”„ ์ƒ˜ํ”Œ์€ ๋ฐ€๋„, ๋ชจ๋“ˆ๋Ÿฌ๋ฆฌํ‹ฐ, ๋ถ„๊ธฐ ํŒจํ„ด์ด ์„œ๋กœ ๋‹ค๋ฆ„์„ ๋ณด์—ฌ์ค€๋‹ค. ์—ฐ๊ฒฐ ์ •์˜๋Š” ๊ณผํ•™์  ์Šค์ผ€์ผ์— ๋”ฐ๋ผ ๋‹ฌ๋ผ์ง„๋‹ค: ์‚ฌํšŒ ๋„คํŠธ์›Œํฌ์—์„œ๋Š” ๋…ธ๋“œ๊ฐ€ ์‚ฌ์šฉ์ž์ด๋ฉฐ ์นœ๊ตฌ ๊ด€๊ณ„๋กœ ์—ฐ๊ฒฐ๋˜๊ณ , ๋ถ„์ž ๊ทธ๋ž˜ํ”„์—์„œ๋Š” ๋…ธ๋“œ๊ฐ€ ์›์ž์ด๋ฉฐ ํ™”ํ•™ ๊ฒฐํ•ฉ์œผ๋กœ ์—ฐ๊ฒฐ๋˜๋ฉฐ, ๋‹จ๋ฐฑ์งˆ ๋„คํŠธ์›Œํฌ์—์„œ๋Š” ์•„๋ฏธ๋…ธ์‚ฐ์ด ๋ฌผ๋ฆฌ์  ์ƒํ˜ธ์ž‘์šฉ์œผ๋กœ ์—ฐ๊ฒฐ๋˜๊ณ , ์–ธ์–ด ๋„คํŠธ์›Œํฌ์—์„œ๋Š” ๋‹จ์–ด๊ฐ€ ๋ฌธ๋งฅ์  ๋™์‹œ์ถœํ˜„์œผ๋กœ ์—ฐ๊ฒฐ๋œ๋‹ค. ์ด๋Ÿฌํ•œ ์•„ํ‚คํ…์ฒ˜๋Š” ์ด์งˆ์ ์ธ ๊ตฌ์กฐ์  ์‚ฌ์ „(prior)์„ ์ œ๊ณตํ•จ์œผ๋กœ์จ ๋งค๋‹ˆํด๋“œ ์ •๋ ฌ ํŒŒ์ดํ”„๋ผ์ธ์˜ ํ† ๋Œ€๊ฐ€ ๋œ๋‹ค.

์—ฐ๊ฒฐ์„ฑ, ํด๋Ÿฌ์Šคํ„ฐ๋ง, ์ŠคํŽ™ํŠธ๋Ÿผ, ๋ชจ๋“ˆ๋Ÿฌ์„ฑ ๋“ฑ ๋„ค ์ฐจ์›์— ๊ฑธ์นœ 12๊ฐœ์˜ ์œ„์ƒ ๋””์Šคํฌ๋ฆฝํ„ฐ๊ฐ€ ์ด ๋‹ค์–‘์„ฑ์„ ์ •๋Ÿ‰ํ™”ํ•œ๋‹ค(๋ณด์กฐํ‘œ 8์˜ ์•™์ƒ๋ธ” ํ†ต๊ณ„). ์„ ํƒ๋œ ๋„๋ฉ”์ธ๋“ค์€ ๊ตฌ์กฐ์  ํŠน์ง• ๊ณต๊ฐ„์—์„œ ๋†’์€ ๊ตฌ๋ถ„์„ฑ์„ ๋ณด์ด๋ฉฐ, ์ด๋Š” ๋ณด์กฐ ๊ทธ๋ฆผ 5์—์„œ ํ™•์ธํ•  ์ˆ˜ ์žˆ๋‹ค. ์‚ฌํšŒ ๋„คํŠธ์›Œํฌ๋Š” ํ‰๊ท  ํด๋Ÿฌ์Šคํ„ฐ๋ง ๊ณ„์ˆ˜ 0.84โ€ฏยฑโ€ฏ0.06, ๋ฐ€๋„ 0.65โ€ฏยฑโ€ฏ0.17 ๋“ฑ ๋†’์€ ์ง€์—ญ ์ค‘๋ณต์„ฑ์„ ๊ฐ€์ง„ ์ค€โ€‘ํด๋ฆฌํฌ ๊ตฌ์กฐ๋ฅผ ๋‚˜ํƒ€๋‚ธ๋‹ค. ๋ฐ˜๋ฉด ๋ถ„์ž ๊ทธ๋ž˜ํ”„๋Š” ํ™”ํ•™์  ์›์ž๊ฐ€ ๊ฒฐํ•ฉ ์ œ์•ฝ์— ์˜ํ•ด ์—ฐ๊ฒฐ์„ฑ์ด ์ œํ•œ๋œ ํฌ์†Œํ•˜๊ณ  ๊ฑฐ์˜ ๋น„์ˆœํ™˜์ ์ธ ๊ณต๊ฐ„์œผ๋กœ, ํ‰๊ท  ํด๋Ÿฌ์Šคํ„ฐ๋ง์ด 0.01โ€ฏยฑโ€ฏ0.03์— ๋ถˆ๊ณผํ•˜๋‹ค. ๋‹จ๋ฐฑ์งˆ ๋ฐ ์–ธ์–ด ๋„คํŠธ์›Œํฌ๋Š” ์ค‘๊ฐ„ ์˜์—ญ์— ์œ„์น˜ํ•˜๋Š”๋ฐ, ํŠนํžˆ ๋‹จ๋ฐฑ์งˆ ๋„คํŠธ์›Œํฌ๋Š” ๋†’์€ ๋ชจ๋“ˆ๋Ÿฌ์„ฑ(0.52โ€ฏยฑโ€ฏ0.11)์œผ๋กœ ์ƒ๋ฌผํ•™์  ๊ธฐ๋Šฅ์— ํ•„์ˆ˜์ ์ธ ๊ณ„์ธต์  ์ปค๋ฎค๋‹ˆํ‹ฐ ์กฐ์ง์„ ๋ฐ˜์˜ํ•œ๋‹ค.

์ŠคํŽ™ํŠธ๋Ÿผ ์ง€๋ฌธ ์—ญ์‹œ ์ด๋Ÿฌํ•œ ์ฐจ์ด๋ฅผ ๊ฐ•์กฐํ•œ๋‹ค. ์‚ฌํšŒ ๋„คํŠธ์›Œํฌ์˜ ์ŠคํŽ™ํŠธ๋Ÿผ ๋ฐ˜๊ฒฝ์€ 12.28โ€ฏยฑโ€ฏ4.32๋กœ, ๋ถ„์ž ์‹œ์Šคํ…œ(2.56โ€ฏยฑโ€ฏ0.21)๋ณด๋‹ค ์•ฝ 5๋ฐฐ ํฌ๋ฉฐ, ์ด๋Š” ์ „์—ญ ์—ฐ๊ฒฐ์„ฑ ๋ฐ ์ •๋ณด ์ „ํŒŒ ์ž ์žฌ๋ ฅ์˜ ์ฐจ์ด๋ฅผ ๋‚˜ํƒ€๋‚ธ๋‹ค. ์‹ค์ œ ๊ด€๊ณ„ ๋ฐ์ดํ„ฐ๊ฐ€ ๋‚ดํฌํ•˜๋Š” ๋ณ€๋™์„ฑ์„ ๊ฐ์•ˆํ•˜๋”๋ผ๋„, ์ฃผ์š” ํŠน์ง•์ธ ๋ฐ€๋„์™€ ์ŠคํŽ™ํŠธ๋Ÿผ ๋ฐ˜๊ฒฝ์˜ ์‚ฌ๋ถ„์œ„ ๋ฒ”์œ„๋Š” ๋Œ€๋ถ€๋ถ„์˜ ๋„๋ฉ”์ธ ์Œ์—์„œ ๊ฒน์น˜์ง€ ์•Š๋Š”๋‹ค. ์ด๋Ÿฌํ•œ ๊ฒฌ๊ณ ํ•œ ๊ตฌ๋ถ„์€ ์„ ํƒ๋œ ๋„๋ฉ”์ธ์ด ์œ„์ƒ์ ์œผ๋กœ ์„œ๋กœ ๋‹ค๋ฅด๋ฉด์„œ๋„ ๋‚ด๋ถ€์ ์œผ๋กœ ์ผ๊ด€๋œ ํŠน์„ฑ์„ ์ง€๋‹˜์„ ํ™•์ธ์‹œ์ผœ ์ฃผ๋ฉฐ, ๊ต์ฐจโ€‘๋„๋ฉ”์ธ ์ •๋ ฌ์— ๋Œ€ํ•œ ๊นŒ๋‹ค๋กœ์šด ๋ฒค์น˜๋งˆํฌ๋ฅผ ์ œ๊ณตํ•œ๋‹ค.

๋„๋ฉ”์ธ ๊ฐ„ ์œ„์ƒ์  ๋ฐœ์‚ฐ์€ ๋„คํŠธ์›Œํฌ ์ •์ฒด์„ฑ์„ ๊ณ ์ถฉ์‹ค๋„ ์ง€๋ฌธ์œผ๋กœ์„œ ๊ตฌ์กฐ์  ๋ฉ”ํŠธ๋ฆญ์ด ์ž‘๋™ํ•จ์„ ์‹œ์‚ฌํ•œ๋‹ค. ๋„ค ๊ฐœ์˜ ๋„คํŠธ์›Œํฌ ํด๋ž˜์Šค(์‚ฌํšŒ, ๋ถ„์ž, ๋‹จ๋ฐฑ์งˆ, ์–ธ์–ด)๋ฅผ ํ‘œ์ค€ํ™”๋œ ์œ„์ƒ ๋””์Šคํฌ๋ฆฝํ„ฐ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•˜๋Š” XML ํ”„๋ ˆ์ž„์›Œํฌ๋กœ ๊ตฌ๋ถ„ ๊ฐ€๋Šฅ์„ฑ์„ ์ •๋Ÿ‰ํ™”ํ•˜๋Š” ํฌ๊ด„์  ๋ฒค์น˜๋งˆํ‚น ๋ถ„์„์ด ์ˆ˜ํ–‰๋˜์—ˆ๋‹ค.

์„ธ ๊ฐ€์ง€ ํ•™์Šต ์•„ํ‚คํ…์ฒ˜(Gradient Boosting, Logistic Regression, Random Forest) ์ „๋ฐ˜์— ๊ฑธ์นœ ์„ฑ๋Šฅ ํ‰๊ฐ€๋Š” ์ผ๊ด€๋œ ๋†’์€ ๊ตฌ๋ถ„ ํšจ์šฉ์„ ํ™•์ธํ•œ๋‹ค. ํ‘œ 1์— ๋ณด๊ณ ๋œ ๋ฐ”์™€ ๊ฐ™์ด, 10๊ฐœ์˜ ๋…๋ฆฝ ๋žœ๋ค ์‹œ๋“œ์— ๋Œ€ํ•ด ํ‰๊ท  ๋ถ„๋ฅ˜ ์ •ํ™•๋„๋Š” 96.5โ€ฏ%~96.9โ€ฏ% ๋ฒ”์œ„์— ๋จธ๋ฌผ๋ฉฐ, ROCโ€‘AUC๋Š” 0.996 ์ด์ƒ์œผ๋กœ ๊ฑฐ์˜ ์™„๋ฒฝ์— ๊ฐ€๊น๋‹ค. ์ด๋Š” ๊ตฌ์กฐ์  ํŠน์ง• ๊ณต๊ฐ„์ด ๋ณธ์งˆ์ ์œผ๋กœ ์ž˜ ์ •๋ˆ๋˜์–ด ์žˆ์–ด ๊ฑฐ์˜ ์ตœ์ ์— ๊ฐ€๊นŒ์šด ๊ฒฐ์ • ๊ฒฝ๊ณ„๊ฐ€ ํ˜•์„ฑ๋˜๊ณ , ๋„คํŠธ์›Œํฌ ์•™์ƒ๋ธ”์˜ ๋ฌด์ž‘์œ„ ์žฌํ‘œ๋ณธํ™”์—๋„ ๊ฒฌ๊ณ ํ•จ์„ ์œ ์ง€ํ•จ์„ ์˜๋ฏธํ•œ๋‹ค.

Gradient Boosting ๋ชจ๋ธ๊ณผ ์„ ํ˜• Logistic Regression ๋ฒ ์ด์Šค๋ผ์ธ ๊ฐ„์˜ ์„ฑ๋Šฅ ๊ฒฉ์ฐจ(โ‰ˆ0.3โ€ฏ%)๋Š” ์ด๋ก ์ ์œผ๋กœ ์˜๋ฏธ๊ฐ€ ์žˆ๋‹ค. ์„ ํ˜• ๋ชจ๋ธ์ด Random Forest์™€ ๊ฐ™์€ ๋ณตํ•ฉ ์•™์ƒ๋ธ” ๋ฐฉ๋ฒ•๊ณผ ๋™๋“ฑํ•œ ์„ฑ๋Šฅ์„ ๋ณด์ธ๋‹ค๋Š” ์‚ฌ์‹ค์€ ๋„คํŠธ์›Œํฌ ๋„๋ฉ”์ธ์„ ์ •์˜ํ•˜๋Š” ํ˜•ํƒœํ•™์  ์„œ๋ช…์ด ํ‘œํ˜„๋ ฅ์ด ๋›ฐ์–ด๋‚  ๋ฟ ์•„๋‹ˆ๋ผ ํ‘œ์ค€ํ™”๋œ ํŠน์ง• ๊ณต๊ฐ„ ๋‚ด์—์„œ ์„ ํ˜•์ ์œผ๋กœ ์ ‘๊ทผ ๊ฐ€๋Šฅํ•จ์„ ์‹œ์‚ฌํ•œ๋‹ค. ์ด๋Ÿฌํ•œ ๊ฒฐ๊ณผ๋Š” ํŠน์ • ์œ„์ƒ ๋””์Šคํฌ๋ฆฝํ„ฐ ์ง‘ํ•ฉ์ด ๊ณ ๋„๋กœ ๊ตฌ๋ถ„ ๊ฐ€๋Šฅํ•œ ํ˜•ํƒœํ•™์  ๋งค๋‹ˆํด๋“œ๋ฅผ ํ˜•์„ฑํ•œ๋‹ค๋Š” ๊ฐ€์„ค์„ ๊ฒ€์ฆํ•œ๋‹ค. Gradient Boosting ๋ชจ๋ธ์— ๋Œ€ํ•œ ์•™์ƒ๋ธ” ํ˜ผ๋™ ํ–‰๋ ฌ ๋“ฑ ์ถ”๊ฐ€ ์ง„๋‹จ์€ ๋ณด์กฐ ๊ทธ๋ฆผ 6์— ์ƒ์„ธํžˆ ์ œ์‹œ๋œ๋‹ค.

๊ตฌ์กฐ์  ์•ต์ปค์˜ ์‹๋ณ„์€ ๊ตฌ๋ถ„ ํšจ์šฉ, ์ˆœ์œ„ ์ผ๊ด€์„ฑ, ๋ฉ”ํŠธ๋ฆญ ์•ˆ์ •์„ฑ์ด๋ผ๋Š” ๊ณ„์ธต์  ์ง‘๊ณ„์— ์˜ํ•ด ์ขŒ์šฐ๋œ๋‹ค. ๊ฐ๋… ํ•™์Šต ๊ธฐ๋ฐ˜ ์ง„๋‹จ์ด ๋„๋ฉ”์ธ ๊ตฌ๋ถ„์„ ์œ„ํ•œ ์ฃผ์š” ๊ตฌ๋ถ„์ž๋ฅผ ๋ฐํ˜€๋‚ด๋Š” ๋ฐ˜๋ฉด(๋ณด์กฐํ‘œ 9), ํ”„๋ ˆ์ž„์›Œํฌ๋Š” Global Consensus IIT ์ ์ˆ˜ G๋ฅผ ํ†ตํ•ด ๋„๋ฉ”์ธโ€‘ํŠน์ • ์ค‘์š”์„ฑ์„ ์ผ๋ฐ˜ ์ „์ด ๊ฐ€๋Šฅ์„ฑ์œผ๋กœ ์ „ํ™˜ํ•œ๋‹ค. ๊ฐ ์œ„์ƒ ๋””์Šคํฌ๋ฆฝํ„ฐ์— ๋Œ€ํ•ด G๋Š” 12๊ฐœ์˜ ์†Œ์Šคโ€‘ํƒ€๊นƒ ์กฐํ•ฉ ์ „๋ฐ˜์— ๊ฑธ์นœ ๋ฐฉํ–ฅ์„ฑ IIT ์ ์ˆ˜์˜ ํ‰๊ท ๊ฐ’์„ ๋‚˜ํƒ€๋‚ด๋ฉฐ, ์ด์งˆ์ ์ธ ์ƒ์„ฑ ์—ญํ•™์„ ์—ฐ๊ฒฐํ•  ์ˆ˜ ์žˆ๋Š” ๊ตฌ์กฐ์  ์œ ์‚ฌ์„ฑ์„ ์ถ”์ถœํ•œ๋‹ค.

๊ทธ ๊ฒฐ๊ณผ ๊ณ„์ธต ๊ตฌ์กฐ๋Š” ํŠน์ง• ์ค‘์š”๋„ ํ”„๋กœํŒŒ์ผ์˜ ํฐ ์ „ํ™˜์„ ๋ณด์—ฌ์ค€๋‹ค(๊ทธ๋ฆผ 2). ์›์‹œ Borda ์ˆœ์œ„์—์„œ๋Š” ํ‰๊ท  ํด๋Ÿฌ์Šคํ„ฐ๋ง ๊ณ„์ˆ˜(Borda ์ ์ˆ˜ 2.267), ์ŠคํŽ™ํŠธ๋Ÿผ ๋ฐ˜๊ฒฝ(4.233), ์ง๊ฒฝ(4.333) ๋“ฑ์ด ๋„๋ฉ”์ธ ์‹๋ณ„์— ๊ฐ€์žฅ ๊ฐ•๋ ฅํ•œ ๊ตฌ๋ถ„์ž๋กœ ๋– ์˜ค๋ฅธ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ IIT ์ ์ˆ˜ G๋Š” ์ด๋Ÿฌํ•œ ํŠน์ง•์ด ๊ณผํ•™์  ์Šค์ผ€์ผ ๊ฐ„์— ๋ณ€๋™์„ฑ์ด ํฌ๊ฑฐ๋‚˜ ๋„๋ฉ”์ธโ€‘ํŠนํ™” ์ •๋ณด๊ฐ€ ๊ณผ๋‹คํ•ด ์ •๋ ฌ์— ๋ถ€์ ํ•ฉํ•จ์„ ๋‚˜ํƒ€๋‚ธ๋‹ค. ๋”ฐ๋ผ์„œ ์ „์ด ๊ฐ€๋Šฅ์„ฑ ๊ณ„์ธต์—์„œ ์ŠคํŽ™ํŠธ๋Ÿผ ๋ฐ ์ „์—ญ ๊ทœ๋ชจ ๋งˆ์ปค๋Š” ํ•˜์œ„๋กœ ๋ฐ€๋ ค๋‚œ๋‹ค.

๋ฐ˜๋Œ€๋กœ ํšจ์œจ์„ฑ(efficiency), ฮปโ‚‚, ๋ฐ€๋„์™€ ๊ฐ™์€ ๋””์Šคํฌ๋ฆฝํ„ฐ๋Š” ์›์‹œ ๊ตฌ๋ถ„ ํšจ์šฉ์—์„œ๋Š” ์ค‘๊ฐ„ ์ˆœ์œ„์— ๋จธ๋ฌผ์ง€๋งŒ, ์ „์—ญ ํ•ฉ์˜์—์„œ๋Š” ์ตœ์ƒ์œ„์— ์˜ค๋ฅด๋ฉฐ ์ด์งˆ์ ์ธ ๋งค๋‹ˆํด๋“œ ๊ฐ„ ์ •๋ ฌ ์ž ์žฌ๋ ฅ์ด ๊ฐ€์žฅ ๋†’๋‹ค. ์ด๋Ÿฌํ•œ ์žฌ์ •๋ ฌ์„ ํ†ตํ•ด 8๊ฐœ์˜ ๊ตฌ์กฐ์  ์•ต์ปค(๊ทธ๋ฆผ 2์˜ ๋…น์ƒ‰ ๋ง‰๋Œ€)๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ์˜ ๊ณต์œ  ์œ„์ƒ ๊ณจ๊ฒฉ์„ ๊ตฌ์„ฑํ•œ๋‹ค. ์ด ๋ฒ”์œ„ ๋‚ด์—์„œ ํšจ์œจ์„ฑ๊ณผ ฮปโ‚‚๋Š” ๋›ฐ์–ด๋‚œ ์•ˆ์ •์„ฑ์„ ๋ณด์—ฌ, ์ง€์‹ ์ „ํŒŒ๋ฅผ ์œ„ํ•œ ๊ฒฌ๊ณ ํ•œ ๊ตฌ์กฐ์  ๋ฌธ๋ฒ•์„ ์ œ๊ณตํ•œ๋‹ค.

IIT ์ ์ˆ˜ G๊ฐ€ ์ „๋ฐ˜์ ์ธ ์ „๋žต์˜ ๊ธฐ๋ฐ˜์„ ๋งˆ๋ จํ•˜๋Š” ๋™์‹œ์—, ํ”„๋ ˆ์ž„์›Œํฌ๋Š” ํŠน์ • ์†Œ์Šคโ€‘ํƒ€๊นƒ ์กฐํ•ฉ์— ๋Œ€ํ•ด ๋ฐฉํ–ฅ์„ฑ IIT ์ ์ˆ˜๋ฅผ ํ™œ์šฉํ•ด ๊ณจ๊ฒฉ์„ ์„ธ๋ฐ€ํžˆ ์กฐ์ •ํ•œ๋‹ค. ์Œ๋ณ„ ์ˆœ์œ„ ์ผ๊ด€์„ฑ๊ณผ ๋ถ„ํฌ ๊ทผ์ ‘์„ฑ์„ ๊ณ ๋ คํ•จ์œผ๋กœ์จ, ์ „์—ญ์ ์œผ๋กœ ๋ณ€๋™์„ฑ์ด ํฌ์ง€๋งŒ ํŠน์ • ์ „์ด์—์„œ๋Š” ๋†’์€ ๋ฉ”ํŠธ๋ฆญ ํ˜ธํ™˜์„ฑ์„ ๋ณด์ด๋Š” ๋””์Šคํฌ๋ฆฝํ„ฐ๋ฅผ ๋กœ์ปฌ ๊ตฌ์กฐ์  ์•ต์ปค๋กœ ์‹๋ณ„ํ•œ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ๋ชจ๋“ˆ๋Ÿฌ์„ฑ์€ ์ „์—ญ ์ˆœ์œ„์—์„œ๋Š” ์ค‘๊ฐ„์— ๋จธ๋ฌผ์ง€๋งŒ, ๋ถ„์ž ํ˜น์€ ์‚ฌํšŒ ๋„๋ฉ”์ธ ๊ฐ„ ์ „์ด์—์„œ๋Š” ์ฃผ์š” ๊ตฌ์กฐ์  ์•ต์ปค๋กœ ์žฌ๋“ฑ์žฅํ•œ๋‹ค. ์ด๋Ÿฌํ•œ ๊ณ„์ธต์  ์ง€ํ‘œ๋ฅผ ํ†ตํ•ฉํ•จ์œผ๋กœ์จ, ํŠน์ง• ์„ ํƒ ๊ณผ์ •์€ ๊ธฐ๋Šฅ์  ๊ด€๋ จ์„ฑ๊ณผ ๋ฉ”ํŠธ๋ฆญ ์•ˆ์ •์„ฑ ์‚ฌ์ด์˜ ํŠธ๋ ˆ์ด๋“œ์˜คํ”„๋ฅผ ์ตœ์ ํ™”ํ•˜๋Š” ๋ฐฉํ–ฅ์œผ๋กœ ํœด๋ฆฌ์Šคํ‹ฑ ์ž„๊ณ„๊ฐ’์„ ๋ฐฐ์ œํ•œ๋‹ค. IIT ์ ์ˆ˜ G์™€ ๋ฐฉํ–ฅ์„ฑ IIT ์ ์ˆ˜๋Š” ์ „์ด ๊ณผ์ •์ด ๋„๋ฉ”์ธโ€‘๋ถˆ๋ณ€ ๊ตฌ์กฐ ๊ณจ๊ฒฉ์— ๊ณ ์ •๋˜๋„๋ก ๋ณด์žฅํ•˜๋ฉฐ, ์„œ์ˆ ์  ํ†ต๊ณ„ ํ”„๋กœํŒŒ์ผ์—์„œ ๋“œ๋Ÿฌ๋‚œ ํŠน์ด ์žก์Œ์œผ๋กœ๋ถ€ํ„ฐ ์ง€์‹ ์ „ํŒŒ๋ฅผ ํšจ๊ณผ์ ์œผ๋กœ ์ฐจ๋‹จํ•œ๋‹ค.

๋ชจ๋“  ์†Œ์Šคโ€‘ํƒ€๊นƒ ์กฐํ•ฉ์— ๋Œ€ํ•œ ๋ฐฉํ–ฅ์„ฑ ์Œ๋ณ„ ์กฐ์‚ฌ(ํ‘œ 2)๋Š” ๊ตฌ์กฐ์  ์ •๋ณด ์ „ํŒŒ๋ฅผ ์„ธ๋ฐ€ํžˆ ๊ธฐ์ˆ ํ•œ๋‹ค. ๊ณ„์ธต ์„ ํƒ ํ”„๋กœํ† ์ฝœ(์„น์…˜ 5.4.2)์— ๋”ฐ๋ผ ๊ตฌ์กฐ์  ์•ต์ปค์˜ ์‹๋ณ„ ๋ฐ ์ˆœ์œ„๋Š” ๋ณตํ•ฉ IIT ์ ์ˆ˜โ€ฏ(IITโ€ฏscore)โ€ฏ์— ์˜ํ•ด ์ขŒ์šฐ๋œ๋‹ค. ์ด ๊ธฐ์ค€์€ (i) ๊ตฌ๋ถ„ ์ค‘๋ฆฝ์„ฑ, (ii) ์ˆœ์œ„ ์ผ๊ด€์„ฑ, (iii) ๋ฉ”ํŠธ๋ฆญ ํ˜ธํ™˜์„ฑ์„ ํ†ตํ•ฉํ•ด ์ด์งˆ ๋งค๋‹ˆํด๋“œ ๊ฐ„ ์ •๋ ฌ ์ž ์žฌ๋ ฅ์„ ํ‰๊ฐ€ํ•œ๋‹ค. ํ‘œ 2์— ๋ณด๊ณ ๋œ ํ‰๊ท  IIT ์ ์ˆ˜๋Š” ๋„๋ฉ”์ธ ์Œ ๊ฐ„ ๊ตฌ์กฐ์  ๋‹ค๋ฆฌ์˜ ์ด ๊ฐ•๋„๋ฅผ ์ •๋Ÿ‰ํ™”ํ•˜๋ฉฐ, ์ „์ด๊ฐ€ ์ด๋ก ์ ์œผ๋กœ ๋ถˆ๋ณ€์ด๊ณ  ๋ฉ”ํŠธ๋ฆญ์ ์œผ๋กœ ์•ˆ์ •๋œ ํŠน์ง•์— ๊ธฐ๋ฐ˜ํ•จ์„ ๋ณด์žฅํ•œ๋‹ค.

๋ฐฉํ–ฅ์„ฑ ์Œ ๋ถ„์„์€ ๋„๋ฉ”์ธโ€‘ํŠน์ • ์ƒ์„ฑ ์—ญํ•™์ด ์ „์ด ๊ฐ€๋Šฅํ•œ ๊ตฌ์กฐ์˜ ์„ฑ๊ฒฉ์„ ์–ด๋–ป๊ฒŒ ํ˜•์„ฑํ•˜๋Š”์ง€๋ฅผ ๋ณด์—ฌ์ค€๋‹ค. ํŠนํžˆ ๋‹จ๋ฐฑ์งˆโ€ฏโ†”โ€ฏ์–ธ์–ด ์ „์ด๋Š” ๊ฐ€์žฅ ๋†’์€ ๊ตฌ์กฐ์  ๋™์งˆ์„ฑ(IITโ€ฏscoreโ€ฏ=โ€ฏ0.2480)์„ ๋ณด์ด๋ฉฐ, ์ด๋Š” ๋ฐ€๋„, ํšจ์œจ์„ฑ, nโ€ฏnodes๊ฐ€ ์ฃผ์š” ๊ธฐ์—ฌ ์š”์ธ์ž„์„ ์‹œ์‚ฌํ•œ๋‹ค. ์ด๋Š” ์ •๋ณดโ€‘์ „๋‹ฌ ๋„คํŠธ์›Œํฌ๊ฐ€ ๊ณต์œ ํ•˜๋Š” ๊ณ„์ธต์  ์กฐ์ง์„ ๋ฐ˜์˜ํ•˜๋ฉฐ, ๊ธฐ๋Šฅ์  ๋‹จ๋ฐฑ์งˆ ๋„๋ฉ”์ธ๊ณผ ๊ตฌ๋ฌธ์  ๋‹จ์–ด ํด๋Ÿฌ์Šคํ„ฐ๊ฐ€ ๋ถ„์‚ฐ๋œ ์ •๋ณด ํ๋ฆ„์„ ์ด‰์ง„ํ•œ๋‹ค๋Š” ์ ์„ ํ™•์ธํ•œ๋‹ค.

์‚ฌํšŒโ€ฏโ†”โ€ฏ๋ถ„์ž ์ „์ด ์—ญ์‹œ ๋†’์€ ํ˜ธํ™˜์„ฑ(IITโ€ฏscoreโ€ฏ=โ€ฏ0.2111)์„ ๋ณด์ด๋ฉฐ, ์ „์ด์„ฑ์€ ์ „์ด์„ฑ(transitivity), ๋Œ€์ˆ˜์  ์—ฐ๊ฒฐ์„ฑ(ฮปโ‚‚), ํšจ์œจ์„ฑ์— ์˜ํ•ด ์ฃผ๋„๋œ๋‹ค. ์ด๋Š” ์ƒ์„ฑ ๋ฉ”์ปค๋‹ˆ์ฆ˜์ด ํฌ๊ฒŒ ๋‹ค๋ฆ„์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ  ๋‘ ์‹œ์Šคํ…œ์ด ์‚ผ๊ฐํ˜• ํ์‡„์™€ ์ „์—ญ ์—ฐ๊ฒฐ ํƒ„๋ ฅ์„ฑ์— ๋Œ€ํ•œ ๊ทผ๋ณธ์ ์ธ ์ œ์•ฝ์„ ๊ณต์œ ํ•œ๋‹ค๋Š” ๊ฒƒ์„ ์˜๋ฏธํ•œ๋‹ค. ์‚ฌํšŒ ์‹œ์Šคํ…œ์—์„œ๋Š” ์‚ผ๊ฐํ˜• ํ์‡„์™€ ์†Œ๊ทœ๋ชจ ์„ธ๊ณ„ ํšจ๊ณผ๊ฐ€, ๋ถ„์ž ๊ทธ๋ž˜ํ”„์—์„œ๋Š” ํ™”ํ•™ ๊ฒฐํ•ฉ ์ œ์•ฝ๊ณผ ๊ณต๊ฐ„ ์ž„๋ฒ ๋”ฉ์ด ์ด๋Ÿฌํ•œ ํŠน์„ฑ์„ ๋งŒ๋“ ๋‹ค.

๋ฐ˜๋ฉด ์‚ฌํšŒ์™€ ์–ธ์–ด ๋„คํŠธ์›Œํฌ ๊ฐ„ ์ „์ด๋Š” ๊ฐ€์žฅ ๋‚ฎ์€ IITโ€ฏscoreโ€ฏ(0.1430)๋ฅผ ๊ธฐ๋กํ•œ๋‹ค. ์‚ฌํšŒ ๋„คํŠธ์›Œํฌ๋Š” ์ง€์—ญ์  ๊ฐ•ํ™”์™€ ์ปค๋ฎค๋‹ˆํ‹ฐ ์ค‘์ฒฉ์— ์˜ํ•ด ๊ตฌ๋™๋˜๋Š” ๋ฐ˜๋ฉด, ์–ธ์–ด ๋„คํŠธ์›Œํฌ๋Š” ๋ณตํ•ฉ์ ์ธ ์˜๋ฏธ ๊ณ„์ธต์„ ์ธ์ฝ”๋”ฉํ•œ๋‹ค. ๋”ฐ๋ผ์„œ ์ด ์ „์ด์—์„œ ๊ตฌ์กฐ์  ๋‹ค๋ฆฌ ์—ญํ• ์„ ํ•˜๋Š” ์•ต์ปค๋Š” nโ€ฏnodes์™€ ํšจ์œจ์„ฑ ๊ฐ™์€ ๊ณ ๋„๋กœ ๋ถˆ๋ณ€์ธ ๋””์Šคํฌ๋ฆฝํ„ฐ์— ๊ตญํ•œ๋œ๋‹ค.

์ „์ฒด ๋ฐฉํ–ฅ์„ฑ ์Œ์„ ์‚ดํŽด๋ณด๋ฉด, ํšจ์œจ์„ฑ, ฮปโ‚‚, ๋ชจ๋“ˆ๋Ÿฌ์„ฑ์€ ์ผ๊ด€๋˜๊ฒŒ ๊ณต์œ  ๊ตฌ์กฐ ๊ณจ๊ฒฉ์˜ ์ผ๋ถ€๋กœ ๋“ฑ์žฅํ•œ๋‹ค. ์ด๋“ค์€ ์ •๋ณด ํ๋ฆ„, ์ŠคํŽ™ํŠธ๋Ÿด ๊ฒฌ๊ณ ์„ฑ, ์ค‘๊ฐ„ ๊ทœ๋ชจ ์กฐ์ง์„ ๊ณต๋™์œผ๋กœ ์ธ์ฝ”๋”ฉํ•œ๋‹ค. ์ด๋Ÿฌํ•œ ๋ฐ˜๋ณต์ ์ธ ์„ ํƒ์€ ์ „์ด ๊ฐ€๋Šฅ์„ฑ์ด ๋„๋ฉ”์ธโ€‘ํŠนํ™” ๋ชจํ‹ฐํ”„๋ณด๋‹ค ๋ณตํ•ฉ ๋„คํŠธ์›Œํฌ๊ฐ€ ํ†ตํ•ฉ, ํšŒ๋ณต์„ฑ, ๊ตฌํšํ™”๋ฅผ ๊ท ํ˜• ์žˆ๊ฒŒ ์œ ์ง€ํ•˜๋Š” ๊ณต์œ  ์ œ์•ฝ์— ์˜ํ•ด ์ขŒ์šฐ๋œ๋‹ค๋Š” ์ ์„ ํ™•์ธํ•œ๋‹ค. ๊ฒฐ๊ตญ, ์ด ๊ฒฐ๊ณผ๋Š” ์‹ ๋ขฐํ•  ์ˆ˜ ์žˆ๋Š” ๋งค๋‹ˆํด๋“œ ๋™๊ธฐํ™”๋ฅผ ์œ„ํ•ด ํ•„์š”ํ•œ ์ตœ์†Œํ•œ์˜ ํ•ด์„ ๊ฐ€๋Šฅํ•œ ๊ตฌ์กฐ์  ์•ต์ปค ์ง‘ํ•ฉ์„ ๋ช…์‹œํ•œ๋‹ค.

๊ต์ฐจโ€‘๋„๋ฉ”์ธ ์ง€์‹ ์ „ํŒŒ ํ‰๊ฐ€๋Š” ์˜ค์ง ํŒŒ์‹ฑ๋œ ํŠน์ง• ๊ตฌ์„ฑ(Topโ€ฏFeats)๋งŒ์„ ๋Œ€์ƒ์œผ๋กœ ํ•˜์—ฌ, ๊ณ ์ฐจ์› ์ค‘๋ณต์„ฑ์„ ๋ฐฐ์ œํ•˜๊ณ  ๊ธฐ๋Šฅ์ ์œผ๋กœ ๊ธฐ๋ฐ˜ํ•œ ๊ตฌ์กฐ์  ์•ต์ปค์˜ ์˜ํ–ฅ์„ ๋ถ„๋ฆฌํ•œ๋‹ค. ๋ชจ๋“  ๋ณด๊ณ ๋œ ๊ฐ’์€ 10โ€ฏร—โ€ฏ3โ€ฏร—โ€ฏ3 ์‹คํ—˜ ๊ฒฉ์ž ์ „๋ฐ˜์— ๊ฑธ์นœ ์•™์ƒ๋ธ” ํ‰๊ท ์„ ๋‚˜ํƒ€๋‚ธ๋‹ค. ์ „์—ญ ์ˆ˜์ค€์—์„œ, ๊ตฌ์กฐ์  ์•ต์ปค์™€ ์ •๋ ฌ๋œ ํ‘œํ˜„์„ ์‚ฌ์šฉํ•ด ํ•™์Šต๋œ ํƒ€๊นƒโ€‘์ „์šฉ ๋ชจ๋ธ์€ ๊ฑฐ์˜ ์ตœ์ ์— ๊ฐ€๊นŒ์šด ๋ฒ ์ด์Šค๋ผ์ธ ์„ฑ๋Šฅ(ROCโ€‘AUCโ€ฏ=โ€ฏ0.987, APโ€ฏ=โ€ฏ0.917, F1โ€ฏ=โ€ฏ0.660)์„ ๋‹ฌ์„ฑํ•œ๋‹ค. ๋™์ผ ๊ตฌ์„ฑ์—์„œ ๊ต์ฐจโ€‘๋„๋ฉ”์ธ ์ „์ด๋ฅผ ์ ์šฉํ•˜๋ฉด ํ‰๊ท  ๋ฉ”ํŠธ๋ฆญ์ด ๋‹ค์†Œ ๊ฐ์†Œํ•œ๋‹ค(ROCโ€‘AUCโ€ฏ=โ€ฏ0.974, APโ€ฏ=โ€ฏ0.879, F1โ€ฏ=โ€ฏ0.559)(๋ณด์กฐํ‘œ 10). ์ด๋Š” ๋ถ„๋ฆฌ๋„๊ฐ€ ์ด๋ฏธ ๋†’์€ ํƒ€๊นƒ ๋„๋ฉ”์ธ์—์„œ๋Š” ํ‰๊ท  ์„ฑ๋Šฅ ํ–ฅ์ƒ์ด ํ†ต๊ณ„์ ์œผ๋กœ ์ œํ•œ๋œ๋‹ค๋Š” โ€˜์ฒœ์žฅ ํšจ๊ณผโ€™๋ฅผ ๋“œ๋Ÿฌ๋‚ธ๋‹ค. ๋น„๋ชจ์ˆ˜ ๊ฒ€์ •์ธ Kruskalโ€‘Wallis Hโ€‘ํ…Œ์ŠคํŠธ๋Š” ๋ชจ๋“  ๋ฉ”ํŠธ๋ฆญ์—์„œ ์œ ์˜ํ•œ ๋ณ€๋™์„ฑ์„ ํ™•์ธํ•œ๋‹ค(ROCโ€‘AUC: Hโ€ฏ=โ€ฏ188.44, pโ€ฏ<โ€ฏ10โปโต; AP: Hโ€ฏ=โ€ฏ125.06, pโ€ฏ<โ€ฏ10โปโต; F1: Hโ€ฏ=โ€ฏ202.93, pโ€ฏ<โ€ฏ10โปโต).

์ „์ฒด ์œ„์ƒ ํŠน์„ฑ(Allโ€ฏFeats)๊ณผ ์ตœ์ ํ™”๋œ ๊ตฌ์กฐ์  ์•ต์ปค(Topโ€ฏFeats) ๊ฐ„ ๋น„๊ต๋Š” ์ฐจ์› ์ œ์–ด์˜ ๊ธฐ๋Šฅ์  ๊ฐ€์น˜๋ฅผ ๊ฐ•์กฐํ•œ๋‹ค. ๋‘ ๊ตฌ์„ฑ ๋ชจ๋‘ ์ „์ด ์—†๋Š” ์ƒํ™ฉ์—์„œ๋Š” ๊ฑฐ์˜ ๋™์ผํ•œ ๋ฒ ์ด์Šค๋ผ์ธ ์„ฑ๋Šฅ์„ ๋ณด์ด์ง€๋งŒ, ์ „์ด ํ•™์Šต ๊ณผ์ œ์—์„œ๋Š” ๊ตฌ์กฐ์  ์•ต์ปค ๊ตฌ์„ฑ์ด ๋” ๋†’์€ ๊ฒฌ๊ณ ์„ฑ์„ ๋‚˜ํƒ€๋‚ธ๋‹ค. ๊ตฌ์ฒด์ ์œผ๋กœ, ์ „์ด ํ•™์Šต์—์„œ 8๊ฐœ์˜ ๊ตฌ์กฐ์  ์•ต์ปค๋ฅผ ์‚ฌ์šฉํ•œ ๊ฒฝ์šฐ ์ „์—ญ F1โ€ฏ์ ์ˆ˜(0.559)๊ฐ€ ์ „์ฒด ๋””์Šคํฌ๋ฆฝํ„ฐ ์ง‘ํ•ฉ(0.556)๋ณด๋‹ค ๋†’์•˜๋‹ค. ์ด๋Š” ๋ถˆ์•ˆ์ •ํ•œ ๊ตฌ๋ถ„์ž๋ฅผ ๋ฐฐ์ œํ•จ์œผ๋กœ์จ ๋งค๋‹ˆํด๋“œ ๋™๊ธฐํ™” ์‹œ โ€˜ํŠน์ง• ์˜ค์—ผ(feature pollution)โ€™์„ ๋ฐฉ์ง€ํ•˜๊ณ , IIT ์ „๋žต์ด ๊ฒฐ์ • ๋งค๋‹ˆํด๋“œ๋ฅผ ํšจ๊ณผ์ ์œผ๋กœ ์ •๊ทœํ™”ํ•จ์„ ์ž…์ฆํ•œ๋‹ค.

์ˆœ์œ„ ๊ธฐ๋ฐ˜ ๋ฉ”ํŠธ๋ฆญ(ROCโ€‘AUCโ€ฏโ‰ˆโ€ฏ0.98, APโ€ฏโ‰ˆโ€ฏ0.91)๊ณผ ์ž„๊ณ„๊ฐ’ ์˜์กด์  F1โ€ฏ์ ์ˆ˜(โ‰ˆโ€ฏ0.66) ์‚ฌ์ด์˜ ์ฐจ์ด๋Š” ํด๋ž˜์Šค ๋ถˆ๊ท ํ˜• ํ•˜์—์„œ ๋น„์ง€๋„ ์ด์ƒ ํƒ์ง€์˜ ๊ณ ์œ ํ•œ ์–ด๋ ค์›€์„ ๋ฐ˜์˜ํ•œ๋‹ค. ROCโ€‘AUC๊ฐ€ ๊ฑฐ์˜ ์ตœ์ ์— ๊ฐ€๊นŒ์šด ๊ฒƒ์€ ๊ณต์œ  ๊ตฌ์กฐ์  ์•ต์ปค๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ์ด์ƒ ์‚ฌ๋ก€๋ฅผ ์ •ํ™•ํžˆ ์ˆœ์œ„ ๋งค๊ธธ ์ˆ˜ ์žˆ์Œ์„ ์˜๋ฏธํ•˜์ง€๋งŒ, 10โ€ฏ% ์˜ค์—ผ ์ž„๊ณ„๊ฐ’(์„น์…˜โ€ฏ5.5)์œผ๋กœ ์ธํ•ด F1โ€ฏ์ ์ˆ˜๊ฐ€ ๋‚ฎ๊ฒŒ ๋‚˜ํƒ€๋‚œ๋‹ค. ์ „์ด ์ƒํ™ฉ์—์„œ ROCโ€‘AUC๋Š” ์•ˆ์ •์ ์ธ ๋ฐ˜๋ฉด F1โ€ฏ์ ์ˆ˜๋Š” โ€˜์ž„๊ณ„๊ฐ’ ์ด๋™(threshold shift)โ€™ ํšจ๊ณผ๋ฅผ ๋ณด์ธ๋‹ค: ๊ธฐ๋ณธ์ ์ธ ์œ„์ƒ ์„œ๋ช…์€ ์œ ์ง€๋˜์ง€๋งŒ, ํŠน์ง•์˜ ์ ˆ๋Œ€ ๊ทœ๋ชจ๊ฐ€ ๋น„์„ ํ˜• ๋ณ€ํ™˜์„ ๊ฒช๋Š”๋‹ค. ํŠนํžˆ Topโ€ฏFeats ๊ตฌ์„ฑ์ด Allโ€ฏFeats๋ณด๋‹ค ๋†’์€ F1โ€ฏ์ ์ˆ˜๋ฅผ ์œ ์ง€ํ•œ๋‹ค๋Š” ์‚ฌ์‹ค์€ IIT ์ „๋žต์ด ํŠน์ง• ํฌ์†Œํ™”๋ฅผ ํ†ตํ•ด ๋ถ„ํฌ ์žก์Œ์— ๋Œ€ํ•œ ์˜์‚ฌ๊ฒฐ์ • ๊ฒฌ๊ณ ์„ฑ์„ ํฌ๊ฒŒ ํ–ฅ์ƒ์‹œํ‚จ๋‹ค๋Š” ์ ์„ ์žฌํ™•์ธํ•œ๋‹ค. ์ด ํšจ๊ณผ๋Š” ๋ฐ์ดํ„ฐ๊ฐ€ ๊ทน๋„๋กœ ํฌ์†Œํ•˜๊ณ (ฮฑโ€ฏ=โ€ฏ0.1) ์žก์Œ์ด ์‹ฌํ•œ ๊ฒฝ์šฐ(ฮทโ€ฏ=โ€ฏ0.9) ๋”์šฑ ๋‘๋“œ๋Ÿฌ์ง€๋ฉฐ, ๊ณ ์ฐจ์› ๋น„์ •์ œ ํ‘œํ˜„์„ ์‚ฌ์šฉํ•  ๋•Œ ๋ฐœ์ƒํ•˜๋Š” ๊ฒฐ์ • ๋งค๋‹ˆํด๋“œ์˜ ์™„์ „ ๋ถ•๊ดด๋ฅผ ๋ฐฉ์ง€ํ•œ๋‹ค(์„น์…˜โ€ฏ2.3.3).

๋„๋ฉ”์ธโ€‘์Œ ์ˆ˜์ค€ ๋ถ„์„์€ ์ง€์—ญ์  ์„ฑ๊ณผ ํ–ฅ์ƒ๊ณผ ์ œ์•ˆ๋œ ์ ์ˆ˜ ์ฒด๊ณ„์™€ ์‹ค์ œ ์„ฑ๊ณผ ์‚ฌ์ด์˜ ๋†’์€ ์ผ๊ด€์„ฑ์„ ๋ณด์—ฌ์ค€๋‹ค(ํ‘œโ€ฏ3). IITโ€ฏscore ์ˆœ์œ„์™€ ์‹คํ˜„๋œ ์ „์ด ํšจ์šฉ ๊ฐ„์˜ ์ƒ๊ด€๊ด€๊ณ„๊ฐ€ ๊ฐ•ํ•˜๊ฒŒ ๋‚˜ํƒ€๋‚œ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ์ „์—ญ ํ•ฉ์˜์—์„œ ๊ฐ€์žฅ ๋†’์€ ๊ตฌ์กฐ์  ์นœํ™”์„ฑ์„ ๋ณด์ธ Proteinsโ€ฏโ†’โ€ฏLinguistic ์Œ(IITโ€ฏscoreโ€ฏ=โ€ฏ0.2470)์€ TGIโ€ฏF1โ€ฏ=โ€ฏ+0.019, TGIโ€ฏAPโ€ฏ=โ€ฏ+0.007์ด๋ผ๋Š” ์‹œ๋„ˆ์ง€ ํšจ๊ณผ๋ฅผ ๊ธฐ๋กํ•œ๋‹ค. ๋˜ํ•œ, Molecular ๋ฐ Proteins ์†Œ์Šค๋กœ๋ถ€ํ„ฐ Social ๋„๋ฉ”์ธ์œผ๋กœ์˜ ์ „์ด๋Š” ROCโ€‘AUC์™€ AP์—์„œ ์–‘์˜ TGI๋ฅผ ๋ณด์—ฌ, ์กฐ๋ฐ€ํ•œ ์‚ฌํšŒ ๋งค๋‹ˆํด๋“œ๊ฐ€ ๋น„์˜ค์—ผ๋œ ๊ตฌ์กฐ์  ์‚ฌ์ „์œผ๋กœ ํšจ๊ณผ์ ์œผ๋กœ ์ •๊ทœํ™”๋จ์„ ํ™•์ธํ•œ๋‹ค.

ํ•˜์ง€๋งŒ IITโ€ฏscore๋Š” ๋„๋ฉ”์ธ ์Œ์— ๋Œ€ํ•ด ๋ณธ์งˆ์ ์œผ๋กœ ๋Œ€์นญ์ ์ธ ๋ฐ˜๋ฉด, ์‹ค์ œ ์„ฑ๋Šฅ์€ ์ข…์ข… ๋šœ๋ ทํ•œ ๋ฐฉํ–ฅ์„ฑ์„ ๋ณด์ธ๋‹ค. ์ด๋Š” ์†Œ์Šค ๋„๋ฉ”์ธ์˜ ์œ„์ƒ์  ๊ฐ•์ง์„ฑ์ด ์ „์ด ํšจ์œจ์„ฑ์— ๊ฒฐ์ •์  ์˜ํ–ฅ์„ ๋ฏธ์นœ๋‹ค๋Š” ์ ์„ ์‹œ์‚ฌํ•œ๋‹ค. ๋‹จ๋ฐฑ์งˆ ๋„คํŠธ์›Œํฌ์™€ ๊ฐ™์ด ์—„๊ฒฉํ•œ ์ƒ๋ฌผ๋ฌผ๋ฆฌยทํ™”ํ•™ ์ œ์•ฝ์„ ๊ฐ–๋Š” ๋งค๋‹ˆํด๋“œ๋Š” ์ƒ์„ฑ ์œ ๋™์„ฑ์ด ํฐ ์‚ฌํšŒยท์–ธ์–ด ๋„คํŠธ์›Œํฌ๋ฅผ ํšจ๊ณผ์ ์œผ๋กœ ์ •๊ทœํ™”ํ•˜๋Š” ๊ณ ์ถฉ์‹ค๋„ ์Šค์บํด๋“œ ์—ญํ• ์„ ํ•œ๋‹ค. ๋ฐ˜๋Œ€๋กœ, ์œ ๋™์„ฑ์ด ํฐ ๋„๋ฉ”์ธ์—์„œ ๊ณ ๊ฐ•์ง ๋งค๋‹ˆํด๋“œ๋กœ ์ „์ดํ•  ๊ฒฝ์šฐ ์ด๋“์ด ๊ฐ์†Œํ•œ๋‹ค. ์ด๋Ÿฌํ•œ ๋ฐฉํ–ฅ์„ฑ ํŽธํ–ฅ์€ ์•ˆ์ •์ ์ธ ์™ธ๋ถ€ ๊ตฌ์กฐ ๊ณจ๊ฒฉ์ด ์†์ƒ๋œ ํƒ€๊นƒ ๋งค๋‹ˆํด๋“œ๋ฅผ ๊ณ ์ •์‹œํ‚ฌ ๋•Œ ์ „์ด ํ•™์Šต์˜ ๊ตฌ์ œ ํšจ๊ณผ๊ฐ€ ๊ทน๋Œ€ํ™”๋œ๋‹ค๋Š” ์ ์„ ๊ฐ•์กฐํ•œ๋‹ค. ์„น์…˜โ€ฏ2.3.2์—์„œ๋Š” ์ด๋Ÿฌํ•œ ๋™์—ญํ•™์„ ์„ธ๋ถ€์ ์œผ๋กœ ํƒ๊ตฌํ•œ๋‹ค.

์ด๋ก ์  ๋งค๋‹ˆํด๋“œ ํ˜ธํ™˜์„ฑ๊ณผ ์‹ค์ฆ์  ์ „์ด ํšจ์œจ์„ฑ ๊ฐ„์˜ ์—ฐ๊ด€์„ฑ์€ ์ œ์•ˆ๋œ ์„ ํƒ ์ „๋žต์˜ ๊ฐ€์žฅ ์—„๊ฒฉํ•œ ๊ฒ€์ฆ์ด๋‹ค. ๊ทธ๋ฆผโ€ฏ3์€ 12๊ฐœ์˜ ๋ฐฉํ–ฅ์„ฑ ๋„๋ฉ”์ธ ์Œ์— ๋Œ€ํ•ด ์ง‘๊ณ„๋œ ์Œ๋ณ„ IITโ€ฏscore์™€ ์ „์ด ์ด๋“ ์ง€์ˆ˜(TGI, ROCโ€‘AUC ๊ธฐ์ค€) ๊ฐ„์˜ ๊ด€๊ณ„๋ฅผ ๋ณด์—ฌ์ค€๋‹ค. ํšŒ๊ท€ ๋ถ„์„์€ rโ€ฏ=โ€ฏ0.503์ด๋ผ๋Š” ๊ฐ•ํ•œ ๋‹จ์กฐ์  ์ถ”์„ธ๋ฅผ ๋‚˜ํƒ€๋‚ด๋ฉฐ, IITโ€ฏscore๊ฐ€ ์ „์ด ์„ฑ๋Šฅ์˜ ์ข‹์€ ์ง€ํ‘œ์ž„์„ ์ž…์ฆํ•œ๋‹ค. ๋ชฉํ‘œโ€‘์ „์šฉ ๋ชจ๋ธ์ด ์ด๋ฏธ ๊ฑฐ์˜ ์ตœ์ (ROCโ€‘AUCโ€ฏโ‰ˆโ€ฏ0.98)์ธ ์ƒํ™ฉ์—์„œ๋„, IITโ€ฏscore๊ฐ€ ์ฆ๊ฐ€ํ•จ์— ๋”ฐ๋ผ ์ „์ด๋กœ ์ธํ•œ ์„ฑ๋Šฅ ์ €ํ•˜๊ฐ€ ์ฒด๊ณ„์ ์œผ๋กœ ์™„ํ™”๋œ๋‹ค. ํŠนํžˆ Proteinsโ€ฏโ†”โ€ฏLinguistic์™€ ๊ฐ™์€ ์ •๋ณด ๋„คํŠธ์›Œํฌ ์Œ์€ IITโ€ฏscoreโ€ฏ>โ€ฏ0.24๋ฅผ ๊ธฐ๋กํ•˜๋ฉฐ ์–‘์˜ ์‹œ๋„ˆ์ง€ ์ด๋“์„ ๋‹ฌ์„ฑํ•œ๋‹ค. ์ด๋Š” ์ •๋ณด ๋„คํŠธ์›Œํฌ๊ฐ€ ๊ณต์œ ํ•˜๋Š” ์ž ์žฌ์  ๊ณ„์ธต ์กฐ์ง์ด ๊ฒฌ๊ณ ํ•œ ๋ถ„์‚ฐ ์ง€์‹ ์ „ํŒŒ๋ฅผ ์ด‰์ง„ํ•œ๋‹ค๋Š” ์ ์„ ํ™•์ธํ•œ๋‹ค.

ํšŒ๊ท€์„  ์œ„์— ์œ„์น˜ํ•œ ์ด์ƒ์น˜, ์ฆ‰ ๋†’์€ TGI๋ฅผ ๋ณด์ด๋ฉด์„œ๋„ ์ƒ๋Œ€์ ์œผ๋กœ ๋‚ฎ์€ IITโ€ฏscore๋ฅผ ๊ฐ€์ง„ ๋„๋ฉ”์ธ ์Œ์€ ์ถ”๊ฐ€์ ์ธ ๋ฉ”์ปค๋‹ˆ์ฆ˜โ€”์˜ˆ๋ฅผ ๋“ค์–ด, ๋„๋ฉ”์ธโ€‘ํŠนํ™” ์ „์ฒ˜๋ฆฌ ํ˜น์€ ๋ฐ์ดํ„ฐ ์Šค์ผ€์ผ๋งโ€”์ด ์ „์ด ์„ฑ๊ณต์— ๊ธฐ์—ฌํ•  ์ˆ˜ ์žˆ์Œ์„ ์‹œ์‚ฌํ•œ๋‹ค. ์ด๋Ÿฌํ•œ ์‚ฌ๋ก€๋Š” IITโ€ฏscore๊ฐ€ ์ „์ด ๊ฐ€๋Šฅ์„ฑ์„ ์˜ˆ์ธกํ•˜๋Š” ๋ฐ ๊ฐ•๋ ฅํ•˜์ง€๋งŒ, ์‹ค์ œ ์ ์šฉ์—์„œ๋Š” ๋ณด์กฐ์ ์ธ ์‹คํ—˜์  ์กฐ์ •์ด ์—ฌ์ „ํžˆ ํ•„์š”ํ•จ์„ ๊ฐ•์กฐํ•œ๋‹ค.

์š”์•ฝํ•˜๋ฉด, ๋ณธ ์—ฐ๊ตฌ๋Š” ๋„คํŠธ์›Œํฌ ๊ณผํ•™๊ณผ ์„ค๋ช… ๊ฐ€๋Šฅํ•œ ์ธ๊ณต์ง€๋Šฅ์„ ๊ฒฐํ•ฉํ•œ Xโ€‘CDTL ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ํ†ตํ•ด, ์ด์งˆ์ ์ธ ๊ณผํ•™ ์˜์—ญ ๊ฐ„์— ๊ณต์œ ๋˜๋Š” ๊ตฌ์กฐ์  ์›์น™์„ ์ฒด๊ณ„์ ์œผ๋กœ ๋ฐœ๊ตดํ•˜๊ณ , ์ด๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ๊ฒฌ๊ณ ํ•œ ์ „์ด ํ•™์Šต์„ ๊ตฌํ˜„ํ•œ๋‹ค. 12๊ฐœ์˜ ๋„๋ฉ”์ธ(์‚ฌํšŒ, ๋ถ„์ž, ๋‹จ๋ฐฑ์งˆ, ์–ธ์–ด)์—์„œ ์ •์˜๋œ 12๊ฐœ์˜ ์œ„์ƒ ๋””์Šคํฌ๋ฆฝํ„ฐ๋Š” ๋„๋ฉ”์ธ ๊ฐ„ ์œ„์ƒ์  ์ฐจ์ด๋ฅผ ๋ช…ํ™•ํžˆ ๊ตฌ๋ถ„ํ•˜๋ฉด์„œ๋„ ๋‚ด๋ถ€ ์ผ๊ด€์„ฑ์„ ์œ ์ง€ํ•œ๋‹ค. Global Consensus IIT ์ ์ˆ˜์™€ ๋ฐฉํ–ฅ์„ฑ IIT ์ ์ˆ˜๋ฅผ ํ™œ์šฉํ•œ ๊ณ„์ธต์  ํŠน์ง• ์„ ํƒ์€ ์ „์ด ๊ณผ์ •์—์„œ ๋„๋ฉ”์ธโ€‘๋ถˆ๋ณ€ ๊ตฌ์กฐ ๊ณจ๊ฒฉ์„ ํ™•๋ณดํ•˜๊ณ , ๋ถˆ์•ˆ์ •ํ•œ ๋„๋ฉ”์ธโ€‘ํŠนํ™” ์žก์Œ์œผ๋กœ๋ถ€ํ„ฐ ์ „์ด๋ฅผ ๋ณดํ˜ธํ•œ๋‹ค. ์‹คํ—˜ ๊ฒฐ๊ณผ๋Š” (1) ๊ตฌ์กฐ์  ์•ต์ปค๊ฐ€ ํฌํ•จ๋œ ์ €์ฐจ์› ํŠน์ง• ์ง‘ํ•ฉ์ด ์ „์ด ์ƒํ™ฉ์—์„œ ์ „๋ฐ˜์ ์ธ ์„ฑ๋Šฅ๊ณผ ๊ฒฌ๊ณ ์„ฑ์„ ํ–ฅ์ƒ์‹œํ‚จ๋‹ค, (2) IIT ์ ์ˆ˜๊ฐ€ ๋†’์€ ๋„๋ฉ”์ธ ์Œ์ผ์ˆ˜๋ก ์ „์ด ์ด๋“์ด ํฌ๊ฒŒ ๋‚˜ํƒ€๋‚œ๋‹ค, (3) ์ „์ด ํšจ์œจ์„ฑ์€ ์†Œ์Šค ๋„๋ฉ”์ธ์˜ ๊ตฌ์กฐ์  ๊ฐ•์ง์„ฑ์— ํฌ๊ฒŒ ์˜์กดํ•œ๋‹ค๋Š” ๋ฐฉํ–ฅ์„ฑ ๋น„๋Œ€์นญ์„ฑ์„ ๋ณด์ธ๋‹ค, ๋“ฑ์„ ๋ณด์—ฌ์ค€๋‹ค. ์ด๋Ÿฌํ•œ ํ†ต์ฐฐ์€ ๊ณผํ•™์  ์ง€์‹์˜ ์ง„์ •ํ•œ ์œตํ•ฉ์„ ์œ„ํ•œ ์ด๋ก ์ ยท์‹ค์šฉ์  ํ† ๋Œ€๋ฅผ ์ œ๊ณตํ•˜๋ฉฐ, ํ–ฅํ›„ ๋ณต์žก ์‹œ์Šคํ…œ ์—ฐ๊ตฌ์™€ ์ธ๊ณต์ง€๋Šฅ ๊ธฐ๋ฐ˜ ์ง€์‹ ์ „ํŒŒ์— ์žˆ์–ด ์ƒˆ๋กœ์šด ํŒจ๋Ÿฌ๋‹ค์ž„์„ ์ œ์‹œํ•œ๋‹ค.

View Original PDF on ArXiv