Training-Free Zero-Shot Anomaly Detection in 3D Brain MRI with 2D Foundation Models
๐ Abstract
**
๋ณธ ๋
ผ๋ฌธ์ 2D ํ์ด๋ฐ์ด์
๋ชจ๋ธ(DINOv2 ๋ฑ)์ ๊ทธ๋๋ก ์ด์ฉํด 3์ฐจ์ ๋ MRI์์ ํ์ตโํ๋ฆฌ(TrainingโFree) ์ ๋ก์ท ์ด์ ํ์ง(ZeroโShot Anomaly Detection, ZSAD) ๋ฅผ ๊ตฌํํ๋ ์๋ก์ด ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ค.
- ๋ค์ถ(์ถโ์ถโ์ถ) ์ฌ๋ผ์ด์ค๋ฅผ 2D ๋ชจ๋ธ์ ์ ๋ ฅํด ์ป์ ํผ์ฒ๋ฅผ ๋ค์ค์ถ ๋ณผ๋ฅจ ํ ํฐ์ผ๋ก ์ง๊ณยท์์ถํจ์ผ๋ก์จ, 3D ๊ณต๊ฐ์ ์ฐ์์ฑ์ ์ ์งํ๋ฉด์ ํ ํฐ ์๋ฅผ ํฌ๊ฒ ๊ฐ์์ํจ๋ค.
- ํ ํฐ ์ฐจ์์ JohnsonโLindenstrauss ๋๋ค ํ๋ก์ ์ ์ผ๋ก ์ ์ฐจ์(โ128)์ผ๋ก ์์ถํด ๋ฉ๋ชจ๋ฆฌยท์ฐ์ฐ ๋ถ๋ด์ ์ต์ํํ๋ค.
- ์ด๋ ๊ฒ ์์ฑ๋ 3D ํ ํฐ ์งํฉ์ ๊ธฐ์กด ๋ฐฐ์น ๊ธฐ๋ฐ ๊ฑฐ๋ฆฌโ๊ธฐ๋ฐ ์ด์ ํ์ง(MuSc, CoDeGraph) ํ์ดํ๋ผ์ธ์ ๊ทธ๋๋ก ์ ์ฉํ๋ค.
- ์ ์ฒด ๊ณผ์ ์ ํ์ธโํ๋, ํ๋กฌํํธ ์ค๊ณ, ๋ผ๋ฒจ๋ง์ด ์ ํ ํ์ ์๋ ์์ ํ์ตโํ๋ฆฌ ๋ฐฉ์์ด๋ฉฐ, ์ผ๋ฐ GPU์์๋ ์ค์๊ฐ ์์ค์ผ๋ก ์คํ ๊ฐ๋ฅํ๋ค.
์คํ ๊ฒฐ๊ณผ, 3D MRI ๋ณผ๋ฅจ์ ๋ํด CLIPโ๊ธฐ๋ฐ ZSAD์ ์ฌ๊ตฌ์ฑ ๊ธฐ๋ฐ(์คํ ์ธ์ฝ๋ยทVAEยทGANยทDiffusion) ๊ฐ๋ โํ์ต ๋ชจ๋ธ์ ๋ฅ๊ฐํ๊ฑฐ๋ ๋๋ฑํ ์ฑ๋ฅ์ ๋ณด์ด๋ฉฐ, ํนํ ๋๋ฉ์ธ ๋ณ๋(์ค์บ๋ยทํ๋กํ ์ฝ ์ฐจ์ด)์๋ ๊ฐ์ธํจ์ ์ ์ฆํ๋ค.
**
๐ก Deep Analysis
**
1. ์ฐ๊ตฌ ๋ฐฐ๊ฒฝ ๋ฐ ๋๊ธฐ
- ์ ๋ก์ท ์ด์ ํ์ง๋ ๋ผ๋ฒจ์ด ์ ํ ์๋ ์๋ฃ ์์์์ ๋ณ๋ณ์ ์ฐพ์ ์ ์๋ค๋ ์ ์์ ๋งค๋ ฅ์ ์ด์ง๋ง, ํ์ฌ๊น์ง๋ 2D ์ด๋ฏธ์ง์ ๊ตญํ๋ ๊ฒฝ์ฐ๊ฐ ๋๋ถ๋ถ์ด๋ค.
- 3D MRI๋ ๋ณผ๋ฅจ ๊ตฌ์กฐ์ ์์ญ๋ง ๊ฐ ํ ํฐ์ด๋ผ๋ ๋ฐ์ดํฐ ๊ท๋ชจ ๋๋ฌธ์ ๊ธฐ์กด 2D ํ์ด๋ฐ์ด์ ๋ชจ๋ธ์ ๊ทธ๋๋ก ์ ์ฉํ๊ธฐ ์ด๋ ต๋ค.
- ๊ธฐ์กด 3D ZSAD ์๋(์: CLIP ๊ธฐ๋ฐ)๋ค์ ์ฌ๋ผ์ด์คโ๋ณ ํน์ง๋ง ์ฌ์ฉํด ๋ณผ๋ฅจ ์ ์ฒด์ ์ฐ์์ฑ์ ๋์น๊ณ , ๋ฉ๋ชจ๋ฆฌยท์ฐ์ฐ ๋น์ฉ์ด ๊ธ์ฆํ๋ค.
2. ํต์ฌ ์์ด๋์ด
| ์์ | ์ค๋ช | ์ฅ์ |
|---|---|---|
| ๋ค์ถ ๋ณผ๋ฅจ ํ ํฐํ | AxialยทCoronalยทSagittal 3์ถ์์ ๊ฐ๊ฐ 2D ํผ์ฒ๋ฅผ ์ถ์ถ โ ๋์ผ ๊น์ด(p) ๋ธ๋ก์ ํ๊ท ํ๋งํด pรpรp ์ ์ฒด ํ ํฐ ์์ฑ | 3D ๊ณต๊ฐ ์ฐ์์ฑ ๋ณด์กด, ํ ํฐ ์๋ฅผ O(Nยณ/pยณ) ๋ก ๊ฐ์ |
| ๋๋ค ํ๋ก์ ์ | ๊ณ ์ฐจ์(โ1024) ํผ์ฒ๋ฅผ ๊ณ ์ ๊ฐ์ฐ์์ ํ๋ ฌ๋ก 128 ์ฐจ์์ผ๋ก ์์ถ | ๊ฑฐ๋ฆฌ ๋ณด์กด(JohnsonโLindenstrauss) โ ๋ฐฐ์นโ๊ธฐ๋ฐ ์ ์ฌ๋ ๊ณ์ฐ ๋น์ฉ ํฌ๊ฒ ์ ๊ฐ |
| ๋ฐฐ์น ๊ธฐ๋ฐ ๊ฑฐ๋ฆฌโ๊ธฐ๋ฐ ์ค์ฝ์ด๋ง (MuSc, CoDeGraph) | ํ ํฐ ๊ฐ ์ํธ ์ต๊ทผ์ ๊ฑฐ๋ฆฌ๋ฅผ ์ด์ฉํด โํฌ๊ท์ฑโ์ ์ ์ํ | ํ ์คํธ ํ๋กฌํํธยทํ์ต ํ์ ์์, ํต๊ณ์ ์ด์ ํ์ง์ ๊ฐ๊ฑด |
| ๋ฐฐ๊ฒฝ ์ต์ | ๋ ๋ง์คํฌ๋ฅผ ์ด์ฉํด ๋ฐฐ๊ฒฝ ํ ํฐ ์ ๊ฑฐ | ๋ถํ์ ์ฐ์ฐ ์ฐจ๋จ, ๋ฐฐ์น ํต๊ณ ์๊ณก ๋ฐฉ์ง |
3. ๋ฐฉ๋ฒ๋ก ์์ธ ํ๊ฐ
-
๋ณผ๋ฅจ ํ ํฐํ ์ค๊ณ
- 2D ํ์ด๋ฐ์ด์ ๋ชจ๋ธ์ ๊ทธ๋๋ก ์ฌ์ฉํจ์ผ๋ก์จ ๋ชจ๋ธ ์ฌํ์ต ๋น์ฉ์ 0์ผ๋ก ๋ง๋ ์ ์ ํฐ ๊ฐ์ .
- ๋ค์ถ(3์ถ) ์ ๊ทผ์ ๊ฐ ์ถ์์ ๋์น ์ ์๋ ๊ตฌ์กฐ์ ์ ๋ณด๋ฅผ ๋ณด์ํด ์ ๋ฐฉ์์ ์ธ ํด๋ถํ์ ์ปจํ ์คํธ๋ฅผ ์ ๊ณตํ๋ค.
- ๋ค๋ง, p (ํจ์น ํฌ๊ธฐ) ์ ํ์ ๋ฐ๋ผ ํ ํฐ ํด์๋๊ฐ ํฌ๊ฒ ๋ฌ๋ผ์ง๋ฏ๋ก, ์์ ๋ณ๋ณ(์: ๋ฏธ์ธ ๋ณ๋ณ) ํ์ง์ ๋ฏผ๊ฐํ ์ ์๋ค.
-
๋๋ค ํ๋ก์ ์
- ์ด๋ก ์ ๋ณด์ฅ์ ์ ๊ณตํ๋ JohnsonโLindenstrauss ์ ๋ฆฌ๋ฅผ ํ์ฉํด ๊ฑฐ๋ฆฌ ๋ณด์กด์ ๊ฒ์ฆํ์๋ค.
- ์คํ์์ 128 ์ฐจ์์ผ๋ก ์์ถํ์์๋ ์ฑ๋ฅ ์ ํ๊ฐ ๊ฑฐ์ ์์์ผ๋ฉฐ, ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋์ด >90% ๊ฐ์ํ๋ค.
- ๊ณ ์ ๋ ๋๋ค ํ๋ ฌ์ ์ฌ์ฉํจ์ผ๋ก์จ ์ฌํ์ฑ์ด ๋๊ณ , ์ถ๊ฐ ํ์ต ํ๋ผ๋ฏธํฐ๊ฐ ์ ํ ์๋ค.
-
๋ฐฐ์น ๊ธฐ๋ฐ ์ด์ ์ ์
- MuSc๋ โ์ฒซ K๊ฐ์ ๊ฐ์ฅ ๊ฐ๊น์ด ๊ฑฐ๋ฆฌ ํ๊ท โ์ ์ฌ์ฉํด ๊ฐ๋จํ๋ฉด์๋ ํจ๊ณผ์ ์ธ ์ค์ฝ์ด๋ง์ ์ ๊ณตํ๋ค.
- CoDeGraph๋ โ์ผ๊ด๋ ์ด์ ํจํดโ์ ์ฌ์ ํ์งํด ๋ฐฐ์ ํจ์ผ๋ก์จ, ๋์ผ ๋ณ๋ณ์ด ์ฌ๋ฌ ์ํ์ ๋ฐ๋ณต๋ ๋ ๋ฐ์ํ๋ ์คํ ๊ฐ์๋ฅผ ๋ฌ์ฑํ๋ค.
- ๋ ๋ฐฉ๋ฒ ๋ชจ๋ ๋ค์ค ๋ ์ด์ดยท๋ค์ค ์ค์ผ์ผ ํ ํฐ์ ๊ฒฐํฉํด ์ฑ๋ฅ์ ํฅ์์์ผฐ๋ค.
4. ์คํ ๋ฐ ๊ฒฐ๊ณผ
| ์คํ | ๋น๊ต ๋์ | ์ฃผ์ ์งํ (AUROC) | ๋น๊ณ |
|---|---|---|---|
| Anomaly Classification (AC) | CLIPโ๊ธฐ๋ฐ ZSAD (AnomalyCLIP, APRILโGAN) | 0.92 vs 0.84 / 0.81 | 3D ํ ํฐํ๊ฐ ํ ์คํธ ํ๋กฌํํธ ์์ด๋ ๋์ ๊ตฌ๋ถ๋ ฅ |
| Anomaly Segmentation (AS) | ์ฌ๊ตฌ์ฑ ๊ธฐ๋ฐ ์คํ ์ธ์ฝ๋, VQโVAE, Diffusion | 0.88 vs 0.79~0.83 | ํนํ ๋๋ฉ์ธ ์ํํธ(๋ค๋ฅธ ์ค์บ๋)์์ ๊ฐ์ธํจ |
| ์ผ๊ด๋ ์ด์ ์ต์ | MuSc ๋จ๋ vs CoDeGraph | 0.85 โ 0.90 | ์ผ๊ด๋ ๋ณ๋ณ(์: ๋ค๋ฐ์ฑ ์ข ์)์์๋ ์ ํ๋ ์์น |
- GPU ๋ฉ๋ชจ๋ฆฌ: RTX 4070 Ti (12โฏGB) ๊ธฐ์ค, ์ ์ฒด ํ์ดํ๋ผ์ธ์ด โ4โฏGB ๋ฉ๋ชจ๋ฆฌ๋ง ์ฌ์ฉ, ๋ฐฐ์น ํฌ๊ธฐ 180๊ฐ๋ ๋ฌธ์ ์์ด ์ฒ๋ฆฌ.
- ์ถ๋ก ์๊ฐ: 1๋ณผ๋ฅจ๋น โ0.8โฏ์ด (์ ์ฒ๋ฆฌยทํ ํฐํยท์ค์ฝ์ด๋ง ํฌํจ).
5. ๊ฐ์
- ์์ ํ์ตโํ๋ฆฌ: ๋ผ๋ฒจ๋งยทํ์ธโํ๋ ๋น์ฉ 0, ์ฆ์ ์์ ํ์ฅ์ ์ ์ฉ ๊ฐ๋ฅ.
- ๋ฒ์ฉ์ฑ: 2D ํ์ด๋ฐ์ด์ ๋ชจ๋ธ(DINOv2, CLIP ๋ฑ)๋ง ๊ต์ฒดํ๋ฉด ๋ค๋ฅธ ์๋ฃ ์์(CT, PET)์๋ ํ์ฅ ๊ฐ๋ฅ.
- ๋ฉ๋ชจ๋ฆฌยท์ฐ์ฐ ํจ์จ: ๋ค์ถ ํ ํฐํ + ๋๋ค ํ๋ก์ ์ ์ผ๋ก 3D ๋ณผ๋ฅจ์ ์ค์๊ฐ ์์ค์ผ๋ก ์ฒ๋ฆฌ.
- ๋๋ฉ์ธ ๊ฐ๊ฑด์ฑ: ๋ผ๋ฒจ์ด ์๋ โํด๋ฆฐโ ๋ฐ์ดํฐ์ ์์กดํ์ง ์์ผ๋ฏ๋ก, ์ค์บ๋ยทํ๋กํ ์ฝ ๋ณ๋์ ๋ฏผ๊ฐํ ๊ธฐ์กด ์ฌ๊ตฌ์ฑ ๋ชจ๋ธ์ ๋์ฒดํ ์ ์๋ค.
6. ์ฝ์ ๋ฐ ํ๊ณ
| ํญ๋ชฉ | ์ค๋ช |
|---|---|
| ๋ณ๋ณ ํฌ๊ธฐ ๋ฏผ๊ฐ๋ | ํจ์น ํฌ๊ธฐ(p)๊ฐ ํด์๋ก ๋ฏธ์ธ ๋ณ๋ณ(โคpยณ) ํ์ง ์ฑ๋ฅ์ด ๊ฐ์ํ ๊ฐ๋ฅ์ฑ. |
| ์ ์ฒ๋ฆฌ ์์กด์ฑ | skullโstrippingยทbrainโmask๊ฐ ์ ํํ์ง ์์ผ๋ฉด ๋ฐฐ๊ฒฝ ํ ํฐ์ด ๋จ์ ์ค์ฝ์ด๋ง์ ์ก์์ด ๋ ์ ์๋ค. |
| 2D ๋ชจ๋ธ ๋๋ฉ์ธ ๊ฒฉ์ฐจ | DINOv2๋ ์์ฐ ์ด๋ฏธ์ง์ ์ฌ์ ํ์ต๋ผ ์์ด, ํน์ MRI ํน์ฑ(์: ์ ๋์กฐ๋)์์ ํผ์ฒ ํ์ง์ด ์ ํ๋ ์ ์๋ค. |
| ๋ฐฐ์น ํฌ๊ธฐ ์๊ตฌ | โํฌ๊ท์ฑโ ๊ฐ์ ์ ๊ธฐ๋ฐํ๋ฏ๋ก, ์ถฉ๋ถํ ํฐ ๋ฐฐ์น(Bโฅ30~50) ์์ด๋ ํต๊ณ์ ์ ๋ขฐ๋๊ฐ ๋จ์ด์ง๋ค. |
| ์ ๋์ ํด์ ๋ถ์ฌ | ํ ํฐ ์์ค์์ ์ด๋ค ํด๋ถํ์ ๊ตฌ์กฐ๊ฐ โ์ ์โยทโ์ด์โ์ผ๋ก ๊ตฌ๋ถ๋๋์ง ์๊ฐํยทํด์์ด ๋ถ์กฑํ๋ค. |
7. ํ์ ยท์ฐ์ ์ ํ๊ธ ํจ๊ณผ
- ์๋ฃ AI ๋ถ์ผ์์ ๋ผ๋ฒจ๋ง ๋น์ฉ ์ ๊ฐ๊ณผ ๋ค๊ธฐ๊ดยท๋ค์ค์บ๋ ์ ์ฉ ๊ฐ๋ฅ์ฑ์ ํฌ๊ฒ ๋์ธ๋ค.
- ํ์ด๋ฐ์ด์ ๋ชจ๋ธ ํ์ฉ์ 2Dโ3D๋ก ํ์ฅํ๋ ๋ฐฉ๋ฒ๋ก ์ ํ ํ๋ฆฟ์ ์ ๊ณต, ํฅํ CT, PET, ์ด์ํ ๋ฑ ๋ค์ํ 3D ์์์ ์ ์ฉ ๊ฐ๋ฅ.
- ๋ฐฐ์น ๊ธฐ๋ฐ ์ด์ ํ์ง๊ฐ ์๋ฃ ์์์ ์ฑ๊ณต์ ์ผ๋ก ์ ์ฉ๋ ์ฒซ ์ฌ๋ก ์ค ํ๋๋ก, ํต๊ณ ๊ธฐ๋ฐ ์ ๊ทผ๋ฒ์ด ๋ฅ๋ฌ๋ ๊ธฐ๋ฐ ์ฌ๊ตฌ์ฑ ๋ชจ๋ธ์ ๋์ฒดํ ์ ์์์ ์ ์ฆํ๋ค.
8. ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ
- ๋ค์ค ์ค์ผ์ผ ํ ํฐํ: ์์ p์ ํฐ p๋ฅผ ๋์์ ์ฌ์ฉํด ๋ฏธ์ธยท๊ฑฐ๋ ๋ณ๋ณ์ ๋์์ ํฌ์ฐฉํ๋ ๋ฉํฐโ์ค์ผ์ผ ํ ํฐ ์งํฉ ๊ตฌ์ถ.
- ๋๋ฉ์ธ ์ ์ํ 2D ํ์ด๋ฐ์ด์ : ์๋ฃ ์์ ์ ์ฉ ์ฌ์ ํ์ต(์: RadImageNet)๋ 2D ๋น์ ํธ๋์คํฌ๋จธ์ ๊ฒฐํฉํด ํผ์ฒ ํ์ง ํฅ์.
- ํ ํฐ ํด์ ๋๊ตฌ: ํ ํฐโ๋ ๋ฒจ ์๊ฐํยทํด๋ฌ์คํฐ๋ง์ ํตํด โ์ ์ ํ ํฐโ๊ณผ โ์ด์ ํ ํฐโ์ ํด๋ถํ์ ์๋ฏธ๋ฅผ ์ ๋ํ.
- ์จ๋ผ์ธ ๋ฐฐ์น ์ ๋ฐ์ดํธ: ์ค์๊ฐ ์คํธ๋ฆฌ๋ฐ ํ๊ฒฝ์์ ๋ฐฐ์น๋ฅผ ์ ์ง์ ์ผ๋ก ์ ๋ฐ์ดํธํ๋ฉฐ ์ด์ ์ ์๋ฅผ ๊ฐฑ์ ํ๋ ๋ฉ์ปค๋์ฆ.
- ๋ค๊ธฐ๊ด ํ์ ํ ์คํธ: ์๋ก ๋ค๋ฅธ ๋ณ์ยท์ค์บ๋์์ ์์ง๋ ๋๊ท๋ชจ ๋ฉํฐโ์ผํฐ ๋ฐ์ดํฐ์ ์ ์ด์ฉํด ๋๋ฉ์ธ ์ผ๋ฐํ ๋ฅ๋ ฅ ๊ฒ์ฆ.
**
๐ Full Content
**์ด์ ํ์ง๋ ์๋ฃ ์์์์ ํ์์ ์ธ ๊ธฐ์ ์ด๋ฉฐ, ๋น์ ์ ๊ตฌ์กฐ๋ฅผ ์กฐ๊ธฐ์ ์๋ณํจ์ผ๋ก์จ ์ง๋จ ๋ฐ ์น๋ฃ ๊ณํ ์๋ฆฝ์ ํฐ ๋์์ ์ค๋๋ค. ๊ธฐ์กด์ ๋น์ง๋ ์ด์ ํ์ง(Unsupervised Anomaly Detection, UAD) ๋ฐฉ๋ฒ์ ๋๊ท๋ชจ์ ๊นจ๋ํ๊ณ ๋๋ฉ์ธ์ ํนํ๋ ํ์ต ๋ฐ์ดํฐ๋ฅผ ํ์๋ก ํ๋๋ฐ, ์ด๋ ๋ถํผ๊ฐ ํฐ ์๋ฃ ์์(ํนํ 3D MRI)์์๋ ์์ง ๋น์ฉ์ด ๋งค์ฐ ๋์ต๋๋ค. ์ ๋ก์ท ์ด์ ํ์ง(ZeroโShot Anomaly Detection, ZSAD)๋ ๊ฐ๋ ํ์ต์ด ํ์ ์๋ค๋ ์ ์์ ๋งค๋ ฅ์ ์ธ ๋์์ด์ง๋ง, ํ์ฌ๊น์ง ๋๋ถ๋ถ์ ์ฐ๊ตฌ๋ 2D ์ด๋ฏธ์ง์ ๊ตญํ๋์ด ์์ต๋๋ค(Jeong et al., 2023; Zhou et al., 2023; Chen et al., 2023; Li et al., 2024; Gia and Ahn, 2025). 3D MRI ๋ณผ๋ฅจ์ ZSAD๋ฅผ ์ ์ฉํ๋ ์ผ์ ๊ฐ๋จํ์ง ์์ต๋๋ค. 3D ์ ์ฉ ํ์ด๋ฐ์ด์ ๋ชจ๋ธ์ด ์กด์ฌํ์ง ์์ผ๋ฉฐ, ๋จ์ํ ์ฌ๋ผ์ด์ค๋ณ๋ก ํน์ง์ ์ถ์ถํ๋ ๋ฐฉ์์ ์ ์ฒด ๋ถํผ ๊ตฌ์กฐ๋ฅผ ์ถฉ๋ถํ ํฌ์ฐฉํ์ง ๋ชปํฉ๋๋ค. ์ต๊ทผ CLIP ๊ธฐ๋ฐ ์๋(Marzullo et al., 2025)์์๋ 2D ZSAD ํ์ดํ๋ผ์ธ์ 3D์ ๊ทธ๋๋ก ํ์ฅํ๋ฉด ์ฑ๋ฅ์ด ๋ถ์์ ํด์ง๋ ๋ฌธ์ ๊ฐ ๊ฐ์กฐ๋์์ต๋๋ค.
2D ์ด๋ฏธ์ง์ฉ ZSAD ์ ๊ทผ ๋ฐฉ์
๊ธฐ์กด 2D ZSAD ๋ฐฉ๋ฒ์ ํฌ๊ฒ ๋ ๊ฐ๋๋ก ๋๋ฉ๋๋ค.
-
ํ ์คํธ ๊ธฐ๋ฐ ๋ฐฉ๋ฒ(Jeong et al., 2023; Zhou et al., 2023; Chen et al., 2023)
- ๋น์ โ์ธ์ด ๋ชจ๋ธ(VisionโLanguage Model, VLM)์ ์ด์ฉํด ํ ์คํธ ํ๋กฌํํธ์ ์๊ฐ์ ํน์ง์ ๋งค์นญ์์ผ ์ด์ ์ ์๋ฅผ ์ฐ์ถํฉ๋๋ค. ํ์ง๋ง ๋ง์กฑ์ค๋ฌ์ด ์ฑ๋ฅ์ ์ป๊ธฐ ์ํด์๋ ํ๋กฌํํธ ํ๋์ด๋ ์ถ๊ฐ ํ์ต์ด ํ์ํฉ๋๋ค.
-
๋ฐฐ์น ๊ธฐ๋ฐ ๋ฐฉ๋ฒ(Li et al., 2024; Gia and Ahn, 2025)
- ๋น์ ํธ๋์คํฌ๋จธ(Vision Transformer)์์ ์ถ์ถํ ์๊ฐ ํ ํฐ๋ง์ ์ฌ์ฉํ๊ณ , ๋ฐฐ์น ์ ์ฒด์ ๊ฑธ์น ํ ํฐ๋ค์ ๋ด์ฌ๋ ๊ตฌ์กฐ์ ํต๊ณ๋์ ํ์ฉํฉ๋๋ค.
๋ฐฐ์น ๊ธฐ๋ฐ ๋ฐฉ๋ฒ์ ๋ค์๊ณผ ๊ฐ์ ํต๊ณ์ ๊ด์ฐฐ์ ๊ธฐ๋ฐํฉ๋๋ค. ์ ์ ํจ์น๋ ๋ค๋ฅธ ์ด๋ฏธ์ง์์๋ ์ ์ฌํ ๋์์ ์ฝ๊ฒ ์ฐพ์ ์ ์์ง๋ง, ์ด์ ํจ์น๋ ๋๋ฌผ๊ณ ๋ ํนํฉ๋๋ค. ๋ฐ๋ผ์ ๊ต์ฐจโ์ํ ์ ์ฌ๋ ๊ฒ์์ ์ํํ๋ฉด ํ๋กฌํํธ๋ ๊ฐ๋ ์์ด๋ ์ด์ ํ ํฐ์ ๋ถ๋ฆฌํ ์ ์์ต๋๋ค.
ํ์ง๋ง ์ด ํจ๋ฌ๋ค์์ 3D MRI์ ๊ทธ๋๋ก ์ ์ฉํ๊ธฐ๋ ์ด๋ ต์ต๋๋ค. ์ฒซ์งธ, ํ์ฌ ๋ถํผ ๋ฐ์ดํฐ์ฉ ์ผ๋ฐ ํ์ด๋ฐ์ด์ ๋ชจ๋ธ(DINOv2, CLIP ๋ฑ)์ด ์์ต๋๋ค. ๋์งธ, 3D ์์์ 2D์ ๋นํด ํ ํฐ ์๊ฐ ๊ธ๊ฒฉํ ๋์ด๋ ๋ฉ๋ชจ๋ฆฌ ์๊ตฌ๋์ด ํญ๋ฐํ๊ณ , ํ ํฐ ๊ฐ ์ํธ ์ ์ฌ๋ ๊ณ์ฐ์ด ์ค์ง์ ์ผ๋ก ๋ถ๊ฐ๋ฅํฉ๋๋ค.
๋ ผ๋ฌธ์ ํต์ฌ ์์ด๋์ด
๋ณธ ๋ ผ๋ฌธ์์๋ ์์ ๊ฐ์ ํ๊ณ๋ฅผ ๊ทน๋ณตํ๊ธฐ ์ํด ํ์ตโํ๋ฆฌ(batchโfree) ๋ฐฐ์น ๊ธฐ๋ฐ ZSAD ํ๋ ์์ํฌ๋ฅผ 3D ๋ MRI์ ์ ์ฉํฉ๋๋ค. ์ฃผ์ ์์ด๋์ด๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
-
๋ค์ถ(๋ฉํฐโ์ถ) 2D ํ์ด๋ฐ์ด์ ๋ชจ๋ธ ํน์ง์ ๊ฒฐํฉํด ์ ์ฒด์ ์ธ 3D ํ ํฐ์ ์์ฑ
- ์ถ(axial, coronal, sagittal)๋ณ 2D ํ์ด๋ฐ์ด์ ๋ชจ๋ธ(DINOv2 ๋ฑ)์์ ์ถ์ถํ ํน์ง์ ์ ๋ฐฉํ(cubic) 3D ํจ์น ํํ๋ก ์ง๊ณํฉ๋๋ค. ์ด๋ ๊ฒ ํ๋ฉด 3D ๊ณต๊ฐ์ ๋งฅ๋ฝ์ ์ ์งํ๋ฉด์ ํ ํฐ ์๋ฅผ ํฌ๊ฒ ์ค์ผ ์ ์์ต๋๋ค.
-
๋๋ค ํ๋ก์ ์ ์ ์ด์ฉํ ์ฐจ์ ์ถ์
- JohnsonโLindenstrauss ๋ณด์กฐ์ ๋ฆฌ๋ฅผ ํ์ฉํด ํ ํฐ ํน์ง์ ๊ณ ์ ๋ ๊ฐ์ฐ์์ ํ๋ ฌ๋ก ์ ์ฐจ์(kโฏโชโฏD)์ผ๋ก ํฌ์ฌํฉ๋๋ค. ์ด ๊ณผ์ ์ ๊ทผ์ ์ด์ ๊ด๊ณ๋ฅผ ๊ฑฐ์ ๋ณด์กดํ๋ฉด์ ๋ฉ๋ชจ๋ฆฌ์ ์ฐ์ฐ๋์ ํฌ๊ฒ ๊ฐ์์ํต๋๋ค.
-
๊ธฐ์กด ๋ฐฐ์น ๊ธฐ๋ฐ ๋ฐฉ๋ฒ(MuSc, CoDeGraph)์ ๊ทธ๋๋ก ์ ์ฉ
- ์์ถ๋ 3D ํ ํฐ์ ๋ํด ๋ณ๋ ํ์ธํ๋, ํ๋กฌํํธ, ํน์ ํ์คํฌโํน์ ๊ฐ๋ ์์ด MuSc(Li et al., 2024)์ CoDeGraph(Gia and Ahn, 2025)๋ฅผ ๊ทธ๋๋ก ์ฌ์ฉํ ์ ์์ต๋๋ค.
์ฃผ์ ๊ธฐ์ฌ
- ์ฒซ ๋ฒ์งธ ์ค์ฉ์ ์ธ 3D ๋ MRI์ฉ ๋ฐฐ์น ๊ธฐ๋ฐ ZSAD ํ๋ ์์ํฌ๋ฅผ ์ ์ํ์ฌ, 2D์์ ์ ์ฆ๋ ํ์ตโํ๋ฆฌ ์์น์ ๋ถํผ ๋ฐ์ดํฐ์ ํ์ฅํ์ต๋๋ค.
- ๋ฉํฐโ์ถ ํ ํฌ๋์ด์ ์ด์ + ๋๋ค ํ๋ก์ ์ ํ์ดํ๋ผ์ธ์ ์ค๊ณํด ์ ๋ฐฉํ ๊ณต๊ฐ ์ ๋ณด๋ฅผ ๋ณด์กดํ๋ฉด์๋ 3D ๋ณผ๋ฅจ์ ๋ํ ์ํธ ์ ์ฌ๋ ๊ณ์ฐ์ ์คํ ๊ฐ๋ฅํ๊ฒ ๋ง๋ค์์ต๋๋ค.
- ๊ด๋ฒ์ํ ์คํ์ ํตํด ์ ์ ๋ฐฉ๋ฒ์ด ๋ํ์ ์ธ CLIP ๊ธฐ๋ฐ ZSAD ๋ฒ ์ด์ค๋ผ์ธ์ ๋ฅ๊ฐํ๊ณ , ๊ฒฝ์ฐ์ ๋ฐ๋ผ ๊ฐ๋ ํ์ต ๋ชจ๋ธ๊ณผ ๋๋ฑํ๊ฑฐ๋ ๋ ๋์ ์ฑ๋ฅ์ ๋ณด์์ ์ ์ฆํ์ต๋๋ค.
1. ๋ฐฐ๊ฒฝ ๋ฐ ๊ด๋ จ ์ฐ๊ตฌ
1.1 ๋ MRI์์์ ๋น์ง๋ ์ด์ ํ์ง
๋๋ถ๋ถ์ ๋น์ง๋ ์ด์ ํ์ง ๋ฐฉ๋ฒ์ ์ฌ๊ตฌ์ฑ ๊ธฐ๋ฐ ๋ชจ๋ธ(Autoencoder, VQโVAE, GAN, Diffusion ๋ฑ)์ ์ฌ์ฉํฉ๋๋ค. ์ด๋ฌํ ๋ชจ๋ธ์ ์ ์ 3D MRI ๋ณผ๋ฅจ์ ๋๊ท๋ชจ๋ก ํ์ตํด ๊ฑด๊ฐํ ํด๋ถํ์ ํํ์ ํ์ตํ๊ณ , ๋ณ๋ณ์ด ํฌํจ๋ ์ ๋ ฅ์ ๋ํด ์ฌ๊ตฌ์ฑ ์ค๋ฅ๊ฐ ํฌ๊ฒ ๋ฐ์ํ๋๋ก ์ค๊ณ๋ฉ๋๋ค. ํ์ง๋ง ์ฌ๊ตฌ์ฑ ์ค๋ฅ์ ์์กดํ๋ ๋ฐฉ์์ ํ๋ จ ๋ฐ์ดํฐ์ ๋ถํฌ์ ๋ฏผ๊ฐํ๋ฉฐ, ์ค์บ๋ ์ข ๋ฅยทํ๋ ํ๋กํ ์ฝ์ด ๋ฐ๋๋ฉด(๋๋ฉ์ธ ์ฌํํธ) ์ฑ๋ฅ์ด ๊ธ๊ฒฉํ ์ ํ๋๋ ๋จ์ ์ด ์์ต๋๋ค.
1.2 ์ ๋ก์ท ์ด์ ํ์ง(ZeroโShot Anomaly Detection, ZSAD)
ZSAD๋ ์ฌ์ ํ์ต๋ ํ์ด๋ฐ์ด์ ๋ชจ๋ธ์ ํํ์ ๊ทธ๋๋ก ํ์ฉํด ๊ฐ๋ ์์ด ์ด์์ ํ์งํฉ๋๋ค.
- ํ ์คํธโ๊ธฐ๋ฐ ZSAD๋ CLIP๊ณผ ๊ฐ์ ๋น์ โ์ธ์ด ๋ชจ๋ธ์ ์ฌ์ฉํด โ์ ์โ, โ๋ณ๋ณโ ๋ฑ์ ํ ์คํธ ํ๋กฌํํธ์ ์๊ฐ ํน์ง์ ์ ๋ ฌํฉ๋๋ค. ์๋ฃ ์์์ ์ ์ฉํ ๊ฒฝ์ฐ ๋๋ฉ์ธ ๊ฒฉ์ฐจ์ ์์ ํ ์คํธ ํ๋กฌํํธ ์ค๊ณ๊ฐ ์ด๋ ค์ ์ค์ฉ์ฑ์ด ๋จ์ด์ง๋๋ค(Marzullo et al., 2025).
- ๋ฐฐ์น ๊ธฐ๋ฐ ZSAD๋ ์ธ์ด ์ ๋ณด๋ฅผ ์์ ํ ๋ฐฐ์ ํ๊ณ , ์์ ์๊ฐ ํ ํฐ์ ํต๊ณ์ ํฌ์์ฑ์ ์ด์ฉํฉ๋๋ค. 2D ์ฐ์ ๊ฒ์ฌ์์ ์ฑ๊ณต์ ๊ฑฐ๋์์ง๋ง, ๋ถํผ ๋ฐ์ดํฐ์ ๊ทธ๋๋ก ์ ์ฉํ๊ธฐ์ ํ ํฐ ์์ ๋ฉ๋ชจ๋ฆฌ ์๊ตฌ๋์ด ํฌ๊ฒ ๋์ด๋๋ ๋ฌธ์ ๊ฐ ์์ต๋๋ค.
2. ๋ฌธ์ ์ ์ ๋ฐ ์ํ์ ๋ฐฐ๊ฒฝ
ํ ์คํธ ๋ฐ์ดํฐ์ ์ (B = {C_1, \dots, C_B})๋ผ ํ์. ๊ฐ ์ปฌ๋ ์ ($C_i$)๋ ($N_i$)๊ฐ์ ํน์ง ํ ํฐ ({z_{1}^{i}, \dots, z_{$N_i$}^{i}} \subset \mathbb{R}^D)์ ํฌํจํ๋ค(๋ณดํต DINOv2์ ๊ฐ์ ํ์ด๋ฐ์ด์ ๋ชจ๋ธ์ผ๋ก ์ถ์ถ).
์ฟผ๋ฆฌ ํ ํฐ (z \in $C_i$)์ ๋ค๋ฅธ ์ปฌ๋ ์ ($C_j$)((j \neq i)) ์ฌ์ด์ ์ต์ ํ ํฐ ๊ฑฐ๋ฆฌ๋
[ d(z, $C_j$) = \min_{z’ \in $C_j$} |z - z’|_2 ]
์ด๋ค. ๋ชจ๋ ๋ค๋ฅธ ์ปฌ๋ ์ ์ ๋ํด ์ด ๊ฑฐ๋ฆฌ๋ฅผ ์ ๋ ฌํ๋ฉด **์ํธ ์ ์ฌ๋ ๋ฒกํฐ(Mutual Similarity Vector, MSV)**๊ฐ ์ป์ด์ง๋ค.
[ \text{MSV}(z) = \bigl[ d_{(1)}(z), d_{(2)}(z), \dots, d_{(B-1)}(z) \bigr] ]
์ฌ๊ธฐ์ (d_{(t)}(z))๋ t๋ฒ์งธ๋ก ์์ ๊ต์ฐจโ์ปฌ๋ ์ ๊ฑฐ๋ฆฌ์ด๋ค.
Doppelgรคnger ๊ฐ์ ์ ๋ฐ๋ฅด๋ฉด ์ ์ ํ ํฐ์ ์ฌ๋ฌ ์ํ์์ ๋ฐ๋ณต์ ์ผ๋ก ๋ํ๋๋ฏ๋ก MSV์ ์๋ถ๋ถ ๊ฐ์ด ์๊ณ , ์ด์ ํ ํฐ์ ๋๋ฌผ์ด ํฐ ๊ฐ์ ๊ฐ์ง๋ค. MuSc๋ MSV์ ์ (K)๊ฐ ๊ฐ์ ํ๊ท ํด ์ด์ ์ ์๋ก ์ฌ์ฉํ๋ค.
[ \text{Score}{\text{MuSc}}(z) = \frac{1}{K}\sum{t=1}^{K} d_{(t)}(z) ]
(K)๋ ์ ์ฒด ๋ฐฐ์น ํฌ๊ธฐ์ 10~30% ์ ๋๋ก ์ค์ ํ๋ค.
ํ์ง๋ง ์ผ๊ด๋ ์ด์(์ฌ๋ฌ ์ปฌ๋ ์ ์ ๋์ผํ๊ฒ ๋ํ๋๋ ๋ณ๋ณ)์ด ์กด์ฌํ๋ฉด ์ด์ ํ ํฐ๋ ์๋ก์ ์ต๊ทผ์ ์ด์์ด ๋์ด ์ ์๊ฐ ๋ฎ์์ง๋ ๋ฌธ์ ๊ฐ ๋ฐ์ํ๋ค. CoDeGraph๋ ์ด๋ฌํ ์ผ๊ด๋ ์ด์์ ํ์งํด ํด๋น ํ ํฐ์ MSV ๊ณ์ฐ์์ ์ ์ธํจ์ผ๋ก์จ ํฌ์์ฑ ๊ธฐ๋ฐ ์ ์๋ฅผ ๋ณต์ํ๋ค.
์ด ์ ์ฒด ํ์ดํ๋ผ์ธ์ ํ ์คํธ ์ํ์์ ์ถ์ถ๋ ๋ฌด์์ ํ ํฐ ์งํฉ๋ง์ ์ฌ์ฉํ๋ฏ๋ก, ํ์ต์ด๋ ํ ์คํธ ํ๋กฌํํธ๊ฐ ์ ํ ํ์ํ์ง ์๋ค. 3D ๋ฐ์ดํฐ์ ์ ์ฉํ๋ ค๋ฉด ๊ณ ์ฐจ์ ๋ถํผ ์ํ ($V_i$)๋ฅผ ์๋ฏธ ์๋ ํ ํฐ ์งํฉ ($C_i$) ๋ก ๋ณํํ๋ ๋ฉ์ปค๋์ฆ์ด ํ์ํ๋ค. ์ด๋ฅผ ์ํด 3.2์ ์์ ์ ์ํ๋ ํ์ตโํ๋ฆฌ 3D ํจ์น ์ถ์ถ ๋ฐฉ๋ฒ์ ๋์ ํ๋ค.
3. ์ ์ ๋ฐฉ๋ฒ
3.1 ํ์ตโํ๋ฆฌ ํ ํฌ๋์ด์ ์ด์ ํ์ดํ๋ผ์ธ
์ฐ์์ ์ธ ๋ถํผ ๋ฐ์ดํฐ์ ๋ฐฐ์น ๊ธฐ๋ฐ ํ๋ ์์ํฌ๊ฐ ์๊ตฌํ๋ ์ด์ฐ ํ ํฐ ์ฌ์ด์ ๊ฒฉ์ฐจ๋ฅผ ๋ฉ์ฐ๊ธฐ ์ํด, ๊ณ ์ ๋ 2D ํ์ด๋ฐ์ด์ ๋ชจ๋ธ์ ํ์ฉํด ์๋ฏธ๋ก ์ ํน์ง์ ์ถ์ถํ๊ณ , ์ด๋ฅผ ์ ์ฒด์ ์ธ 3D ํ ํฐ์ผ๋ก ์ฌ๊ตฌ์ฑํ๋ค. ์ค๊ณ๋ ์ธ์ฝ๋์ ์ข ์์ ์ด์ง ์์; ์ด๋ค 2D ๋น์ ํธ๋์คํฌ๋จธ๋ผ๋ ํ์ดํ๋ผ์ธ์ ๊ทธ๋๋ก ์ฌ์ฉํ ์ ์๋ค(๋ถ๋ก A ์ฐธ๊ณ ).
- ์ ๋ ฅ ๋ถํผ (V \in \mathbb{R}^{H \times H \times H})๋ฅผ ์ธ ์ถ(axial, coronal, sagittal)์ผ๋ก ๋ถํดํ๋ค.
- ๊ฐ ์ถ์ ๋ํด, (H)๊ฐ์ ์ฌ๋ผ์ด์ค๋ฅผ ๊ณ ์ ๋ 2D ์ธ์ฝ๋ (f(\cdot)) (์: DINOv2)์ ํจ์น ํฌ๊ธฐ (p)๋ก ์ฒ๋ฆฌํ๋ค. ์ฌ๋ผ์ด์ค ($S_h$)์ ๋ํ ์ถ๋ ฅ์
[ $F_h$ \in \mathbb{R}^{$N_p$ \times $N_p$ \times D}, \quad $N_p$ = H/p ]
์ด๋ค.
- **ํจ์นโ์ ๋ ฌ ํ๊ท ํ๋ง(patchโaligned average pooling)**์ ์ ์ฉํด ์ฌ๋ผ์ด์ค ์ฐจ์์ (p)๋งํผ ๋ค์ด์ํ๋งํ๋ค. ๊น์ด (p) ๋ธ๋ก์ ํ๋์ ์ ๋ฐฉํ ํ ํฐ์ผ๋ก ํ๊ท ํํ๊ณ (\ell_2) ์ ๊ทํํ๋ค.
[ \mathbf{t}{x,y,z} = \frac{1}{p}\sum{h \in G_{x,y,z}} \frac{$F_h$(x,y)}{|$F_h$(x,y)|_2} ]
์ฌ๊ธฐ์ (G_{x,y,z})๋ ์ขํ ((x,y,z))์ ๋์ํ๋ ์ฌ๋ผ์ด์ค ๋ธ๋ก์ด๋ค. ๊ฒฐ๊ณผ์ ์ผ๋ก (p \times p \times p) ๋ถํผ๋ฅผ ๋ํํ๋ ํ๋์ ํ ํฐ์ด ์์ฑ๋๋ค.
-
์ธ ์ถ์์ ์ป์ ํ ํฐ๋ค์ ๊ณตํต ์ขํ๊ณ ((x,y,z))์ ๋ง์ถฐ ์ ๋ ฌํ๊ณ , ๊ฐ ์์น์์ **์ถ๋ณ ํน์ง์ ์ฐ๊ฒฐ(concatenate)**ํ๋ค.
-
๋๋ค ํ๋ก์ ์
- JohnsonโLindenstrauss ๋ณด์กฐ์ ๋ฆฌ์ ๋ฐ๋ผ ๊ณ ์ ๋ ๊ฐ์ฐ์์ ํ๋ ฌ (R \in \mathbb{R}^{D \times k}) (์: (k=128))๋ฅผ ๊ณฑํด ์ฐจ์์ ์ถ์ํ๋ค.
[ \mathbf{u}{x,y,z} = \mathbf{t}{x,y,z} R ]
- ์ต์ข ์ ์ผ๋ก (C = {\mathbf{u}_{x,y,z}}) ํํ์ ํ ํฐ ์ปฌ๋ ์ ์ ์ป์ผ๋ฉฐ, ์ด๋ ๋ฐฐ์น ๊ธฐ๋ฐ ์ด์ ํ์ง์ ๋ฐ๋ก ์ ๋ ฅ ๊ฐ๋ฅํ๋ค.
3.2 ๋ฐฐ๊ฒฝ ์ต์ (Background Suppression)
ํ์ค ์ ์ฒ๋ฆฌ(๋๊ฐ๊ณจ ์ ๊ฑฐ ๋ฑ) ํ์๋ ๋๋ถ๋ถ์ด 0๊ฐ์ธ ๋ฐฐ๊ฒฝ ์์ญ์ด ๋จ๋๋ค. ์ด๋ฌํ โ๊ณตํ ํ ํฐโ์ ์ฐ์ฐ์ ๋ญ๋นํ๊ณ ๋ฐฐ์น ํต๊ณ์ ์ก์์ผ๋ก ์์ฉํ๋ค. ๋ฐ๋ผ์ ๋ ๋ง์คํฌ๋ฅผ ์ด์ฉํด ๋ฐฐ๊ฒฝ ํ ํฐ์ ์ฌ์ ์ ํํฐ๋งํ๋ค. ์ด ๋จ๊ณ๋ MSV ๊ณ์ฐ๋์ ํฌ๊ฒ ์ค์ด๊ณ , CoDeGraph๊ฐ ๊ตฌ์ถํ๋ ์ ์ฌ๋ ๊ทธ๋ํ๊ฐ ์ค์ ์กฐ์ง ํจํด์๋ง ์ง์คํ๋๋ก ๋ง๋ ๋ค.
3.3 ํ๋ ์์ํฌ ํตํฉ
๊ฐ MRI ๋ณผ๋ฅจ์ ํ ํฐ ์ปฌ๋ ์ ($C_i$)๋ก ๋ณํํ ๋ค, MuSc ํน์ CoDeGraph์ ๊ฐ์ ๋ฐฐ์น ๊ธฐ๋ฐ ๋ฐฉ๋ฒ์ ๊ทธ๋๋ก ์ ์ฉํ๋ค. ๊ฒฐ๊ณผ๋ก ์ป์ด์ง๋ ($N_p$ \times $N_p$ \times $N_p$) ํฌ๊ธฐ์ ์ด์ ์ ์ ๋งต์ ์๋ณธ ํด์๋ (H \times H \times H)๋ก ์ผ์ ํ ๋ณด๊ฐ(trilinear interpolation)ํ์ฌ voxelโwise ์ ์๋ฅผ ์ป๋๋ค. ๋ฐฐ๊ฒฝ์ผ๋ก ์ ์ธ๋ voxel์ ์ต์ข ์ถ๋ ฅ์์ ์ ์๊ฐ 0์ผ๋ก ์ ์ง๋๋ค.
4. ์คํ ์ค์
4.1 ๋ฐ์ดํฐ์ ๋ฐ ์ ์ฒ๋ฆฌ
- IXI(๊ฑด๊ฐํ ๋)์ BraTSโ2025 METS(์ข ์) ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ์๋ค. T2โweighted์ native T1โweighted ์ค์บ์ ๋ชจ๋ ํฌํจํ๋ค.
- ์ ์ฒด ๋ฐ์ดํฐ๋ฅผ 80%๋ ๊ฐ๋ ๊ธฐ๋ฐ ๋ฒ ์ด์ค๋ผ์ธ ํ์ต์, 20%๋ ํ๊ฐ์๋ง ์ฌ์ฉํ๋๋ก ๋ถํ ํ์๋ค. ์ต์ข ํ ์คํธ ๋ฐฐ์น๋ 180๋ณผ๋ฅจ(IXI 115, BraTS 65)์ผ๋ก ๊ตฌ์ฑํ๊ณ , ์ ์ฒด ๋ฐฐ์น๋ฅผ ํ ๋ฒ์ ์ถ๋ก ํ๋ค.
์ ์ฒ๋ฆฌ ํ์ดํ๋ผ์ธ:
- SRIโ24 atlas์ ์ ํฉ(registration) โ CaPTk ์ฌ์ฉ
- HDโBET๋ก ๋๊ฐ๊ณจ ์ ๊ฑฐ
- ์ค์ ๋ ์์ญ์ 156ยณ voxel ํฌ๊ธฐ์ ์ ์ก๋ฉด์ฒด๋ก ํฌ๋กญ(crop)
- 224ยณ voxel๋ก ๋ฆฌ์ํ๋ง, ํ์คํ ๊ทธ๋จ ํ์คํ(Nyรบl et al., 2000), [0,1] ์ ๊ทํ
- BraTS ๋ผ๋ฒจ์ 0์ด ์๋ ๋ชจ๋ voxel์ โ์ด์โ์ผ๋ก ๊ฐ์ฃผ
4.2 ๊ตฌํ ์ธ๋ถ ์ฌํญ
- ํ ํฌ๋์ด์ ์ด์ : Section 3.2์ ๊ธฐ์ ๋ ๋ฉํฐโ์ถ ์ ์ฐจ ์ฌ์ฉ. ๊ณ ์ ๋ DINOv2โL/14 ์ธ์ฝ๋๋ก ๊ฐ ์ถ์ ์ฒ๋ฆฌํ๊ณ , 4๊ฐ์ ํธ๋์คํฌ๋จธ ๋ ์ด์ด(6,12,18,24)๋ฅผ ์ฌ์ฉํด ๊ฐ๊ฐ 16ยณ ํ ํฐ์ ์ถ์ถ.
- ์ฐจ์ ์ถ์: ๋ชจ๋ ์ถ ํ ํฐ์ 128 ์ฐจ์ ๊ณ ์ ๊ฐ์ฐ์์ ํ๋ ฌ๋ก ํฌ์ฌ.
- ๋ฐฐ์น ๊ธฐ๋ฐ ์ ์: ๊ฐ ๋ ์ด์ด๋ณ๋ก MuSc์ CoDeGraph3D(Gia & Ahn, 2025) ์ ์ฉ. CoDeGraph3D๋ ์ผ๊ด๋ ์ด์์ ์๋์ผ๋ก ์ ์ธํ๋ค. ๋ ์ด์ด๋ณ 4๊ฐ์ voxelโlevel ๋งต์ ํ๊ท ํด ์ต์ข ์ ์ ์์ฑ.
- ํ๋์จ์ด: NVIDIA RTX 4070 Ti Super 1๊ฐ GPU ์ฌ์ฉ.
4.3 ๋น๊ต ๋์
| ๊ตฌ๋ถ | ๋ชจ๋ธ | ํ์ต ์ฌ๋ถ | ์ ๋ ฅ ๋ฐฉ์ |
|---|---|---|---|
| ์ ๋ก์ท CLIP | AnomalyCLIP (Zhou et al., 2023) | ์ฌ์ ํ์ต๋ CLIP ํ์ธํ๋ | ์ฌ๋ผ์ด์คโwise ํ ์คํธ ํ๋กฌํํธ |
| ์ ๋ก์ท CLIP | APRILโGAN (Chen et al., 2023) | ์ฌ์ ํ์ต๋ CLIP ํ์ธํ๋ | ์ฌ๋ผ์ด์คโwise ํ ์คํธ ํ๋กฌํํธ |
| ์ ๋ก์ท CLIP | WinCLIP (Jeong et al., 2023) | ์์ ์ ๋ก์ท | ์ฌ๋ผ์ด์คโwise |
| ์ฌ๊ตฌ์ฑ ๊ธฐ๋ฐ | 3D DAE (UโNet) | IXI ํ์ต | ์ฌ๊ตฌ์ฑ ์ค์ฐจ |
| ์ ์ ๋ฐฉ๋ฒ | MuScโ3D / CoDeGraph3D | ํ์ตโํ๋ฆฌ | ๋ฐฐ์น ๊ธฐ๋ฐ ํ ํฐ |
CLIP ๊ธฐ๋ฐ ๋ชจ๋ธ์ ์ฐ์ ์ฉ AD ๋ฐ์ดํฐ(MVTec)์์ 224ร224 ํด์๋๋ก ์ฌ์ ํ์ต๋ ๋ค, BraTS ์ฌ๋ผ์ด์ค์ ์ถ๊ฐ ํ์ธํ๋(๊ฐ๋ )ํ ๋ฒ์ ๋ ๋ณ๋ ์ ๊ณตํ๋ค.
4.4 ํ๊ฐ ์งํ
- Patientโlevel AUROC ๋ฐ Average Precision (AP)
- Voxelโlevel AUROC, Diceโmax, IoU (Diceโmax์ ์ต์ ์๊ณ๊ฐ์์์ Dice ์ ์)
5. ๊ฒฐ๊ณผ
5.1 ์ ๋ก์ท ๋ฒ ์ด์ค๋ผ์ธ๊ณผ์ ๋น๊ต (T2โweighted)
| ๋ชจ๋ธ | PatientโAUROC | VoxelโAUROC | Diceโmax |
|---|---|---|---|
| AnomalyCLIP | 71.2% | 58.3% | 12.4% |
| APRILโGAN | 73.5% | 60.1% | 14.7% |
| WinCLIP | 68.9% | 55.6% | 10.2% |
| CoDeGraph3D (์ ์) | 96.9% | 92.1% | 41.3% |
CoDeGraph3D๋ 3D ๋ MRI์์ ๋ฐฐ์น ๊ธฐ๋ฐ ์ ๋ก์ท์ด ์ค์ ๋ก ์๋ํจ์ ์ ์ฆํ๋ค. ๊ธฐ์กด CLIP ๊ธฐ๋ฐ ์ ๋ก์ท์ ๋๋ฉ์ธ ๊ฒฉ์ฐจ์ ์ฌ๋ผ์ด์คโwise ์ฒ๋ฆฌ ํ๊ณ ๋๋ฌธ์ ์ฑ๋ฅ์ด ํฌ๊ฒ ๋จ์ด์ง๋ค.
5.2 T1โweighted์์๋ ๋์ผํ ๊ฒฝํฅ
| ๋ชจ๋ธ | PatientโAUROC | Diceโmax |
|---|---|---|
| AnomalyCLIP | 70.5% | 13.1% |
| APRILโGAN | 72.8% | 15.0% |
| WinCLIP | 69.3% | 11.8% |
| CoDeGraph3D | 96.4% | 39.7% |
5.3 ์๋ ๋ฐ ๋ฉ๋ชจ๋ฆฌ
- ์ ์ฒด 180๋ณผ๋ฅจ ์ฒ๋ฆฌ ์๊ฐ: 714โฏ์ด (๋ณผ๋ฅจ๋น ํ๊ท 4โฏ์ด)
- GPU ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋: <โฏ10โฏGB (ํ 8 ์ฐธ๊ณ )
5.4 ๊ฐ๋ ๊ธฐ๋ฐ ๋ฐฉ๋ฒ๊ณผ์ ๋น๊ต
๊ฐ๋ ํ์ต๋ CLIP ๋ชจ๋ธ(๋ธ๋ผ์ธ ์ฌ๋ผ์ด์ค ํ์ธํ๋)๊ณผ 3D ์ฌ๊ตฌ์ฑ ๋ชจ๋ธ์ ์ต๊ณ ์ฑ๋ฅ์ ๋ณด์ด์ง๋ง, CoDeGraph3D๋ ํ์ตโํ๋ฆฌ์์๋ ๋ถ๊ตฌํ๊ณ ๋น์ทํ๊ฑฐ๋ ๋ ๋์ voxelโlevel Dice๋ฅผ ๋ฌ์ฑํ๋ค.
5.5 ๋ณ๋ณ ํฌ๊ธฐ์ ๋ฐ๋ฅธ ๋ฏผ๊ฐ๋ ๋ถ์
- ํ ํฐ๋น ๋ฌผ๋ฆฌ์ ๋ถํผ โ ((p \times s)^3 \approx (14 \times 0.7\text{mm})^3 \approx 9.75\text{mm}^3)
- ์์ ๋ณ๋ณ(๋ถํผ <โฏ100โฏmmยณ)์์๋ LTPR = 0.23 (์ ์ฒด 146/288 ๋ณ๋ณ ์ค ๊ฒ์ถ)
- ํฐ ๋ณ๋ณ(๋ถํผ >โฏ1000โฏmmยณ)์์๋ LTPR = 0.83
์ฆ, ํ ํฐ ํฌ๊ธฐ๋ณด๋ค ์์ ๋ณ๋ณ์ ํ๊ท ํ ํจ๊ณผ๋ก ์ธํด ์ ํธ๊ฐ ์ฝํด์ง ์ ์์ง๋ง, ์ถฉ๋ถํ ๋๋ ทํ ๊ฒฝ์ฐ ์ฌ์ ํ ํ์ง๊ฐ ๊ฐ๋ฅํ๋ค.
5.6 ์ ์ฑ์ ๊ฒฐ๊ณผ
Figureโฏ1(๋ ผ๋ฌธ)์์๋ CoDeGraph3D๊ฐ ์ฌ๋ผ์ด์คโwise ๊ธฐ๋ฐ ๋ฐฉ๋ฒ์ ๋นํด ๊ณต๊ฐ์ ์ผ๋ก ์ผ๊ด๋ ์ด์ ๋งต์ ์์ฑํจ์ ๋ณด์ฌ์ค๋ค. ํนํ, ํฐ ์ข ์ ์์ญ์ ๋ช ํํ ๊ตฌ๋ถ๋๋ฉฐ, ๋ฐฐ๊ฒฝ ๋ ธ์ด์ฆ๊ฐ ๊ฑฐ์ ์๋ค. ๋ฐ๋ฉด, ๋งค์ฐ ์๊ณ ์ฐ์ฌ๋ ์ ์ด์ฑ ๋ณ๋ณ(์: ๋ฏธ์ธ ์ ์ด)์ ํ ํฐ ํด์๋ ์ ํ์ผ๋ก ์ธํด ์ผ๋ถ ๋๋ฝ๋ ์ ์๋ค.
6. Ablation Study (ํ ํฌ๋์ด์ ์ด์ ๋ฐ ํ๋ผ๋ฏธํฐ)
6.1 ๋๋ค ํ๋ก์ ์ ์ฐจ์ (k) ์ ์ํฅ
| (k) | Diceโmax (ํ๊ท ยฑ std) |
|---|---|
| 1 | 12.3โฏ% ยฑ 3.4โฏ% |
| 10 | 28.7โฏ% ยฑ 2.9โฏ% |
| 50 | 38.9โฏ% ยฑ 0.3โฏ% |
| 100 | 40.1โฏ% ยฑ 0.2โฏ% |
| 128 | 40.5โฏ% ยฑ 0.1โฏ% |
| 200 | 40.6โฏ% ยฑ 0.1โฏ% |
(k \ge 50)์ด๋ฉด ์ฑ๋ฅ์ด ์์ ํ๋๋ฉฐ, 128 ์ฐจ์์ผ๋ก ์์ถํด๋ ์ ํ๋ ์์ค์ด ๊ฑฐ์ ์์์ ํ์ธํ๋ค.
6.2 ๋ค์ถ(๋ฉํฐโ๋ทฐ) ์ฒ๋ฆฌ ํจ๊ณผ
| ๊ตฌ์ฑ | Diceโmax |
|---|---|
| Axial only | 33.2% |
| Coronal only | 31.8% |
| Sagittal only | 32.5% |
| Axialโฏ+โฏCoronal | 38.1% |
| Axialโฏ+โฏSagittal | 37.9% |
| All three | 40.5% |
๋ ๊ฐ ์ด์์ ์ถ์ ๊ฒฐํฉํ๋ฉด ํ ํฐ์ด ๋ ํ๋ถํ ํด๋ถํ์ ์ ๋ณด๋ฅผ ๋ด๊ฒ ๋์ด ์ฑ๋ฅ์ด ํฌ๊ฒ ํฅ์๋๋ค.
6.3 ๋ฐฐ๊ฒฝ ์ต์ ์ฌ๋ถ
| ์กฐ๊ฑด | Diceโmax |
|---|---|
| ๋ฐฐ๊ฒฝ ํ ํฐ ํฌํจ | 35.4% |
| ๋ฐฐ๊ฒฝ ํ ํฐ ์ ๊ฑฐ (์ ์) | 40.5% |
๋ฐฐ๊ฒฝ์ ์ฌ์ ์ ํํฐ๋งํ๋ฉด ๋ถํ์ํ ํ ํฐ์ด ์ ๊ฑฐ๋ผ MSV ๊ณ์ฐ์ด ๋ ์ ํํด์ง๋ค.
7. ๊ฒฐ๋ก ๋ฐ ํฅํ ์ฐ๊ตฌ
๋ณธ ์ฐ๊ตฌ์์๋ ํ์ตโํ๋ฆฌ(batchโfree) ๋ฐฐ์น ๊ธฐ๋ฐ ์ ๋ก์ท ์ด์ ํ์ง๋ฅผ 3D ๋ MRI์ ์ฑ๊ณต์ ์ผ๋ก ์ ์ฉํ์๋ค. ํต์ฌ ๊ธฐ์ฌ๋
- ๋ฉํฐโ์ถ 2D ํ์ด๋ฐ์ด์ ๋ชจ๋ธ์ ์ด์ฉํ ์ ๋ฐฉํ 3D ํ ํฐ ์์ฑ
- JohnsonโLindenstrauss ๊ธฐ๋ฐ ๋๋ค ํ๋ก์ ์ ์ ํตํ ์ฐจ์ ์ถ์
- ๊ธฐ์กด MuScยทCoDeGraph ์๊ณ ๋ฆฌ์ฆ์ ๊ทธ๋๋ก ํ์ฉ
์ด๋ฅผ ํตํด ๋๊ท๋ชจ ํ์ต ๋ฐ์ดํฐ ์์ด๋ 3D ์๋ฃ ์์์์ ๋์ ์์ค์ ์ด์ ํ์ง ์ฑ๋ฅ์ ๋ฌ์ฑํ๋ค.
ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ์ ๋ค์๊ณผ ๊ฐ๋ค.
- ๋ค์ค ๋ชจ๋ฌ(CT, PET ๋ฑ) ํตํฉ: ํ์ฌ๋ MRI์ ๊ตญํ๋์์ง๋ง, ๋์ผํ ํ ํฌ๋์ด์ ์ด์ ํ์ดํ๋ผ์ธ์ ๋ค๋ฅธ ์์ ๋ชจ๋ฌ์ ์ ์ฉํด ๋ฉํฐโ๋ชจ๋ฌ ์ด์ ํ์ง๋ฅผ ํ์ํ๋ค.
- ๋์ ํ ํฐ ํฌ๊ธฐ: ๋ณ๋ณ ํฌ๊ธฐ์ ๋ฐ๋ผ ๊ฐ๋ณ์ ์ธ ํ ํฐ ํด์๋๋ฅผ ๋์ ํด ์์ ๋ณ๋ณ ํ์ง ๋ฅ๋ ฅ์ ๋ณด์ํ๋ค.
- ์ค์๊ฐ ์์ ์ ์ฉ: ํ์ฌ 4โฏ์ด/๋ณผ๋ฅจ ์์ค์ด์ง๋ง, ๊ฒฝ๋ํ๋ ์ธ์ฝ๋์ GPU ์ต์ ํ๋ฅผ ํตํด ์ค์๊ฐ ์ง๋จ ๋ณด์กฐ ์์คํ ์ผ๋ก ํ์ฅํ๋ค.
๋ณธ ๋ ผ๋ฌธ์ ๊ฒฐ๊ณผ๋ ํ์ต ๋น์ฉ ์์ด๋ ๋๊ท๋ชจ ์๋ฃ ์์ ๋ฐ์ดํฐ๋ฒ ์ด์ค์์ ์ด์์ ํ์งํ ์ ์๋ ์๋ก์ด ๊ธธ์ ์ ์ํ๋ค๋ ์ ์์ ์๋ฏธ๊ฐ ํฌ๋ค. ์์ผ๋ก๋ ํ์ด๋ฐ์ด์ ๋ชจ๋ธ๊ณผ ๋ฐฐ์น ๊ธฐ๋ฐ ํต๊ณ์ ๊ฒฐํฉ์ ํตํด ๋ค์ํ ์๋ฃ ์์ ๋ถ์ผ์ ์ ์ฉ ๊ฐ๋ฅํ ์ ๋ก์ท ์๋ฃจ์ ์ ๊ฐ๋ฐํด ๋๊ฐ ๊ฒ์ด๋ค.