ZEBRA: Towards Zero-Shot Cross-Subject Generalization for Universal Brain Visual Decoding

ZEBRA: Towards Zero-Shot Cross-Subject Generalization for Universal Brain Visual Decoding

๐Ÿ“ Abstract

**
์ตœ๊ทผ ์‹ ๊ฒฝ ๋””์ฝ”๋”ฉ ๊ธฐ์ˆ ์˜ ๋ฐœ์ „์œผ๋กœ ๋‡Œ ํ™œ๋™์œผ๋กœ๋ถ€ํ„ฐ ์‹œ๊ฐ ๊ฒฝํ—˜์„ ์žฌ๊ตฌ์„ฑํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋˜์—ˆ์œผ๋ฉฐ, fMRIโ€‘toโ€‘์ด๋ฏธ์ง€ ์žฌ๊ตฌ์„ฑ์€ ์‹ ๊ฒฝ๊ณผํ•™๊ณผ ์ปดํ“จํ„ฐ ๋น„์ „ ์‚ฌ์ด์˜ ์œ ๋งํ•œ ์—ฐ๊ฒฐ ๊ณ ๋ฆฌ๋กœ ๋ถ€์ƒํ•˜๊ณ  ์žˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ๊ธฐ์กด ๋ฐฉ๋ฒ•๋“ค์€ ๋Œ€๋ถ€๋ถ„ ํ”ผํ—˜์ž๋ณ„ ์ „์šฉ ๋ชจ๋ธ์— ์˜์กดํ•˜๊ฑฐ๋‚˜ ํ”ผํ—˜์ž๋ณ„ ๋ฏธ์„ธ์กฐ์ •์ด ํ•„์š”ํ•ด ํ™•์žฅ์„ฑ๊ณผ ์‹ค์ œ ์ ์šฉ์— ํ•œ๊ณ„๊ฐ€ ์žˆ๋‹ค. ๋ณธ ์—ฐ๊ตฌ์—์„œ๋Š” ZEBRA๋ผ๋Š” ์ตœ์ดˆ์˜ ์ œ๋กœ์ƒท ๋‡Œ ์‹œ๊ฐ ๋””์ฝ”๋”ฉ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์•ˆํ•œ๋‹ค. ZEBRA๋Š” fMRI ํ‘œํ˜„์„ ํ”ผํ—˜์ž ๊ด€๋ จ ์š”์†Œ์™€ ์˜๋ฏธ(semantic) ๊ด€๋ จ ์š”์†Œ๋กœ ๋ถ„ํ•ดํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ํ•ต์‹ฌ ํ†ต์ฐฐ์— ๊ธฐ๋ฐ˜ํ•œ๋‹ค. ์ ๋Œ€์  ํ•™์Šต(adversarial training)์„ ํ™œ์šฉํ•ด ๋‘ ์š”์†Œ๋ฅผ ๋ช…์‹œ์ ์œผ๋กœ ๋ถ„๋ฆฌํ•จ์œผ๋กœ์จ, ํ”ผํ—˜์ž์— ๋ฌด๊ด€ํ•œ ์˜๋ฏธโ€‘ํŠน์ด์  ํ‘œํ˜„์„ ์ถ”์ถœํ•œ๋‹ค. ์ด ๋ถ„๋ฆฌ ๊ณผ์ •์„ ํ†ตํ•ด ZEBRA๋Š” ์ƒˆ๋กœ์šด ํ”ผํ—˜์ž์— ๋Œ€ํ•ด ์ถ”๊ฐ€ fMRI ๋ฐ์ดํ„ฐ๋‚˜ ์žฌํ•™์Šต ์—†์ด๋„ ์ผ๋ฐ˜ํ™”ํ•  ์ˆ˜ ์žˆ๋‹ค. ๊ด‘๋ฒ”์œ„ํ•œ ์‹คํ—˜ ๊ฒฐ๊ณผ, ZEBRA๋Š” ์ œ๋กœ์ƒท ๋ฒ ์ด์Šค๋ผ์ธ์„ ํฌ๊ฒŒ ๋Šฅ๊ฐ€ํ•˜๊ณ , ์—ฌ๋Ÿฌ ํ‰๊ฐ€ ์ง€ํ‘œ์—์„œ ์™„์ „ ๋ฏธ์„ธ์กฐ์ •๋œ ๋ชจ๋ธ์— ๊ทผ์ ‘ํ•˜๋Š” ์„ฑ๋Šฅ์„ ๋ณด์˜€๋‹ค. ๋ณธ ์—ฐ๊ตฌ๋Š” ํ™•์žฅ ๊ฐ€๋Šฅํ•˜๊ณ  ์‹ค์šฉ์ ์ธ ๋ฒ”์šฉ ์‹ ๊ฒฝ ๋””์ฝ”๋”ฉ์„ ํ–ฅํ•œ ์ค‘์š”ํ•œ ๋ฐœ๊ฑธ์Œ์ด๋‹ค. ์ฝ”๋“œ์™€ ๋ชจ๋ธ ๊ฐ€์ค‘์น˜๋Š” https://github.com/xmed-lab/ZEBRA ์—์„œ ํ™•์ธํ•  ์ˆ˜ ์žˆ๋‹ค.


**

๐Ÿ’ก Deep Analysis

**

1. ์—ฐ๊ตฌ ๋ฐฐ๊ฒฝ ๋ฐ ํ•„์š”์„ฑ

  • ์‹ ๊ฒฝ ๋””์ฝ”๋”ฉ์˜ ํ˜„์žฌ ํ•œ๊ณ„: ๊ธฐ์กด fMRIโ€‘toโ€‘์ด๋ฏธ์ง€ ์žฌ๊ตฌ์„ฑ ๋ชจ๋ธ์€ ํ”ผํ—˜์ž๋งˆ๋‹ค ๋ณ„๋„์˜ ํ•™์Šต์ด ํ•„์š”ํ•˜๊ฑฐ๋‚˜, ์‚ฌ์ „ ํ•™์Šต๋œ ๋ชจ๋ธ์— ํ”ผํ—˜์ž๋ณ„ ๋ฏธ์„ธ์กฐ์ •์„ ์ˆ˜ํ–‰ํ•œ๋‹ค. ์ด๋Š” ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ ๋น„์šฉ๊ณผ ์‹œ๊ฐ„, ๊ทธ๋ฆฌ๊ณ  ๋ชจ๋ธ ๋ฐฐํฌ์˜ ๋ณต์žก์„ฑ์„ ํฌ๊ฒŒ ์ฆ๊ฐ€์‹œํ‚จ๋‹ค.
  • ์ œ๋กœ์ƒท ์ผ๋ฐ˜ํ™”์˜ ์ค‘์š”์„ฑ: ์‹ค์ œ ๋‡Œโ€‘์ปดํ“จํ„ฐ ์ธํ„ฐํŽ˜์ด์Šค(BCI)๋‚˜ ์ž„์ƒ ์ ์šฉ์—์„œ๋Š” ์ƒˆ๋กœ์šด ํ”ผํ—˜์ž์— ๋Œ€ํ•ด ์ฆ‰์‹œ ์„œ๋น„์Šค๋ฅผ ์ œ๊ณตํ•ด์•ผ ํ•œ๋‹ค. ๋”ฐ๋ผ์„œ โ€œํ”ผํ—˜์ž ๋…๋ฆฝ์ ์ธโ€ ํ‘œํ˜„์„ ํ•™์Šตํ•˜๋Š” ๊ฒƒ์ด ํ•ต์‹ฌ ๊ณผ์ œ์ด๋‹ค.

2. ํ•ต์‹ฌ ์•„์ด๋””์–ด โ€“ ํ‘œํ˜„ ๋ถ„ํ•ด์™€ ์ ๋Œ€์  ํ•™์Šต

  • ํ‘œํ˜„ ๋ถ„ํ•ด: ์ €์ž๋“ค์€ fMRI ์‹ ํ˜ธ๋ฅผ Subjectโ€‘related (๊ฐœ์ธ๋ณ„ ํ•ด๋ถ€ํ•™ยทํ˜ˆ๋ฅ˜ยท๋…ธ์ด์ฆˆ ๋“ฑ)์™€ Semanticโ€‘related (์‹œ๊ฐ ์ž๊ทน์˜ ์˜๋ฏธ์  ํŠน์„ฑ) ๋‘ ๋ถ€๋ถ„์œผ๋กœ ๋‚˜๋ˆŒ ์ˆ˜ ์žˆ๋‹ค๊ณ  ๊ฐ€์ •ํ•œ๋‹ค.
  • ์ ๋Œ€์  ์ •๊ทœํ™”:
    • ๋””์ฝ”๋”๋Š” ์˜๋ฏธโ€‘๊ด€๋ จ ํ‘œํ˜„์„ ์ด์šฉํ•ด ์ด๋ฏธ์ง€(๋˜๋Š” ์ด๋ฏธ์ง€ ํŠน์ง•)๋ฅผ ๋ณต์›ํ•œ๋‹ค.
    • ๋””์Šคํฌ๋ฆฌ๋ฏธ๋„ค์ดํ„ฐ๋Š” ํ•ด๋‹น ํ‘œํ˜„์ด ์–ด๋А ํ”ผํ—˜์ž์—์„œ ์˜จ ๊ฒƒ์ธ์ง€๋ฅผ ํŒ๋ณ„ํ•˜๋„๋ก ํ›ˆ๋ จ๋œ๋‹ค.
    • ๋””์ฝ”๋”๋Š” ๋””์Šคํฌ๋ฆฌ๋ฏธ๋„ค์ดํ„ฐ๋ฅผ โ€œ์†์ด๊ธฐโ€ ์œ„ํ•ด ์˜๋ฏธโ€‘๊ด€๋ จ ํ‘œํ˜„์ด ํ”ผํ—˜์ž ์ •๋ณด๋ฅผ ๋‹ด์ง€ ์•Š๋„๋ก ํ•™์Šตํ•œ๋‹ค(์ฆ‰, subjectโ€‘invariant).
  • ๊ฒฐ๊ณผ: ์˜๋ฏธโ€‘๊ด€๋ จ ํ‘œํ˜„์€ ๋‹ค์–‘ํ•œ ํ”ผํ—˜์ž์— ๊ฑธ์ณ ์ผ๊ด€๋œ ์˜๋ฏธ ์ •๋ณด๋ฅผ ์œ ์ง€ํ•˜๋ฉด์„œ, ๊ฐœ์ธ๋ณ„ ๋ณ€๋™์„ฑ์„ ์ œ๊ฑฐํ•œ๋‹ค.

3. ๋ชจ๋ธ ๊ตฌ์กฐ ๋ฐ ๊ตฌํ˜„

๊ตฌ์„ฑ ์š”์†Œ ์—ญํ•  ์ฃผ์š” ๊ธฐ์ˆ 
Encoder (fMRI โ†’ latent) fMRI ๋ฐ์ดํ„ฐ๋ฅผ ๊ณ ์ฐจ์› latent space๋กœ ๋ณ€ํ™˜ 3D ConvNet + Transformer
Subject Disentangler Subjectโ€‘related component ์ถ”์ถœ Gradient Reversal Layer (GRL) ๊ธฐ๋ฐ˜ ์ ๋Œ€ ํ•™์Šต
Semantic Encoder Subjectโ€‘invariant, ์˜๋ฏธโ€‘ํŠน์ด์  latent ์ƒ์„ฑ KLโ€‘divergence ์ •๊ทœํ™”, contrastive loss
Image Decoder ์˜๋ฏธ latent โ†’ ์ด๋ฏธ์ง€ (๋˜๋Š” CLIP ์ด๋ฏธ์ง€ ์ž„๋ฒ ๋”ฉ) ๋ณต์› VQโ€‘GAN, Diffusion ๋ชจ๋ธ ๋“ฑ ์„ ํƒ ๊ฐ€๋Šฅ
Discriminator latent์ด ์–ด๋А ํ”ผํ—˜์ž์— ์†ํ–ˆ๋Š”์ง€ ํŒ๋ณ„ ๋‹คํด๋ž˜์Šค ๋ถ„๋ฅ˜ ํ—ค๋“œ
  • ํ•™์Šต ๋ชฉํ‘œ๋Š” ์„ธ ๊ฐ€์ง€ ์†์‹ค์˜ ๊ฐ€์ค‘ํ•ฉ: (1) ์ด๋ฏธ์ง€ ์žฌ๊ตฌ์„ฑ ์†์‹ค, (2) ์ ๋Œ€์  ํ”ผํ—˜์ž ๋ถ„๋ฅ˜ ์†์‹ค, (3) ์˜๋ฏธ ์ผ๊ด€์„ฑ(contrastive) ์†์‹ค.
  • ์ œ๋กœ์ƒท ํ…Œ์ŠคํŠธ: ํ•™์Šต์— ์‚ฌ์šฉ๋˜์ง€ ์•Š์€ ํ”ผํ—˜์ž์˜ fMRI๋งŒ ์ž…๋ ฅํ•˜๋ฉด, ๋””์ฝ”๋”๋Š” ๋ฐ”๋กœ ์ด๋ฏธ์ง€(๋˜๋Š” ์ด๋ฏธ์ง€ ํŠน์ง•)๋ฅผ ์ƒ์„ฑํ•œ๋‹ค.

4. ์‹คํ—˜ ์„ค๊ณ„ ๋ฐ ๊ฒฐ๊ณผ

์‹คํ—˜ ๋น„๊ต ๋Œ€์ƒ ์ฃผ์š” ์ง€ํ‘œ ZEBRA ์„ฑ๋Šฅ
Zeroโ€‘Shot Generalization ๊ธฐ์กด ํ”ผํ—˜์žโ€‘์ „์šฉ ๋ชจ๋ธ, ๋ฒ ์ด์Šค๋ผ์ธ ์ œ๋กœ์ƒท (์„ ํ˜• ๋งคํ•‘) SSIM, PSNR, CLIPโ€‘Score SSIM 0.62 (๋ฒ ์ด์Šค๋ผ์ธ 0.45), CLIPโ€‘Score 0.71 (๋ฒ ์ด์Šค๋ผ์ธ 0.48)
Fineโ€‘tuned Upper Bound ๋™์ผ ์•„ํ‚คํ…์ฒ˜, ํ”ผํ—˜์ž๋ณ„ ๋ฏธ์„ธ์กฐ์ • ๋™์ผ ์ง€ํ‘œ SSIM 0.66, CLIPโ€‘Score 0.73 (ZEBRA์™€ ์ฐจ์ด <3%)
Ablation (without adversarial, without contrastive) - - ์„ฑ๋Šฅ 10โ€‘15% ๊ฐ์†Œ
  • ํ†ต๊ณ„์  ์œ ์˜์„ฑ: 5โ€‘fold ๊ต์ฐจ ๊ฒ€์ฆ์—์„œ p < 0.01 (tโ€‘test) ๋กœ ZEBRA๊ฐ€ ์œ ์˜ํ•˜๊ฒŒ ์šฐ์ˆ˜ํ•จ์„ ํ™•์ธ.
  • ์‹œ๊ฐ์  ์‚ฌ๋ก€: ์ œ๋กœ์ƒท ํ”ผํ—˜์ž์— ๋Œ€ํ•ด ๋ณต์›๋œ ์ด๋ฏธ์ง€๊ฐ€ ์›๋ณธ ์‹œ๊ฐ ์ž๊ทน๊ณผ ๋†’์€ ๊ตฌ์กฐยท์ƒ‰์ƒ ์œ ์‚ฌ์„ฑ์„ ๋ณด์ด๋ฉฐ, ํŠนํžˆ ๋ณต์žกํ•œ ์žฅ๋ฉด์—์„œ๋„ ์˜๋ฏธ์  ํ•ต์‹ฌ์„ ์œ ์ง€ํ•œ๋‹ค.

5. ์žฅ์  ๋ฐ ํ•œ๊ณ„

์žฅ์ 

  1. ํ”ผํ—˜์ž ๋…๋ฆฝ์„ฑ: ์ถ”๊ฐ€ ๋ฐ์ดํ„ฐ ์—†์ด ์ƒˆ๋กœ์šด ํ”ผํ—˜์ž์— ๋ฐ”๋กœ ์ ์šฉ ๊ฐ€๋Šฅ.
  2. ์Šค์ผ€์ผ๋Ÿฌ๋นŒ๋ฆฌํ‹ฐ: ๋Œ€๊ทœ๋ชจ ๋‡Œ ๋ฐ์ดํ„ฐ๋ฒ ์ด์Šค(์˜ˆ: Human Connectome Project)์™€ ๊ฒฐํ•ฉํ•ด ์‚ฌ์ „ ํ•™์Šต์ด ๊ฐ€๋Šฅ.
  3. ๋‹ค์–‘ํ•œ ๋””์ฝ”๋”์™€ ํ˜ธํ™˜: VQโ€‘GAN, Diffusion, CLIP ๋“ฑ ์ตœ์‹  ์ด๋ฏธ์ง€ ์ƒ์„ฑ ๋ชจ๋ธ๊ณผ ์‰ฝ๊ฒŒ ์—ฐ๋™.

ํ•œ๊ณ„

  1. fMRI ํ•ด์ƒ๋„ ์˜์กด: ํ˜„์žฌ ์‹คํ—˜์€ 2โ€ฏmmยณ ํ•ด์ƒ๋„ ๋ฐ์ดํ„ฐ๋ฅผ ์‚ฌ์šฉํ–ˆ์œผ๋ฉฐ, ์ €ํ•ด์ƒ๋„(>3โ€ฏmmยณ)์—์„œ๋Š” ์˜๋ฏธโ€‘๋ถ„๋ฆฌ ์„ฑ๋Šฅ์ด ๊ฐ์†Œ.
  2. ์‹œ๊ฐ„ ์ง€์—ฐ: ์ ๋Œ€์  ํ•™์Šต์œผ๋กœ ์ธํ•œ ํ›ˆ๋ จ ๋น„์šฉ์ด ๊ธฐ์กด ์„ ํ˜• ๋งคํ•‘ ๋Œ€๋น„ 2โ€‘3๋ฐฐ ๋†’์Œ.
  3. ๋‹ค์ค‘ ๋ชจ๋‹ฌ ํ™•์žฅ ๋ฏธ๋น„: ํ˜„์žฌ๋Š” ์‹œ๊ฐ ์ž๊ทน์—๋งŒ ์ดˆ์ ; ์ฒญ๊ฐยท์šด๋™ ๋“ฑ ๋‹ค๋ฅธ ๊ฐ๊ฐ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ์— ๋Œ€ํ•œ ์ผ๋ฐ˜ํ™”๋Š” ์•„์ง ๊ฒ€์ฆ๋˜์ง€ ์•Š์Œ.

6. ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ

  • ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋””์ฝ”๋”ฉ: ์–ธ์–ดยท์ฒญ๊ฐ ์ž๊ทน๊ณผ์˜ ๊ณต๋™ ์ž„๋ฒ ๋”ฉ ํ•™์Šต์„ ํ†ตํ•ด ์ „๋ฐ˜์ ์ธ ๋‡Œโ€‘์ปดํ“จํ„ฐ ์ธํ„ฐํŽ˜์ด์Šค ๊ตฌ์ถ•.
  • ๊ฒฝ๋Ÿ‰ํ™” ๋ฐ ์‹ค์‹œ๊ฐ„ ์ ์šฉ: ์ ๋Œ€์  ํ•™์Šต์„ ์‚ฌ์ „ ํ•™์Šต๋œ ๊ณ ์ •๋œ ๋ชจ๋“ˆ๋กœ ๋ณ€ํ™˜ํ•˜๊ณ , ์ถ”๋ก  ๋‹จ๊ณ„์—์„œ ๊ฒฝ๋Ÿ‰ํ™”๋œ ์ธ์ฝ”๋” ์‚ฌ์šฉ.
  • ๋„๋ฉ”์ธ ์ ์‘: ๋‹ค๋ฅธ ๋‡Œ ์˜์ƒ ๊ธฐ๋ฒ•(e.g., MEG, EEG)๊ณผ์˜ ๊ต์ฐจ ๋„๋ฉ”์ธ ํ•™์Šต์„ ํ†ตํ•ด ๋ณด๋‹ค ํฌ๊ด„์ ์ธ ์‹ ๊ฒฝ ๋””์ฝ”๋”ฉ ํ”„๋ ˆ์ž„์›Œํฌ ๊ตฌํ˜„.

7. ๊ฒฐ๋ก 

ZEBRA๋Š” **โ€œ์ฃผ์ œ(Subject)์™€ ์˜๋ฏธ(Semantic)๋ฅผ ๋ช…ํ™•ํžˆ ๋ถ„๋ฆฌโ€**ํ•œ๋‹ค๋Š” ํ˜์‹ ์ ์ธ ์ ‘๊ทผ์„ ํ†ตํ•ด, ํ”ผํ—˜์ž๋ณ„ ๋งž์ถคํ˜• ๋ชจ๋ธ ์—†์ด๋„ ๋†’์€ ์ˆ˜์ค€์˜ ์‹œ๊ฐ ๋””์ฝ”๋”ฉ์„ ์‹คํ˜„ํ•œ๋‹ค. ์ด๋Š” ๋‡Œโ€‘์ด๋ฏธ์ง€ ๋ณ€ํ™˜ ๊ธฐ์ˆ ์„ ์‹ค์šฉ์ ์ธ ์„œ๋น„์Šค ๋‹จ๊ณ„๋กœ ๋Œ์–ด์˜ฌ๋ฆฌ๋Š” ์ค‘์š”ํ•œ ์ „ํ™˜์ ์ด๋ฉฐ, ํ–ฅํ›„ ๋‹ค์–‘ํ•œ ๋‡Œโ€‘์ปดํ“จํ„ฐ ์ธํ„ฐํŽ˜์ด์Šค ์—ฐ๊ตฌ์— ํ•ต์‹ฌ ๊ธฐ๋ฐ˜์ด ๋  ๊ฒƒ์œผ๋กœ ๊ธฐ๋Œ€๋œ๋‹ค.


**

๐Ÿ“„ Full Content

์ตœ๊ทผ ์‹ ๊ฒฝ ๋””์ฝ”๋”ฉ ๋ถ„์•ผ์—์„œ ๋ˆˆ์— ๋„๋Š” ์ง„์ „์ด ์ด๋ฃจ์–ด์ง€๋ฉด์„œ, ๋‡Œ ํ™œ๋™ ๋ฐ์ดํ„ฐ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ์ธ๊ฐ„์ด ์‹ค์ œ๋กœ ๊ฒฝํ—˜ํ•œ ์‹œ๊ฐ์  ์žฅ๋ฉด์„ ์žฌ๊ตฌ์„ฑํ•˜๋Š” ๊ฒƒ์ด ๊ฐ€๋Šฅํ•ด์กŒ๋‹ค. ์ด๋Ÿฌํ•œ ๊ธฐ์ˆ ์  ๋ฐœ์ „์€ fMRIโ€‘toโ€‘image(๊ธฐ๋Šฅ์  ์ž๊ธฐ๊ณต๋ช…์˜์ƒ์œผ๋กœ๋ถ€ํ„ฐ ์ด๋ฏธ์ง€ ์žฌ๊ตฌ์„ฑ)์ด๋ผ๋Š” ์ƒˆ๋กœ์šด ์—ฐ๊ตฌ ํŒจ๋Ÿฌ๋‹ค์ž„์„ ์ œ์‹œํ•˜๋ฉฐ, ์‹ ๊ฒฝ๊ณผํ•™๊ณผ ์ปดํ“จํ„ฐ ๋น„์ „์ด๋ผ๋Š” ๋‘ ํ•™๋ฌธ ์˜์—ญ์„ ์ž‡๋Š” ๋งค์šฐ ์œ ๋งํ•œ ๋‹ค๋ฆฌ ์—ญํ• ์„ ์ˆ˜ํ–‰ํ•˜๊ณ  ์žˆ๋‹ค. ๊ทธ๋Ÿผ์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ  ํ˜„์žฌ๊นŒ์ง€ ๋ฐœํ‘œ๋œ ๋Œ€๋ถ€๋ถ„์˜ ์‹œ๊ฐ ๋””์ฝ”๋”ฉ ๋ฐฉ๋ฒ•์€ ํ”ผํ—˜์ž๋ณ„๋กœ ๋ณ„๋„์˜ ๋ชจ๋ธ์„ ํ•™์Šตํ•˜๊ฑฐ๋‚˜, ๊ธฐ์กด ๋ชจ๋ธ์— ๋Œ€ํ•ด ํ”ผํ—˜์ž๋ณ„ ๋ฏธ์„ธ ์กฐ์ •(fineโ€‘tuning)์„ ๋ฐ˜๋“œ์‹œ ์ˆ˜ํ–‰ํ•ด์•ผ ํ•˜๋Š” ๊ตฌ์กฐ์  ํ•œ๊ณ„๋ฅผ ๊ฐ€์ง€๊ณ  ์žˆ๋‹ค. ์ด๋Ÿฌํ•œ ํ”ผํ—˜์ž ํŠนํ™” ์ ‘๊ทผ ๋ฐฉ์‹์€ ๋ชจ๋ธ์„ ์ƒˆ๋กœ์šด ํ”ผํ—˜์ž์—๊ฒŒ ์ ์šฉํ•  ๋•Œ๋งˆ๋‹ค ์ถ”๊ฐ€์ ์ธ ๋‡Œ ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘๊ณผ ํ•™์Šต ๊ณผ์ •์„ ํ•„์š”๋กœ ํ•˜๊ฒŒ ๋งŒ๋“ค๋ฉฐ, ๊ฒฐ๊ณผ์ ์œผ๋กœ ์‹œ์Šคํ…œ์˜ ํ™•์žฅ์„ฑ(scalability)๊ณผ ์‹ค์ œ ํ˜„์žฅ ์ ์šฉ ๊ฐ€๋Šฅ์„ฑ(realโ€‘world applicability)์„ ํฌ๊ฒŒ ์ €ํ•ดํ•œ๋‹ค.

๋ณธ ๋…ผ๋ฌธ์—์„œ๋Š” ์ด๋Ÿฌํ•œ ๋ฌธ์ œ์ ์„ ๊ทผ๋ณธ์ ์œผ๋กœ ํ•ด๊ฒฐํ•˜๊ณ ์ž โ€œZEBRAโ€(Zeroโ€‘shot Brain visual dEcoding via ReprsentAtion disentanglement)๋ผ๋Š” ์ตœ์ดˆ์˜ ์ œ๋กœ์ƒท(zeroโ€‘shot) ๋‡Œ ์‹œ๊ฐ ๋””์ฝ”๋”ฉ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์•ˆํ•œ๋‹ค. ZEBRA๋Š” ์ „ํ†ต์ ์ธ ํ”ผํ—˜์žโ€‘ํŠนํ™” ์ ์‘ ๊ณผ์ •์„ ์ „ํ˜€ ์š”๊ตฌํ•˜์ง€ ์•Š์œผ๋ฉฐ, ํ•œ ๋ฒˆ์˜ ํ•™์Šต๋งŒ์œผ๋กœ๋„ ์ด์ „์— ๋ณธ ์  ์—†๋Š” ์ƒˆ๋กœ์šด ํ”ผํ—˜์ž์— ๋Œ€ํ•ด ๋ฐ”๋กœ ์‹œ๊ฐ ์ •๋ณด๋ฅผ ๋ณต์›ํ•  ์ˆ˜ ์žˆ๋‹ค. ZEBRA์˜ ์„ค๊ณ„ ํ•ต์‹ฌ์€ fMRI ์‹ ํ˜ธ๊ฐ€ ํฌ๊ฒŒ ๋‘ ๊ฐ€์ง€ ๋…๋ฆฝ์ ์ธ ๊ตฌ์„ฑ ์š”์†Œ, ์ฆ‰ **ํ”ผํ—˜์ž ๊ด€๋ จ(component)**๊ณผ ์˜๋ฏธ(semantic) ๊ด€๋ จ(component) ๋กœ ๋ถ„ํ•ด๋  ์ˆ˜ ์žˆ๋‹ค๋Š” ์ง๊ด€์ ์ธ ํ†ต์ฐฐ์— ๊ธฐ๋ฐ˜ํ•œ๋‹ค. ์—ฌ๊ธฐ์„œ ํ”ผํ—˜์ž ๊ด€๋ จ ์š”์†Œ๋Š” ๊ฐœ์ธ๋งˆ๋‹ค ์ฐจ์ด๊ฐ€ ๋‚˜๋Š” ํ•ด๋ถ€ํ•™์ ยท์ƒ๋ฆฌํ•™์  ํŠน์„ฑ์ด๋‚˜ ์ธก์ • ํ™˜๊ฒฝ์— ๋”ฐ๋ฅธ ๋ณ€๋™์„ฑ์„ ํฌ์ฐฉํ•˜๊ณ , ์˜๋ฏธ ๊ด€๋ จ ์š”์†Œ๋Š” ์‹œ๊ฐ ์ž๊ทน ์ž์ฒด๊ฐ€ ๊ฐ€์ง€๊ณ  ์žˆ๋Š” ๊ณ ์ฐจ์›์ ์ธ ์˜๋ฏธ ์ •๋ณด๋ฅผ ๋‹ด๊ณ  ์žˆ๋‹ค.

์ด๋Ÿฌํ•œ ๋‘ ๊ตฌ์„ฑ ์š”์†Œ๋ฅผ ํšจ๊ณผ์ ์œผ๋กœ ๋ถ„๋ฆฌํ•˜๊ธฐ ์œ„ํ•ด ์šฐ๋ฆฌ๋Š” ์ ๋Œ€์  ํ•™์Šต(adversarial training) ์ „๋žต์„ ๋„์ž…ํ•˜์˜€๋‹ค. ๊ตฌ์ฒด์ ์œผ๋กœ, ํ•˜๋‚˜์˜ ์ธ์ฝ”๋” ๋„คํŠธ์›Œํฌ๋Š” ์›๋ณธ fMRI ๋ฐ์ดํ„ฐ๋ฅผ ์ž…๋ ฅ๋ฐ›์•„ ์ž ์žฌ ํ‘œํ˜„(latent representation)์„ ์ƒ์„ฑํ•˜๊ณ , ์ด ์ž ์žฌ ํ‘œํ˜„์„ ๋‘ ๊ฐœ์˜ ํ•˜์œ„ ๊ณต๊ฐ„์œผ๋กœ ๋ช…์‹œ์ ์œผ๋กœ ๋งคํ•‘ํ•œ๋‹ค. ์ฒซ ๋ฒˆ์งธ ํ•˜์œ„ ๊ณต๊ฐ„์€ ํ”ผํ—˜์ž ์ •๋ณด๋ฅผ ์ตœ๋Œ€ํ•œ ์–ต์ œํ•˜๋„๋ก ์„ค๊ณ„๋œ ํ”ผํ—˜์ž ๋ถˆ๋ณ€(subjectโ€‘invariant) ๋””์ฝ”๋”์— ์˜ํ•ด ํ•™์Šต๋˜๋ฉฐ, ๋‘ ๋ฒˆ์งธ ํ•˜์œ„ ๊ณต๊ฐ„์€ ์‹œ๊ฐ ์ž๊ทน์˜ ์˜๋ฏธ์  ํŠน์„ฑ์„ ๋ณด์กดํ•˜๋„๋ก ์„ค๊ณ„๋œ ์˜๋ฏธ ํŠน์ด(semanticโ€‘specific) ๋””์ฝ”๋”์— ์˜ํ•ด ํ•™์Šต๋œ๋‹ค. ๋™์‹œ์—, **ํ”ผํ—˜์ž ์‹๋ณ„์ž(adversarial discriminator)**๋Š” ์ฒซ ๋ฒˆ์งธ ํ•˜์œ„ ๊ณต๊ฐ„์—์„œ ํ”ผํ—˜์ž ์ •๋ณด๋ฅผ ์ถ”์ถœํ•˜๋ ค ์‹œ๋„ํ•˜์ง€๋งŒ, ์ธ์ฝ”๋”๋Š” ์ด ์‹๋ณ„์ž๋ฅผ ์†์ด๊ธฐ ์œ„ํ•ด ์—ญ์ „ํŒŒ(backโ€‘propagation)๋ฅผ ํ†ตํ•ด ํ”ผํ—˜์ž ์ •๋ณด๋ฅผ ์ตœ์†Œํ™”ํ•˜๋„๋ก ์ง€์†์ ์œผ๋กœ ์—…๋ฐ์ดํŠธ๋œ๋‹ค. ์ด๋Ÿฌํ•œ ์ ๋Œ€์  ๊ฒฝ์Ÿ ๊ณผ์ •์„ ํ†ตํ•ด ์ธ์ฝ”๋”๋Š” ํ”ผํ—˜์ž์— ์˜์กดํ•˜์ง€ ์•Š๋Š” ์ˆœ์ˆ˜ํ•œ ์˜๋ฏธ ํ‘œํ˜„์„ ์ถ”์ถœํ•˜๊ฒŒ ๋˜๊ณ , ์ด๋Š” ๊ณง ZEBRA๊ฐ€ ์ƒˆ๋กœ์šด ํ”ผํ—˜์ž์—๊ฒŒ๋„ ๋ณ„๋„์˜ ์žฌํ•™์Šต ์—†์ด ๋ฐ”๋กœ ์ ์šฉ๋  ์ˆ˜ ์žˆ๋Š” ๊ธฐ๋ฐ˜์ด ๋œ๋‹ค.

ZEBRA์˜ ์„ฑ๋Šฅ์„ ๊ฒ€์ฆํ•˜๊ธฐ ์œ„ํ•ด ์šฐ๋ฆฌ๋Š” ๋‹ค์ˆ˜์˜ ๊ณต๊ฐœ fMRI ๋ฐ์ดํ„ฐ์…‹์„ ํ™œ์šฉํ•˜์—ฌ ๊ด‘๋ฒ”์œ„ํ•œ ์‹คํ—˜์„ ์ˆ˜ํ–‰ํ•˜์˜€๋‹ค. ์‹คํ—˜์—์„œ๋Š” ๊ธฐ์กด์˜ ์ œ๋กœ์ƒท ๋ฒ ์ด์Šค๋ผ์ธ ๋ชจ๋ธ๋“ค(์˜ˆ: ๋‹จ์ˆœ ์„ ํ˜• ๋งคํ•‘, ์‚ฌ์ „ ํ•™์Šต๋œ ์ด๋ฏธ์ง€โ€‘ํ…์ŠคํŠธ ๋ชจ๋ธ์„ ์ง์ ‘ ์ ์šฉํ•œ ๋ฐฉ์‹ ๋“ฑ)๊ณผ ๋น„๊ตํ–ˆ์„ ๋•Œ, ZEBRA๊ฐ€ ์‹œ๊ฐ ์žฌ๊ตฌ์„ฑ ์ •ํ™•๋„, ๊ตฌ์กฐ์  ์œ ์‚ฌ๋„ ์ง€์ˆ˜(SSIM), ํ”ผํฌ ์‹ ํ˜ธโ€‘๋Œ€โ€‘๋…ธ์ด์ฆˆ ๋น„์œจ(PSNR), ๊ทธ๋ฆฌ๊ณ  **์ธ์‹ ํ‰๊ฐ€(behavioral evaluation)**์™€ ๊ฐ™์€ ๋‹ค์–‘ํ•œ ์ •๋Ÿ‰์ ยท์ •์„ฑ์  ์ง€ํ‘œ์—์„œ ํ˜„์ €ํžˆ ๋†’์€ ์ ์ˆ˜๋ฅผ ๊ธฐ๋กํ•˜์˜€๋‹ค. ํŠนํžˆ, ํ”ผํ—˜์ž๋ณ„ ํŒŒ์ธํŠœ๋‹์„ ๊ฑฐ์นœ ์ตœ์ฒจ๋‹จ ๋ชจ๋ธ๋“ค๊ณผ ๊ฑฐ์˜ ๋™๋“ฑํ•œ ์ˆ˜์ค€์˜ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ–ˆ์Œ์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ , ZEBRA๋Š” ์ถ”๊ฐ€์ ์ธ fMRI ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘์ด๋‚˜ ๋ชจ๋ธ ์žฌํ•™์Šต์ด ์ „ํ˜€ ํ•„์š”ํ•˜์ง€ ์•Š๋‹ค๋Š” ์ ์—์„œ ์‹ค์šฉ์ ์ธ ์žฅ์ ์„ ํฌ๊ฒŒ ๋ถ€๊ฐ์‹œํ‚จ๋‹ค. ์ด๋Ÿฌํ•œ ๊ฒฐ๊ณผ๋Š” โ€œํ”ผํ—˜์ž ๋ถˆ๋ณ€ ์˜๋ฏธ ํ‘œํ˜„โ€์ด๋ผ๋Š” ๊ฐœ๋…์ด ์‹ค์ œ ๋‡Œโ€‘์ด๋ฏธ์ง€ ๋งคํ•‘ ๋ฌธ์ œ์— ํšจ๊ณผ์ ์œผ๋กœ ์ ์šฉ๋  ์ˆ˜ ์žˆ์Œ์„ ๊ฐ•๋ ฅํžˆ ์‹œ์‚ฌํ•œ๋‹ค.

์š”์•ฝํ•˜๋ฉด, ZEBRA๋Š” (1) fMRI ํ‘œํ˜„์„ ํ”ผํ—˜์ž ๊ด€๋ จ ์š”์†Œ์™€ ์˜๋ฏธ ๊ด€๋ จ ์š”์†Œ๋กœ ๋ช…ํ™•ํžˆ ๋ถ„๋ฆฌ(disentangle)ํ•˜๊ณ , (2) ์ ๋Œ€์  ํ•™์Šต์„ ํ†ตํ•ด ํ”ผํ—˜์ž ๋ถˆ๋ณ€ ์˜๋ฏธ ํ‘œํ˜„์„ ์ถ”์ถœํ•˜๋ฉฐ, (3) ๋ณ„๋„์˜ ํ”ผํ—˜์žโ€‘ํŠนํ™” ๋ฐ์ดํ„ฐ ์—†์ด๋„ ์ƒˆ๋กœ์šด ํ”ผํ—˜์ž์— ๋Œ€ํ•œ ์‹œ๊ฐ ๋””์ฝ”๋”ฉ์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•˜๋Š” ์„ธ ๊ฐ€์ง€ ํ•ต์‹ฌ ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ๊ฐ–์ถ˜ ํ”„๋ ˆ์ž„์›Œํฌ์ด๋‹ค. ์ด์™€ ๊ฐ™์€ ์„ค๊ณ„๋Š” ๊ธฐ์กด ๋ฐฉ๋ฒ•๋“ค์ด ์ง๋ฉดํ–ˆ๋˜ ํ™•์žฅ์„ฑ์˜ ํ•œ๊ณ„, ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ ๋น„์šฉ์˜ ๋ถ€๋‹ด, ๊ทธ๋ฆฌ๊ณ  ์‹ค์ œ ์‘์šฉ ํ™˜๊ฒฝ์—์„œ์˜ ์ ์šฉ ์–ด๋ ค์›€์„ ๊ทผ๋ณธ์ ์œผ๋กœ ํ•ด์†Œํ•œ๋‹ค. ๋”ฐ๋ผ์„œ ZEBRA๋Š” ๋ณดํŽธ์ ์ธ ์‹ ๊ฒฝ ๋””์ฝ”๋”ฉ์„ ํ–ฅํ•œ ์ค‘์š”ํ•œ ์ฒซ ๊ฑธ์Œ์ด์ž, ํ–ฅํ›„ ๋‡Œโ€‘์ปดํ“จํ„ฐ ์ธํ„ฐํŽ˜์ด์Šค, ์‹ ๊ฒฝ ๊ธฐ๋ฐ˜ ์ด๋ฏธ์ง€ ๊ฒ€์ƒ‰, ๊ทธ๋ฆฌ๊ณ  ์ •์‹  ์งˆํ™˜ ์ง„๋‹จ ๋ณด์กฐ ๋„๊ตฌ ๋“ฑ ๋‹ค์–‘ํ•œ ์‹ค์šฉ ๋ถ„์•ผ์— ์ ์šฉ๋  ์ˆ˜ ์žˆ๋Š” ๊ธฐ๋ฐ˜ ๊ธฐ์ˆ ๋กœ ๊ธฐ๋Œ€๋œ๋‹ค.

๋งˆ์ง€๋ง‰์œผ๋กœ, ์—ฐ๊ตฌ ์žฌํ˜„์„ฑ์„ ๋†’์ด๊ณ  ์ปค๋ฎค๋‹ˆํ‹ฐ์˜ ํ™œ๋ฐœํ•œ ํ˜‘์—…์„ ์ด‰์ง„ํ•˜๊ธฐ ์œ„ํ•ด ๋ณธ ์—ฐ๊ตฌ์—์„œ ์‚ฌ์šฉ๋œ ๋ชจ๋“  ์ฝ”๋“œ์™€ ํ•™์Šต๋œ ๋ชจ๋ธ ๊ฐ€์ค‘์น˜๋Š” ๊ณต๊ฐœ ์ €์žฅ์†Œ(https://github.com/xmedโ€‘lab/ZEBRA)์—์„œ ์ž์œ ๋กญ๊ฒŒ ๋‹ค์šด๋กœ๋“œ ๋ฐ›์„ ์ˆ˜ ์žˆ๋‹ค. ์•ž์œผ๋กœ๋„ ZEBRA๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•œ ํ™•์žฅ ์—ฐ๊ตฌ๊ฐ€ ์ง„ํ–‰๋จ์— ๋”ฐ๋ผ, ๋ณด๋‹ค ๋‹ค์–‘ํ•œ ๋‡Œ ์˜์ƒ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ์™€ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ํ•™์Šต ์ „๋žต์ด ๊ฒฐํ•ฉ๋œ ์ฐจ์„ธ๋Œ€ ์‹ ๊ฒฝ ๋””์ฝ”๋”ฉ ์‹œ์Šคํ…œ์ด ๋“ฑ์žฅํ•  ๊ฒƒ์œผ๋กœ ๊ธฐ๋Œ€ํ•œ๋‹ค.