뇌 신호와 계층적 시각 임베딩을 통한 시각 표현 학습

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 EEG·MEG 등 뇌 신호와 다중 사전학습 시각 인코더(클래스 토큰 기반 CLIP, VAE 등)를 결합해 계층적·다중스케일 시각 임베딩을 만든 뒤, 대비학습(contrastive learning)으로 뇌 임베딩을 정렬한다. 또한 대규모 이미지 데이터에 사전학습된 Fusion Prior를 도입해 뇌 임베딩을 안정적인 diffusion 조건으로 매핑함으로써 이미지 검색 정확도와 재구성 품질을 동시에 향상시킨다.

상세 분석

이 연구는 뇌-시각 정렬 문제를 두 단계로 구조화한다. 첫 단계에서는 K = 3개의 사전학습 시각 인코더를 활용한다. 두 개는 CLIP‑ViT·CLIP‑ResNet과 같이 고수준 의미 정보를 제공하는 글로벌 토큰을 추출하고, 나머지 하나는 VAE를 이용해 H/8 × W/8 × 4 차원의 로컬 픽셀 레벨 잠재를 얻어 저수준 색·텍스처 정보를 보존한다. 각 인코더 출력 z⁽ᵏ⁾ᵥ는 선형 변환 W⁽ᵏ⁾ᵥ를 거쳐 동일 차원 d = 1024 로 정렬된 뒤, 잔차 MLP(두 층, GELU, hidden = 1024)와 LayerNorm을 통해 z_f = LN( ∑ₖ z⁽ᵏ⁾ᵥW⁽ᵏ⁾ᵥ + ϕ_v(·) ) 로 융합된다.

뇌 측면에서는 전처리된 EEG/MEG 시계열 x_b를 일차원화하고, 선형 매핑 W_b (C·T → d)와 동일 구조의 MLP(ϕ_b)로 z_b를 생성한다. 정렬은 대칭 InfoNCE 손실 L_contrastive 로 수행되며, 온도 τ는 학습 초기에 0.07로 초기화한다. 이때 cosine similarity를 로그 확률로 변환해 양방향(뇌→시각, 시각→뇌) 정렬을 동시에 최적화한다.

두 번째 단계는 Fusion Prior 를 구축하는 것이다. 대규모 이미지 데이터셋에 대해, 고정된 SDXL UNet(텍스트 프롬프트 비활성화) 위에 IP‑Adapter(교차‑Attention)와 추가 MLP(ϕ_c, hidden = 4096)를 연결한다. fused visual embedding z_f 를 z_c = z_f + ϕ_c(z_f) 로 변환한 뒤, UNet에 주입해 노이즈 예측 손실 L_prior = ‖ε − δ(x_t, t, z_c)‖² 를 최소화한다. 여기서 UNet 가중치는 고정하고, HVF·ϕ_c·IP‑Adapter 만 학습한다. 결과적으로 시각 임베딩이 diffusion 모델이 기대하는 분포와 일치하도록 사전학습된 매핑이 확보된다.

학습이 완료된 Fusion Prior 를 고정하고, 뇌 인코더만 대비학습(L_contrastive)으로 정렬하면, 뇌 임베딩은 사전학습된 z_f 공간에 직접 매핑된다. 따라서 추론 시 z_b → z_f → z_c → UNet 순서로 흐르면, 불안정한 조건부 입력 없이 고품질 이미지를 생성할 수 있다.

핵심 기여는 (1) 고수준 의미와 저수준 픽셀 정보를 동시에 포괄하는 다중 인코더 기반 계층적 시각 융합 구조, (2) 뇌‑시각 정렬에 대비학습을 적용해 잡음이 많은 뇌 데이터에서도 강건한 임베딩을 학습, (3) 대규모 이미지 데이터에 사전학습된 Fusion Prior 로 뇌‑시각 정렬 결과를 diffusion 모델에 직접 연결함으로써 재구성 품질과 검색 정확도 사이의 트레이드오프를 최소화한 점이다. 실험 결과는 zero‑shot 이미지 검색에서 기존 CLIP‑기반 방법을 크게 앞서며, fMRI·EEG·MEG 모두에서 시각 재구성 시 세부 디테일과 의미 일관성을 동시에 달성함을 보여준다.

뇌 신호와 계층적 시각 임베딩을 통한 시각 표현 학습

초록

상세 분석

댓글 및 학술 토론

의견 남기기