뇌파 기반 고충실도 시각 디코딩을 위한 다중모달 비대칭 정렬

뇌파 기반 고충실도 시각 디코딩을 위한 다중모달 비대칭 정렬
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 EEG/MEG 신호와 이미지, 텍스트, 깊이, 에지 등 4가지 시각·언어 모달리티를 결합한 CognitionCapturerPro 프레임워크를 제안한다. 불확실성 가중 마스킹으로 뇌‑이미지 간 피델리티 손실을 정량화하고, 교차‑모달 트랜스포머 기반 Fusion Encoder로 공유·개별 정보를 융합한다. 간소화된 Shared‑Trunk‑Heads Alignment 모듈을 통해 다중 임베딩을 하나의 이미지 임베딩 공간에 정렬하고, 사전 학습된 SDXL‑Turbo diffusion 모델에 IP‑Adapter를 삽입해 고품질 이미지를 생성한다. THINGS‑EEG 데이터셋에서 Top‑1 정확도가 25.9%, Top‑5 정확도가 10.6% 향상되었으며, MEG 실험 및 신경과학적 분석도 수행하였다.

상세 분석

CognitionCapturerPro는 기존 CognitionCapturer가 제시한 ‘표현 이동(Representational Shift)’ 문제를 다중모달 확장으로 해결한 뒤, ‘피델리티 손실(Fidelity Loss)’을 정량화·보정하는 새로운 모듈을 도입한다. 핵심은 Uncertainty‑Weighted Masking(UM)이다. 인간의 중심 시야(Foveated Vision)를 모방해 이미지 주변부에 가변 블러를 적용하고, 현재 배치의 EEG‑이미지 정합 점수를 기반으로 블러 강도를 동적으로 조절한다. 이때 EMA 기반 메모리 뱅크를 사용해 점수의 평균·표준편차를 추정하고, 하드 샘플은 블러를 감소시켜 세부 정보를 강조하고, 이지 샘플은 블러를 증가시켜 과적합을 방지한다. 이러한 불확실성‑가중 마스킹은 학습 과정에서 뇌 신호와 시각 정보 간의 불일치를 완화하고, 모델이 핵심 영역에 집중하도록 유도한다.

다음 단계는 Modality Expert Encoder와 Fusion Encoder이다. EEG, 텍스트, 깊이, 에지 각각에 전용 인코더를 배치해 모달리티 고유의 특성을 보존한다. 특히 EEG 인코더는 채널‑시간 축에 self‑attention을 적용한 뒤, depthwise separable convolution을 통해 시간적 흐름을 포착한다. 이렇게 얻어진 네 개의 임베딩은 학습 가능한 모달리티 토큰과 함께 교차‑모달 트랜스포머에 입력되어, 각 모달리티 간 상호작용을 촉진하고 통합 표현 z_f 를 생성한다.

정렬 단계에서는 Shared‑Trunk‑Heads Alignment(STH‑Align) 구조가 핵심 역할을 한다. 복잡한 diffusion prior 대신 가벼운 MLP 기반 트렁크를 사용해 모든 모달리티 임베딩을 하나의 이미지 임베딩 공간으로 매핑한다. 각 모달리티마다 별도의 projection head를 두어, 공유 트렁크에서 추출된 공통 특징과 모달리티‑특이 정보를 효과적으로 결합한다. 이 설계는 파라미터 수를 크게 줄이면서도 정렬 정확도를 향상시킨다.

마지막으로 정렬된 이미지 임베딩은 사전 학습된 SDXL‑Turbo diffusion 모델에 IP‑Adapter를 통해 조건부 입력으로 제공된다. IP‑Adapter는 이미지, 깊이, 에지 등 여러 브랜치를 갖추어, 생성 과정에서 각 모달리티의 구조·텍스처 정보를 보강한다. 결과적으로 뇌 신호가 암시하는 의미적 일관성과 시각적 세부 사항을 동시에 만족하는 고해상도 이미지를 복원한다.

실험에서는 THINGS‑EEG 데이터셋(16,740 이미지, 1,854 개념)과 MEG 데이터에 대해 Zero‑Shot 이미지 검색 및 재구성 성능을 평가했다. 기존 CognitionCapturer 대비 Top‑1 정확도가 25.9% 상승하고, Top‑5 정확도가 10.6% 개선되었으며, SSIM·LPIPS 등 이미지 품질 지표에서도 유의미한 향상이 관찰되었다. 또한, Representational Similarity Analysis(RSA)를 통해 임베딩 공간이 객체 카테고리별로 명확히 군집화되는 것을 확인했고, 뇌파의 시간‑주파수 분석 결과는 인간의 시각·연관 기억 메커니즘과 일치함을 보여, 신경과학적 타당성을 뒷받침한다.

요약하면, CognitionCapturerPro는 (1) 불확실성 기반 피델리티 보정, (2) 모달리티 별 전문가 인코더와 교차‑모달 융합, (3) 경량화된 공유 트렁크 정렬, (4) diffusion 기반 고품질 이미지 생성이라는 네 가지 혁신 요소를 결합해, 제한된 뇌 데이터 환경에서도 시각 디코딩의 정확도와 재현성을 크게 끌어올렸다.


댓글 및 학술 토론

Loading comments...

의견 남기기