다중모달 가우시안 프로세스 변분 오토인코더로 신경·행동 데이터 연결
초록
본 논문은 신경 스파이크와 행동 영상 등 서로 다른 시계열 데이터를 동시에 모델링하기 위해, 공유와 개별 잠재 변수를 구분하고 시간적 연속성을 가우시안 프로세스로 제약한 다중모달 GP‑VAE(MM‑GPVAE)를 제안한다. 잠재 공간을 푸리에 도메인으로 파라미터화해 효율성을 높였으며, 시뮬레이션과 실제 파리 뇌칼슘·지표, 나비 근전 데이터에서 공유·독립 잠재를 정확히 복원하고 재구성 성능을 입증한다.
상세 분석
MM‑GPVAE는 기존 GPFA와 GP‑VAE의 장점을 결합한 새로운 잠재 변수 모델이다. 먼저 신경 데이터(스파이크 혹은 칼슘 영상)는 선형 매핑을 통해 잠재 변수와 연결되며, 이는 GPFA와 동일하게 가우시안 프로세스(GP) 사전분포를 갖는다. 반면 행동 데이터(이미지, 관절 좌표 등)는 비선형 디코더 네트워크를 통해 잠재와 연결되어 GP‑VAE의 표현력을 활용한다. 핵심 설계는 잠재 변수를 시간 도메인이 아닌 푸리에 도메인에서 파라미터화한다는 점이다. 푸리에 변환 행렬 B를 이용해 K= BᵀKB 형태로 공분산을 대각화함으로써 행렬 역연산 비용을 크게 줄이고, 고주파 성분을 프루닝하여 변동성을 부드럽게 제어한다. 이는 특히 고차원 이미지 시퀀스에서 GP‑VAE가 겪는 과적합과 학습 불안정을 완화한다. 모델은 공유 잠재 z_S와 각 모달리티 전용 잠재 z_A, z_B를 정의하고, 로딩 행렬 W_A, W_B를 통해 선형 결합 후 각각 비선형(신경)과 딥 디코더(행동)로 매핑한다. ELBO는 포아송 로그우도(신경)와 가우시안 로그우도(행동), GP 사전, 변분 엔트로피를 포함한다. 학습은 표준 변분 오토인코더 방식으로, 인코더가 전체 시퀀스를 입력받아 푸리에 평균·분산을 추정한다. 실험에서는 (1) 회전·스케일 변화를 갖는 MNIST와 포아송 스파이크를 이용한 시뮬레이션에서 푸리에 기반 모델이 실제 잠재 각도를 높은 정확도로 복원하고, (2) 파리 전체뇌 칼슘 영상과 16개의 사지 위치 데이터를 동시에 분석해 행동 조건을 공유·독립 잠재에 명확히 분리했으며, (3) 나비 10개 근육 스파이크와 시각 자극을 동시에 모델링해 근육 활동과 자극 변화를 시간에 따라 구분된 잠재로 추출했다. 전반적으로 MM‑GPVAE는 다중모달 신경·행동 데이터에서 시간적 연속성을 보존하면서 해석 가능한 잠재 구조를 제공한다. 다만 푸리에 프루닝 파라미터 선택과 GP 하이퍼파라미터 튜닝이 데이터마다 민감할 수 있으며, 비선형 디코더 설계가 특정 행동 모달리티에 따라 달라야 하는 점이 향후 과제로 남는다.
댓글 및 학술 토론
Loading comments...
의견 남기기