대조 피어슨 상관 손실을 이용한 EEG 말소리 엔벨프 복원
초록
본 연구는 EEG 신호로부터 청취자가 집중한 말소리의 엔벨프를 복원하는 기존 DNN 모델이 attended PCC만을 최적화함으로써 unattended 스피커와의 구분이 약해지는 문제를 해결하고자, attended PCC와 unattended PCC 차이를 직접 최대화하는 contrastive PCC 손실(L ΔPCC)을 제안한다. KUL, DTU, KUL‑AV‑GC 세 공개 데이터셋과 VLAAI, LSM‑CNN, EEG‑Mamba, EEG‑Deformer 네 모델에 적용한 결과, 대부분의 경우 디코딩 정확도와 PCC 차이가 향상되었으며, 데이터·모델에 따라 성능 저하 사례도 관찰되었다.
상세 분석
이 논문은 EEG 기반 청각주의 디코딩(Auditory Attention Decoding, AAD)에서 핵심적인 회귀 목표 함수를 재검토한다. 기존 연구들은 재구성된 엔벨프와 청취자가 집중한(Attended) 스피커의 엔벨프 사이의 피어슨 상관계수(PCC)를 최대화하는 L_PCC = −ρ_a를 사용했지만, 이는 모델이 attended와 unattended 양쪽 스피커의 특성을 동시에 학습하게 하여 두 PCC 사이의 차이(ΔPCC)가 충분히 커지지 않을 위험이 있다. 저자는 이를 보완하기 위해 L_ΔPCC = −ρ_a + (1/(N‑1))∑_j ρ_u,j 형태의 대조 손실을 설계했으며, 여기서 ρ_u,j는 각 unattended 스피커와의 PCC이다. 단순히 −ρ_a + ∑ρ_u,j 형태는 모든 상관을 음수로 만들면 손실이 감소하는 비정상적인 최적화 경로를 제공하므로, 평균값을 사용해 균형을 맞추었다.
실험은 64채널 EEG를 1–32 Hz 대역으로 필터링하고 128 Hz로 재샘플링한 뒤, ERB 필터뱅크 기반의 17 sub‑band 엔벨프를 합성해 목표 신호를 만든다. 세 데이터셋(KUL, DTU, KUL‑AV‑GC)은 모두 두 명의 스피커가 ±60~90°에서 동시에 재생되는 상황을 포함한다. 네 가지 DNN 구조는 (1) 1‑D CNN 기반 VLAAI, (2) 공간 매핑을 포함한 LSM‑CNN, (3) 상태공간‑Mamba와 멀티‑헤드 어텐션을 결합한 EEG‑Mamba, (4) 하이브리드 CNN‑Transformer인 EEG‑Deformer이다. 각 모델을 L_PCC와 L_ΔPCC 두 손실로 각각 학습시켜 4‑fold leave‑one‑trial‑out 교차검증을 수행하였다.
결과는 두 가지 주요 지표로 보고된다. 첫째, 디코딩 정확도(Attended PCC > Unattended PCC 비율)이며, 둘째는 ΔPCC 자체의 크기다. 전체적으로 L_ΔPCC를 사용한 모델은 정확도가 평균 2–4 %p 상승하고, ΔPCC는 평균 17.8 % 향상되었다. 특히 VLAAI과 LSM‑CNN은 긴 윈도우(10 s)에서 가장 큰 개선을 보였으며, ΔPCC와 정확도 사이의 상관관계(R² > 0.5)가 강하게 나타났다. 반면 EEG‑Mamba는 DTU 데이터셋에서 L_ΔPCC 적용 시 정확도가 소폭 감소하는 등, 손실 함수의 효과가 데이터·모델 특성에 민감함을 보여준다. 저자는 이러한 현상을 모델이 unattended 스피커와의 상관을 억제하는 과정에서 과도한 정규화가 발생하거나, 윈도우 길이에 따라 신호‑대‑노이즈 비율이 변동하기 때문으로 해석한다.
이 논문은 회귀 손실 설계가 AAD 성능에 미치는 영향을 정량적으로 입증함으로써, 향후 연구가 단순히 attended PCC를 높이는 것이 아니라, attended와 unattended 사이의 대비를 명시적으로 강화하는 목표 함수를 고려해야 함을 강조한다. 또한, 데이터·모델 다양성을 반영한 손실 함수 튜닝이 필요함을 시사한다.
댓글 및 학술 토론
Loading comments...
의견 남기기