뇌신호 기반 인공와우 청취자 맞춤 음성 분리

뇌신호 기반 인공와우 청취자 맞춤 음성 분리
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 EEG에서 추출한 주의 신호를 이용해 인공와우(CI)용 전극 신호를 직접 생성하는 뇌‑인포드 음성 분리 모델을 제안한다. 경량화된 융합 레이어와 혼합 커리큘럼 학습을 통해 주의 단서가 노이즈에 취약한 상황에서도 안정적인 SIR 향상과 전극별 시간 패턴 보존을 달성한다.

상세 분석

이 연구는 기존의 오디오‑전용 CI 전극 생성 모델이 갖는 라벨 퍼뮤테이션 문제와 청취자의 선택적 주의 정보를 활용하지 못한다는 한계를 극복하고자 한다. 기본 구조는 DeepACE 계열의 인코더‑템포럴 컨볼루션 네트워크(TCN)와 디코더를 그대로 사용하면서, EEG‑derived attention cue e(n)를 별도의 EEG 인코더를 통해 동일 차원의 특징 F_EEG으로 변환한다. 두 특징을 원소별 곱셈(element‑wise multiplication)으로 결합하는 경량 융합 레이어는 파라미터 증가를 최소화하면서도 멀티모달 상호작용을 효과적으로 구현한다. 결과적으로 마스크 M을 하나만 생성해 오디오 특징에 적용하고, 단일 attended electrodogram ˆp_att을 출력함으로써 두 출력 간의 퍼뮤테이션 불확실성을 근본적으로 제거한다.

모델 파라미터는 167 405개로, 오디오‑전용 베이스라인(171 409개)보다 약 2 % 작으며, 알고리즘 지연은 2 ms로 실시간 임플리멘테이션에 충분히 적합하다. 중요한 설계 요소는 ‘혼합 커리큘럼(Mixed Curriculum)’이다. 훈련 초기에 깨끗한 주의 단서를 사용하고, 점진적으로 가우시안 노이즈를 주입하되 매 epoch마다 깨끗한 단서(30 %), 현재 스케줄 노이즈(65 %), 그리고 임의의 중간 노이즈(5 %)를 샘플링한다. 이렇게 하면 모델이 특정 노이즈 레벨에 과적합되는 것을 방지하고, 실제 EEG‑driven 시스템에서 흔히 나타나는 신호‑대‑노이즈 비(SNR) 변동에 강인해진다.

성능 평가는 전극 도메인 SIR improvement (SIRi)와 전극별 선형 상관계수(LCC) 두 가지 지표를 사용한다. SIRi는 전체 전극에서의 에너지 감소를, LCC는 각 전극의 시간적 envelope 보존 정도를 나타낸다. 실험 결과, 이상적인 주의 단서(ρ≈1)에서는 평균 SIRi가 3 dB 이상 향상되었으며, 혼합 커리큘럼을 적용한 경우 ρ가 0.20.5 사이에서도 1.5 dB 이상의 꾸준한 이득을 보였다. 특히 LCC는 베이스라인 대비 0.050.08 정도 상승했는데, 이는 CI 사용자가 의존하는 envelope cue가 더 정확히 전달된다는 의미이다.

한계점으로는 실제 EEG 데이터를 사용하지 않고, 목표 음성의 envelope을 단순히 다운샘플링·평균화한 프록시 cue를 사용했다는 점이다. 따라서 AAD(Attention‑Decoding) 모델과의 연계, 실시간 EEG 전처리 파이프라인, 그리고 청각 손실이 있는 CI 사용자 데이터를 통한 검증이 필요하다. 향후 연구에서는 다채널 EEG와 고급 AAD를 통합하고, 하드웨어 구현을 위한 저전력 ASIC 설계까지 확장할 계획이다.


댓글 및 학술 토론

Loading comments...

의견 남기기