EMG 채널 감소에도 강인한 무음 말하기 시스템 설계
초록
본 연구는 8채널 표면 근전도(EMG) 데이터를 이용한 무음 말하기 시스템에서, 개별 및 조합 채널의 중요성을 체계적으로 분석한다. 뒤로 제거(greedy backward elimination)와 4채널 전수조합 평가를 통해 특정 채널이 독립적으로는 중요하지만, 상호 보완적인 관계가 성능을 좌우함을 확인했다. 또한 7채널 상황에서 각 채널이 담당하는 음소군을 분석해 근육 해부학적 역할과 연결시켰다. 마지막으로, 전체 8채널로 사전학습한 모델에 무작위 채널 드롭아웃을 적용하고, 이를 제한된 채널에 대해 미세조정(fine‑tuning)하면 4~6채널 환경에서 처음부터 학습한 모델보다 일관되게 낮은 WER을 달성한다. 이러한 결과는 센서 수를 줄이면서도 실용적인 무음 말하기 인터페이스를 구현할 수 있음을 시사한다.
상세 분석
본 논문은 무음 말하기(silent speech) 분야에서 가장 널리 사용되는 Gaddy 데이터셋(8채널, 단일 화자)과 그 기반 트랜스포머‑기반 EMG‑to‑speech 파이프라인을 그대로 채택하고, 채널 수 감소가 성능에 미치는 영향을 다각도로 탐구한다. 첫 번째 실험인 ‘Backward Elimination’에서는 8채널 전체에서 시작해 매 단계 가장 성능 저하가 적은 채널을 제거하는 그리디 방식을 적용하였다. 결과적으로 채널 6→7→8→5→4→1 순으로 제거되었으며, 최종 남은 채널 2와 3이 가장 핵심적인 역할을 함을 보여준다. 흥미롭게도, 채널 3을 단독으로 남겼을 때 WER이 100%를 초과해 의미 있는 음성 재구성이 불가능했으며, 이는 단일 채널만으로는 근전도 신호가 충분히 풍부하지 않음을 의미한다.
두 번째 실험에서는 8채널 중 4채널을 선택하는 모든 70가지 조합을 전수 평가하였다. 여기서 발견된 핵심 인사이트는 ‘채널 상호 보완성’이다. 예를 들어, 채널 2가 제외된 경우 채널 5 혹은 6이 대체 역할을 자주 수행했으며, 채널 1이 빠질 때는 채널 7이 자주 등장한다. 이는 얼굴·목 근육의 공간적 분포가 서로 다른 근전도 패턴을 포착해, 특정 근육군이 손실될 때 다른 부위의 신호가 이를 보완한다는 해부학적 근거와 일치한다. 또한, 그리디 방식에서 가장 중요하다고 판단된 채널 2가 일부 최상위 4채널 조합에서는 전혀 포함되지 않았는데, 이는 그리디 탐색이 전역 최적을 보장하지 못함을 보여준다.
세 번째 실험은 7채널 상황에서 각 채널을 하나씩 제거했을 때의 phoneme error rate(PER)를 분석한 것이다. 채널 8(후방 대악근 근처)이 제거되면 양순음(bilabial)과 중앙 모음, 무음 구간의 인식이 크게 악화된다. 채널 7(광대근 근처)은 고전방 모음에 민감하고, 채널 3(흉쇄골근 근처)은 무성 마찰음 및 저음 모음에 영향을 준다. 채널 2(입꼬리 하강근)는 입술·치아 사이의 마찰음(labiodental)에, 채널 6(구순근)은 원순모음(round vowel)에 기여한다는 점에서, EMG 신호와 구강 조음 메커니즘 사이의 직접적인 연관성을 실증한다.
마지막으로, 채널 감소에 따른 성능 저하를 완화하기 위한 전략으로 ‘채널 드롭아웃을 이용한 사전학습 + 미세조정’ 방식을 제안한다. 8채널 전체로 사전학습할 때, 각 훈련 샘플에 대해 채널을 확률 p(0, 0.125, 0.25)로 마스킹한다. 이렇게 하면 모델이 다양한 채널 조합에 대해 견고해지며, 이후 46채널 환경에서 미세조정할 때 초기 가중치가 풍부한 다중 근전도 패턴을 이미 학습한 상태이므로, 처음부터 제한된 채널만으로 학습한 모델보다 일관되게 낮은 WER을 달성한다. 특히 4채널에서는 드롭아웃 확률 0.125(평균 7채널 유지)가, 56채널에서는 0.25(평균 6채널 유지)가 최적 성능을 보였다.
전체적으로, 본 연구는 (1) 채널 중요도와 상호 보완성을 정량·정성적으로 밝히고, (2) 채널 감소에 강인한 사전학습‑미세조정 파이프라인을 제시함으로써, 실용적인 경량 EMG 기반 무음 말하기 시스템 설계에 중요한 지침을 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기