엣지에서 감정 필터링 프라이버시 보호를 위한 CycleGAN 기반 음성 변환

음성 기반 스마트 디바이스가 일상에 깊숙이 침투하면서, 클라우드 서비스에 음성 데이터를 전송해 인식·명령 처리를 수행하는 경우가 일반화되었다. 이러한 구조는 서비스 품질을 크게 향상시키지만, 음성에는 감정, 스트레스, 건강 상태 등 개인의 민감한 정보가 내재되어 있어 프라이버시 침해 위험이 존재한다. 기존 연구는 화자 식별 방지나 차등 프라이버시 적용에 초점을 맞추었지만, 감정과 같은 파라링구스틱 특성을 효과적으로 은폐하는 방법은 부족했다. 본 논문은 이러한 문제를 해결하기 위해 엣지 디바이스에서 직접 감정 정보를 중화시키는 프라이버시 보호 레이어를 설계하였다. 시스템은 세 가지 핵심 모듈로 구성된다. 첫 번째 전처리 모듈은 원시 음성 신호에서 스펙트럴 엔벨로프와 로그 기본 주파수 등 감정 인식에 중요한 프로소디 특징을 추출한다. 두 번째 감정 필터는 CycleGAN 기반의 비병렬 음성 변환 모델을 사용한다. 여기서는 감정이 포함된 도메인 X와 중립 음성 도메인 Y 사이를 양방향으로 매핑하며, 생성기와 판별기의 적대적 학습과 순환 일관성 손실을 결합해 변환 품질을 유지한다. 세 번째 생성 모듈은 WORLD 보코더를 통해 변환된 특징을 다시 고품질 파형으로 복원한다. 학습은 NVIDIA Quadro P1000 GPU와 Intel Core i7 CPU 환경에서 수행되었으며, 7 500 iteration, 생성기 학습률 0.0002, 판별기 0.0001로 설정하였다. 학습된 모델은 가중치와 그래프 구조를 결합해 라즈베리 파이 4(ARM Cortex‑A72, 4 GB RAM)로 이식되었다. 이식 과정에서 모델을 동결(freeze)하고, 엣지에서 실시간으로 프로소디 특징을 추출·변환·합성하는 파이프라인을 구현하였다. 평가에는 RA‑VDESS 데이터셋을 사용하였다. 전체 24명의 전문 배우가 7가지 감정을 표현한 녹음 중, 중립·행복·분노 3가지 감정을 선택해 학습·테스트 셋을 구성하였다. 변환 전후 음성에 대해 세 가지 분석 작업을 수행했다. (1) 음성 인식은 IBM Watson Speech‑to‑Text API를 이용해 단어 오류율(WER)을 측정했으며, 원본과 변환 음성 모두 20.36 %~20.67 %로 차이가 거의 없었다. (2) 화자 인식은 VoxCeleb2 기반 모델로 평가했으며, 동일한 조건에서 EER이 0.12 % 수준으로 유지되었다. (3) 감정 인식은 RA‑VDESS 기반 7‑class 분류기를 사용했으며, 변환 후 감정 인식 정확도가 약 91 % 감소하였다. 즉, 감정 정보는 효과적으로 은폐되면서도 음성 내용과 화자 식별 정보는 보존되었다. 성능 측면에서 ARM 기반 엣지는 GPU 대비 실행 시간이 길지만 메모리 사용량은 비슷했으며, 최적화 방안으로 가중치 프루닝, 양자화, 모델 압축 등을 제시하였다. 스펙트로그램 분석 결과, 변환 전후 파형의 진폭, 강도, 기본 주파수 등 주요 특성이 크게 변하지 않아 인식 정확도 유지가 가능함을 확인했다. 결론적으로, 본 연구는 저비용 엣지 디바이스에서 실시간으로 감정 정보를 필터링하는 최초의 프레임워크를 제시한다. 이는 사용자가 클라우드 기반 음성 서비스의 편리함을 누리면서도 개인의 감정 프라이버시를 보호할 수 있게 한다. 향후 연구에서는 다중 감정 및 억양을 동시에 은폐하는 멀티도메인 변환, 실시간 스트리밍 환경에서의 지연 최소화, 그리고 음성 외에 영상·텍스트 등 멀티모달 데이터에 대한 통합 프라이버시 보호 메커니즘을 탐구할 계획이다.

엣지에서 감정 필터링 프라이버시 보호를 위한 CycleGAN 기반 음성 변환

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기