오케스트라처럼 귀를 설계한다: 실시간 세밀 사운드스케이프 제어 시스템
초록
Aurchestra는 저전력 귀착용 기기에서 실시간으로 다중 음원 클래스를 분리·볼륨 조절할 수 있게 하는 시스템이다. 동적 인터페이스가 현재 환경에 활성화된 소리 클래스를 자동으로 탐지하고, 6 ms 청크 단위로 최대 5개의 클래스를 별도 스트림으로 추출한다.
상세 분석
본 논문은 기존 Hearable이 제공하던 이진형 노이즈 캔슬링이나 단일 타깃 강조 방식을 넘어, 사용자가 청각 환경을 ‘믹싱’할 수 있는 새로운 패러다임을 제시한다. 핵심 기술은 두 가지로 나뉜다. 첫째, 다중 출력(target‑wise) 추출 네트워크는 기존의 단일 스트림 추출 모델과 달리, 멀티‑핫 인코딩을 조건으로 받아 선택된 클래스마다 별도 TF‑스펙트럼을 출력한다. 이를 위해 저지연 듀얼‑패스(Time‑Frequency) 구조를 채택했으며, attention 대신 LSTM·MLP‑Mixer·Dual‑Path 블록을 조합해 연산량을 크게 줄였다. 특히 O ≪ K(예: O = 5, K = 20)인 출력 스트림 설계는 불필요한 채널을 배제함으로써 메모리·전력 소모를 최소화하고, 클래스‑스트림 매핑을 알파벳 순서 기반 고정 매핑으로 구현해 Permutation Invariant Training(PIT)의 복잡성을 회피한다.
둘째, 하드웨어‑특화 최적화 단계에서는 Orange Pi 5B, Raspberry Pi 4B, GAP9 AI 가속기 등 다양한 저전력 플랫폼에 맞춰 모델 파라미터와 연산 구조를 스케일링하였다. 실험 결과, 6 ms 청크당 평균 추론 시간은 4.5~5.3 ms이며, GAP9에서는 56 mW 전력만 소모한다. 이는 청각 지연 한계인 20 ms 이하를 충분히 만족한다.
동적 인터페이스는 최신 트랜스포머 기반 사운드 이벤트 디텍터를 미세 튜닝해 5중 중첩 상황에서도 93.2 % 정확도를 달성한다. 탐지된 클래스만 UI에 표시함으로써 사용자는 평균 68 % 적은 클릭/탭으로 원하는 클래스를 선택하고 볼륨을 조절한다.
성능 평가에서는 20개 클래스를 대상으로 SNRi 11.99 dB(기존 7.29 dB 대비)와 파라미터 0.5 M(기존 1.2 M)로 우수한 품질을 보였으며, 실사용 청취 테스트(총 24명)에서도 배경 소음 억제와 전반적 청취 만족도가 각각 +1.54점, +0.95점 상승했다. 이러한 결과는 Aurchestra가 실시간, 저전력 환경에서도 다중 클래스 음원 분리·볼륨 제어를 안정적으로 제공함을 입증한다.
본 연구는 청각 보조 기기의 기능을 ‘청각 믹싱 콘솔’ 수준으로 끌어올리는 첫 걸음이며, 향후 사용자 선호 학습, 의도 예측, 그리고 AR/VR 환경과의 통합을 통한 전방위 청각 인터페이스 확장의 가능성을 열어준다.
댓글 및 학술 토론
Loading comments...
의견 남기기