TLDiffGAN: 시계열 정보를 융합한 잠재 확산‑GAN 기반 이상음 탐지 모델
초록
본 논문은 멜 스펙트로그램과 원시 파형을 동시에 활용하는 이중‑브랜치 구조와, 잠재 확산 모델을 GAN 생성기에 통합한 LDGAN을 제안한다. 또한 시간‑혼합(TMixup) 증강을 도입해 미세한 시간‑주파수 변화를 강조한다. DCASE 2020 Task 2 실험에서 기존 생성 기반 방법들을 크게 앞서며, 이상음의 시간‑주파수 위치 추정 능력도 입증한다.
상세 분석
TLDiffGAN은 기존 재구성 기반 이상음 탐지 모델이 갖는 “재구성 흐림”, “모드 붕괴”, “단일 모달리티 의존”이라는 세 가지 근본적인 한계를 동시에 해소하려는 시도이다. 첫 번째 브랜치에서는 로그‑멜 스펙트로그램을 입력으로 하는 LDGAN(Latent Diffusion‑GAN) 구조를 설계한다. 여기서 생성기는 저차원 잠재 공간에서 단계적 역노이즈 과정을 수행하며, 각 단계마다 판별기가 피드백을 제공한다. 손실은 (1) 표준 LDM의 노이즈 예측 L_noise와 (2) 판별기 특징을 이용한 통계 매칭 L_stat의 가중합으로 정의되며, λ_stat = 1.0 으로 설정해 두 손실을 동등하게 반영한다. 판별기에는 스펙트럼 정규화와 그라디언트 페널티(L_GP = 10)를 적용해 훈련 안정성을 강화한다. 이러한 설계는 확산 모델의 고품질 샘플 생성 능력과 GAN의 판별 기반 정규화를 결합해, 기존 오토인코더가 초래하던 흐릿한 재구성 문제를 크게 완화한다.
두 번째 브랜치에서는 사전 학습된 SSL 기반 오디오 인코더(AST, ATST, BEATs, EAT 등)를 활용해 원시 파형으로부터 고차원 임베딩을 추출한다. 산업용 음향은 말소리와 달리 장기적인 정적 패턴과 희소한 순간 변이를 포함하므로, 이러한 일반‑음향 프리트레인 모델이 멜 변환 과정에서 손실되는 정보를 보완한다. 두 브랜치의 특징은 Z_mel과 Z_wave를 단순 연결해 공동 특성 공간 Z를 형성하고, 이후 K‑NN, LOF, GMM, SOS 등 여러 전통적 이상 탐지 알고리즘 중 검증 성능이 가장 높은 것을 선택해 최종 점수를 산출한다.
시간‑정보 강화 모듈인 TMixup은 세 가지 풀링(Max, Avg, Power‑Avg)을 가중합한 뒤 소프트맥스 정규화된 가중치 ˆw 로 학습한다. 풀링 결과에 시그모이드 활성화를 적용해 시간‑축 어텐션 맵 x_TA∈(0,1)을 얻고, 임계값 τ∈U(0.2,0.5) 로 이진 마스크 M_mask을 만든다. 마스크가 지정한 고관심 구간에 베타(α,α) 분포에서 샘플링된 λ 로 로컬 Mixup을 수행해 원본 스펙트로그램과 혼합한다. 이 과정은 정상 데이터 분포 경계에 위치한 미세 변이를 인위적으로 확대함으로써, 모델이 경계 영역을 더 민감하게 학습하도록 유도한다.
실험은 DCASE 2020 Task 2의 MIMII와 ToyADMOS 두 서브셋, 총 6개 기계 유형(Fan, Pump, Slider, Valve, ToyCar, ToyConveyor)에서 수행되었다. 입력은 128 × 313 차원의 로그‑멜 스펙트로그램이며, 배치 크기 512, 학습률 1e‑4, 150 epoch 로 훈련하였다. 평가 지표는 AUROC와 pAUROC(0 ~ 0.1 FPR)이며, TLDiffGAN은 평균 AUROC 88.60 %, pAUROC 74.35 %를 기록해 기존 최첨단 모델(예: ASD‑Diffusion, AEGAN‑AD 등)을 모두 앞섰다. 특히 Slider와 Pump에서 각각 2.94 %·5.76 %·3.23 %·1.13 %의 개선을 보였다. 프리트레인 인코더 별 비교에서는 EAT가 가장 높은 성능을 보였으며, 이는 장거리 의존성을 효과적으로 포착함을 시사한다.
전체적으로 TLDiffGAN은 (1) 잠재 확산‑GAN을 통한 고품질 재구성, (2) 원시 파형 기반 멀티모달 특성 융합, (3) TMixup을 통한 시간‑주파수 경계 강화라는 세 축을 결합해, 재구성 기반 이상음 탐지의 핵심 약점을 구조적으로 보완한다. 또한 재구성 오차와 임베딩 기반 거리 측정을 병합함으로써, 이상음 검출뿐 아니라 시간‑주파수 로컬라이제이션까지 가능하게 만든 점이 실용적 가치를 높인다. 향후 도메인 적응, 실시간 추론, 다른 센서(진동, 전류)와의 멀티모달 확장에 대한 연구가 기대된다.
댓글 및 학술 토론
Loading comments...
의견 남기기