초음파 영상 혼합 잡음 감소를 위한 듀얼 인코더 라틴 마스킹 프레임워크 DEMIX
초록
DEMIX는 초음파 영상에 존재하는 신호‑의존 스펙클 잡음, 신호‑비의존 가우시안 잡음, 그리고 트랜스듀서 PSF에 의한 블러를 동시에 제거하도록 설계된 듀얼 인코더 기반 확산 모델이다. 두 인코더가 각각 잡음과 PSF 특성을 라틴 공간에 인코딩하고, 마스크‑게이트 융합으로 잡음을 분리·억제하면서 구조적 디테일을 보존한다. 두 개의 공개 초음파 데이터셋과 세그멘테이션 다운스트림 실험에서 기존 최첨단 방법들을 지속적으로 능가한다.
상세 분석
본 논문은 초음파 영상이 갖는 복합 잡음 특성을 정량적으로 모델링하고, 이를 해결하기 위한 새로운 딥러닝 프레임워크를 제시한다. 먼저, 초음파 영상은 (1) 스펙클에 의해 발생하는 신호‑의존 멀티플리케이티브 잡음, (2) 센서 열잡음 등으로 나타나는 신호‑비의존 가우시안 잡음, (3) 트랜스듀서와 전파 매질에 의해 정의되는 PSF 기반 블러라는 세 가지 주요 왜곡 요소를 동시에 포함한다. 기존의 대부분 이미지 복원 기법은 단일 잡음 모델(주로 AWGN)만을 가정하거나, PSF 보정과 잡음 억제를 별도로 수행한다는 한계가 있다.
DEMIX는 이러한 한계를 극복하기 위해 두 개의 독립 인코더를 도입한다. 첫 번째 인코더는 스펙클과 가우시안 잡음의 통계적 특성을 학습하며, 두 번째 인코더는 PSF의 축방향·횡방향 왜곡 파라미터(σₓ, σᵧ, f₀ 등)를 추출한다. 두 인코더가 생성한 라틴 표현은 마스크‑게이트 메커니즘을 통해 결합된다. 이 마스크는 각 채널별 중요도를 학습적으로 조정함으로써, 잡음 성분을 효과적으로 억제하면서 구조적 정보는 스킵 연결을 통해 그대로 전달한다.
확산 모델의 전방 과정은 잡음 레벨 t에 따라 additive noise와 multiplicative noise를 선형적으로 증가시키는 Gaussian 변분 모델로 정의된다. 수식 (14)–(15)에서 보듯, 전체 변분 과정은 (δ²K²+γ²)I 라는 스칼라 분산을 갖는 등방성 Gaussian으로 근사된다. 역방정식은 이 분산을 그대로 유지하면서 평균 μₜ를 학습된 네트워크 fθ가 예측하도록 설계된다. 여기서 μₜ는 현재 시점의 노이즈 이미지 Iₜ와 초기 클린 이미지 I₀ 사이의 선형 보정값이며, α, β, ψ와 같은 스케줄 파라미터가 각 컨볼루션 블록에 삽입되어 동적 노이즈 강도 추정이 가능하도록 한다.
손실 함수는 L₁ 기반 재구성 손실 L_D와 다중 스케일 SSIM 손실 L_MS‑SSIM을 결합한 L = L_D + L_MS‑SSIM 형태로, 픽셀 수준 정확도와 구조적 유사성을 동시에 최적화한다. 실험에서는 두 개의 공개 초음파 데이터셋(예: PICMUS, CUB‑US)과 다양한 잡음·PSF 조합에 대해 정량적 PSNR/SSIM 향상을 입증했으며, 특히 후처리 세그멘테이션 작업에서 Dice 계수가 현저히 상승했다.
핵심 기여는 (1) 잡음과 PSF를 별도 인코딩함으로써 복합 잡음 분리를 라틴 공간에서 수행, (2) 마스크‑게이트 융합을 통해 잡음 억제와 구조 보존을 동시에 달성, (3) 잡음 스케줄과 PSF 파라미터를 네트워크 내부에 직접 삽입해 노이즈 레벨에 대한 사전 지식 없이도 강인한 복원 가능, (4) 다양한 실제 초음파 환경에 대한 일반화 능력을 실험적으로 검증한 점이다.
전반적으로 DEMIX는 확산 모델의 강력한 확률적 표현력과 듀얼 인코더 구조의 모듈러성을 결합하여, 초음파와 같이 복합 잡음·블러가 공존하는 의료 영상 복원 분야에 새로운 패러다임을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기