노이즈만으로 학습하는 의료 영상 디노이징 합의 신경망

본 논문은 깨끗한 레퍼런스 없이 순수하게 노이즈가 포함된 의료 영상만을 이용해 딥러닝 기반 디노이징 모델을 학습하는 새로운 프레임워크를 제안한다. 원본 데이터를 두 개의 독립적인 서브셋으로 분할하고, 각각을 서로의 목표 이미지로 매핑하도록 네트워크를 훈련한다. 또한 두 서브셋의 출력을 효율적으로 결합하는 ‘합의 손실(consensus loss)’을 도입해 기존 Noise2Noise 방식보다 높은 복원 품질을 달성하였다. 이론적 증명을 통해 노이…

저자: Dufan Wu, Kuang Gong, Kyungsang Kim

노이즈만으로 학습하는 의료 영상 디노이징 합의 신경망
본 논문은 의료 영상 디노이징을 위한 새로운 무감독 학습 프레임워크인 ‘Consensus Neural Network’를 제안한다. 기존 딥러닝 기반 디노이징 방법은 노이즈가 섞인 이미지와 그에 대응하는 고품질 클린 이미지 쌍을 필요로 한다. 그러나 동적 PET, 스펙트럼 CT, ASL‑MRI 등에서는 실제 클린 데이터를 얻기 어려워 이러한 접근법이 제한된다. 저자는 Noise2Noise(Lehtinen et al., 2018)의 아이디어를 확장해, 단일 노이즈 샘플만으로도 학습이 가능하도록 설계하였다. 먼저, 원본 측정 데이터를 두 개의 독립적인 서브셋으로 분할한다. CT에서는 원본 투영을 홀수와 짝수로 나누어 각각 FBP 재구성하고, MRI에서는 k‑space를 무작위로 두 개의 서브샘플로 나눈 뒤 제로‑필링 재구성한다. 이렇게 얻은 두 이미지 x_i + n_i¹, x_i + n_i²는 서로 다른 노이즈 실현을 가진 동일 객체의 관측치가 된다. 이론적 근거는 Theorem 1에 의해 제시된다. 두 독립적인 노이즈 n_i¹, n_i²가 평균 0이고 서로 무상관일 경우, 손실 L(Θ)=‖f(x_i + n_i¹;Θ)−(x_i + n_i²)‖²의 기대값은 ‖f(x_i + n_i¹;Θ)−x_i‖²와 동일해진다. 즉, 클린‑노이즈 학습과 기대 손실 관점에서 동등함을 보인다. 증명 과정에서는 손실을 전개하고, 교차항이 0으로 수렴함을 중앙극한정리와 조건부 기대값을 이용해 보였다. 하지만 실제 데이터에서 두 서브셋은 원본보다 더 노이즈가 심해지는 문제가 있다. 이를 해결하기 위해 저자는 ‘합의 손실(consensus loss)’을 도입한다. 두 네트워크 f(·;Θ₁)와 f(·;Θ₂)를 각각 서브셋에 적용하고, 손실 Lₙ을 다음과 같이 정의한다. 1) 각 네트워크가 다른 서브셋을 목표로 매핑하는 전통적인 Noise2Noise 손실 두 개. 2) 두 출력 y₁, y₂ 사이의 차이를 최소화하는 ‖y₁−y₂‖²/4 항. 이 세 항을 합친 Lₙ은 두 네트워크가 서로 보완적인 정보를 제공하도록 유도한다. 최종 복원 결과는 두 출력의 평균 z = (y₁ + y₂)/2 로 얻는다. 노이즈가 완전히 무상관이 아닐 경우를 대비해 두 가지 정규화 항을 추가한다. 첫 번째는 가중치 L₂ 정규화 L_w = ‖Θ₁‖² + ‖Θ₂‖² 로 아티팩트 억제에 기여한다. 두 번째는 이미지 일관성 손실 L_r = ‖z − x_est‖² 로, 여기서 x_est는 기존 재구성 결과(FBP, SENSE) 혹은 원본 노이즈 이미지가 될 수 있다. 전체 손실은 L = Lₙ + β_w L_w + β_r L_r 로 구성되며, β_w와 β_r는 단계별로 튜닝한다. 실험에서는 저선량 CT(LDCT Challenge)와 4배 언더샘플링 MRI(NYU Knee) 두 공개 데이터셋을 사용했다. CT에서는 10명의 환자 중 8명을 훈련에, 2명을 테스트에 사용했으며, 각 슬라이스를 2304개의 투영을 홀수·짝수로 나누어 두 개의 FBP 이미지로 만든다. MRI에서는 20명의 환자 중 16명을 훈련에, 4명을 테스트에 사용했으며, k‑space를 두 개의 8배 다운샘플 서브셋으로 나누고 중앙 48 라인을 유지한다. 네트워크는 U‑Net 구조를 채택했으며, CT는 32채널, MRI는 64채널을 사용했다. 훈련은 96×96 패치, 배치 40, 100 epoch, Adam(1e‑4)으로 진행했다. 정규화 파라미터는 CT에서 β_w = 5×10⁻⁶, β_r = 0, MRI에서 β_w = 1×10⁻⁶, β_r = 5 로 설정했다. 정량적 결과는 다음과 같다. CT에서 제안 방법은 RMSE 14.7 HU, SSIM 0.877을 기록했으며, 이는 기존 Noise2Noise( RMSE 17.4, SSIM 0.842)와 TV‑재구성( RMSE 27.6, SSIM 0.815)보다 우수했다. MRI에서는 RMSE 2.1 × 10⁻³, SSIM 0.964를 달성했으며, 이는 Noise2Clean( RMSE 2.3 × 10⁻³, SSIM 0.952)과 거의 동등하면서 무감독 방식 중 최고 성능을 보였다. 시각적으로도 작은 병변과 섬세한 구조가 보존되었으며, Noise2Noise에서 나타나는 과도한 스무딩 현상이 크게 감소했다. 논문의 한계로는 노이즈가 무상관·평균 0이라는 가정이 현실에서 항상 성립하지 않을 수 있다는 점이다. 특히 재구성 과정에서 시스템 노이즈나 아티팩트가 상관성을 유발할 수 있다. 저자는 정규화 항으로 이를 어느 정도 보완했지만, 향후 데이터 일관성 손실(데이터 도메인)이나 물리 기반 재구성 네트워크와 결합하는 연구가 필요하다. 또한 원시 측정 데이터에 접근할 수 있는 환경이 전제되는데, 실제 임상 현장에서는 제한될 수 있다. 결론적으로, 이 연구는 ‘노이즈만으로 학습’이라는 새로운 패러다임을 제시하고, 이론적 증명과 실험적 검증을 통해 클린 데이터가 부족한 의료 영상에서도 딥러닝 기반 디노이징이 가능함을 보여준다. 향후 다양한 모달리티와 실제 임상 워크플로우에 적용함으로써, 저선량·고속 촬영 등에서 이미지 품질을 크게 향상시킬 수 있을 것으로 기대된다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기