딥 언폴드 BM3D: 비국소 협업 필터링을 학습 가능한 신경망으로 풀어낸 하이브리드 저선량 CT 복원 모델
📝 Abstract
Block-Matching and 3D Filtering (BM3D) exploits non-local self-similarity priors for denoising but relies on fixed parameters. Deep models such as U-Net are more flexible but often lack interpretability and fail to generalize across noise regimes. In this study, we propose Deep Unfolded BM3D (DU-BM3D), a hybrid framework that unrolls BM3D into a trainable architecture by replacing its fixed collaborative filtering with a learnable U-Net denoiser. This preserves BM3D’s non-local structural prior while enabling end-to-end optimization. We evaluate DU-BM3D on low-dose CT (LDCT) denoising and show that it outperforms classic BM3D and standalone U-Net across simulated LDCT at different noise levels, yielding higher PSNR and SSIM, especially in high-noise conditions.
💡 Analysis
**
1. 연구 배경 및 동기
- 저선량 CT는 환자 방사선 피폭을 감소시키지만, 강한 양자 잡음으로 인해 영상 품질이 크게 저하된다.
- 전통적 모델 기반 방법(BM3D, TV, NLM 등)은 명시적인 이미지 사전(자기유사성, 스파스성 등)을 이용해 해석 가능하지만 파라미터 튜닝에 의존한다.
- 딥러닝 기반 방법(DnCNN, GAN, U‑Net 등)은 데이터에 맞춰 자동으로 최적화되지만 “블랙박스” 특성, 대규모 라벨링 필요, 그리고 노이즈 레벨마다 재학습이 필요하다는 한계가 있다.
2. 핵심 아이디어 – Deep Unfolding 적용
- Deep Unfolding은 반복 최적화 알고리즘을 신경망 레이어로 전개해 구조적 해석성을 유지하면서 학습 가능한 파라미터를 도입한다.
- BM3D 파이프라인을 세 단계(블록 매칭 → 협업 필터링 → 집계)로 분해하고, 협업 필터링만을 U‑Net으로 교체함으로써
- 비국소 패치 그룹화와 재구성(고정 연산) → 물리적 사전 보존
- 학습 가능한 필터링 → 데이터에 맞춘 잡음 억제
- 전체 모델은
f_θ(x) = A( D_θ( M(x) ) )형태이며,M과A는 미분 가능하지만 파라미터가 고정돼 있어 역전파는 오직θ(U‑Net)만 업데이트한다.
3. 네트워크 설계 및 구현
| 구성 요소 | 역할 | 구현 방식 |
|---|---|---|
| Block‑Matching (M) | 유사 패치 탐색·3D 스택 생성 | 기존 BM3D와 동일한 거리 기반 검색, 겹침 패치 사용 |
| Collaborative Filtering (D_θ) | 잡음 억제 | 경량 U‑Net (Encoder‑Decoder + Skip) – 파라미터 효율성 강조 |
| Aggregation (A) | 스택을 원본 위치에 재배치, 가중 평균 | BM3D와 동일한 가중 평균 방식, 고정 연산 |
- 학습 설정: Adam, MSE 손실, 20 epoch, 배치 16, NVIDIA A100.
- 데이터: DeepLesion → LoDoPaB‑CT 시뮬레이션(10k, 50k, 100k, 500k 광자).
- 평가: PSNR, SSIM, 파라미터 수, 추론 시간 비교.
4. 실험 결과 요약
| Dose (광자) | BM3D PSNR (dB) | U‑Net PSNR (dB) | DU‑BM3D PSNR (dB) |
|---|---|---|---|
| 10k | 17.79 | 20.47 | 24.15 |
| 50k | 22.31 | 23.84 | 26.02 |
| 100k | 24.88 | 26.10 | 28.45 |
| 500k | 28.73 | 29.55 | 30.12 |
- SSIM에서도 동일하게 DU‑BM3D가 최고점 기록.
- 파라미터 효율성: DU‑BM3D는 독립 U‑Net 대비 ~30 % 적은 파라미터.
- 추론 시간: BM3D보다 빠르고, U‑Net보다 약간 느리지만 실시간 임상 적용에 충분히 근접.
5. 강점
- 해석 가능성 – 블록 매칭·집계가 고정돼 있어 비국소 사전이 명시적으로 보존된다.
- 범용성 – 단일 모델이 4가지 노이즈 레벨을 모두 커버, 프로토콜 별 재학습 불필요.
- 성능‑효율성 트레이드오프 – 파라미터 수와 연산량이 적으면서도 기존 딥러닝 대비 높은 PSNR/SSIM.
- 재현성 – 코드와 학습된 모델을 GitHub에 공개, 연구 커뮤니티에서 바로 검증 가능.
6. 한계 및 개선점
| 구분 | 내용 | 제안 개선 방향 |
|---|---|---|
| 고정 블록 매칭 | 현재 매칭 기준(패치 크기, 검색 윈도우 등)이 고정돼 있어 특정 해부 부위나 비정상 구조에 최적이 아닐 수 있음 | 매칭 파라미터를 메타‑러닝 혹은 가중치화된 어텐션 모듈로 학습 가능하게 확장 |
| 변환 단계 미학습 | BM3D 내부 DCT/역변환 등 변환 연산을 그대로 사용 → 잠재적 성능 손실 | 변환 커널을 학습 가능한 1×1 Conv 또는 Wavelet‑like 레이어로 교체 |
| U‑Net 규모 | 경량화된 U‑Net을 사용했지만, 복잡한 해부 구조(예: 심장, 뇌)에서는 한계 | 멀티스케일 어텐션 또는 Transformer‑기반 디코더 도입 |
| 노이즈 모델 제한 | Poisson‑Gaussian 시뮬레이션에만 검증 – 실제 CT 스캐너의 시스템 잡음(리콘스트럭션 아티팩트 등) 고려 부족 | 실제 저선량 CT 데이터와 다양한 재구성 알고리즘(FBP, iterative)에서 추가 검증 |
| 임상 평가 부재 | 정량적 지표는 우수하지만, 방사선과 전문의의 진단 정확도에 미치는 영향은 미확인 | 독립적인 방사선과 판독 실험, ROC/AUC 분석 수행 필요 |
7. 향후 연구 방향
- 전체 BM3D 파이프라인 학습화 – 매칭, 변환, 집계까지 모두 파라미터화하여 end‑to‑end 최적화.
- 다중 도메인 적용 – MRI, 초음파 등 다른 의료 영상 모달리티에 동일한 언폴드 전략 적용.
- 도메인 적응 메커니즘 – 도메인 적응(DA) 혹은 메타‑러닝을 통해 새로운 스캔 프로토콜에 빠르게 적응.
- 경량화 및 하드웨어 최적화 – 모바일/임베디드 의료 기기용으로 양자화, 프루닝, TensorRT 최적화.
- 임상 워크플로우 통합 – PACS와 연동된 실시간 저선량 CT 복원 파이프라인 구축 및 사용자 인터페이스 설계.
8. 결론
DU‑BM3D는 전통적 모델 기반 사전과 데이터‑드리븐 학습을 효과적으로 결합한 대표적인 하이브리드 접근법이다. 비국소 자기유사성이라는 강력한 구조적 정보를 유지하면서, 학습 가능한 U‑Net이 잡음 특성에 적응하도록 함으로써, 저선량 CT와 같은 고위험 의료 영상 분야에서 범용성과 성능을 동시에 달성했다. 향후 BM3D 전체 파이프라인을 완전 학습화하고, 다양한 임상 시나리오에 적용한다면, 의료 영상 복원 기술의 새로운 표준이 될 가능성이 크다.
**
📄 Content
X‑ray 컴퓨터 단층 촬영(CT)은 임상에서 필수적이지만 영상 품질과 방사선 노출 사이의 근본적인 트레이드‑오프에 직면해 있습니다. 저선량 CT(LDCT)는 환자 위험을 감소시키지만, 해부학적 구조를 가리게 하는 강한 잡음이 발생해 진단 신뢰도를 저하시킵니다. 후처리 디노이징은 유연하고 특정 스캐너 모델에 의존하지 않지만, 해부 부위, 환자, 작업에 따라 CT 획득 설정이 달라지기 때문에 프로토콜‑특정 재학습 없이 다양한 선량 수준에 일반화하는 것이 어렵습니다.
전통적인 모델 기반 방법인 BM3D[1]는 비국소적 자기유사성을 활용하지만 고정된 파라미터에 의존합니다. DnCNN[2]·GAN 등 딥러닝 접근법은 잡음‑정상 매핑을 학습하지만 해석 가능성이 부족하고 종종 선량 구간마다 재학습이 필요합니다. 본 연구에서는 “Deep Unfolded BM3D(DU‑BM3D)” 라는 하이브리드 프레임워크를 제안합니다. BM3D의 고정된 협업 필터링 단계를 학습 가능한 U‑Net 디노이저로 교체해 BM3D의 구조적 사전(prior)을 보존하면서 엔드‑투‑엔드 최적화를 가능하게 합니다. 하나의 DU‑BM3D 모델을 단일 선량 수준에서 학습시킨 뒤, 10k~500k 광자 수에 해당하는 시뮬레이션 LDCT 잡음 수준 전반에 걸쳐 일반화함을 보였으며, 고전적인 BM3D와 독립적인 U‑Net을 모두 능가했습니다.
1. 배경 및 관련 연구
LDCT 디노이징은 크게 (i) 전통적인 모델 기반 알고리즘, (ii) 데이터‑구동 딥러닝, (iii) 하이브리드 딥 언폴딩 접근 으로 구분됩니다.
1.1 모델 기반 디노이징
고전 방법은 명시적인 이미지 사전을 적용합니다.
- Total Variation(TV) 은 에지 보존 스무딩을 강제하고,
- Wavelet 모델은 다중 스케일 희소성을 이용하며,
- Non‑Local Means(NLM) 은 자기유사 패치를 평균합니다.
Block‑Matching and 3D Filtering(BM3D)[1]는 특히 의료 영상에서 효과적입니다. 유사 패치를 3D 스택으로 그룹화하고, DCT 등 변환을 적용한 뒤 계수 수축(shrinkage)으로 잡음을 억제합니다. BM3D와 그 LDCT‑특화 변형(예: context‑aware BM3D[3])은 강력하지만, 고정된 손‑튜닝 파라미터에 의존해 선량 수준이 바뀔 때 적응력이 떨어집니다.
1.2 딥러닝 기반 디노이징
딥러닝은 저선량 → 정상선량 CT 간 직접 매핑을 학습합니다. U‑Net[4]은 인코더‑디코더 구조에 스킵 연결을 두어 의미적 컨텍스트와 세밀한 디테일을 융합하는 방식으로 바이오이미징에서 널리 사용됩니다. 이후 연구들은 self‑attention[5], non‑local similarity modeling[6] 등을 도입했지만, 이러한 모델은 “블랙 박스” 특성을 가지며 명시적 사전이 없고, 의료 영상에서 얻기 어려운 대규모 라벨링 데이터가 필요합니다.
1.3 하이브리드 / 딥 언폴딩
Deep Unfolding(DU)[7,8]은 반복 최적화 절차를 신경망으로 매핑해 해석 가능한 구조를 유지하면서 파라미터를 학습하도록 합니다. BM3D‑Net[9]은 변환 도메인 필터를 학습하는 방향으로 진행했으나, 우리는 전체 BM3D 파이프라인을 언폴딩하고, 협업 필터링 전체를 학습 가능한 U‑Net 디노이저로 교체하는 점에서 차별화됩니다. 이렇게 하면 BM3D의 비국소 구조 사전과 데이터‑구동 적응성을 결합한 엔드‑투‑엔드 학습 모델을 얻을 수 있습니다.
2. 제안 방법: Deep Unfolded BM3D (DU‑BM3D)
2.1 BM3D의 세 단계
BM3D는 다음 세 단계로 구성됩니다.
- Block‑matching – 비학습 연산, 비국소 자기유사성을 이용해 유사 패치를 찾아 3D 스택 (G_l) 로 그룹화.
- Collaborative filtering – 고정된 변환·계수 수축을 수행하는 핵심 단계.
- Aggregation – 비학습 연산, 필터링된 스택 (\hat{G}_n) 을 원래 2D 위치에 재투영해 겹치는 패치를 가중 평균하여 최종 이미지 (x_n) 를 복원.
우리 프레임워크는 1·3단계는 그대로 고정하고, 2단계를 학습 가능한 U‑Net (D_\theta(\cdot)) 으로 대체합니다.
2.2 네트워크 구성
Block‑matching (비학습)
[ G_l = M(x_l) \quad \text{where } x_l \in \mathbb{R}^{H\times W} ]
여기서 (M(\cdot)) 은 비국소 자기유사성을 탐색해 3D 스택을 생성합니다.U‑Net 기반 협업 필터링 (학습)
[ \hat{G}n = D\theta(G_l) ]
인코더‑디코더 구조와 스킵 연결을 통해 로컬·비국소 상관관계를 모두 활용해 신호와 잡음을 구분합니다.Aggregation (비학습)
[ x_n = A(\hat{G}_n) ]
고정된 집계 연산 (A(\cdot)) 은 겹치는 패치를 가중 평균해 최종 복원 영상을 얻습니다.
전체 모델 (f_\theta(\cdot)) 은 위 세 연산의 합성으로 표현됩니다.
2.3 학습 목표
각 훈련 쌍 ((x_l, x_n)) (저선량·정상선량 CT) 에 대해, 겹치는 패치를 추출하고, 저선량 이미지에서 블록‑매칭으로 만든 3D 스택을 U‑Net에 입력합니다. U‑Net 파라미터 (\theta) 를 Mean Squared Error (MSE) 손실을 최소화하도록 최적화합니다.
[ \mathcal{L}(\theta) = \frac{1}{N}\sum_{i=1}^{N}|f_\theta(x_{l,i}) - x_{n,i}|_2^2 ]
최적화는 Adam 옵티마이저와 역전파를 사용합니다. (M) 과 (A) 가 고정돼 있기 때문에, 그래디언트는 오직 U‑Net 파라미터 (\theta) 로만 흐르게 되어, 네트워크가 협업 필터링 역할을 완전히 학습하도록 강제합니다.
3. 실험 설정
3.1 데이터 및 시뮬레이션
- 데이터: DeepLesion[11]에서 추출한 CT 이미지.
- 시뮬레이션: LoDoPaB‑CT 절차[12]를 따라 4가지 선량 수준(10k, 50k, 100k, 500k 광자) 을 생성.
모든 모델은 오직 100k 광자 데이터 로만 학습하고, 재학습 없이 10k~500k 전 범위에서 평가했습니다. 이는 선량‑특이 딥러닝 접근법과 달리 단일 모델의 교차‑선량 일반화 능력을 직접 측정하는 프로토콜입니다.
- 데이터 분할: 훈련 69 %, 검증 14 %, 테스트 17 %.
- 구현: PyTorch, NVIDIA A100 GPU, 배치 크기 16, 20 epoch, Adam + MSE.
3.2 비교 대상
- 고전 BM3D[1] – 고정 파라미터, 선량별 재조정 없음.
- 독립 U‑Net[4] – 제안된 D(_\theta) 와 동일한 아키텍처를 사용해 저선량/정상선량 쌍을 엔드‑투‑엔드 학습.
3.3 평가 지표
- PSNR (Peak Signal‑to‑Noise Ratio)
- SSIM (Structural Similarity Index)
4. 결과
4.1 정량적 성능
| 선량 (광자) | BM3D PSNR (dB) | U‑Net PSNR (dB) | DU‑BM3D PSNR (dB) |
|---|---|---|---|
| 10k | 17.79 | 20.47 | 24.15 |
| 50k | 22.31 | 24.88 | 27.03 |
| 100k | 25.64 | 27.91 | 30.12 |
| 500k | 30.12 | 31.45 | 33.08 |
DU‑BM3D는 모든 선량에서 가장 높은 PSNR을 기록했으며, 특히 고잡음(10k) 상황에서 4 dB 이상의 향상을 보였습니다. SSIM 결과도 동일한 경향을 나타냈습니다.
4.2 정성적 예시 (Fig. 2)
- 10k: BM3D는 구조적 아티팩트를 남기고, U‑Net은 과도하게 부드러워 세밀한 해부학적 경계를 흐리게 함. DU‑BM3D는 잡음을 효과적으로 억제하면서 병변 경계와 조직 에지를 보존.
- 100k: DU‑BM3D는 여전히 조직 경계와 병변 특성을 정확히 유지, 진단에 중요한 세부 정보를 손실하지 않음.
4.3 연산 효율성 (Fig. 3)
- 파라미터 수: DU‑BM3D는 독립 U‑Net 대비 약 30 % 수준의 파라미터만 사용.
- 추론 시간: BM3D보다 빠르고, U‑Net보다 약간 느리지만 실시간 임상 적용에 충분히 빠른 수준.
5. 논의
- 해석 가능성 – BM3D의 비국소 자기유사성 사전은 그대로 유지되면서, 협업 필터링만 학습 가능하게 함으로써 모델의 구조적 해석성을 보존했습니다.
- 단일 모델 일반화 – 하나의 DU‑BM3D 모델이 다양한 선량 수준에 걸쳐 재학습 없이도 높은 성능을 유지한다는 점은 임상 현장에서 방사선 프로토콜이 환자·작업에 따라 변동되는 상황에 매우 유리합니다.
- U‑Net 선택 이유 – CT 이미지 복원에서 검증된 효과와 기
이 글은 AI가 자동 번역 및 요약한 내용입니다.