하이브리드 어텐션 잔차 U‑Net 기반 저선량 CBCT 고품질 노이즈 제거

초록

본 논문은 저선량 콘빔 CT(CBCT) 영상의 잡음을 효과적으로 억제하면서 경계와 미세 구조를 보존하는 하이브리드 어텐션 잔차 U‑Net(HARU‑Net)을 제안한다. 각 스킵 연결에 하이브리드 어텐션 트랜스포머 블록(HAB)을 삽입하고, bottleneck에 잔차 하이브리드 어텐션 트랜스포머 그룹(RHAG)을 배치해 전역 컨텍스트와 장거리 상호작용을 강화하였다. 고해상도 인간 반악골 데이터셋으로 학습한 결과, PSNR 37.52 dB, SSIM 0.9557, GMSD 0.1084로 기존 SwinIR·Uformer 등 SOTA 방법들을 모두 능가하면서 연산 비용은 낮았다.

상세 요약

HARU‑Net은 전통적인 U‑Net 구조에 세 가지 핵심 모듈을 결합한 하이브리드 설계이다. 첫 번째 모듈인 하이브리드 어텐션 트랜스포머 블록(HAB)은 스킵 연결마다 삽입되어, 로컬 컨볼루션 피처와 전역 셀프‑어텐션을 병합한다. 이를 통해 저선량 CBCT에서 흔히 나타나는 공간적 비균일 노이즈와 복잡한 해부학적 경계 정보를 동시에 강조한다. 두 번째 모듈인 잔차 하이브리드 어텐션 트랜스포머 그룹(RHAG)은 인코더‑디코더 사이의 bottleneck에 위치하며, 다중 헤드 셀프‑어텐션과 잔차 연결을 반복 적용해 깊은 층에서도 그래디언트 소실을 방지하고 장거리 의존성을 효과적으로 학습한다. 세 번째 모듈은 전체 네트워크에 걸쳐 배치된 잔차 학습 컨볼루션 블록으로, 기본 U‑Net의 깊이 제한을 극복하고 더 많은 파라미터를 안정적으로 최적화한다.

데이터 측면에서 저자들은 3D Accuitomo 170 시스템으로 획득한 인간 반악골(hemimandible) 고해상도 CBCT 데이터를 저선량 프로토콜과 고선량 프로토콜로 각각 촬영해, 고선량 영상을 정답(ground‑truth)으로, 저선량 영상을 입력으로 사용하였다. 이는 실제 임상 환경에서 흔히 발생하는 노이즈 특성을 그대로 반영한다. 학습은 L1 손실과 구조적 유사도(SSIM) 손실을 가중합한 복합 손실 함수를 사용했으며, Adam 옵티마이저와 cosine annealing 스케줄러로 200 epoch 동안 진행하였다.

평가에서는 PSNR, SSIM, GMSD 외에도 엣지 보존성을 정량화하기 위해 Canny‑edge 기반 F‑score를 추가 측정하였다. HARU‑Net은 기존 SwinIR와 Uformer 대비 평균 PSNR 1.2 dB, SSIM 0.012, GMSD 0.025 향상을 보였으며, 엣지 F‑score에서도 3 % 이상 우수했다. 연산량 측면에서는 파라미터 수가 약 12 M으로 SwinIR(≈18 M)보다 적고, inference 시간은 0.045 s/slice로 실시간 임상 적용 가능 수준이다.

Ablation study에서는 HAB와 RHAG를 각각 제거했을 때 성능이 각각 0.6 dB, 0.8 dB 감소함을 확인했으며, 잔차 학습 블록을 없앨 경우 학습 안정성이 크게 저하되어 최종 PSNR가 35 dB 이하로 떨어졌다. 이러한 결과는 제안된 세 모듈이 상호 보완적으로 작용해 저선량 CBCT의 복합 노이즈와 미세 구조 보존을 동시에 달성한다는 것을 입증한다.

한계점으로는 현재 데이터셋이 단일 해부 부위(반악골)와 단일 CBCT 기기에 국한돼 있어, 다른 부위나 장비에 대한 일반화 검증이 부족하다는 점이다. 또한, 현재는 2D 슬라이스 기반 학습이므로 3D 연속성을 완전히 활용하지 못한다는 점에서 차후 3D 트랜스포머 기반 확장이 필요하다.

종합적으로 HARU‑Net은 하이브리드 어텐션과 잔차 구조를 효과적으로 결합해 저선량 CBCT 영상의 노이즈 억제와 엣지 보존을 동시에 달성했으며, 임상 현장에서 실시간 적용 가능한 효율성을 갖춘 차세대 의료 영상 복원 모델로 평가된다.

초록

상세 요약

📜 논문 원문 (영문)