iPEAR: 주의·잔차 결합 피라미드 네트워크로 구현한 적응형 의료 영상 변형 정합
초록
iPEAR는 피라미드 구조에서 발생하는 해부학적 정합 오류를 완화하기 위해 주의‑잔차 복합 모듈(FARM)을 도입하고, 변형 정도에 따라 최적의 반복 횟수를 자동으로 결정하는 이중‑단계 임계값 제어 반복(TCI) 전략을 제안한다. 3개의 뇌 MRI와 1개의 복부 CT 데이터셋에서 기존 최첨단 모델보다 높은 정합 정확도를 달성하면서도 추론 속도와 파라미터 수는 동등하게 유지한다.
상세 분석
iPEAR는 기존 피라미드 기반 변형 정합 네트워크가 갖는 두 가지 근본적인 한계를 동시에 해결한다. 첫 번째는 코스스케일 디코더에서 전달되는 저해상도 특징이 불필요한 정보를 포함해 해부학적 오정합을 누적시키는 문제이다. 이를 극복하기 위해 제안된 Fused Attention‑Residual Module(FARM)은 Attention Pathway(AP)와 Residual Pathway(RP)라는 두 갈래 구조로 설계되었다. AP는 3D Squeeze‑Excitation Block(SEB)으로 채널 차원의 중요도를 학습해 불필요한 특징을 억제하고, 이어지는 Spatial Attention Block(SAB)으로 공간적 중요 영역을 강조한다. 이러한 두 단계의 주의 메커니즘은 코스스케일에서 발생한 잡음이 finer scale으로 전파되는 것을 방지한다. RP는 두 개의 3D 컨볼루션과 연속적인 Residual Block을 통해 미세 구조를 정밀하게 복원한다. 즉, FARM은 전역적인 특징 선택과 국부적인 상세 복원을 동시에 수행함으로써, 기존의 단순 잔차 디코더보다 정합 정확도를 크게 향상시킨다.
두 번째 한계는 변형 강도가 이미지마다 크게 다름에도 불구하고, 기존 모델이 고정된 반복 횟수 혹은 단일 수렴 기준만을 사용해 반복 최적화를 수행한다는 점이다. iPEAR는 Dual‑stage Threshold‑Controlled Iterative(TCI) 전략을 도입해 이를 보완한다. 첫 단계에서는 최근 t번의 변형 결과에 대한 유사도 차이의 표준편차 εₗ을 계산해 “안정성”을 판단한다. εₗ이 사전에 정의된 임계값 이하가 되면 변형이 충분히 안정된 것으로 간주한다. 두 번째 단계에서는 가장 최근 두 결과 사이의 유사도 차이 Δs를 측정해 “수렴” 여부를 확인한다. Δs가 또 다른 임계값 이하이면 반복을 종료한다. 이러한 두 단계 검증은 과도한 반복으로 인한 불필요한 연산을 방지하면서도, 변형이 충분히 복잡한 경우에는 추가 반복을 허용한다.
아키텍처 측면에서 iPEAR는 4단계의 공유 인코더(각 단계마다 3D Conv + Neighborhood Attention + AvgPool)를 사용해 고해상도부터 저해상도까지의 특징을 추출한다. 디코더는 가장 낮은 해상도(F₄, M₄)부터 시작해 점진적으로 고해상도로 이동하면서, 각 단계마다 FARM을 통해 변형 필드 φₗ을 추정한다. 이전 단계에서 얻은 φₗ₊₁은 Spatial Transformer Network를 통해 이동 이미지 Mₗ를 warp하고, 이 warp된 특징과 고정 이미지 특징을 결합해 현재 단계의 입력으로 사용한다. 이렇게 하면 코스스케일에서 얻은 변형이 finer scale에 자연스럽게 전달되면서도, FARM의 주의 메커니즘이 불필요한 왜곡을 억제한다.
실험에서는 OASIS‑3, ADNI, HCP와 같은 뇌 MRI 데이터와 BTCV 복부 CT 데이터에 대해 Dice, NCC, Hausdorff Distance 등 다양한 정량 지표를 사용했다. iPEAR는 모든 데이터셋에서 기존 SOTA 모델(VoxelMorph, VoxelMorph‑Cascade, RDP 등)보다 평균 2‑4% 높은 Dice를 기록했으며, 파라미터 수는 약 12M으로 기존 모델과 비슷하고, 추론 시간도 0.12 s 정도로 실시간 수준을 유지했다. Ablation study에서는 FARM 없이 TCI만 적용했을 때와, TCI 없이 FARM만 적용했을 때 각각 성능이 1.5%‑2% 감소함을 보여, 두 구성 요소가 상호 보완적으로 작용함을 입증한다. 또한, 교차 데이터셋 테스트에서 학습되지 않은 기관(예: 다른 병원 CT)에도 높은 일반화 성능을 유지한다.
한계점으로는 현재 3D 볼륨 전체를 한 번에 처리하기 때문에 메모리 사용량이 GPU에 크게 의존한다는 점이며, TCI의 임계값을 데이터셋마다 튜닝해야 하는 번거로움이 있다. 향후 연구에서는 메모리 효율을 위한 슬라이스‑기반 처리와, 메타‑러닝을 통한 자동 임계값 학습을 고려할 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기