불꽃처럼 빠른 무감독 다중모달 이미지 정합 네트워크 FIRE

본 논문은 의료 영상 분야에서 필수적인 인터모달 이미지 정합을 위한 새로운 무감독 딥러닝 프레임워크인 FIRE(Fast Inter-modality Registration) 를 제안한다. 기존의 딥러닝 기반 정합 방법들은 주로 supervised 방식에 의존하거나, affine와 비강체 변형을 각각 별도의 네트워크로 학습하는 구조적 한계를 가지고 있었다. 특히 역일관성(inverse‑consistency)이라는 중요한 물리적 제약을 무시하는 경우가 많아, 변형 후 이미지가 원본으로 복원되지 못하는 현상이 빈번했다. FIRE는 이러한 문제점을 해결하기 위해 다중 작업(multi‑task) 아키텍처와 새로운 변환 네트워크를 설계하였다. 아키텍처는 총 5개의 서브 네트워크로 구성된다. 첫 번째는 모달리티‑독립 특징을 추출하는 합성 인코더 G이다. G는 입력 이미지 x_A와 x_B를 각각 G(x_A), G(x_B) 로 변환하며, 다운샘플링 레이어와 4개의 ResNet 블록을 포함한다. 두 번째와 세 번째는 각각 F_A→B와 F_B→A 라는 합성 디코더로, 인코더가 만든 잠재 표현을 목표 모달리티 이미지(ˆx_B, ˆx_A) 로 복원한다. 네 번째와 다섯 번째는 변환 네트워크 T_A→B와 T_B→A 로, 각각 affine 서브넷 T_af와 non‑rigid 서브넷 T_nr 로 이루어진다. affine 서브넷은 STN 구조와 전역 평균 풀링을 통해 6‑DOF 변환 파라미터를 추정하고, non‑rigid 서브넷은 affine 변환이 적용된 특징 맵과 원본 특징 맵을 병합해 고해상도 변형장을 생성한다. 학습 과정에서는 세 가지 주요 손실을 동시에 최소화한다. ① 합성 손실(L_syn) 은 합성 정확도(L_syn,acc), 특징 일관성(L_syn,fea), 사이클 일관성(L_syn,cyc), 정합 정렬(L_syn,align) 네 가지 항목으로 구성된다. 특히 특징 일관성 항목은 G(x_A)와 G(x_B) 를 affine 변환 후 비교함으로써 인코더가 진정한 모달리티‑불변 표현을 학습하도록 유도한다. ② 정합 손실(L_reg) 은 합성 이미지와 실제 목표 이미지 간 RMS 차이(L_reg,acc)와 역일관성 RMS 차이(L_reg,ic)를 포함한다. 역일관성 항목은 φ_A→B와 φ_B→A 가 서로의 역변환이 되도록 강제함으로써 변형장의 위상 보존을 보장한다. ③ 정규화(R) 는 기존 Laplacian 기반 스무딩(R_smooth)과 새로운 정규화(R_syn, R_reg)를 결합한다. 여기서 R_syn 은 affine 변환이 적용된 특징 맵을 이용해 합성 이미지와 원본 이미지 간 차이를 최소화하고, R_reg 은 정합 단계에서도 affine 변환을 활용해 비강체 변형을 최소화한다. 전체 손실은 L = L_syn + L_reg + R 로 정의되며, λ 파라미터는 이미지 차원과 포인트 수에 비례해 자동 조정된다. 최적화는 Adam 옵티마이저 3개를 사용해 affine 서브넷, non‑rigid 서브넷, 그리고 나머지 네트워크 파라미터를 순차적으로 업데이트한다. 이는 변환 장들 간의 상호 의존성을 고려한 안정적인 수렴을 가능하게 한다. 실험은 두 개의 공개 데이터셋을 대상으로 수행되었다. 첫 번째는 MRBrainS 데이터셋으로, 12명의 피험자에 대해 T1‑weighted, IR, T2‑FLAIR 3종 시퀀스를 포함한다. 각 시퀀스는 수동으로 라벨링된 뇌 구조(뇌실, 백질, 뇌줄기)를 이용해 Dice 계수를 평가하였다. FIRE는 2D와 3D 정합 모두에서 ANTs‑SyN(비강체)과 비교해 동등하거나 더 높은 Dice 점수를 기록했으며, 특히 백질(WHM)과 뇌줄기(BS)에서 현저히 개선된 결과를 보였다. 두 번째는 ACDC 4D Cine‑MR 데이터셋으로, 100명의 환자 데이터를 학습하고 50명을 테스트하였다. 여기서는 좌심실 내벽(LVe)과 심근(Myo) 라벨을 사용했으며, FIRE는 SyN과 거의 동일한 0.9 이상 Dice 점수를 달성하였다. 특히 IR‑FLAIR와 같이 강도 차이가 큰 모달리티 쌍에서도 SyN이 0.4 이하에 머물렀던 반면, FIRE는 0.69까지 끌어올렸다. 논문의 주요 기여는 다음과 같다. (1) “火”(불) 모양의 다섯 서브 네트워크로 구성된 FIRE 아키텍처를 제안하여 역일관성 및 사이클 합성을 동시에 구현하였다. (2) 하나의 네트워크가 affine와 non‑rigid 변형을 동시에 학습하도록 설계함으로써 파이프라인을 단순화하고 연산 효율성을 높였다. (3) affine 변환을 활용한 새로운 정규화 항을 도입해 비강체 변형의 과도한 왜곡을 억제하였다. 한계점으로는 합성 단계가 추가 연산을 요구해 추론 시간에 약간의 오버헤드가 발생하고, 대규모 3D 볼륨에 대한 메모리 사용량이 아직 최적화되지 않았다는 점이다. 또한, RMS 기반 손실에만 의존하고 있어 복잡한 해부학적 구조에 대한 정밀도는 추가적인 정규화(예: 판별기 기반)와 결합해 개선할 여지가 있다. 결론적으로 FIRE는 무감독 인터모달 정합에 역일관성과 사이클 합성을 도입함으로써 기존 방법 대비 높은 정확도와 변형의 위상 보존성을 제공하는 실용적인 프레임워크이며, 향후 다양한 임상 응용 및 멀티모달 데이터에 확장될 가능성이 크다.

불꽃처럼 빠른 무감독 다중모달 이미지 정합 네트워크 FIRE

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기