- Title: An Adaptive, Disentangled Representation for Multidimensional MRI Reconstruction
- ArXiv ID: 2512.24674
- 발행일: 2025-12-31
- 저자: Ruiyang Zhao, Fan Lam
📝 초록
(이 논문은 딥러닝을 활용한 MRI 이미지 재구성 방법에 대해 설명한다. 특히, 기하학적 특징과 대조를 분리하여 다차원 MRI 이미지를 효과적으로 재구성하는 새로운 네트워크 기반 표현법을 제시한다.)
💡 논문 해설
1. **기본 개념**: 딥러닝이 MRI 이미지 재구성을 더 정확하게 만드는 방법은 마치 사진 필터를 적용하듯이 다양한 특징을 분리해서 처리하는 것이다.
2. **중급 이해**: 이 연구에서는 기존의 학습 방법과 달리, MRI 이미지를 재구성할 때 각각의 차원별로 다른 특징(예: 대조와 기하학)을 분리하여 학습한다. 이를 통해 데이터가 부족한 상황에서도 좋은 결과를 얻는다.
3. **고급 내용**: 논문은 디퓨전 모델과 스타일 기반 네트워크를 활용해 MRI 이미지의 기하학적 특징과 대조를 분리하고, 이를 재구성하는 알고리즘을 제시한다.
딥러닝의 성공은 이미지 재구성을 위한 전통적인 “수작업” 정규화/선입견에서 데이터 기반 방법을 통해 도메인 또는 작업에 특화된 선입견을 학습하고 통합하는 패러다임으로 변화시켰습니다. MRI 분야에서는 총알형 깊은 신경망으로 반복적 최적화 알고리즘을 펼치는 주요 방법 중 하나가 초기 재구성(또는 $`k`$-공간 측정)에서 재구성된 이미지로 직접 매핑하는 것입니다. 이러한 네트워크는 고급 품질의 완전 샘플링 이미지가 있는 경우 사전 학습 방식으로, 또는 시끄러운 또는 불완전한 측정치만을 활용하여 자기학습 방식으로 전반적으로 학습됩니다. 두 가지 학습 전략 모두 놀라운 성능을 보여주지만, 안정적인 결과를 얻기 위해서는 대량의 훈련 데이터가 필요합니다. 또한 이러한 접근법은 획득 프로토콜, 데이터 품질 및 도메인 이동에 대한 취약성을 가집니다.
다른 학습 기반 이미지 재구성 방법으로, 각각의 새로운 재구성 작업마다 다시 학습할 필요 없이 태스크 특화된 포워드 모델을 고려하여 반복 알고리즘에 유연하게 통합(또는 “플러그인”)될 수 있는 “선입견”을 사전 학습하는 방법이 있습니다. 예를 들어, 점수 기반 확산 모델과 같은 선입견 학습 기술은 광범위하게 조사되었습니다. 이러한 방법들은 획득 및 도메인 변동에 더 견고할 수 있지만, 다차원 영상에서의 응용은 훈련 데이터 부족과 여러 이미지 차원 간 특징 상관관계를 효과적으로 활용하는 데 어려움 때문에 아직 크게 탐구되지 않았습니다. 예를 들어, 양적 매개변수 맵핑, 자기공명 스펙트로스코피 또는 동적 영상과 같은 다차원 MRI 응용 프로그램에서 전체적인 공간-시간 선입견을 학습하기 위해 대량의 다양한 데이터셋을 획득하는 것은 자원이 많이 필요하기 때문에 실현 가능하지 않을 수 있습니다. 충분한 데이터가 있더라도, 다차원 특징 상관관계를 더 효과적으로 활용하기 위한 전략이 필요합니다.
최근 주목받고 있는 다른 접근법은 네트워크 기반 표현을 사용해 알려지지 않은 이미지를 위한 제로샷 학습 기반 재구성을 하는 방법입니다. 이 접근법에서는 대상 이미지를 디코더 아키텍처를 통해 생성된 이미지로 모델링합니다. 이는 일반적으로 낮은 차원의 특징 벡터(잠재변수)에서 이미지로 맵핑하는 방식입니다. 다른 학습 기반 방법과 비교할 때, 이러한 접근법에는 여러 가지 장점이 있습니다: (1) 이미지 재구성을 저차원 잠재변수 회복으로 재정의하여 자유도를 크게 줄임; (2) 네트워크가 직접적인 역방향 맵핑 대신 이미지 표현을 학습하므로 작업 간 일반화 능력이 향상됨; (3) 데이터 제한 상황에서 유연성을 제공함, 예를 들어 미학습 네트워크(예: 깊은 이미지 선입견), 사전 학습 네트워크(예: 생성적 대립 네트워크 및 잠재 확산 모델) 또는 사전 학습 네트워크와 실험/작업에 특화된 미세 조정을 사용할 수 있음; (4) 개별 복셀 값이 아닌 일련의 특징으로 이미지를 설명함으로써, 종종 상관관계가 있는 다차원 이미지에 대한 새로운 제약 방법을 가능하게 함. 예를 들어 양적 MRI(qMRI)에서 이미지 대조는 획득 매개변수에 따라 변경되지만 기본적인 해부학(기하학)은 변하지 않습니다. 따라서 네트워크 기반 표현은 특히 다차원 획득 설정에서 데이터 부족과 일반화 과제를 해결하는 잠재적 솔루션을 제공합니다.
이 논문에서는 다차원 MR 이미지를 재구성하기 위한 새로운 네트워크 기반 표현을 제안하였습니다. 구체적으로, 우리는 다양한 유형의 이미지 특징(예: 기하학과 대조)를 서로 다른 저차원 잠재 공간으로 분리하는 모델 및 학습 전략을 도입했습니다. 이를 통해 다차원 이미지의 자유도를 줄이고 개별 특징에 대한 유연한 제약을 가능하게 합니다. 잠재 확산 모델은 제약된 재구성을 위한 해방된 잠재변수 수준의 생성 선입견을 제공합니다. 사전 학습된 대규모 공개 데이터셋과 특정 응용 프로그램 데이터 간 표현 매칭이 불일치를 완화하기 위해, 우리는 제로샷 자기학습을 통해 사전 학습된 표현과 작업에 특화된 적응을 결합하는 새로운 알고리즘을 개발했습니다. 다중 대조 이미지에서 기하학 및 대조 특징의 효과적인 분리를 달성하고 $`\text{T}_1`$와 $`\text{T}_2`$ 매핑과 같은 다차원 MR 응용 프로그램에 대한 유효성을 평가했습니다.
본 논문은 다음과 같이 구성됩니다: 제 2장에서는 기반 이미지 표현 및 그 사용을 설명합니다. 제 3장에서는 제안된 문제 정의와 알고리즘을 상세히 설명합니다. 제 4장에서는 제안된 방법을 $`\text{T}_1`$과 $`\text{T}_2`$ 매핑 두 가지 응용 프로그램 예에서 평가합니다. 마지막으로, 제 5장과 6장에서는 몇 가지 기술적인 논의를 제공하고 본 논문을 마무리합니다.
배경
특징 기반 표현 및 재구성
특징 기반 표현에서 관심 있는 이미지 $`\mathbf{X}`$는 다음과 같이 설명됩니다: $`\mathbf{X} = D_{\boldsymbol{\theta}}(\mathbf{z})`$, 여기서 $`\mathbf{z}`$는 잠재 변수 세트(보통 $`{\mathbf X}`$보다 낮은 차원)를 나타내고, $`D_{\boldsymbol{\theta}}(.)`$는 잠재공간에서 이미지 공간으로 맵핑하는 네트워크입니다. 이전의 커널 기반 표현과 비교해 보았을 때 이러한 네트워크 기반 모델은 더 많은 유연성을 제공하고 특정 커널 선택의 필요성을 피합니다. 이러한 모델로 재구성 문제는 $`\mathbf{z}`$와/또는 네트워크 매개변수 $`\boldsymbol{\theta}`$를 추정하여 해결하는 방식으로 표현될 수 있습니다:
여기서 $`\mathbf{A}`$와 $`\mathbf{y}`$는 각각 포워드 모델과 측정 데이터를 나타냅니다. 재구성이 $`D_{\boldsymbol{\theta}}(\cdot)`$의 범위 공간 내에 제약되는 것 때문에, 이 접근법은 여러 가지 출처에서 발생할 수 있는 모델링 오류를 일으키는 원인이 됩니다: 표현 학습을 위한 훈련 데이터와 테스트 데이터 간의 불일치, $`{\mathbf z}`$의 저차원성 및 최적화 알고리즘의 한계. 이러한 문제는 사전 학습된 GAN 기반 방법에서 잠재 변수만 업데이트할 때 관찰되었습니다. $`\mathbf{z}`$와 $`\boldsymbol{\theta}`$를 동시에 업데이트하면 이 문제를 완화할 수 있지만, 노이즈 및 아티팩트에 대한 과적합을 방지하기 위해 조기에 중단하거나 다른 정교한 정규화 방법이 필요합니다.
표현 오류를 줄이면서 효과적인 제약을 유지하기 위해, 우리는 제로샷 자기학습 전략과 결합된 두 단계의 세부 조정 네트워크를 도입할 것입니다. 또한 제안된 네트워크는 이전 세대의 GAN보다 특히 고해상도 이미지에 대해 더 강력한 이미지 표현 능력을 보여준 스타일 기반 아키텍처에서 개발되었습니다.
해방된 표현(“기하학” 및 “대조” 특징을 예로): 기하학과 대조 잠재변수를 각각의 분포에서 샘플링하여 결합하여 목표 기하학 또는 대조를 가진 이미지를 생성할 수 있습니다.
다차원 영상 표현
특징 기반 이미지 표현을 다차원 영상으로 직접 확장하는 방법은 각각의 이미지에 별도의 잠재변수와 네트워크 매개변수를 할당하는 것입니다.
여기서 $`\{\mathbf{X}_1, \mathbf{X}_2, \dots, \mathbf{X}_{N_t}\}`$는 서로 다른 시간이나 매개변수에서 획득된 이미지입니다. 그러나 각각의 이미지를 독립적으로 모델링하면 그들 사이의 내재적인 상관관계를 무시하고 불필요하게 더 많은 미지수가 도입됩니다. 이를 위해, 모든 이미지에 공유되는 네트워크 매개변수($`\boldsymbol{\theta}_1=\boldsymbol{\theta}_2=\dots=\boldsymbol{\theta}_{N_t}`$)를 강제하는 일반적인 전략이 있습니다. 그리고 잠재 공간에서의 상관관계를 탐색합니다. 예를 들어, 인접한 잠재변수($`\mathbf{z}_i \approx \mathbf{z}_{i+1}`$)에 대해 유사성 제약을 도입하면 근처 시간 포인트에서 획득된 이미지가 비슷한 특징을 공유한다고 가정할 수 있습니다. 또한 StyleGAN과 같은 다해상도 아키텍처를 사용하여 특정 잠재 구성 요소에 대한 불변성을 강제할 수 있습니다. 이러한 방법들이 도움이 되지만, 이것은 다차원 이미지에서 잠재 변수 간의 진정한 관계를 포착하지 못하는 일반적인 유사성 가정에 의존합니다.
잠재 공간에서 특징 상관관계를 더 잘 모델링하기 위해 우리는 서로 다른 의미적 구성 요소로 잠재 공간을 분해하여 해방된 표현을 학습하는 접근법을 제안합니다. 대조와 기하학 변화를 예로 들면, 양적 MRI와 같은 다양한 응용 프로그램에서 대조 가중치가 다른 이미지 $`\{\mathbf{X}_{c_1}, \mathbf{X}_{c_2}, \ldots, \mathbf{X}_{c_{N_t}}\}`$를 획득합니다. 만약 기하학과 대조 변화를 잠재 공간에서 분리하여 모델링할 수 있다면(그림 1 참조), 각 이미지는 공유된 기하학적 잠재변수 $`\mathbf{z}_g`$와 대조별 잠재변수 $`\{\mathbf{z}_{c_1}, \mathbf{z}_{c_2}, \ldots, \mathbf{z}_{c_{N_t}}\}`$를 사용하여 모델링될 수 있습니다. 이는 다음과 같이 표현됩니다: $`\mathbf{X}_{c_i} = D_{\boldsymbol{\theta}}(\mathbf{z}_g, \mathbf{z}_{c_i})`$, 여기서 $`i = 1, 2, \ldots, N_t`$. 이러한 해방된 표현은 특징 상관관계를 더 잘 활용하고 서로 다른 이미지 특징에 대한 명시적인 제어를 가능하게 합니다. 다음 장에서는 우리의 자세한 방법론을 설명합니다.
제안된 메소드
해방된 이미지 표현 학습
(a) 제안된 표현 학습 전략. 이미지 이전 손실을 사용하여 해방된 표현을 훈련합니다. 디코더는 Xgi, ci
기하학 잠재변수와 Xgj, cj
대조 잠재변수를 결합하여 새로운 이미지를 생성(오른쪽 참조), 이를 Xgi, ci
의 대조 이전 또는 Xgj, cj
의 기하학 이전으로 해석할 수 있습니다. (b) 특징 결합을 위한 FiLM 블록. 해상도 l,
인코더 피처 맵 Fencl
은 전역 평균 풀링(GAP) 및 완전 연결(FC) 레이어를 통해 zcl
으로 변환됩니다. 결과적으로 zcl
는 모듈레이션 매개변수 γcl
와 βcl,
를 분리하여 동일 수준의 디코더 피처 맵 Fdecl
에 적용됩니다.
우리의 목표는 대상 이미지에서 다양한 특징을 명시적으로 제어할 수 있는 모델을 학습하는 것입니다. 이를 위해, 우리는 두 단계 학습 전략을 제안합니다. 첫 번째 단계에서는 이미지 이전 및 잠재변수 정규화를 통해 특징 해방을 가능하게 하는 오토인코더를 훈련시키며, 두 번째 단계는 확산 모델을 사용하여 해방된 잠재변수의 사전 분포를 학습하는 것입니다. 이 논문에서는 대조와 기하학 특징의 해방을 조사하며, 특히 다양한 대조 가중치로 이미지를 재구성하는 데 중점을 두고 있지만 접근법은 다른 유형의 특징에도 일반화될 수 있습니다.
더 구체적으로, 우리는 다대비 이미지에 대해 각각 기하학 및 대조 정보를 추출하기 위해 두 개의 별도의 이미지 인코더 $`E_g(\cdot)`$와 $`E_c(\cdot)`$를 사용했습니다. 그 결과 잠재변수는 디코더 $`D_{\boldsymbol{\theta}}(\cdot)`$에 의해 결합되어 이미지를 합성합니다(그림 2 참조). 오토인코더 훈련은 이미지 이전을 기반으로 하며, 디코더는 한 이미지의 기하학 잠재변수와 다른 이미지의 대조 잠재변수를 결합하여 교차 합성 이미지를 합성하며 이미지 이전 손실을 최소화합니다:
여기서 $`\mathbf{X}_{g_i,c_{i}}`$와 $`\mathbf{X}_{g_{j},c_j}`$는 기하학 $`g_i`$와 $`g_j`$, 대조 $`c_i`$와 $`c_j`$를 가진 이미지 쌍을 나타냅니다. 목표 $`\mathbf{X}_{g_i,c_j}`$는 $`\mathbf{X}_{g_{i},c_i}`$와 같은 기하학과 $`\mathbf{X}_{g_j,c_j}`$와 같은 대조를 가진 이미지를 의미합니다.
해방된 특징: 높은 품질의 T1w (첫 번째)와 T2w (마지막) 이미지를 생성하기 위해 학습된 확산 모델로부터 기하학 잠재변수 zg1
을 샘플링하고 이를 두 가지 다른 대조 잠재변수 zcT1
와 z<