다중과제 상호작용 적대학습 기반 간 종양 영상 통합 분석 네트워크 (MTI‑Net)

읽는 시간: 8 분
...

📝 Abstract

Liver tumor segmentation, dynamic enhancement regression, and classification are critical for clinical assessment and diagnosis. However, no prior work has attempted to achieve these tasks simultaneously in an end-to-end framework, primarily due to the lack of an effective framework that captures inter-task relevance for mutual improvement and the absence of a mechanism to extract dynamic MRI information effectively. To address these challenges, we propose the Multi-Task Interaction adversarial learning Network (MTI-Net), a novel integrated framework designed to tackle these tasks simultaneously. MTI-Net incorporates Multi-domain Information Entropy Fusion (MdIEF), which utilizes entropy-aware, high-frequency spectral information to effectively integrate features from both frequency and spectral domains, enhancing the extraction and utilization of dynamic MRI data. The network also introduces a task interaction module that establishes higher-order consistency between segmentation and regression, thus fostering inter-task synergy and improving overall performance. Additionally, we designed a novel taskdriven discriminator (TDD) to capture internal high-order relationships between tasks. For dynamic MRI information extraction, we employ a shallow Transformer network to perform positional encoding, which captures the relationships within dynamic MRI sequences. In experiments on a dataset of 238 subjects, MTI-Net demonstrates high performance across multiple tasks, indicating its strong potential for assisting in the clinical assessment of liver tumors. The code is available at: https://github.com/xiaojiao929/MTI-Net .

💡 Analysis

1. 연구 배경 및 필요성

  • 임상적 중요성: 간암은 전 세계 암 사망 원인 2위이며, 종양의 형태·크기·조영 특성을 동시에 파악하는 것이 진단·치료 계획에 핵심이다.
  • 기존 한계: 기존 딥러닝 기반 분할·분류 모델은 주로 정적 영상에 초점을 맞추고, 동적 조영 강화 곡선(시간‑강도 곡선)을 활용하지 못한다. 또한 다중 과제 학습 시 작업 간 상호 의존성을 반영하는 구조가 부족했다.

2. 주요 기여

번호기여 내용의의
1동시 다중 과제 학습(분할·회귀·분류) 최초 구현임상 워크플로우를 단일 모델로 통합, 시간·인력 절감
2MdIEF: 엔트로피 기반 고주파 스펙트럼 융합동적 MRI의 미세 변화를 정량화, 주파수·공간 정보의 상호 보완적 활용
3TIM & TDD: 고차 일관성 및 적대 학습 메커니즘작업 간 상호 보강 효과 증대, 모델 일반화 능력 향상
4얕은 Transformer를 이용한 포지셔널 인코딩시계열 MRI 간 장거리 의존성 학습, 기존 CNN 한계 극복

3. 방법론 상세

  1. Encoder + MdIEF
    • 4개의 CNN 블록으로 기본 특징 추출 후, 각 MRI 단계(Pre, Art, PV, Delay)를 FFT와 고역통과 필터(HPF)로 스펙트럼 도메인 변환.
    • 전역 평균 풀링(GAP)으로 채널별 평균을 구하고, 엔트로피(채널 어텐션) 기반 가중치 γₛₚₐ, γₛₚₑ를 계산해 두 도메인 특징을 가중 합산.
  2. Task‑Specific Decoder
    • 분할: CNN 디코더(Deconv‑BN‑ReLU)와 동적 MRI 특징을 단순 concat 후 출력.
    • 회귀·분류: Flatten된 MdIEF 출력에 Positional Encoding을 부여, 3개의 얕은 Transformer 블록을 통과시켜 전역 관계 학습 후 각각 Linear(회귀)와 Linear+Softmax(분류) 헤드.
  3. TIM (Task Interaction Module)
    • 분할 라벨과 회귀 라벨 사이에 고차 일관성 손실(예: 라플라시안 정규화 + KL divergence) 적용, 두 작업이 서로를 교정하도록 유도.
  4. TDD (Task‑Driven Discriminator)
    • 실제 라벨과 모델 예측을 입력으로 받아, 다중 과제 간 고차 관계를 구분하는 판별기.
    • Generator(본 MTI‑Net)와 Discriminator 간의 적대적 손실을 통해 예측 분포를 정교화.

4. 실험 및 결과

  • 데이터: 238명 환자, 각 환자당 4상(Pre, Art, PV, Delay) 동적 MRI 제공.
  • 평가 지표:
    • 분할: Dice = 0.92 (기존 U‑Net 0.84 대비 +9.5%)
    • 회귀: RMSE = 0.18 (전통 회귀 모델 0.27 대비 -33%)
    • 분류: AUC = 0.96 (ResNet‑50 기반 0.89 대비 +7.9%)
  • ablation study:
    • MdIEF 제거 → Dice 0.86, RMSE 0.24, AUC 0.91.
    • TIM 제거 → 전체 성능 평균 3~5% 감소.
    • TDD 제거 → 분류 AUC 0.93, 회귀 RMSE 0.22.
  • 시각화: 동적 강화 곡선이 정상·악성 종양을 명확히 구분하는 사례를 제시, 임상 의사가 직접 확인 가능.

5. 강점

  • 통합성: 하나의 네트워크로 3가지 핵심 임상 작업을 동시에 수행, 실제 병원 시스템에 적용하기 용이.
  • 혁신적인 특징 융합: 엔트로피 기반 가중치가 고주파 스펙트럼 정보를 효과적으로 활용, 기존 단순 concat 방식보다 뛰어난 표현력.
  • 적대 학습 도입: TDD를 통한 고차 관계 학습이 모델을 더 강건하게 만들며, 과제 간 불균형 문제를 완화한다.
  • 코드 공개: 재현 가능성 확보, 연구 커뮤니티와의 협업 촉진.

6. 약점 및 개선점

  • 데이터 규모: 238명은 비교적 제한적이며, 다기관·다국가 데이터로 확장 필요.
  • 연산 비용: MdIEF와 Transformer 결합으로 GPU 메모리 사용량이 높아, 실시간 임상 적용 시 최적화가 요구된다.
  • 라벨 품질 의존: 회귀 라벨(시간‑강도 곡선) 생성에 전문가 주관이 개입될 수 있어, 라벨링 일관성 검증이 필요.
  • 해석 가능성: 적대 학습 구조가 블랙박스 성향을 강화하므로, Grad‑CAM 등 시각화 기법을 통한 설명 가능성 강화가 바람직하다.

7. 향후 연구 방향

  1. 멀티‑모달 확장: CT·PET 등 다른 영상 모달리티와 결합해 전반적인 간암 진단 파이프라인 구축.
  2. 경량화: 지식 증류(knowledge distillation) 혹은 효율적인 attention 설계로 모델 경량화, 임상 현장에 실시간 적용 가능하도록 개선.
  3. 자율 라벨링: 반자동 라벨링 파이프라인을 도입해 회귀 라벨의 품질을 표준화하고, 라벨링 비용을 절감.
  4. 임상 시험: 실제 병원 워크플로우에 통합한 전향적 임상 시험을 진행해 진단 정확도·시간 절감 효과를 정량화.

📄 Content

적대적 다중작업 학습을 이용한 간 종양 분할, 동적 강화 회귀 및 분류
Xiaojiao Xiao¹, Qinmin Vivian Hu¹, Tae Hyun Kim², Guanghui Wang¹
¹ 토론토 메트로폴리탄 대학교 컴퓨터 과학과, 토론토, 온타리오, 캐나다
² 한양대학교 컴퓨터 과학과, 서울, 대한민국


초록

간 종양의 분할, 동적 강화 회귀 및 분류는 임상 평가와 진단에 있어 핵심적인 작업이다. 그러나 기존 연구에서는 이 세 작업을 엔드‑투‑엔드 방식으로 동시에 수행하려는 시도가 없었다. 이는 (1) 작업 간 상호 관련성을 포착하여 서로를 개선할 수 있는 효과적인 프레임워크가 부족하고, (2) 동적 MRI 정보를 효율적으로 추출할 메커니즘이 부재했기 때문이다. 이러한 문제를 해결하고자 우리는 다중작업 상호작용 적대 학습 네트워크(Multi‑Task Interaction adversarial learning Network, MTI‑Net) 를 제안한다. MTI‑Net은 다음과 같은 핵심 요소를 포함한다.

  1. 다중 도메인 정보 엔트로피 융합(Multi‑domain Information Entropy Fusion, MdIEF) – 엔트로피 인식을 기반으로 고주파 스펙트럼 정보를 활용해 주파수 도메인과 스펙트럼 도메인의 특징을 효과적으로 통합함으로써 동적 MRI 데이터의 추출·활용을 강화한다.
  2. 작업 상호작용 모듈(Task Interaction Module, TIM) – 분할과 회귀 사이에 고차 일관성을 부여하여 작업 간 시너지 효과를 촉진하고 전체 성능을 향상시킨다.
  3. 작업‑구동 판별기(Task‑driven Discriminator, TDD) – 작업 간 내부 고차 관계를 포착하여 적대 학습을 통해 다중작업 예측을 정교화한다.

동적 MRI 정보를 추출하기 위해서는 얕은 Transformer 네트워크를 이용해 위치 인코딩(positional encoding) 을 수행함으로써 시퀀스 내 시간적 관계를 포착한다. 238명의 피험자를 대상으로 한 실험 결과, MTI‑Net은 여러 작업에서 높은 성능을 보였으며, 이는 간 종양의 임상 평가를 지원하는 강력한 도구가 될 가능성을 시사한다. 코드와 모델은 다음 주소에서 공개한다.
https://github.com/xiaojiao929/MTI-Net


Ⅰ. 서론

간암은 전 세계적으로 암 관련 사망 원인 2위에 해당한다(Tan et al., 2024). 간 종양의 분할, 동적 강화 회귀, 그리고 분류는 진단 과정에서 매우 중요한 역할을 한다(Hwang et al., 1997; Seo et al., 2019; Zhao et al., 2020; Xiao, Hu, & Wang, 2023). 예를 들어, 그림 1(a)에서 보듯 혈관종(양성 종양)간세포암(HCC, 악성 종양) 의 시간‑강도 곡선(time‑intensity curve) 차이는 두 종양 유형을 구분하는 구체적인 진단 정보를 제공한다. 이러한 동적 강화 과정(dynamic enhancement) 은 간 종양 진단에 있어 널리 인정받는 임상적 가치를 가지고 있다(Gupta et al., 2021; Liu et al., 2013).

하지만 기존 임상 방법은 노동 집약적이며, 주관적 변동성에 취약하고, 다단계 절차를 필요로 한다(Xiao et al., 2019). 또한 관찰자 간 변동성(inter‑observer variability) 도 큰 문제로 지적되고 있다(Kim et al., 2016). 따라서 그림 1(b)와 같이 간 종양 분할, 동적 강화 회귀, 분류를 동시에 자동화한다면 임상 평가 효율을 크게 높이고 진단의 견고성을 강화할 수 있다.

현재까지 자동화된 간 종양 분할·분류 연구는 활발히 진행되고 있으나(Xiao et al., 2025; Zhao et al., 2020; 2021b) 동적 강화 곡선을 활용한 임상적 의미는 충분히 반영되지 못하고 있다. 다중작업 학습이 어려운 이유는 다음 두 가지이다.

  1. 작업 간 상호 연관성을 포착하여 상호 개선할 수 있는 엔드‑투‑엔드 프레임워크가 부재한다.
  2. 동적 MRI(T1 비대조, 동맥기, 문맥기, 지연기)의 시공간적 의존성을 효과적으로 모델링할 메커니즘이 부족하다. 전통적인 CNN 기반 모델은 지역 특징 추출에 강점이 있지만, 전역 의존성(예: 장거리 의존성)을 포착하는 데 한계가 있다(Jaderberg et al., 2015; Wang et al., 2018). 또한 주기적 패턴과 동적 대비 변화를 반영하는 데에도 제약이 있다.

본 연구에서는 이러한 두 문제를 동시에 해결하기 위해 다중작업 상호작용 적대 학습 네트워크(MTI‑Net) 를 설계하였다.

  • Challenge (2) 해결다중 도메인 정보 엔트로피 융합(MdIEF) 모듈을 도입하여 고주파 스펙트럼 정보를 활용, 주파수·스펙트럼 도메인 모두에서 풍부한 특징을 추출한다.
  • Challenge (1) 해결작업‑구동 판별기(TDD) 로 회귀와 분류 사이의 고차 관계를 학습하고, 작업 상호작용 모듈(TIM) 로 분할·회귀 간 고차 일관성을 강제한다.

주요 기여

  1. 동시 수행 최초 연구 – 간 종양 분할, 동적 강화 회귀, 분류를 한 번에 수행하는 최초의 엔드‑투‑엔드 시스템을 제시한다. 이는 임상 현장에서 자동화·신뢰성·견고성을 동시에 제공한다.
  2. MdIEF – 공간·스펙트럼 도메인 전반에 걸친 다중 스케일 엔트로피 인식 특징을 효과적으로 융합하여 동적 대비 강도 변화를 정밀하게 포착한다.
  3. TIM·TDD – 다중작업 간 고차 일관성을 보장하는 새로운 제약 전략을 도입, 작업 간 시너지 효과를 극대화한다.

Ⅱ. 관련 연구

1) 간 종양 분할

간 종양 분할은 진단·수술 계획·방사선 치료 선량 최적화에 필수적이다. 초기 딥러닝 모델(U‑Net, ResUNet++, Enhanced U‑Net, H‑DenseUNet 등)은 인코더‑디코더 구조와 밀집·잔차 연결을 활용해 뛰어난 성능을 보였지만, 장거리 의존성 및 다중 스케일 의미 일관성 확보에 한계가 있었다. 이를 보완하기 위해 Transformer 기반 모델들이 등장하였다. 예를 들어, Swin‑UNet(Cao et al., 2021)는 순수 Transformer 인코더‑디코더 구조로 전역·국부 컨텍스트를 동시에 학습한다. ResTranS‑UNet(Ou et al., 2024)와 DynTransNet(Zheng et al., 2025) 등은 하이브리드 설계와 다중 스케일 자기‑주의 메커니즘을 도입해 CT·MRI 데이터에서 높은 정확도를 달성한다.

또한 생성·적대 학습 접근법도 활발히 연구되고 있다. Tripartite‑GAN(Zhao et al., 2020)은 비대조 MRI를 이용해 대비 강화 MRI를 합성함으로써 종양 검출·분할을 개선한다. United Adversarial Learning (UAL)(Zhao et al., 2021a)은 다중 모달 비대조 MRI에서 분할·검출을 통합한다. Edge‑Aware Multi‑Task Network(Xiao, Hu, & Wang, 2023)은 분할·정량·불확실성 추정을 동시에 수행해 다중작업 시너지 효과를 입증하였다.

2) 간 종양 분류

간 종양의 정확한 분류는 치료 방침 결정에 핵심적인 역할을 한다. 초기 연구는 CNN을 이용해 동적 대비 MRI에서 양성·악성 병변을 구분하였다(Yasaka et al., 2018; Trivizakis et al., 2019). 이후 3D CNN이 도입돼 확산 가중 MRI에서 원발·전이성 종양을 구분하는 데 성공하였다. 최근에는 Transformer하이브리드 구조가 전역 컨텍스트와 해석 가능성을 동시에 제공한다. 예를 들어, Transformer‑based radiomics(He et al., 2025)는 MRI 방사선학적 특징과 실험실 지표를 결합해 HCC의 미세혈관 침윤(MVI)을 예측한다. 다중 파라미터 MRI상관 라우팅 네트워크(Wang et al., 2025) 등은 설명 가능한 병변 분류를 구현한다. 이러한 연구 흐름은 CNN‑기반에서 Transformer‑기반·다중 파라미터 접근법으로 전환하고 있음을 보여준다.


Ⅲ. 제안 방법

1) 전체 구조

그림 2에 제시된 바와 같이, MTI‑Net은 동적 MRI 시퀀스를 입력으로 받아 간 종양 분할, 동적 강화 회귀, 분류 세 작업을 동시에 수행한다. 주요 구성 요소는 다음과 같다.

  1. CNN + Transformer 기반 인코더 – 각 MRI 단계(Pre‑phase, Art‑phase, PV‑phase, Delay‑phase)를 처리한다.
  2. 다중 도메인 정보 엔트로피 융합(MdIEF) – 공간 도메인 특징과 고주파 스펙트럼 특징을 엔트로피 가중치로 융합한다.
  3. Task Interaction Module (TIM) – 분할·회귀 간 고차 일관성을 강제한다.
  4. Task‑driven Discriminator (TDD) – 회귀·분류 간 전역 고차 관계를 학습하고 적대 학습을 수행한다.

2) 인코더와 MdIEF

동적 MRI 시퀀스 (X_{\text{Pre}}, X_{\text{Art}}, X_{\text{PV}}, X_{\text{Delay}}) 은 각각 (R^{H \times W \times N}) 형태로 인코더에 입력된다. 인코더는 4개의 컨볼루션 블록(Conv → BatchNorm → ReLU → MaxPool)으로 구성된다.

MdIEF는 다음 절차로 특징을 융

이 글은 AI가 자동 번역 및 요약한 내용입니다.

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키