백프로파게이션 없이 효율적인 다중작업 심초음파 분할 및 EF 분류를 위한 인터프리터블 그린러닝
초록
본 연구는 백프로파게이션을 사용하지 않는 그린러닝 기반 다중작업 프레임워크(MTGL)를 제안한다. VoxelHop 인코더로 시공간 특징을 추출하고, 다단계 회귀 디코더와 XGBoost 분류기를 결합해 좌심실(LV) 분할과 좌심실 박출률(LVEF) 분류를 동시에 수행한다. EchoNet‑Dynamic 데이터셋에서 정확도 94.3%와 Dice 0.912를 달성했으며, 파라미터 수가 기존 3D 딥러닝 모델보다 10배 이상 적어 효율성과 해석 가능성을 동시에 확보한다.
상세 분석
MTGL은 기존 딥러닝 모델이 갖는 고비용 학습·추론 문제를 근본적으로 재구성한다. 핵심은 완전 비지도 방식인 VoxelHop 인코더이다. VoxelHop은 3차원 이웃 영역을 정의하고, 각 채널에 대해 Saab 변환(조정된 편향을 포함한 PCA)을 적용한다. 이 과정에서 DC(직류) 성분은 평균 밝기를, AC(교류) 성분은 에지·텍스처·운동 정보를 각각 담당한다. 따라서 각 홉에서 추출된 피처는 선형 변환 기반이므로 해석이 용이하고, 에너지 스펙트럼을 기준으로 필요한 AC 필터 수를 자동 선택해 파라미터를 최소화한다. 네 단계의 홉을 거치며 풀링으로 해상도를 절반씩 감소시켜, 다중 스케일의 풍부한 표현을 얻는다.
분할 디코더는 전통적인 U‑Net과 달리 회귀 기반의 코스‑투‑파인 전략을 채택한다. 가장 거친 레벨(14×14)에서는 XGBoost 회귀기를 학습시켜 픽셀당 0~1 값을 예측하고, 이를 하위 레벨에 업샘플링하여 잔차를 보정한다. 각 레벨마다 독립적인 XGBoost 모델을 사용함으로써 학습이 폐쇄형 선형 방정식(최소제곱) 형태가 아니라 부스팅 트리의 단계적 최적화로 진행돼, 파라미터 수가 극히 적고 학습 시간이 짧다. 또한, 회귀 목표를 픽셀 블록 평균값(소수점)으로 정의해 서브픽셀 경계 정보를 보존한다는 점이 기존 이진 마스크 학습보다 정밀도를 높인다.
분류 파이프라인은 인코더에서 추출된 고차원 피처를 그대로 XGBoost 분류기에 전달한다. Gradient‑boosted 트리는 피처 중요도를 직접 제공하므로, 어느 홉·채널이 LVEF 판별에 기여하는지 시각화가 가능하다. 이는 “블랙박스” 딥러닝 대비 명확한 해석성을 제공한다. 또한, 인코더는 사전 학습 후 고정되므로 분류기와 분할기 각각을 독립적으로 튜닝할 수 있어 모듈화가 뛰어나다.
실험 결과는 두 가지 측면에서 의미가 크다. 첫째, EchoNet‑Dynamic 데이터셋(10 030개 영상)에서 MTGL은 94.3%의 정확도와 0.912의 Dice를 기록했으며, 이는 3D V‑Net, 3D U‑Net, 3D UNETR, nnU‑Net 등 최신 3D CNN 기반 베이스라인을 모두 능가한다. 둘째, 전체 파라미터 수는 약 0.5 M 정도로, 일반적인 3D CNN(수십~수백 MB) 대비 10배 이상 적다. 연산량과 메모리 요구가 낮아 저전력 임베디드 디바이스나 병원 내 현장 서버에서도 실시간 추론이 가능하다. 마지막으로, 모든 변환 과정이 선형·통계적 기반이므로 각 단계의 기여도를 수학적으로 추적할 수 있다. 이는 임상 현장에서 AI 모델에 대한 신뢰성을 높이고, 규제·감시 요구사항을 충족시키는 데 큰 장점이다.
댓글 및 학술 토론
Loading comments...
의견 남기기