초음파 이미지 분석을 위한 통합 멀티태스크 베이스라인 모델
초록
본 논문은 FM_UIA 2026 챌린지를 위해 EfficientNet‑B4와 FPN을 결합한 멀티‑헤드 멀티태스크 학습(MH‑MTL) 프레임워크를 제시한다. 하나의 공유 인코더와 작업별 라우팅 메커니즘을 통해 27개의 세분화된 초음파 과제(분할, 분류, 검출, 회귀)를 단일 네트워크에서 동시에 처리한다. Composite loss와 cosine annealing 스케줄을 적용해 256×256 입력으로 학습했으며, 검증 결과는 분류(AUC 0.9155)와 분할(DSC 0.7543)에서 강인함을 보였지만 검출(IoU 0.2641)과 회귀(MRE 67.43 px)에서는 한계가 드러났다.
상세 분석
본 연구는 초음파 영상의 고유한 이질성—스피클 노이즈, 장비·프로토콜 차이, 해부학적 다양성—을 극복하기 위해 범용 기반 모델을 목표로 설계되었다. 핵심 설계는 세 가지 요소로 요약된다. 첫째, ImageNet‑pretrained EfficientNet‑B4를 공유 인코더로 채택함으로써 대규모 자연 이미지에서 학습된 풍부한 고수준 의미 표현을 초음파 영상에 전이한다. EfficientNet‑B4는 모델 규모와 연산 효율 사이의 균형을 최적화한 구조로, 깊은 레이어(C5)에서는 전역적인 진단 정보를, 얕은 레이어(C1~C4)에서는 텍스처와 경계 정보를 보존한다. 둘째, Feature Pyramid Network(FPN)를 디코더에 삽입해 다중 스케일 피처를 융합한다. 이는 특히 작은 장기·병변을 포함한 밀집 예측 작업(분할, 검출)에서 공간 해상도를 유지하는 데 기여한다. 셋째, 작업별 라우팅 메커니즘을 통해 전역 작업(분류·회귀)에는 C5 → GAP → FC 흐름을, 밀집 작업에는 FPN 출력(P_out) → 전용 컨볼루션 헤드 흐름을 명시적으로 구분한다. 이 deterministic routing은 동적 라우팅에 비해 구현 복잡성을 낮추면서도 작업 충돌을 최소화한다.
손실 함수는 작업에 따라 Dice, Cross‑Entropy, MSE, 그리고 객체성·바운딩박스 L1을 결합한 복합 손실을 사용한다. 특히 검출 손실은 그리드 기반 앵커‑프리 방식을 채택해, 초음파 영상에서 흔히 나타나는 단일 병변 상황에 초점을 맞추었다. 학습 스케줄은 AdamW와 cosine annealing을 적용해 50 epoch 동안 진행했으며, 백본 학습률 1e‑4, 헤드 학습률 1e‑3으로 차등 설정해 수렴 속도를 조절하였다.
실험 결과는 작업별 성능 차이를 명확히 보여준다. 분류와 분할에서는 평균 AUC 0.9155, DSC 0.7543을 기록해, 전역 및 중간 스케일 피처가 충분히 활용됨을 확인한다. 반면 검출은 평균 IoU 0.2641에 머물렀으며, 이는 작은 병변에 대한 공간 해상도 손실과 그리드 크기의 제한이 원인으로 추정된다. 회귀는 원본 해상도 기준 평균 MRE 67.43 px로, 256×256 입력으로 학습한 뒤 원본 크기로 복원하면서 발생하는 스케일링 오차가 크게 작용했을 가능성이 있다. 따라서 현재 베이스라인은 전역적인 의미 이해에는 강하지만, 고정밀 로컬화·정밀 측정에는 추가적인 멀티스케일 강화, 고해상도 디코더, 혹은 별도 미세조정 단계가 필요함을 시사한다.
전반적으로 본 논문은 초음파 분야 최초로 27개 과제를 하나의 통합 네트워크로 처리하는 프레임워크를 제시함으로써, 향후 연구자들이 베이스라인 위에 다양한 모듈(예: Transformer 기반 라우팅, 고해상도 피처 피라미드, 자기 지도 학습) 을 추가해 성능을 향상시킬 수 있는 튼튼한 출발점을 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기