전역·국부 특징 융합을 통한 두 흐름 골연령 평가 네트워크
초록
본 논문은 전역 정보를 담당하는 Transformer 채널과 국부 정보를 담당하는 RF‑AConv 채널을 결합한 두 흐름 구조인 BoNet+를 제안한다. 전역‑국부 특징을 채널 차원에서 concat 후 Inception‑V3로 정제하여 RSNA와 RHPE 데이터셋에서 각각 MAE 3.81개월, 5.65개월을 달성하였다.
상세 분석
BoNet+는 기존 골연령 평가 모델이 전역적인 골격 발달과 국부적인 뼈 성장 특징을 동시에 포착하지 못한다는 한계를 극복하기 위해 설계되었다. 전역 특징 추출 경로에는 Vision‑Transformer와 유사한 멀티‑헤드 셀프‑어텐션 모듈을 삽입해 전체 손 사진의 장거리 공간 의존성을 학습한다. 이는 Greulich‑Pyle(GP) 방식이 전체 골격 패턴을 평가하는 방식과 유사하게, 손 전체의 연령‑관련 구조적 변화를 고해상도 컨텍스트로 인코딩한다. 반면 국부 특징 경로에는 RF‑AConv(Receptive‑Field Attention Convolution) 모듈을 적용한다. RF‑AConv는 다중 스케일 수용 영역을 갖는 어텐션 맵을 동적으로 생성해, 기존 BoNet이 키포인트 기반 가우시안 어텐션으로 놓칠 수 있는 미세 골형태(예: 말단 지골, 중간 지골, 근위 지골 및 메타카팔)의 변화를 보강한다. 이 모듈은 TW3 방식이 강조하는 국부적인 골성숙도 점수를 자동으로 학습하도록 돕는다. 두 스트림에서 추출된 피처는 채널 차원에서 concat 후 Inception‑V3에 입력되어 다중 스케일 특징을 재조정하고, 최종 전역‑국부 융합 피처를 회귀 헤드에 전달한다.
학습 과정에서는 손 사진과 함께 17개의 키포인트를 이용해 생성한 가우시안 어텐션 맵을 보조 입력으로 사용해, 모델이 중요한 해부학적 영역에 집중하도록 유도한다. 손실 함수는 평균 절대 오차(MAE)를 최소화하는 L1 손실이며, 성별 정보는 별도 임베딩으로 결합해 성별에 따른 성장 차이를 보정한다.
실험 결과는 두 가지 공개 데이터셋(RSNA, RHPE)에서 기존 최첨단 모델(예: BoGFF‑Net, RA‑Net, Swin‑Transformer 기반 모델)과 비교했을 때, RSNA에서는 3.81개월, RHPE에서는 5.65개월의 MAE를 기록해 경쟁력을 입증한다. 특히 RF‑AConv가 국부 어텐션을 강화함으로써 RHPE와 같이 손목·카팔 영역이 복잡한 데이터셋에서 성능 격차를 크게 줄였다.
모델 복잡도 측면에서는 두 스트림을 병렬로 운영하면서도 Inception‑V3를 경량화된 백본으로 사용해 파라미터 수와 추론 시간을 실용적인 수준으로 유지한다. 또한, Transformer 모듈을 전역 경로에만 삽입함으로써 전체 연산량을 제한하고, 임상 현장에서 실시간 판독이 가능한 점도 강조된다.
한계점으로는 키포인트 어노테이션에 의존하는 보조 입력이 여전히 필요하고, 데이터셋 간 도메인 차이에 따른 일반화 성능 검증이 추가로 요구된다. 향후 연구에서는 완전한 무주석 학습과 멀티‑모달(예: 연령, 성장 호르몬 수치) 정보를 통합한 하이브리드 모델로 확장할 여지가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기