초음파 혀 윤곽 추출을 위한 확장 합성곱 신경망 BowNet

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 초음파 영상에서 혀 표면(윤곽)을 실시간으로 자동 추출하기 위해 두 가지 딥러닝 모델인 BowNet과 wBowNet을 제안한다. dilated convolution(확장 합성곱)과 인코더‑디코더 구조를 결합해 전역적인 맥락과 지역적인 세부 정보를 동시에 활용함으로써 저대비·노이즈가 많은 초음파 이미지에서도 높은 정확도와 강인성을 달성한다. 여러 공개 초음파 혀 데이터셋에 대한 실험 결과, 제안 모델이 기존 방법들보다 Dice 계수·IoU·실시간 처리 속도 모두에서 우수함을 입증한다.

상세 분석

BowNet은 전통적인 U‑Net과 유사한 인코더‑디코더 아키텍처를 기반으로 하지만, 디코더 단계에서 dilated convolution을 도입해 receptive field를 크게 확장한다. 이는 초음파 영상의 저대비와 잡음으로 인해 경계가 흐릿한 경우에도 넓은 영역의 컨텍스트를 한 번에 포착할 수 있게 해준다. 또한, skip connection을 통해 인코더에서 추출된 고해상도 특징을 디코더에 직접 전달함으로써 세밀한 국부 정보를 보존한다. wBowNet은 BowNet에 weight‑sharing 메커니즘을 추가해 다중 스케일 특징을 동시에 학습하도록 설계되었다. 구체적으로, 동일한 인코더 블록을 여러 해상도에서 재사용함으로써 파라미터 효율성을 높이고, 다양한 스케일의 컨텍스트를 통합한다.

학습 과정에서는 데이터 증강(회전, 스케일 변환, 가우시안 노이즈 추가)과 Dice loss와 Cross‑Entropy loss의 가중합을 사용해 클래스 불균형을 완화한다. 또한, Adam 옵티마이저와 cosine annealing 스케줄러를 적용해 수렴 속도를 가속화한다. 실험에서는 공개된 TongueX, UltraTongue, 그리고 자체 수집한 3,000여 장의 초음파 영상 데이터를 80:10:10 비율로 학습·검증·테스트에 사용하였다. 평가 지표는 Dice coefficient, Intersection‑over‑Union(IoU), 그리고 평균 절대 오차(MAE)로 설정했으며, 실시간 처리 요구를 충족하기 위해 GPU 기반 추론 속도를 초당 30프레임 이상으로 목표하였다.

결과적으로 BowNet은 Dice 0.93, IoU 0.88을 기록했으며, wBowNet은 약간 낮은 파라미터 수에도 불구하고 Dice 0.92, IoU 0.87을 달성했다. 두 모델 모두 기존 전통적인 이미지 처리 기반 방법(Active Contour, Level Set)과 최신 딥러닝 기반 방법(FCN, DeepLabV3+)에 비해 5~8% 이상의 성능 향상을 보였다. 특히, 경계가 심하게 흐릿한 프레임에서도 연속적인 윤곽을 안정적으로 추출해 시간적 일관성을 유지했으며, 추론 시간은 평균 28 ms로 실시간 요구사항을 충분히 만족한다.

한계점으로는 매우 높은 잡음 수준이나 급격한 혀 움직임이 발생하는 경우 일부 프레임에서 오버‑세그멘테이션이 관찰되었으며, 이는 후처리 단계(조건부 랜덤 필드 등)로 보완 가능하다. 또한, 현재 모델은 2D 초음파 프레임에만 적용되었으므로 3D 초음파 데이터나 다중 뷰 통합에 대한 확장 연구가 필요하다.

초음파 혀 윤곽 추출을 위한 확장 합성곱 신경망 BowNet

초록

상세 분석

댓글 및 학술 토론

의견 남기기