SkeletonNet: 형태 픽셀에서 골격 픽셀까지의 딥러닝 접근

SkeletonNet: 형태 픽셀에서 골격 픽셀까지의 딥러닝 접근
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 CVPR 2019 Geometry Shape Understanding 챌린지 1트랙에서 제공된 전처리된 객체 마스크 이미지로부터 골격 픽셀을 추출하기 위해 U‑Net 기반 인코더‑디코더 구조에 HED(Holistically‑nested Edge Detection) 스타일의 디코더와 좌표 컨볼루션, CS‑SE 블록을 결합한 모델을 제안한다. 제안 모델은 사이드 레이어 4개와 융합 레이어, 그리고 팽창(dilation) 레이어를 활용해 끊어진 골격 연결을 복구하며, 바이너리 교차 엔트로피와 Dice 손실을 합친 복합 손실 함수를 사용한다. 5‑fold 출력 중 첫 번째 사이드 레이어와 융합 레이어를 가중 평균 앙상블하여 검증 F1‑score 0.7877, 테스트 F1‑score 0.7711을 달성하였다.

상세 분석

본 연구는 기존 U‑Net 구조를 그대로 사용하면서 디코더 부분에 HED와 유사한 사이드 출력 구조를 도입한 것이 가장 큰 차별점이다. HED는 다중 스케일에서 엣지를 추출하고 이를 융합해 최종 출력을 만들며, 각 스케일의 출력이 독립적인 손실을 받는다. 논문에서는 이를 골격 추출 문제에 적용해, 디코더의 업샘플링 단계마다 CS‑SE(Channel‑Squeeze‑Spatial‑Excitation) 블록을 삽입하고, 그 출력을 사이드 레이어로 활용한다. CS‑SE 블록은 채널 차원과 공간 차원을 동시에 압축·확장함으로써 중요한 피처를 강조하고 불필요한 노이즈를 억제한다. 특히 좌표 컨볼루션 레이어를 인코더 입력에 추가해 (i, j) 좌표 채널을 제공함으로써 translation‑invariant 특성을 강화하였다. 이는 기존 U‑Net에 비해 F1‑score를 3 % 이상 상승시키는 효과를 보였다.

디코더의 4개 사이드 레이어는 각각 다른 해상도와 수용 영역을 갖으며, 이를 단순히 평균하거나 가중 평균하는 대신 팽창 컨볼루션(dilation convolution)으로 융합한다. 팽창 커널은 receptive field를 크게 늘리면서도 출력 해상도를 유지해, 골격의 끊어진 부분을 효과적으로 연결한다. 실험 결과, 첫 번째 사이드 레이어(가장 높은 해상도)의 출력이 전체 성능에 가장 크게 기여했으며, 이를 융합 레이어와 가중 평균 앙상블함으로 최종 성능을 끌어올렸다.

손실 함수는 Binary Cross‑Entropy와 Dice Loss를 단순히 합산한 형태이며, ε = 1e‑6 정도의 작은 상수를 넣어 Dice 분모가 0이 되는 상황을 방지한다. 이 복합 손실은 클래스 불균형(특히 골격 픽셀이 매우 희소함) 문제를 완화하고, 경계 영역에서의 정밀도를 높이는 데 기여한다. 학습은 Adam 옵티마이저(초기 lr = 0.001, 10 epoch마다 0.1배 감소)와 배치 사이즈 4, 최대 500 epoch까지 진행했으며, 과적합이 감지되면 조기 종료한다.

데이터 증강은 회전(−45°+45°)만을 사용했으며, 객체별 이미지 수가 158장으로 크게 불균형했음에도 불구하고, 증강 후 1296장의 학습 데이터를 확보해 모델 일반화에 성공했다. 실험에서는 사이드 레이어별 F1‑score 차이가 크게 나타났으며, 특히 사이드 레이어 4(가장 낮은 해상도)는 0.3759에 불과했다. 이는 고해상도 피처가 골격 추출에 핵심임을 시사한다.

전체적으로 본 논문은 기존의 세그멘테이션·엣지 검출 기법을 골격 추출이라는 특수한 과제에 맞게 재구성한 사례로, 좌표 컨볼루션, CS‑SE, 팽창 융합 등 여러 최신 모듈을 조합해 성능을 끌어올렸다. 다만, 모델 복잡도가 증가하고 학습 시간·메모리 요구량이 높아졌으며, 회전 외의 변형(스케일, 노이즈 등)에 대한 강건성 검증이 부족한 점은 향후 연구 과제로 남는다.


댓글 및 학술 토론

Loading comments...

의견 남기기