설명 일관성 정규화로 해석 가능한 조기 종료 신경망 구현
초록
본 논문은 조기 종료(early‑exit) 구조를 가진 CNN에 주의(attention) 일관성 정규화를 도입한 Explanation‑Guided Training(EGT) 프레임워크를 제안한다. 분류 손실과 주의 일관성 손실을 가중합한 다목적 손실을 통해 각 조기 종료 지점의 주의 맵을 최종 출력의 주의 맵과 정렬시켜, 해석 가능성을 높이면서도 정확도와 추론 속도는 기존 모델 수준을 유지한다. 실험 결과, 0.1~0.5 범위의 α 값 중 α=0.3에서 18.5%의 주의 일관성 향상과 98.46%의 전체 정확도를 달성했으며, 평균 1.97배의 추론 가속을 확인하였다.
상세 분석
EGT는 기존 조기 종료 CNN에 각 브랜치마다 독립적인 주의 모듈을 삽입하고, 이 모듈이 생성하는 공간적 주의 맵을 최종 단계(Exit 5)의 주의 맵과 비교·정렬하는 방식으로 설계되었다. 주의 일관성 손실 L_consistency은 코사인 유사도 1 − (xᵀy)/(‖x‖‖y‖)를 사용해, 조기 종료 i(1≤i≤4)의 보간된 주의 맵 ˜A_i와 최종 맵 A_5 사이의 차이를 최소화한다. 전체 손실은 L_total = L_cls + α·L_consistency 형태이며, α는 일관성 정규화의 강도를 조절한다.
실험 설정은 9개 클래스로 구성된 실제 이미지 데이터셋(학습 1,363장, 테스트 1,364장)을 사용했으며, 동일한 네트워크 구조와 학습 파라미터(Adam, lr 0.001, 50 epoch)로 베이스라인과 비교하였다. 조기 종료 판단은 confidence ≥ 0.9 기준으로 이루어졌다.
표 I에서 α = 0.3일 때 평균 일관성 점수 0.821을 기록했으며, 이는 베이스라인(0.693) 대비 18.5% 향상이다. 특히 Exit 4에서 0.482→0.828(71.8% 상승)으로 가장 큰 개선을 보였다. 정확도는 97.73%~98.97% 사이로 크게 떨어지지 않았으며, α = 0.4에서는 베이스라인과 동일한 98.97% 정확도를 유지하면서 일관성 0.813(17.3% 상승)을 달성했다. α = 0.5에서는 일관성 감소(0.768)와 정확도 약간 저하(97.8%)가 나타나, 정규화 강도가 과도하면 성능 저하 위험이 있음을 시사한다.
추론 효율성 측면에서는 α = 0.5 설정에서 조기 종료 모델이 평균 1.83 ms/샘플을 기록, 전통적인 전체 모델(3.6 ms) 대비 1.97배 가속을 보였다. 이는 조기 종료가 가능한 샘플 비율이 충분히 높아, 실제 배포 환경에서 연산 비용 절감에 기여함을 의미한다.
본 연구의 주요 기여는 (1) 조기 종료 네트워크에 주의 일관성 정규화를 도입해 각 단계의 설명을 일관되게 만들었으며, (2) 다목적 손실 설계로 정확도와 해석 가능성 사이의 트레이드오프를 최소화했다는 점이다. 또한, 실험을 통해 α 값의 적절한 범위(0.2~0.4)가 존재함을 확인하고, 과도한 정규화가 오히려 성능을 저해할 수 있음을 제시했다. 향후 작업으로는 다른 아키텍처(예: Transformer)와의 결합, 대규모·다양한 데이터셋에서의 일반화 검증, exit‑specific 가중치 자동 조정 메커니즘 개발, 그리고 이론적 일관성 경계 분석 등이 제안된다.
댓글 및 학술 토론
Loading comments...
의견 남기기