설명 기반 프루닝: 해석적 중요도 점수로 CNN 경량화

본 논문은 Layer‑wise Relevance Propagation(LRP)으로부터 얻은 중요도(리레번스) 점수를 프루닝 기준으로 활용한다. 사전 학습된 CNN을 전이 학습 상황에서 단계별로 LRP‑기반 점수를 계산하고, 낮은 점수를 가진 가중치·필터를 제거한다. 이후 미세 조정 여부에 따라 두 시나리오를 실험했으며, 특히 데이터가 부족해 재학습이 어려운 경우 기존의 가중치·그라디언트·테일러 기반 기준보다 높은 정확도와 압축률을 달성한다. 계…

저자: Seul-Ki Yeom, Philipp Seegerer, Sebastian Lapuschkin

설명 기반 프루닝: 해석적 중요도 점수로 CNN 경량화
본 논문은 “Pruning by Explaining”이라는 제목 아래, 신경망 해석 기법인 Layer‑wise Relevance Propagation(LRP)을 이용해 CNN의 파라미터를 효율적으로 제거하는 새로운 프루닝 기준을 제안한다. 기존 프루닝 연구는 가중치 절대값, 그라디언트 평균, 1차·2차 테일러 전개 등 다양한 중요도 측정 방법을 사용했지만, 이들 방법은 계산량이 크거나 타깃 데이터에 크게 의존한다는 단점을 가지고 있다. 저자들은 LRP가 각 뉴런·필터가 최종 출력(예: 클래스 점수)에 얼마나 기여했는지를 보존 원칙(conservation principle) 하에 역전파 방식으로 정량화한다는 점에 착안해, 이를 직접 프루닝 기준으로 활용한다. 논문은 먼저 관련 연구를 정리한다. 네트워크 압축은 양자화, 텐서 분해, 아키텍처 설계 최적화와 함께 프루닝이 핵심 기술로 자리 잡고 있다. 기존 프루닝 기준은 크게 네 가지로 분류된다: (1) 가중치 크기 기반, (2) 그라디언트 기반, (3) 테일러 전개 기반, (4) 기타(예: NISP, ThiNet 등). 각 방법은 장점과 한계가 명확히 존재한다. 특히 테일러 기반 방법은 2차 해시안 계산이 비용이 크고, 그라디언트 기반은 학습 단계에 민감하며, 가중치 기반은 실제 모델 출력과의 연관성을 충분히 반영하지 못한다는 비판을 받는다. 제안된 LRP‑프루닝 프레임워크는 다음과 같은 절차로 구성된다. 첫째, 사전 학습된 모델에 대해 입력 데이터를 전방 패스로 통과시켜 각 층의 활성값을 수집한다. 둘째, LRP 규칙(ε‑rule, α‑β‑rule 등)을 적용해 최종 출력(특정 클래스 점수)으로부터 각 뉴런·필터에 대한 리레번스 값을 역전파한다. 셋째, 리레번스 값이 낮은 유닛을 선택해 일정 비율(r)만큼 제거한다. 마지막으로, 필요에 따라 남은 네트워크를 타깃 데이터셋으로 미세 조정한다. 이 과정은 알고리즘 1에 명시된 일반적인 프루닝 루프와 동일하지만, “중요도 평가” 단계에서 기존 기준 대신 LRP‑리레번스를 사용한다는 점이 핵심 차별점이다. 실험은 두 가지 시나리오를 중심으로 진행된다. 시나리오 1은 충분한 타깃 데이터가 존재하는 전형적인 프루닝‑재학습 설정이다. 여기서는 ResNet‑50, VGG‑16, MobileNet‑V2 등 네 가지 대표적인 CNN 아키텍처와 CIFAR‑10, ImageNet‑subset, Chest‑Xray 등 다양한 데이터셋을 사용했다. LRP‑프루닝은 동일한 압축 비율(30‑50 %)에서 기존 기준 대비 평균 1‑2 % 높은 Top‑1 정확도를 기록했으며, 특히 MobileNet‑V2와 같은 경량 모델에서 압축 효율이 두드러졌다. 시나리오 2는 타깃 데이터가 극히 제한돼 재학습이 불가능하거나 비용이 허용되지 않는 상황을 가정한다. 이 경우 LRP‑프루닝은 가중치 절대값 기반, 그라디언트 기반, 1차 테일러 기반 방법보다 평균 3‑5 % 높은 정확도를 유지하면서 비슷한 파라미터 감소율을 달성했다. 특히 의료 영상 데이터처럼 클래스 불균형이 심한 경우, LRP가 클래스별 기여도를 직접 반영하기 때문에 성능 저하가 최소화되는 것이 확인되었다. 계산 복잡도 측면에서 LRP는 역전파와 동일한 O(N) 연산량을 가지며, 추가 메모리 요구도 미미하다. 구현은 iNNvestigate 라이브러리를 통해 몇 줄의 코드만으로 가능하며, 별도의 하이퍼파라미터(예: 프루닝 비율 외에 임계값) 튜닝이 필요하지 않다. 저자들은 또한 LRP 외에도 SHAP, Integrated Gradients 등 다른 XAI 기법을 프루닝 기준으로 확장할 가능성을 제시했으며, 이는 향후 연구 과제로 남긴다. 한계점으로는 LRP 규칙 선택이 프루닝 결과에 미치는 영향에 대한 정량적 분석이 부족하고, 매우 깊은 네트워크에서 수치적 안정성 문제가 발생할 수 있다는 점을 들 수 있다. 또한, 현재 실험은 주로 이미지 분류에 국한되어 있어, 자연어 처리나 시계열 데이터 등 다른 도메인에 대한 검증이 필요하다. 결론적으로, 이 논문은 설명 가능성 기법을 직접 모델 압축에 적용함으로써, 데이터가 부족한 전이 학습 상황에서도 높은 압축 효율과 정확도 유지라는 두 마리 토끼를 잡았다. LRP‑기반 프루닝은 계산 비용이 낮고 구현이 간단하며, 기존 프루닝 기준을 대체하거나 보완할 실용적인 도구로서의 잠재력을 갖는다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기