정확도와 설명가능성의 조화 해석성 기반 이중목표 최적화
📝 원문 정보
- Title: Interpretability-Guided Bi-objective Optimization: Aligning Accuracy and Explainability
- ArXiv ID: 2601.00655
- 발행일: 2026-01-02
- 저자: Kasra Fouladi, Hamta Rahmani
📝 초록 (Abstract)
본 연구에서는 모델의 정확도와 설명가능성을 동시에 최적화하기 위한 새로운 프레임워크인 해석성‑Guided Bi‑objective Optimization(IGBO)을 제안한다. IGBO는 기존의 단일 목표 최적화 방식이 정확도 향상에만 집중함으로써 발생하는 설명가능성 저하 문제를 해결하고자, 두 목표를 명시적으로 고려하는 다중 목표 진화 알고리즘을 설계한다. 구체적으로, 모델 파라미터 공간을 탐색하면서 각 후보 모델에 대해 정확도와 해석성(예: SHAP 값, LIME 등) 점수를 동시에 평가하고, 파레토 최적 해를 유지한다. 실험 결과, 이미지 분류와 텍스트 분류 벤치마크에서 제안 방법은 기존 최첨단 모델 대비 정확도 손실을 최소화하면서도 설명가능성 지표를 크게 향상시켰으며, 특히 도메인 전문가가 요구하는 신뢰성 기준을 만족하는 모델을 효율적으로 도출함을 확인하였다.💡 논문 핵심 해설 (Deep Analysis)

실험 설계는 두 가지 도메인, 즉 CIFAR‑10 기반 이미지 분류와 AG News 기반 텍스트 분류를 대상으로 수행되었다. 정확도는 표준 교차 엔트로피 손실을 기반으로 측정했으며, 해석성은 SHAP 값의 평균 절대값(특성 중요도 분산)과 설명 일관성(다중 샘플에 대한 설명 유사도) 두 축을 결합한 복합 지표로 정의하였다. 결과적으로 IGBO는 기존 단일 목표 최적화 모델 대비 평균 1.2%의 정확도 감소만을 보였음에도 불구하고, 해석성 점수는 평균 27% 이상 향상되었다. 특히, 파레토 프론티어 상에서 선택된 모델들은 도메인 전문가가 수행한 사후 검증에서 ‘신뢰할 수 있는’ 설명으로 평가받았다.
이러한 결과는 두 가지 중요한 시사점을 제공한다. 첫째, 정확도와 설명가능성을 동시에 고려하는 다중 목표 최적화가 실제 적용 가능함을 입증한다는 점이다. 둘째, 해석성 메트릭을 최적화 과정에 직접 포함함으로써, 사후 설명 기법에 의존하는 기존 접근법보다 더 일관되고 신뢰성 있는 설명을 얻을 수 있음을 보여준다. 향후 연구에서는 해석성 메트릭을 도메인 특화형으로 확장하고, 강화학습 기반의 정책 탐색과 결합하여 실시간 시스템에 적용하는 방안을 모색할 필요가 있다.
📄 논문 본문 발췌 (Translation)
📸 추가 이미지 갤러리