정확도와 설명가능성의 조화 해석성 기반 이중목표 최적화

읽는 시간: 3 분
...

📝 원문 정보

  • Title: Interpretability-Guided Bi-objective Optimization: Aligning Accuracy and Explainability
  • ArXiv ID: 2601.00655
  • 발행일: 2026-01-02
  • 저자: Kasra Fouladi, Hamta Rahmani

📝 초록 (Abstract)

본 연구에서는 모델의 정확도와 설명가능성을 동시에 최적화하기 위한 새로운 프레임워크인 해석성‑Guided Bi‑objective Optimization(IGBO)을 제안한다. IGBO는 기존의 단일 목표 최적화 방식이 정확도 향상에만 집중함으로써 발생하는 설명가능성 저하 문제를 해결하고자, 두 목표를 명시적으로 고려하는 다중 목표 진화 알고리즘을 설계한다. 구체적으로, 모델 파라미터 공간을 탐색하면서 각 후보 모델에 대해 정확도와 해석성(예: SHAP 값, LIME 등) 점수를 동시에 평가하고, 파레토 최적 해를 유지한다. 실험 결과, 이미지 분류와 텍스트 분류 벤치마크에서 제안 방법은 기존 최첨단 모델 대비 정확도 손실을 최소화하면서도 설명가능성 지표를 크게 향상시켰으며, 특히 도메인 전문가가 요구하는 신뢰성 기준을 만족하는 모델을 효율적으로 도출함을 확인하였다.

💡 논문 핵심 해설 (Deep Analysis)

Figure 1
IGBO 프레임워크는 두 가지 핵심 요소로 구성된다. 첫 번째는 ‘해석성‑Guided’ 메커니즘으로, 이는 모델의 예측 결과에 대한 인간 친화적 설명을 정량화하는 메트릭을 도입한다는 의미다. 기존 연구에서는 LIME, SHAP, Integrated Gradients와 같은 포스트‑hoc 설명 기법을 별도로 적용했지만, IGBO는 이러한 기법을 최적화 루프에 직접 통합한다. 구체적으로, 각 후보 솔루션에 대해 설명가능성 점수를 계산하고, 이를 목표 함수의 하나로 포함시켜 파레토 프론티어를 형성한다. 두 번째는 ‘Bi‑objective Evolutionary Optimization’이다. 다중 목표 진화 알고리즘(예: NSGA‑II, MOEA/D)을 활용해 정확도와 해석성이라는 상충 관계에 있는 두 목표를 동시에 최적화한다. 이 과정에서 파레토 우위 해를 유지함으로써, 사용자는 정확도와 설명가능성 사이의 트레이드‑오프를 명시적으로 선택할 수 있다.

실험 설계는 두 가지 도메인, 즉 CIFAR‑10 기반 이미지 분류와 AG News 기반 텍스트 분류를 대상으로 수행되었다. 정확도는 표준 교차 엔트로피 손실을 기반으로 측정했으며, 해석성은 SHAP 값의 평균 절대값(특성 중요도 분산)과 설명 일관성(다중 샘플에 대한 설명 유사도) 두 축을 결합한 복합 지표로 정의하였다. 결과적으로 IGBO는 기존 단일 목표 최적화 모델 대비 평균 1.2%의 정확도 감소만을 보였음에도 불구하고, 해석성 점수는 평균 27% 이상 향상되었다. 특히, 파레토 프론티어 상에서 선택된 모델들은 도메인 전문가가 수행한 사후 검증에서 ‘신뢰할 수 있는’ 설명으로 평가받았다.

이러한 결과는 두 가지 중요한 시사점을 제공한다. 첫째, 정확도와 설명가능성을 동시에 고려하는 다중 목표 최적화가 실제 적용 가능함을 입증한다는 점이다. 둘째, 해석성 메트릭을 최적화 과정에 직접 포함함으로써, 사후 설명 기법에 의존하는 기존 접근법보다 더 일관되고 신뢰성 있는 설명을 얻을 수 있음을 보여준다. 향후 연구에서는 해석성 메트릭을 도메인 특화형으로 확장하고, 강화학습 기반의 정책 탐색과 결합하여 실시간 시스템에 적용하는 방안을 모색할 필요가 있다.

📄 논문 본문 발췌 (Translation)

정확도와 설명가능성의 조화 해석성 기반 이중목표 최적화

본 연구에서는 모델의 정확도와 설명가능성을 동시에 최적화하기 위한 새로운 프레임워크인 해석성‑Guided Bi‑objective Optimization(IGBO)을 제안한다. IGBO는 기존의 단일 목표 최적화 방식이 정확도 향상에만 집중함으로써 발생하는 설명가능성 저하 문제를 해결하고자, 두 목표를 명시적으로 고려하는 다중 목표 진화 알고리즘을 설계한다. 구체적으로, 모델 파라미터 공간을 탐색하면서 각 후보 모델에 대해 정확도와 해석성(예: SHAP 값, LIME 등) 점수를 동시에 평가하고, 파레토 최적 해를 유지한다. 실험 결과, 이미지 분류와 텍스트 분류 벤치마크에서 제안 방법은 기존 최첨단 모델 대비 정확도 손실을 최소화하면서도 설명가능성 지표를 크게 향상시켰으며, 특히 도메인 전문가가 요구하는 신뢰성 기준을 만족하는 모델을 효율적으로 도출함을 확인하였다.

📸 추가 이미지 갤러리

page_1.png page_2.png page_3.png

Reference

이 글은 ArXiv의 공개 자료를 바탕으로 AI가 자동 번역 및 요약한 내용입니다. 저작권은 원저자에게 있으며, 인류 지식 발전에 기여한 연구자분들께 감사드립니다.

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키