- Title: Interpretability-Guided Bi-objective Optimization Aligning Accuracy and Explainability
딥러닝 모델은 의료와 금융 분야에서 시퀀스 예측 작업에 뛰어난 성과를 보여주지만, 그 복잡성으로 인해 이해하기 어려운 '블랙박스'가 되어 안전성이 중요한 상황에서는 신뢰성이 낮아진다. 본 논문은 학습 과정에서 해석 가능성을 통합하는 프레임워크 **IGBO(Interpretability-Guided Bi-objective Optimization)**을 제안한다. IGBO는 주요 작업 손실과 해석 가능성 손실을 최소화하는 두 가지 목표를 동시에 추구하며, 이를 위해 데이터 분포에 맞춘 통합 경로를 생성하는 최적 경로 오라클도 도입한다.
1. **IGBO 프레임워크**
이론적으로 설명하자면 IGBO는 딥러닝 모델이 학습하면서 해석 가능성을 강제할 수 있는 체계를 제공합니다. 이를 가정으로 들자면, IGBO는 공부하는 아이가 선생님의 지시에 따라 행동하도록 유도하는 것과 같습니다.
*주의: AI 작문 지원을 활용하여 가독성을 향상시켰습니다.
서론
딥러닝 모델은 의료와 금융 분야에서 시퀀스 예측 작업에 놀라운 성공을 거두었습니다. 그러나 이러한 모델의 내재적 복잡성으로 인해 이해하기 어려운 ‘블랙박스’가 되어 안전성이 중요한 상황에서는 신뢰성이 낮아집니다. 후 사후 해석 방법, 예를 들어 Integrated Gradients와 LIME는 학습된 모델을 분석함으로써 이러한 추론을 밝히려고 시도합니다. 그러나 근본적인 한계가 있습니다: 이러한 방법은 학습 이후에 적용되며, 학습 과정에서 모델의 내부 의사결정이 확립된 도메인 지식이나 원하는 행동 제약 조건과 일치한다는 보장을 제공하지 않습니다. 결과적으로, 모델은 데이터에서 우발적, 비인과적이거나 윤리적으로 문제가 있는 상관관계를 이용하여 높은 정확도를 달성할 수 있으며, 이는 고위험 애플리케이션에서는 용납할 수 없는 위험이 됩니다.
신뢰할 수 있는 시스템을 구축하려면 해석 가능성을 직접 학습 목표에 통합해야 합니다. 일반적인 접근법은 원하지 않는 행동을 처벌하는 정규화 항목을 추가하는 것입니다. 그러나 이러한 방법들은 종종 해석 가능성을 단일하고 부드러운 제약 조건으로 처리하여 실무자가 정확도와 해석 가능성 간의 정밀한 타협점을 통제할 수 있는 기회를 제공하지 않습니다. 더욱이, 이러한 방법은 복잡한 도메인 전문 지식을 반영하는 구조적이고 관계적인 제약 조건을 강제하기 위한 형식화된 메커니즘을 갖추지 못합니다. 예를 들어, 특징 중요도의 계층성을 반영합니다. 또한 Integrated Gradients와 같은 경사 기반 귀인 방법은 입력과 베이스라인 사이의 직선 경로를 따라 경사를 계산할 때 OOD 문제에 직면합니다.
본 연구는 이러한 격차를 해결하기 위한 원칙적인 프레임워크를 제안합니다: 해석 가능성 지도 이중 목표 최적화 (IGBO). IGBO는 해석 가능한 모델 학습을 두 개의 상호 연결된 이중 목표 최적화 문제로 형식화합니다: (1) 주요 모델 $`F_\theta`$를 동시에 주요 작업 손실 $\mathcal{L}(\theta)$와 해석 가능성 손실 $\mathcal{H}(\theta)$를 최소화하도록 학습하는 것(Algorithm [alg:projected_update_complete]), (2) 데이터 분포 내에서 통합 경로를 생성하여 견고한 경사 계산을 가능하게 하는 최적 경로 오라클 $`G`$를 학습합니다. 해석 가능성 손실은 두 가지 주요 구성 요소에서 파생됩니다: (1) 시간에 따른 특징 중요도의 미분 가능한 측정인 시계열 통합 경사(TIG) 지표, (2) 센트럴 리미트 정리(CLT) 기반 구축을 통해 정의된 **유향 무순환 그래프(DAG)**는 특징 간 허용되는 상대적 중요성 관계를 인코딩합니다(예: 특징 $`A`$가 특징 $`B`$보다 중요한 것).
최적 경로 오라클: TIG 계산에서 OOD 문제를 해결하기 위해 학습 가능한 오라클을 도입하여 데이터 분포 내에 있는 중간 점 시퀀스를 생성합니다. 이 오라클은 두 가지 목표로 학습됩니다: 경로 길이 최소화와 생성된 점들이 데이터 분포 내에 있도록 하는 것입니다. 통합 과정에서 $`K`$ 개의 오라클이 생성한 앵커 포인트와 $`M-K`$ 개의 보간 포인트를 사용하는 유연한 전략을 활용하여 경로 정확도와 효율성 사이의 조절 가능한 계산 타협점을 만듭니다.
경사 기반 최적화: 두 가지 이중 목표 문제는 충돌하는 경사를 관리해야 하는 요구 사항이 있습니다. 우리는 벡터 간 코사인 유사성을 기반으로 한 기하학적 경사 결합 규칙을 사용합니다. 경사가 일치하면 볼록 조합을 사용하고, 충돌할 경우 직교 성분을 결합합니다. 이 접근 방법은 두 가지 목표에 대한 하강 보장을 제공하면서 추가 최적화 서브루틴의 필요성을 피합니다.
응용: IGBO 프레임워크는 즉시 해석 가능성 보증뿐만 아니라 인간이 루프 모델 정렬과 작업별 모델 특수화를 위한 통로도 열어줍니다. 후술할 섹션에서 이들을 탐구합니다(Section [sec:methodology], [sec:discussion]).
기여: 본 논문은 다음과 같은 기여를 제공합니다:
-
우리는 IGBO 프레임워크를 소개하며, 이를 통해 경사 기반 학습에 구조화된 도메인 지식(유향 무순환 그래프를 통해)을 통합하고 해석 가능성 제약 조건 및 귀인의 OOD 문제를 해결합니다.
-
우리는 최적 경로 오라클을 제안하며, 이는 데이터 분포에 맞춘 통합 경로를 생성하여 견고한 TIG 계산을 가능하게 합니다. 경로 품질과 계산 비용 사이의 유연한 타협점을 제공하는 매개변수 $`K`$와 $`M`$을 통해 이를 달성합니다.
-
우리는 이론적 보장을 구축하며, 제시된 기사 만족 함수 $`H_k(\mathbf{X}, \theta)`$를 통해 투영 매핑 $\mathcal{P}$를 통해 파레토 정점에 수렴하는 보장을 포함합니다(Theorems [thm:aligned_complete], [thm:conflict_complete]). 또한 경사 노이즈에 대한 견고성(정리 [thm:noise_characterization])과 센트럴 리미트 정리 근사를 통해 유향 무순환 그래프 구축의 통계적 유효성을 제시합니다(Section [sec:graph_clt]).
-
우리는 실증 검증을 제공하며, IGBO가 합성 및 실제 시계열 데이터에서 복잡한 DAG 제약 조건을 강제하면서 예측 정확도를 크게 희생하지 않음을 입증합니다.
관련 작업
본 연구는 해석 가능한 AI, 경사 기반 다목적 최적화, 견고 귀인 방법 및 손실 지형의 기하학과 같은 개념을 통합합니다. IGBO는 이러한 연결된 연구 스트림 내에서 위치하도록 합니다.
학습 과정에 해석 가능성을 통합: LIME와 SHAP과 같은 사후 설명 방법을 넘어서 최근 접근법은 해석 가능성을 학습 루프에 직접 통합합니다. Right for the Right Reasons는 입력 경사를 인간 주석과 일치시키도록 정규화하여 로컬, 개별 인스턴스 설명에 초점을 맞춥니다. Concept Bottleneck Models(CBMs)는 예측을 인간 지정 개념을 통해 라우팅함으로써 해석 가능성을 강제하며, 이는 개념 수준의 레이블을 필요로 합니다. 다른 작업은 기호 제약 조건이나 논리 규칙을 학습을 안내하는 데 사용합니다. IGBO와 비교하여, IGBO는 도메인 전문가 DAG를 통해 집계 특징 중요도에 대한 전역적이고 관계적인 제약을 강제하며 인스턴스별 주석이나 명시적 개념 레이블을 요구하지 않습니다. 이는 모델 행동에 대한 구조화된 사전 지식을 제공하여 해석 설명의 신뢰성을 보장합니다. 우리의 작업은 단순성 또는 간결성 제약 조건을 부과하는 방법에도 관련되지만, 명시적이고 관계적인 중요도 계층에 집중한다는 점에서 이를 차별화합니다.
경사 기반 다목적 최적화: IGBO는 경사 기반 기법을 사용하여 다목적 최적화를 수행합니다. Multi-Gradient Descent Algorithm(MGDA)은 여러 목표에 공통된 하강 방향을 찾는 일반적인 프레임워크를 제공하며 종종 이차 계획 문제를 해결해야 합니다. 두 가지 주요 목적 사례에서는 IGBO의 기하학적 업데이트 규칙이 MGDA와 동등한 닫힌 형식 솔루션을 제공하여 최적화 서브루틴을 제거합니다. 이것은 경사 기반 멀티태스킹 학습 및 파레토 프론티어 추적 방법에 연결됩니다. 최근 다목적 최적화 작업에는 적응 가중치 스키마와 경사 조작 기법이 포함되지만, 이러한 대부분은 해석 가능성 특수 제약 조건을 구조화된 목표로 고려하지 않습니다.
경사 기반 귀인 및 견고 경로 방법: 우리의 TIG는 Integrated Gradients(IG)를 직접 확장하여 IG의 공리적 속성을 물려받습니다. 최근 연구에서는 IG의 제약 조건을 식별하였으며 특히 베이스라인 선택에 대한 민감성과 직선 통합 경로가 종종 OOD 영역을 가로질러 신뢰할 수 없는 귀인을 초래한다는 점입니다. 여러 접근법이 이러한 문제를 해결하려고 시도합니다: Expected Gradients는 여러 베이스라인에 대해 평균화하고, Blurring Integrated Gradients는 부드러움을 적용하며, 적대적 학습 방법은 더 견고한 귀인을 생성하도록 합니다. 우리의 최적 경로 오라클은 통합 경로를 생성하는 데이터 분포 인식 학습 방향을 도입함으로써 새로운 방향을 제시합니다. 이 접근법은 다양하게 설명하기 위해 다양하게 맨입을 따라 가장 짧은 경로를 탐색하는 작업과 개념적으로 관련되지만, 완전히 미분 가능한 학습 형식화와 이중 목표 학습 루프 통합에서 차이가 있습니다.
손실 지형의 기하학 및 경사 정렬: 고차원 손실 지형의 이해와 활용은 최적화에 중요합니다. IGBO의 기하학적 업데이트 규칙은 두 개의 경사를 포함하는 저차원 부분 공간 내에서 명시적으로 작동합니다. 이것은 다중 태스크 학습에서 경사 방향을 조작하여 수렴성을 향상시키는 연구에 연결됩니다. 목적 간 충돌 시 직교 경사 성분 사용은 안장점을 피하고 경사를 투영하여 상호 유익한 방향을 찾는 방법과 관련이 있습니다. IGBO의 접근법은 정확도와 해석 가능성 사이에서 타협점을 탐색하기 위한 명확한 기하학적 직관을 제공하며 이러한 기하학적 원칙의 실용적인 예입니다.
확률론적 그래프 구성: 센트럴 리미트 정리 근사를 통해 해석 가능성을 구성하는 방법은 인과성 발견 및 신뢰성 기반 엣지 방향에 대한 통계 방법과 관련됩니다. 그러나 인과성 발견 방법이 데이터에서 구조를 추론하는 반면, 우리의 접근법은 특징 중요도 계층에 대한 전문 지식을 운영화하며 순환성(Corollary [cor:acyclic]) 및 이전성(Theorem [thm:transitivity])에 대한 이론적 보장을 제공합니다.
방법론
IGBO 프레임워크는 두 개의 상호 연결된 이중 목표 최적화 과정으로 구성되며, 이러한 과정은 경사 기반 기법을 사용하여 충돌하는 목적 사이에서 균형을 이루도록 합니다. 이러한 과정들은 다음과 같습니다:
-
주요 시퀀스 모델 $`F_\theta`$를 학습하여 예측 정확도와 해석 가능성 제약 조건 간의 균형을 맞춥니다.
-
TIG에서 견고한 경사 계산을 가능하게 하는 데이터 분포 인식 통합 경로를 생성하는 최적 경로 생성기 $`G`$를 학습합니다.
이 섹션에서는 해석 가능성 사전, TIG 기반 중요도 측정 및 제안된 라우팅 오라클에 대한 통합을 자세히 설명합니다.
해석 가능성 사전 정의
시퀀스 모델 정의
$`\mathcal{X} = \mathbb{R}^{T \times d}`$는 길이 $`T`$와 특징 차원 $`d`$를 갖는 다변량 시계열 입력 공간을 나타냅니다. 시퀀스 모델은 입력 $`\mathbf{X} = [\mathbf{x}_1, \dots, \mathbf{x}_T] \in \mathcal{X}`$을 매개변수화된 전환 함수 $`g_\theta`$ 및 출력 함수 $`f_\theta`$를 통해 처리합니다. 시간 $`t`$에서 은닉 상태 $`\mathbf{h}_t \in \mathbb{R}^h`$는 다음과 같이 진화합니다:
\begin{equation}
\mathbf{h}_{t} = g_\theta(\mathbf{x}_t, \mathbf{h}_{t-1}), \quad t = 1,\dots,T,
\end{equation}
여기서 $`\mathbf{h}_0 = \mathbf{0}`$. 시간 $`t`$에서의 출력은 $`y_t = f_\theta(\mathbf{x}_t, \mathbf{h}_{t-1}) \in \mathbb{R}`$입니다. 따라서 전체 시퀀스-시퀀스 모델 $`F_\theta: \mathcal{X} \to \mathbb{R}^T`$는 입력 시퀀스를 출력 시퀀스로 매핑하며, 그 $`t`$번째 구성요소는 $`[F_\theta(\mathbf{X})]_t = f_\theta(\mathbf{x}_t, \mathbf{h}_{t-1})`$입니다.
시계열 통합 경사
시퀀스 데이터에 대한 높은 차원에서 특징 중요도를 측정하기 위해 Integrated Gradients를 확장합니다. 주어진 입력 $`\mathbf{X}`$와 베이스라인 $`\mathbf{X}'`$, 그리고 $`\gamma(0)=\mathbf{X}'`$에서 $`\gamma(1)=\mathbf{X}`$로 연결되는 경로 $`\gamma: [0,1] \to \mathcal{A}`$를 따라 시간 $`t`$의 특징 $`k`$ 중요도는 다음과 같이 정의됩니다:
\begin{equation}
\label{eq:tig_def_general}
\text{TIG}_{t,k}^{\gamma}(\mathbf{X}, \theta) = \int_{0}^{1}
\frac{\partial F_\theta(\gamma(\alpha))}{\partial \mathbf{X}_{t,k}} \cdot
\frac{d\gamma_{t,k}(\alpha)}{d\alpha} \, d\alpha .
\end{equation}
직선 경로 $`\gamma_{\text{lin}}(\alpha) = \alpha\mathbf{X} + (1-\alpha)\mathbf{X}'`$의 특수한 경우에서는 이 식이 표준 IG 형태로 간단하게 변환됩니다:
\begin{equation}
\label{eq:tig_def_linear}
\text{TIG}_{t,k}^{\gamma_{\text{lin}}}(\mathbf{X}, \theta) = (\mathbf{X}_{t,k} - \mathbf{X}'_{t,k}) \int_{0}^{1}
\frac{\partial F_\theta(\gamma_{\text{lin}}(\alpha))}{\partial \mathbf{X}_{t,k}} \, d\alpha .
\end{equation}
이 적분은 모델의 출력에 대한 특징 $`(t,k)`$의 민감도를 경로 $`\gamma`$ 전체에서 집계합니다. 표준 구현에서는 직선 경로 $`\gamma_{\text{lin}}(\alpha) = \alpha\mathbf{X} + (1-\alpha)\mathbf{X}'`$을 사용합니다. 그러나 이 선형 보간의 주요 단점은 중간 점 $`\gamma_{\text{lin}}(\alpha)`$가 종종 학습 데이터 분포 밖에 위치한다는 것입니다. $`F_\theta`$는 OOD 영역에서 일관되게 행동하도록 학습되지 않았으므로, 결과적인 경사 및 따라서 귀인은 불안정하고 잡음이 많을 수 있습니다.
라우팅 오라클: 데이터 분포 인식 통합 경로 학습
동기와 설계 철학
직선 통합 경로에 내재된 OOD 문제를 피하기 위해 라우팅 오라클(또는 패스파인더)을 제안합니다. 이 오라클은 데이터 맨입에 맞춰지며 총 경로 길이를 최소화하도록 학습 가능한 경로를 생성합니다. 모든 중간 통합 포인트가 모델이 적절히 학습된 영역 내에 있도록 함으로써, 이 오라클은 TIG 계산에서 안정적이고 신뢰할 수 있는 경사 계산을 제공합니다.
유연한 구현 옵션
오라클은 실제 배포를 염두에 두어 설계되었으며 여러 구성 선택 사항을 제공합니다:
- 베이스라인 선택: 베이스라인 $`\mathbf{X}'`$는 샘플별(예: 데이터셋 통계 사용) 또는 전역적으로(예: 제로 시퀀스) 설정될 수 있습니다. 최대 간편성을 위해 $`\mathbf{X}'`$는
[Title_Easy_KO]: 해석 가능성 지도 학습: IGBO 프레임워크 소개
[Title_Easy_EN]: Learning with Interpretability Guidance: Introducing the IGBO Framework