통합 개념 수준 설명 속성 충분조건 반사실을 한 번에
초록
본 논문은 기존 모델‑불가지론(local model‑agnostic) 설명 기법에 개념 기반 레이어를 추가하는 일반 프레임워크 UnCLE을 제안한다. UnCLE은 LIME, Anchors, LORE, Kernel SHAP 등 기존 방법을 그대로 사용하면서 개념 수준의 프레디케이트와 대규모 사전학습 모델을 이용한 개념‑특성 매핑을 통해 속성, 충분조건, 반사실 세 가지 형태의 설명을 동시에 제공한다. 실험 결과, 이미지·텍스트·멀티모달 모델에 대해 기존 방법 대비 설명 충실도가 평균 56.8 % 향상되었으며, 인간 사용자 평가에서도 의사결정 지원 효율이 크게 개선되었다.
상세 분석
UnCLE의 핵심 아이디어는 “기존 로컬 모델‑불가지론 설명 파이프라인을 변형하지 않고, 입력에서 고수준 개념을 추출하고 그 개념을 직접 조작하는 단계만 추가한다”는 점이다. 이를 위해 저자는 먼저 사전학습된 비전·언어 모델(예: CLIP, GPT‑4 등)을 활용해 이미지에서는 객체·장면, 텍스트에서는 토픽·감성 등 의미 있는 개념을 자동 추출한다. 추출된 개념은 이진 프레디케이트 p_c 로 정의되어 기존의 저차원 피처 프레디케이트 p 를 대체한다.
다음 단계인 개념‑레벨 교란은 기존 방법이 “특정 피처를 마스킹하거나 무작위값으로 대체”하는 방식과 달리, 대규모 사전학습 모델을 프롬프트 엔진으로 사용한다. 프롬프트는 “이 이미지에 ‘어린이’가 포함되지 않도록 생성해라” 혹은 “문장에 ‘긍정적 감정’ 개념이 없도록 바꿔라”와 같이 개념의 존재·부재를 명시한다. 이렇게 생성된 샘플은 원래 피처 공간으로 복원되어 모델 f 에 입력되고, 해당 출력값과 개념‑프레디케이트 벡터 b_c 가 학습 알고리즘에 제공된다.
학습 단계에서는 기존 방법이 사용하던 선형 회귀(LIME, SHAP), KL‑LUCB(Anchors), 결정트리(LORE) 등을 그대로 적용한다. 결과적으로 얻어지는 설명은 개념 기반의 가중치(속성), 최소 충분조건(규칙), 혹은 반사실(조건 ∧ ¬조건) 형태가 된다.
실험에서는 이미지(YOLOv8, ResNet), 텍스트(BERT, Llama‑2) 및 멀티모달(CLIP‑ViT) 모델에 대해 UnCLE‑augmented LIME, Anchors, LORE, Kernel SHAP을 각각 적용하였다. 개념 교란의 충실도는 인간 평가와 자동 메트릭(예: fidelity, stability) 모두에서 기존 피처‑레벨 교란보다 월등히 높았다. 특히, 충분조건과 반사실 설명에서 기존 방법은 거의 제공하지 못했으나 UnCLE은 규칙 기반 설명을 자연어 형태로 출력해 사용자가 직관적으로 이해할 수 있게 했다.
인간 사용자 실험에서는 UnCLE이 제공한 설명을 바탕으로 모델 예측을 수정하거나 대체 입력을 생성하는 작업에서 평균 작업 시간이 34 % 감소하고, 정답률이 22 % 상승하였다. 이는 개념 수준 설명이 실제 의사결정 시나리오에서 실용성을 크게 높인다는 것을 시사한다.
한계점으로는 개념 추출기의 품질에 크게 의존한다는 점과, 대규모 사전학습 모델을 교란 단계에 활용함으로써 계산 비용이 증가한다는 점을 들 수 있다. 향후 연구에서는 경량화된 교란 모델이나 도메인‑특화 개념 사전 구축을 통해 효율성을 개선할 여지가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기