3D 가우시안 스플랫을 위한 프로토타입 기반 XAI 프레임워크 XSPLAIN
초록
XSPLAIN은 3D Gaussian Splatting(3DGS) 데이터를 분류하면서 사전 설계된 프로토타입 기반 설명을 제공하는 최초의 ante‑hoc XAI 시스템이다. PointNet‑유사 백본에 voxel 집계 모듈을 추가하고, 학습된 백본을 고정한 뒤 가역적인 정규 직교 변환을 학습해 특성 채널을 해석 가능하게 분리한다. 각 채널에 대응하는 대표 학습 샘플을 프로토타입으로 저장해 “이것은 저것과 닮았다”는 형태의 직관적 설명을 생성한다. 분류 정확도는 기존 3DGS 분류기와 동등하게 유지하면서, 사용자 연구(N=51)에서 설명 선호도가 크게 높았다.
상세 분석
XSPLAIN은 3D Gaussian Splatting이라는 최신 3D 재구성 표현을 직접 다루는 최초의 프로토타입 기반 XAI 프레임워크로, 기존 포인트 클라우드나 메쉬 기반 설명 방법이 갖는 공간 연속성 손실 문제를 해결한다. 핵심 설계는 세 단계로 구성된다. 첫째, PointNet을 기반으로 하되 전역 max‑pooling 대신 정규화된 3D 격자(G³) 위에 voxel 집계 레이어를 삽입해 각 voxel마다 로컬 피처를 보존한다. 이는 설명 시 “어디에서” 모델이 주목했는지를 명확히 드러내는 공간적 근거를 제공한다. 둘째, 백본을 분류 목적에 맞게 학습한 뒤 고정하고, C×C 정규 직교 변환 행렬 U를 추가해 특성 채널을 서로 독립적으로 만든다. 직교성 보장은 변환 전후의 클래스 결정 경계가 변하지 않으며, 각 채널이 특정 의미(예: 물체의 특정 부위)와 일대일 매핑되도록 한다. 셋째, 변환된 채널별로 가장 활성화된 학습 샘플을 프로토타입으로 선택하고, 테스트 샘플의 활성 채널과 매칭시켜 “이 부분은 학습 데이터의 어떤 예와 유사하다”는 형태의 설명을 생성한다.
학습 과정에서 도입된 density‑aware 정규화는 voxel 활성도와 실제 Gaussian primitive 밀도 사이의 KL 발산을 최소화함으로써, 희소한 노이즈 voxel이 아닌 실제 물체 표면에 집중하도록 유도한다. 이는 설명의 신뢰성을 높이는 중요한 설계이다. 실험에서는 Shape‑Splat과 MVImageNet‑GS 두 벤치마크에서 기존 PointNet‑기반 분류기와 동등하거나 약간 상회하는 정확도를 기록했으며, 프로토타입 기반 설명이 시각적으로 일관된 물체 부위와 일치함을 정성적으로 보여준다. 사용자 연구 결과는 48.4%의 참여자가 XSPLAIN 설명을 가장 선호했으며, 통계적으로 유의미한(p<0.001) 차이를 보였다.
강점으로는 1) 3DGS의 연속적 볼류메트릭 특성을 그대로 활용해 공간적 일관성을 유지, 2) 가역 직교 변환을 통해 해석 가능성을 확보하면서도 분류 성능을 손상시키지 않음, 3) 프로토타입 기반 설명이 직관적이고 도메인 전문가에게 친숙한 “예시 기반” 추론을 제공한다는 점을 들 수 있다. 한계점은 프로토타입 수와 voxel 해상도 선택이 설명 상세도와 계산 비용 사이의 트레이드오프를 만든다는 점이며, 색상 등 뷰‑디펜던트 속성을 제외했기 때문에 색상 기반 구분이 중요한 도메인에는 추가 연구가 필요하다. 또한, 직교 변환 학습이 고차원 채널에서 수렴 안정성이 떨어질 가능성이 있어 더 큰 스케일의 데이터셋에 대한 검증이 요구된다.
댓글 및 학술 토론
Loading comments...
의견 남기기