LLM 기반 텍스트 분류를 위한 고충실도 반사실 설명 생성 가이드
초록
본 논문은 대규모 언어 모델(LLM)을 활용해 텍스트 분류기의 반사실(counterfactual) 설명을 생성하는 두 가지 간단한 방법을 제안한다. 하나는 중요한 단어를 사전‑프롬프트에 포함시키는 ‘Classifier‑Guided Generation(CGG)’이고, 다른 하나는 다수의 후보를 생성한 뒤 분류기로 검증해 최적 후보를 선택하는 ‘Classifier‑Guided Validation(CGV)’이다. 두 방법 모두 별도 파인튜닝 없이 높은 라벨 전환율과 텍스트 품질을 달성했으며, 생성된 반사실을 데이터 증강에 활용하면 분류기의 견고성도 향상된다.
상세 분석
이 연구는 기존 반사실 생성 기법이 갖는 두 가지 한계를 동시에 해결한다. 첫째, 마스킹‑필링(MF)이나 조건부 분포(CD) 기반 방법은 특정 태스크에 맞춘 파인튜닝이 필요하고, 생성된 텍스트가 종종 부자연스럽다. 둘째, 순수 LLM 기반 생성은 고품질 텍스트를 만들지만 분류기의 결정 경계 정보를 알지 못해 라벨을 실제로 뒤바꾸는 ‘고충실도’ 반사실을 만들기 어렵다. 논문은 이를 보완하기 위해 분류기의 예측에 대한 설명가능성(XAI) 정보를 프롬프트에 직접 주입하거나, 생성 후 분류기로 검증하는 두 단계 접근법을 설계했다.
CGG에서는 Saliency Map 혹은 SHAP을 이용해 입력 텍스트에서 가장 영향력 있는 단어들을 추출하고, 이를 “Important words” 섹션에 삽입한다. 이렇게 하면 LLM이 중요한 의미 단위를 보존하면서도 목표 라벨을 달성하도록 유도된다. CGV는 먼저 LLM에게 무작위 혹은 기본 프롬프트로 n개의 후보를 만들게 한 뒤, 사전에 학습된 BERT 기반 분류기로 각 후보의 라벨을 확인한다. 라벨이 목표와 일치하고 원본과의 Levenshtein 거리(또는 다른 거리 함수)가 최소인 후보를 최종 반사실로 선택한다.
실험에서는 IMDB 감성 분석과 SNLI 자연어 추론 두 데이터셋을 사용해 CEVAl 벤치마크를 재현하였다. Llama‑3.1‑8B‑Instruct, Llama‑2‑7B‑Chat, GPT‑4o‑mini 등 다양한 LLM에 적용했으며, 온도 1.0, 1‑shot 프롬프트를 기본 설정으로 삼았다. 결과는 CGG와 CGV를 결합한 CGGV가 모든 LLM에서 가장 높은 라벨 전환율(FR)과 가장 낮은 토큰 레벤슈타인 거리(Dis)를 기록했음을 보여준다. 특히 Llama‑3.1은 CREST와 FLARE 같은 파인튜닝 기반 최첨단 방법을 능가하거나 근접했으며, GPT‑4o‑mini와 Llama‑2도 유의미한 개선을 보였다. 텍스트 품질 지표(문법, 유창성, 일관성)에서도 크게 뒤처지지 않았으며, 일부 경우에는 기존 방법보다 우수했다.
흥미로운 부가 분석으로, LLM이 높은 FR을 달성한 경우는 분류기가 정확할 때, 즉 모델이 ‘현실 세계’와 일치하는 판단을 할 때였다. 이는 LLM이 자체의 파라메트릭 지식(학습된 언어 통계)만으로도 충분히 라벨을 뒤바꾸지만, 실제 분류기의 내부 논리를 정확히 반영하지는 못한다는 점을 시사한다. 따라서 생성된 반사실이 ‘faithful’하다고 보기엔 한계가 있다.
마지막으로, 생성된 반사실을 원본 훈련 데이터에 추가해 재학습한 결과, 분류기의 정확도와 견고성이 향상되었다. 이는 반사실이 모델의 결정 경계 주변을 더 다양하게 탐색하게 해, 과적합을 완화하고 드문 오류 패턴에 대한 내성을 높이는 효과를 갖는다. 전체적으로 이 논문은 파인튜닝 비용 없이도 LLM과 분류기 정보를 결합해 고품질·고충실도 반사실을 만들 수 있음을 입증했으며, XAI와 LLM 프롬프트 설계가 상호 보완적으로 작용한다는 중요한 통찰을 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기