프롬프트 기반 반사실 설명: 생성형 AI 행동 해석의 새로운 패러다임
초록
본 논문은 대형 언어 모델(LLM)의 출력 특성(독성, 정치적 편향, 감성 등)을 유발하는 프롬프트 요소를 규명하기 위해 전통적인 반사실 설명(CF)을 확장한 ‘프롬프트‑반사실 설명(PCE)’ 프레임워크와 알고리즘을 제안한다. 비결정적·비정형 출력과 다운스트림 분류기를 활용해 입력(프롬프트) 변화를 최소화하면서 원하는 출력 특성을 억제하거나 유도하는 방법을 제시하고, 정치 성향, 독성, 감성 세 가지 사례 연구를 통해 실효성을 입증한다.
상세 분석
이 논문은 생성형 AI, 특히 LLM 기반 시스템이 비정형·비결정적 텍스트를 생성한다는 점에서 기존 XAI·반사실 설명 기법이 적용되지 못하는 네 가지 근본적 한계를 명확히 제시한다. 첫째, 전통 CF는 이산·단일 차원 출력(예: 클래스 레이블)에 초점을 맞추지만, LLM 출력은 길이와 의미가 가변적인 연속적 텍스트이며, 이를 직접 비교하기 어렵다. 둘째, 기존 CF는 입력을 특징 집합(bag‑of‑words)으로 취급해 순서와 문맥을 무시한다. LLM은 토큰 순서와 문맥 의존성이 핵심이므로, 순서 보존과 의미적 연관성을 유지하면서 변형을 찾아야 한다. 셋째, 생성 모델의 내재적 확률적 변동성(stochasticity) 때문에 동일 프롬프트에 대해 여러 출력이 존재한다. 따라서 단일 출력이 아닌, 다운스트림 분류기의 평균·분산 등 집합적 속성을 목표 함수로 설정해야 한다. 넷째, 프롬프트 자체가 고차원·희소한 공간에 존재하므로, 최소 변형을 찾는 탐색 비용이 급증한다. 논문은 이를 해결하기 위해 (1) 다운스트림 분류기를 “특성 탐지기”로 가정하고, 해당 분류기의 확률적 출력(예: 독성 점수)을 목표로 삼는다. (2) 프롬프트 변형을 토큰 삽입·삭제·대체 형태의 연산 집합으로 정의하고, 변형 비용을 토큰 레벨 편집 거리와 의미 보존 정도(예: 임베딩 거리)로 정량화한다. (3) 비결정성을 다루기 위해 다수 샘플링(Monte‑Carlo) 후 평균 점수를 사용하거나, 신뢰 구간을 목표 함수에 포함시켜 안정적인 반사실을 도출한다. (4) 탐색 알고리즘으로는 그리디 기반 휴리스틱과 제한된 베이지안 최적화를 결합해 고차원 프롬프트 공간을 효율적으로 탐색한다. 실험에서는 정치적 편향(좌/우), 독성(TOXICITY), 감성(긍정/부정)이라는 세 가지 다운스트림 분류기를 각각 적용해 PCE를 생성하고, 원본 프롬프트 대비 최소 편집 거리(보통 1~3 토큰)로 원하는 특성을 억제하거나 강화한다. 결과는 (a) 프롬프트 엔지니어링에 실용적인 가이드라인을 제공하고, (b) 레드팀 테스트에서 기존에 발견되지 않은 위험 프롬프트를 자동으로 탐색하는 데 유용함을 보여준다. 또한, PCE가 규제 요구(예: EU AI Act의 “개인별 설명 권리”)를 충족시키는 투명성 메커니즘으로 활용될 수 있음을 논의한다. 전체적으로 이 연구는 “입력 중심” XAI를 생성형 AI에 적용하는 최초의 체계적 시도로, 비결정적 텍스트 생성 모델의 해석 가능성을 크게 확장한다.
댓글 및 학술 토론
Loading comments...
의견 남기기