표적 지시문 쌍으로 만드는 향상된 속임수 탐지 프로브
초록
이 논문은 기존 선형 프로브가 속임수 탐지에 보이는 한계를 지적하고, 프로브 학습에 사용되는 지시문(시스템 프롬프트)의 선택이 성능에 가장 큰 영향을 미친다는 실증적 증거를 제시한다. 저자들은 인간이 이해할 수 있는 속임수 유형 분류법을 기반으로 다양한 지시문 쌍을 설계하고, 각각을 별도 프로브에 적용해 10개의 서로 다른 속임수 벤치마크에서 평균 AUROC를 0.108(20.5% 상대 향상) 개선한다. 결과는 “하나의 보편적 탐지기보다 상황·위협 모델에 맞춘 특화 프로브가 필요하다”는 실용적 결론을 도출한다.
상세 분석
본 연구는 선형 프로브가 내부 활성값을 이용해 모델의 ‘속임수 의도’를 포착한다는 가정 하에 진행되었다. 기존 작업(Goldowsky‑Dill et al., 2025)은 단순한 사실‑거짓 지시문 쌍을 사용해 높은 AUROC(>0.96)를 기록했지만, 다른 데이터셋에서는 스푸리어스 상관관계와 높은 FP율을 보이며 일반화에 한계를 드러냈다. 저자들은 먼저 2,000개의 프로브 변형을 실험해 네 가지 요인(시스템 프롬프트, 학습 사실 데이터셋, 토큰 집계 방식, 레이어 선택)의 분산 기여도를 ANOVA 방식으로 분석하였다. 그 결과 시스템 프롬프트가 전체 성능 변동의 70.6%를 차지했으며, 레이어 선택(2.7%), 학습 데이터셋(2.5%), 토큰 집계(0.6%)는 미미한 영향을 미쳤다. 이는 프로브가 실제 텍스트 내용보다 프롬프트가 전달하는 ‘정직/속임수’ 의도 신호에 민감함을 의미한다.
이러한 통계적 근거를 바탕으로 저자들은 두 종류의 프롬프트 세트를 설계했다. 첫 번째는 Druckman & Bjork(1991)의 속임수 유형 분류(예: 백색 거짓, 과장, 회피, 은폐 등)와 일치하도록 각각의 속임수 유형을 목표로 만든 23개의 ‘속임수‑기반 프롬프트 쌍’이다. 두 번째는 동일한 의도(정직 vs. 속임수)를 유지하면서 언어적 표현을 다양화한 34개의 ‘프레이밍 변형’이다. 모든 프롬프트는 Claude Sonnet 4.5를 이용해 자동 생성했으며, 제어군으로 비속임수 행동을 목표로 한 7개의 쌍을 포함한다.
프로브 학습은 Gemma‑2‑9B‑IT 모델의 레이어 20 잔여 스트림(Residual Stream) 값을 사용했으며, 응답 토큰 중 마지막 5개를 제외한 평균값을 피처로 삼았다. 로지스틱 회귀에 L2 정규화 λ=1을 적용해 최적화했다. 학습 데이터는 Azaria & Mitchell(2023)의 사실‑거짓 쌍(≈200개)만을 사용했으며, 추가적인 도메인 변형이 성능에 미치는 영향은 2.5%에 불과해 고정하였다.
평가 단계에서는 MASK, Liar’s Bench, AI Liar, Convincing Game 등 10개의 속임수 벤치마크를 활용했다. 각 벤치마크는 정직·속임수 상황을 유도하는 프롬프트와 모델의 실제 응답을 포함한다. 검증용으로는 세 벤치마크에서 각각 50개의 샘플(정직 25, 속임수 25)을 보류해 최적 프로브를 선정했다. 결과는 속임수 유형별 맞춤 프롬프트가 기본 프로브 대비 평균 AUROC를 0.108 상승시켰으며, 모든 데이터셋에서 최소 하나의 맞춤 프로브가 기본보다 우수했다는 점이다. 특히 ‘백색 거짓’과 ‘은폐’에 특화된 프롬프트는 MASK와 Liar’s Bench에서 각각 0.12·0.15 정도의 절대적 AUROC 향상을 보였다.
또한, ‘프레이밍 변형’은 특정 데이터셋에서 약간의 개선을 보였지만, 속임수 유형과 직접 연결된 프롬프트에 비해 일관성이 떨어졌다. 이는 단순 언어적 차이보다는 의미적·전략적 의도가 탐지 성능을 좌우한다는 결론을 뒷받침한다.
마지막으로 저자들은 ‘전천후’ 탐지기보다는 조직별 위협 모델에 맞춘 다수의 특화 프로브를 운영하거나, 서로 다른 프로브를 앙상블해 사용함으로써 FP를 최소화하고 TP를 극대화할 것을 권고한다. 이는 실제 운영 환경에서 비용 효율적인 모니터링 체계를 구축하는 데 실질적인 가이드라인을 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기