금융 멀티모달 탈옥 탐지를 위한 FENCE 데이터셋
초록
본 논문은 금융 분야에서 대규모 언어·시각 모델(VLM)의 탈옥 위험을 완화하기 위해, 한국어·영어 이중언어와 이미지‑텍스트 결합을 특징으로 하는 FENCE 데이터셋을 제안한다. 10,000개의 균형 잡힌 샘플(악성·안전)과 15개 이상의 금융 토픽을 포함하며, 이미지 기반 탈옥(IA)과 텍스트 기반 탈옥(TA) 모두를 포괄한다. 실험 결과, GPT‑4o와 오픈소스 VLM이 여전히 높은 성공률을 보였으나, FENCE로 학습한 탐지 모델은 99%의 인‑도메인 정확도와 외부 벤치마크에서도 강인한 성능을 달성한다.
상세 분석
FENCE 데이터셋은 기존 탈옥 데이터가 갖는 몇 가지 근본적인 한계를 극복한다. 첫째, 기존 데이터는 주로 텍스트 기반 공격에 집중하고 이미지 기반 공격은 소수에 불과했으며, 특히 금융 도메인 특화 샘플이 거의 없었다. FENCE는 이미지‑텍스트 복합 공격을 50 % 이상 차지하도록 설계했으며, 이미지 자체에 악의적 정보를 삽입하는 IA(예: 텍스트를 이미지에 변형, 시각적 역할극)와 텍스트에만 악성 내용이 포함되는 TA를 모두 포함한다. 둘째, 데이터는 한국어 원문을 기반으로 수집·생성한 뒤 영문 번역을 제공함으로써 다국어 모델의 일반화 능력을 평가할 수 있다. 한국어 금융 FAQ 2,500개를 실제 은행 서비스에서 추출하고, GPT‑4o를 이용해 동일 의미를 유지하면서 악성 버전을 생성하는 두 단계 프롬프트(역할극 + 평가) 방식을 도입했다. 이 과정에서 인간 검증과 GPT‑4o 자동 평가를 교차 검증해 95 % 이상의 일치율을 확보하였다.
이미지 수집은 Pixabay에서 실제 사진을 크롤링함으로써 합성 이미지가 갖는 비현실성을 최소화하고, 시각적 신뢰성을 높였다. BaseImg, TextImg, FigStep이라는 세 가지 샘플 유형을 정의해 이미지‑텍스트 결합 방식의 다양성을 확보했으며, 각 유형별로 5,000개씩 균등하게 배분했다. 특히 FigStep은 텍스트를 스타일화된 이미지 템플릿에 삽입해 키워드 기반 필터를 회피하는 최신 공격 기법을 반영한다.
실험에서는 GPT‑4o, Gemini, LLaVA 등 상용·오픈소스 VLM 6종을 대상으로 탈옥 성공률을 측정했으며, GPT‑4o조차도 평균 23 % 이상의 성공률을 보였다. 오픈소스 모델은 특히 이미지 기반 공격에 취약해 35 % 이상의 성공률을 기록했다. 이러한 결과는 금융 분야에서 VLM을 직접 서비스에 적용하기 전에 강력한 방어 체계가 필요함을 시사한다.
탐지 모델은 FENCE를 이용해 2‑class(안전/악성) 분류기를 학습했으며, 인‑도메인 테스트에서 99 % 정확도를 달성했다. 교차 도메인 평가(예: MM‑SafetyBench, JailBreakV‑28K)에서도 92 % 이상 F1 점수를 유지해 데이터셋의 일반화 능력을 입증했다. 또한, 데이터셋이 제공하는 악성‑안전 쌍(pair) 구조는 모델이 미묘한 의미 차이를 학습하도록 유도해, 기존 단일 라벨 데이터보다 높은 탐지 민감도를 제공한다.
결론적으로, FENCE는 금융 특화 멀티모달 탈옥 탐지에 필요한 현실성, 다양성, 다언어성을 모두 갖춘 최초의 공개 데이터셋이며, 향후 VLM 안전 연구와 산업 적용에 중요한 기준점이 될 것으로 기대된다.
댓글 및 학술 토론
Loading comments...
의견 남기기