임베딩 공간에서 숨바꼭질 대형 언어 모델의 기하학 기반 스테가노그래피와 탐지
초록
본 논문은 사전 학습된 대형 언어 모델(LLM)을 미세조정하여 프롬프트에 포함된 비밀을 출력 텍스트에 은밀히 삽입하는 스테가노그래피 공격을 제안하고, 기존의 완전 복구 가능한 방식에 대비해 임베딩 공간의 기하학을 이용한 저복구성 기법을 설계한다. 또한 출력 수준의 분포 변화만으로는 탐지하기 어려운 점을 지적하고, 모델 내부 활성화를 활용한 선형 탐지기(linear probe)를 통해 악성 미세조정의 내부 서명을 효과적으로 식별한다.
상세 분석
이 논문은 두 가지 핵심 기여를 제공한다. 첫 번째는 “payload recoverability”라는 새로운 평가 지표를 정의하고, 이를 토큰‑버킷 매핑 정확도(R_bucket)와 버킷‑시크릿 매핑 정확도(R_secret)라는 두 축으로 정량화한다. 기존 TrojanStego 방식은 ASCII‑패리티와 토큰‑ID 패리티라는 고정된 매핑을 사용해 R_bucket과 R_secret 모두 1.0에 가까운 완전 복구성을 보였으며, 이는 공격자가 키 없이도 비밀을 쉽게 추출할 수 있음을 의미한다. 논문은 이러한 취약점을 보완하기 위해 임베딩 공간에 임의의 초평면을 삽입해 토큰을 두 개의 버킷(V0, V1)으로 나누는 기하학 기반 버킷팅을 제안한다. 초평면의 방향은 정규분포에서 샘플링한 시드 σ에 의해 결정되며, 토큰 임베딩 e와 초평면 법선 v_σ의 내적 s=e·v_σ를 기준으로 median(s)보다 큰 토큰을 버킷 1, 그 이하를 버킷 0에 할당한다. 이 과정은 모델이 학습 과정에서 자체적인 토큰 분포를 활용하도록 강제하면서도, 시드가 비공개이므로 외부 분석가가 버킷 규칙을 역추적하기 어렵게 만든다.
두 번째는 비밀 인코딩 단계에서도 임베딩 기반의 다중 초평면을 활용한다. 26개의 알파벳을 각각 8개의 초평면에 투영해 8비트 코드를 부여하고, 충돌이 없도록 시드를 탐색한다. 이렇게 하면 ASCII와 달리 모델의 의미론적 구조를 활용해 자연스럽게 구분된 코드가 생성되며, 비밀‑비트 매핑 자체는 여전히 결정적이지만 버킷팅 단계에서의 불확실성이 R_bucket을 0.5에 가깝게 낮춘다. 실험에서는 Llama‑8B와 Ministral‑8B에 LoRA 미세조정을 적용했을 때, 기존 방식 대비 정확한 비밀 복구율이 17→30 % (Llama)와 24→43 % (Ministral)로 상승했지만, 이는 “recoverability”가 감소한 결과이며, 실제 공격 성공률은 여전히 낮다.
탐지 측면에서는 전통적인 스테가노그래피 방어인 KL‑다이버전스나 퍼플렉시티 측정이 미세조정에 의해 발생하는 자연스러운 분포 이동과 구분되지 않음을 이론적으로 증명한다. 대신, 모델의 후반 레이어 활성화를 입력으로 하는 선형 탐지기를 훈련시켜 버킷 규칙이 내재된 내부 서명을 포착한다. 실험 결과, 동일한 레이어에서 훈련된 탐지기는 미세조정된 모델에서 비밀을 33 % 더 높은 정확도로 식별했으며, 이는 비밀 자체가 복구 불가능한 저복구성 설정에서도 유지된다. 따라서 내부 표현 기반 탐지가 출력‑레벨 통계만을 이용한 탐지보다 훨씬 강력함을 보여준다.
이 논문은 LLM 기반 스테가노그래피가 단순히 출력 텍스트를 조작하는 수준을 넘어, 모델 내부 구조에 지속적인 “악성 서명”을 남긴다는 중요한 통찰을 제공한다. 향후 방어 연구는 이러한 내부 서명을 정량화하고, 다양한 모델 아키텍처와 미세조정 기법에 일반화 가능한 탐지 프레임워크를 구축하는 방향으로 나아가야 할 것이다.
댓글 및 학술 토론
Loading comments...
의견 남기기