ODStega 최적화 분포 기반 상대적 보안 스테가노그래피

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 대형 언어 모델(LLM)의 토큰 확률 분포를 제한된 발산 범위 내에서 최적화하여, 비밀 비트를 최소 토큰 수로 삽입하면서도 텍스트의 자연스러움을 유지하는 커버리스 스테가노그래피 방법인 OD‑Stega를 제안한다. KL 발산 또는 전체 변동 거리 제약 하에 폐쇄형 해를 도출하고, 토크나이저 불일치 해결, 어휘 절삭 결합, 기존 Discop 기법과의 통합 등 실용적 문제들을 다룬다.

상세 분석

OD‑Stega는 LLM 기반 스테가노그래피의 핵심 과제를 “다음 토큰의 확률 분포 Pᵢ를 얼마나 변형해도 탐지기(Eve)가 눈치채지 못하는가”라는 형태로 정량화한다. 저자는 비밀 비트를 삽입할 때 필요한 엔트로피를 최대화하기 위해, 원래 LLM이 제공하는 분포 Pᵢ를 새로운 분포 Qᵢ로 교체하고, 이때 KL 발산 Dₖₗ(Qᵢ‖Pᵢ) 또는 총 변동 거리 TV(Qᵢ‖Pᵢ)가 사전에 정해진 허용 한계 δ 이하가 되도록 제약한다. 최적화 문제는 선형 제약과 볼록 발산 함수 덕분에 전역 최적해를 구할 수 있다.

KL 제약 하에서는 최적 Qᵢ가 온도 스케일링 형태임을 증명한다. 구체적으로 Qᵢⱼ = Pᵢⱼ^{1/T} / Σₖ Pᵢₖ^{1/T} (단, T ≥ 1)이며, T 값은 δ와의 일치 조건을 만족하도록 이분 탐색으로 찾는다. 이는 기존에 경험적으로 사용되던 “temperature tuning”이 이론적으로도 엔트로피를 최대로 하는 최적 전략임을 의미한다.

TV 제약에서는 저자가 “워터필링”과 “리버스 워터필링” 절차를 적용해 낮은 확률 토큰을 일정 수준까지 끌어올리고, 높은 확률 토큰을 반대로 낮추는 방식으로 Qᵢ를 구성한다. 이때 두 개의 공통값 α, β 가 등장하며, δ가 충분히 크면 α = β = 1/N이 되어 균등 분포가 된다.

실제 적용 단계에서는 토크나이저 불일치 문제를 해결하기 위해 “프롬프트 선택” 방식을 도입한다. Alice는 비밀 비트 S 앞에 짧은 비트 블록 B를 삽입하고, 가능한 B 조합을 모두 시도해 Bob이 정확히 복호화할 수 있는 경우만 전송한다. 이는 토크나이저가 동일한 토큰 시퀀스를 재생성하도록 보장한다.

또한 어휘 절삭(Vocabulary Truncation) 기법을 결합해 계산량을 감소시키면서 전체 KL 발산을 제한한다. 저자는 절삭 후 남은 어휘 집합에 대해 동일한 최적화 절차를 적용하고, 절삭 비율과 δ 값 사이의 trade‑off을 실험적으로 분석한다. 마지막으로, 기존 비‑Arithmetic‑Coding 기반 기법인 Discop과의 통합을 시연하여 OD‑Stega가 다양한 스테가노그래피 파이프라인에 범용적으로 적용 가능함을 보여준다.

전반적으로 OD‑Stega는 “상대적 보안”이라는 새로운 개념을 도입해, 완전한 무탐지(완전 보안) 대신 탐지기 능력에 맞춰 최적의 엔트로피를 확보함으로써 토큰 효율성을 크게 향상시킨다.

ODStega 최적화 분포 기반 상대적 보안 스테가노그래피

초록

상세 분석

댓글 및 학술 토론

의견 남기기