스테가노분석을 위한 새로운 통계·파동 측정법

스테가노분석을 위한 새로운 통계·파동 측정법
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 비트열의 통계적 특성 9가지와 웨이브렛 변환을 결합한 새로운 측정 지표를 제안하고, 이를 서포트 벡터 머신(SVM)과 함께 활용해 이미지와 파일의 LSB 임베딩 수준을 효과적으로 구분한다. 실험 결과, 제안된 지표는 80% 이상의 정확도로 다양한 파일 형식과 임베딩 비율을 식별한다.

상세 분석

논문은 스테가노그래피 탐지를 위해 두 가지 주요 접근을 제시한다. 첫 번째는 비트 문자열에 대한 9개의 통계적 측정값(µ₁µ₉)을 정의하는 것이다. µ₁은 k‑그램 빈도 범위의 가중합으로, 무작위 문자열보다 구조화된 문자열에서 크게 나타난다. µ₂는 연속된 0·1 런의 길이 합계이며, 무작위 데이터는 짧은 런을, 임베딩된 데이터는 상대적으로 긴 런을 만든다. µ₃은 바이트 단위 해밍 가중 전이값으로, 무작위 비트열보다 임베딩된 비트열에서 더 높은 값을 보인다. µ₄는 비트열의 자기상관 함수에 대한 푸리에 변환의 RMS 값을 이용해 주파수 스펙트럼의 평탄도를 측정한다. µ₅는 8×8 하다마드 변환을 적용한 결과이며, 이미지 픽셀에 직접 적용할 경우 픽셀값의 에너지 분포를 반영한다. µ₆µ₉는 1‑그램부터 4‑그램까지의 확률 분포에 대한 가중 엔트로피로, 임베딩 비율이 증가할수록 엔트로피가 변한다. 이 9차원 특성 벡터를 정규화한 뒤 가우시안 커널 SVM에 학습시켜 파일 형식( JPEG, BMP, ZIP 등)과 LSB 임베딩 수준을 분류한다. 실험에서는 2000단어(8000바이트)씩 30개의 파일을 각각 8개의 클래스로 학습·검증했으며, 180개의 테스트 파일에 대해 평균 82.22%의 정확도를 얻었다.

두 번째 접근은 2차 레벨 Haar 웨이브렛 서브밴드(LL, LH, HL, HH)를 이용해 이미지의 공간적 변화를 정량화한다. 4×4 블록을 기준으로 각 서브밴드의 평균값을 계산하고, 원본 이미지 Sₖ와 추가 임베딩 이미지 Sₖᵢ 사이의 차이를 X₀, X₁, X₂로 정의한다. η = X₀·500 / 이미지 크기 라는 정규화 지표와, 2차 레벨 LL 서브밴드의 신호대잡음비(Γₖᵢᴡ)를 도입해 임베딩 비율 i와 초기 임베딩 비율 k 사이의 관계를 이론적으로 분석한다. 수식 (2)를 통해 η가 i에 대해 단조 증가하고, k가 증가하면 η는 약간 감소한다는 정리를 증명한다. 실험에서는 Hide4PGP와 자체 제작한 CSA‑Tool을 사용해 k=050%, i=10100% 범위의 데이터를 생성하고, η와 Γ의 변화를 그래프로 제시하였다. 특히 i=20% 고정 시 η가 k에 따라 감소하는 경향이 뚜렷히 나타났으며, 이는 낮은 임베딩 비율에서도 신뢰할 수 있는 탐지 지표임을 시사한다. 전체적으로 제안된 통계적 특성과 웨이브렛 기반 지표는 서로 보완적으로 작용하여, 기존 LSB 탐지 방법보다 높은 민감도와 낮은 오탐률을 제공한다.

이 논문은 기존의 단순 LSB 비율 검출을 넘어, 비트열의 구조적 복잡도와 이미지의 주파수 도메인 변화를 동시에 고려함으로써 스테가노분석의 정확성을 크게 향상시킨다. 또한, SVM 기반 다중 클래스 분류 체계를 도입해 파일 형식 구분까지 확장함으로써 실용적인 디지털 포렌식 도구로의 활용 가능성을 제시한다. 다만, 실험에 사용된 데이터셋이 제한적이며, 다양한 압축 및 변형 조건에 대한 검증이 부족한 점은 향후 연구 과제로 남는다.


댓글 및 학술 토론

Loading comments...

의견 남기기