아라비아어 문장으로 숨기는 새로운 Hush 암호체계

아라비아어 문장으로 숨기는 새로운 Hush 암호체계
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 암호화된 데이터를 무해한 아라비아어 문장으로 변환해 감시 소프트웨어를 속이는 “Hush 암호체계”를 제안한다. 기존 단어 치환 방식을 문법 기반 치환으로 확장하고, 숨은 마코프 모델(HMM)을 활용해 자연스러운 문법 구조를 유지한다. Java 구현과 통계적 검증을 통해 변환 결과가 통계적으로 정상 텍스트와 구분되지 않음을 입증한다.

상세 분석

Hush 암호체계는 두 가지 핵심 아이디어를 결합한다. 첫째, 전통적인 Word Substitution Method를 그대로 사용하면서도 단순히 무작위 단어 매핑에 머무르지 않고, 아라비아어 문법 규칙을 반영한 Grammatical Substitution Method를 도입한다는 점이다. 이를 위해 논문에서는 아라비아어의 어휘 집합을 품사(POS)별로 분류하고, 각 품사에 대응하는 암호 비트 스트림을 매핑한다. 예를 들어, 명사는 5비트, 동사는 6비트 등으로 할당하여, 암호문을 순차적으로 읽으며 해당 비트 길이에 맞는 품사의 단어를 선택한다. 이렇게 하면 생성된 문장은 품사 순서가 올바르기 때문에 인간이 읽거나 자동 언어 분석기가 검사했을 때 ‘비정상적인 어휘 배열’이 드러나지 않는다.

둘째, 이러한 품사 기반 치환 과정에 Hidden Markov Model을 적용한다. HMM의 상태는 문법적 역할(예: 주어, 목적어, 서술어 등)이며, 전이 확률은 아라비아어 문법에서 허용되는 구문 구조를 반영한다. 관측 확률은 각 상태에 매핑된 단어 집합에서 특정 단어가 선택될 확률을 나타낸다. 암호문을 입력받아 비트 스트림을 해석할 때, Viterbi 알고리즘을 사용해 가장 가능성 높은 상태 시퀀스를 찾고, 그에 따라 단어를 선택한다. 이 과정은 단순히 무작위 단어를 나열하는 것이 아니라, 실제 언어 모델이 제시하는 확률 분포를 따르므로, 생성 텍스트의 통계적 특성이 자연어와 거의 일치한다.

보안 측면에서 Hush는 ‘보안을 숨기는’ 것이 아니라 ‘암호 자체를 은폐’하는 데 초점을 맞춘다. 따라서 전통적인 암호 강도(키 길이, 알고리즘 복잡도)보다 은닉성(steganographic secrecy)이 핵심 평가 지표가 된다. 논문은 통계적 엔트로피 분석, N-그램 분포 비교, 그리고 유명한 언어 식별 도구(LangID, TextCat) 테스트를 수행해, 변환된 텍스트가 일반 아라비아어 코퍼스와 구별되지 않음을 보인다.

구현은 Java 기반으로 작성되었으며, 입력 파일(바이너리 데이터) → 비트 스트림 → HMM 기반 품사/단어 매핑 → 최종 아라비아어 문장 순서로 진행된다. 복호화는 역순으로, 문장에서 품사를 추출하고 대응 비트를 재조합해 원본 데이터를 복원한다. 성능 평가에서는 평균 1.2초(1 MB 데이터) 정도의 처리 시간을 보고했으며, 메모리 사용량도 수십 메가바이트 수준에 머물러 실용적인 적용이 가능함을 시사한다.

한계점으로는 아라비아어 어휘와 문법 규칙이 풍부하기 때문에 품사별 단어 사전 구축이 비용이 많이 든다는 점, 그리고 HMM 파라미터를 학습하기 위한 대규모 코퍼스가 필요하다는 점을 들 수 있다. 또한, 키 관리가 별도로 존재하지 않으며, 동일 키와 모델을 사용하면 동일한 평문이 항상 동일한 은닉 문장을 생성한다는 점에서 재사용 공격에 취약할 수 있다. 향후 연구에서는 키 기반 변형, 다중 언어 확장, 그리고 딥러닝 기반 언어 모델을 활용한 보다 정교한 은닉 메커니즘을 제안한다.


댓글 및 학술 토론

Loading comments...

의견 남기기