텍스트 인증을 위한 내용 기반 제로워터마킹 알고리즘

**1. 연구 배경 및 필요성** 디지털 시대에 텍스트는 웹 페이지, 전자책, 메신저 등 다양한 형태로 광범위하게 사용된다. 이미지·오디오·비디오와 달리 텍스트는 인간 시각·청각 시스템의 한계를 이용한 은닉이 어려워 기존 워터마킹 기법을 적용하기 힘들다. 텍스트를 직접 변형하면 의미·문법이 손상될 위험이 크기 때문에, 저작권 보호와 인증을 위한 특수한 방법이 요구된다. **2. 기존 연구와 한계** 텍스트 워터마킹은 크게 이미지 기반, 구문(syntactic), 의미(semantic), 구조(structural) 네 가지 접근으로 분류된다. 이미지 기반은 텍스트를 이미지화해 공간 정보를 이용하지만 OCR 공격에 취약하고 실용성이 낮다. 구문 기반은 구문 트리를 변형해 워터마크를 삽입하지만 NLP 기술이 아직 성숙하지 않아 정확도와 처리 비용이 문제다. 의미 기반은 동의어 교체 등으로 워터마크를 삽입하지만 의미 변형이 허용되지 않는 법률·시 문서 등에 적용하기 어렵다. 구조 기반은 이중 문자나 구두점 등을 이용하지만 모든 텍스트에 적용 가능하지 않다. 따라서 텍스트 자체를 변형하지 않으면서도 인증에 활용할 수 있는 ‘제로워터마킹’이 대안으로 제시된다. **3. 제안 알고리즘 개요** 본 논문은 ‘내용 기반 제로워터마킹’ 방식을 제안한다. 핵심 아이디어는 텍스트 내부의 통계적 특성, 즉 키워드 주변 단어의 길이 정보를 이용해 워터마크를 생성하는 것이다. - **워터마크 생성(Embedding) 단계** 1. 원본 텍스트 T_O를 입력받는다. 2. 각 단어의 등장 빈도를 계산한다. 3. 빈도가 가장 높은 단어를 키워드(KW)로 선택한다(사용자는 직접 선택 가능). 4. KW가 텍스트에 나타나는 모든 위치 i에 대해, 앞 단어 P_i와 뒤 단어 N_i의 길이를 순차적으로 기록한다. 5. 기록된 길이 값들을 정수 배열 WM에 저장한다. 6. WM을 원본 텍스트, 저자명, 키워드, 생성 일시와 함께 인증기관(CA)에 등록한다. - **워터마크 검증(Extraction) 단계** 1. 의심 텍스트 T_A(원본 혹은 변조된 텍스트)와 동일 키워드 KW를 입력한다. 2. KW의 현재 등장 횟수를 파악하고, 각 위치에서 앞·뒤 단어 길이를 측정해 배열 EWM을 만든다. 3. 등록된 WM과 EWM을 비교한다. 일치하면 텍스트는 무변조, 불일치이면 변조로 판단한다. 키워드가 텍스트 전반에 걸쳐 충분히 많이 등장해야 워터마크 길이가 충분히 확보된다. **4. 실험 설계** - **데이터**: 기존 연구

텍스트 인증을 위한 내용 기반 제로워터마킹 알고리즘

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기