OCR 기반 그래프 특징을 활용한 문서 변조 탐지

OCR 기반 그래프 특징을 활용한 문서 변조 탐지
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 문서 내 문자들의 바운딩 박스를 그래프의 노드로 변환하고, 각 노드와 이웃 노드 간의 위치·크기·Hu 모멘트 등 다양한 특성을 결합한 그래프 특징을 이용해 변조 여부를 판별한다. 랜덤 포레스트 분류기를 통해 데이터‑드리븐 방식으로 학습했으며, 실제 비즈니스 문서에 인위적으로 삽입한 스케일·시프트 변조를 포함한 데이터셋에서 기존 최첨단 방법보다 높은 F1 점수를 달성하였다.

상세 분석

이 논문은 디지털 문서 변조 탐지를 “문자 단위 그래프 비교”라는 새로운 관점으로 접근한다는 점에서 의미가 크다. 기존 이미지 기반 변조 탐지 기법은 색상·텍스처·노이즈와 같은 저수준 신호에 의존하지만, 문서는 대부분 흰 배경에 검은 텍스트만 존재해 이러한 신호가 거의 없으며, 인쇄·스캔·압축 등 후처리 과정에서 쉽게 사라진다. 따라서 저자들은 OCR 엔진(Tesseract)으로 추출한 문자 바운딩 박스를 그래프의 노드로 삼고, 각 문자(중심 노드)와 좌우 n개의 이웃 문자(서브그래프) 사이의 관계를 정량화한다.

핵심 특징은 크게 두 부류로 나뉜다. 첫 번째는 기하학적 특성(높이·너비, y‑값 차이, 중심 간 유클리드 거리)으로, 변조된 문자는 미세한 위치·크기 오차를 보이기 쉬우며, 이러한 오차는 인간이 눈으로는 놓치기 쉽다. 두 번째는 형태학적 특성으로 Hu 모멘트와 주관성 축(Principal Inertia Axis)을 사용한다. Hu 모멘트는 회전·스케일·이동에 불변하면서도 문자 내부의 픽셀 분포를 요약하므로, 작은 픽셀 수준 변조(예: ‘c’에 구멍을 메워 ‘o’로 바꾸는 경우)까지 감지 가능하다.

이러한 특징들을 2n+1개의 노드에 대해 일렬로 연결해 하나의 고정 길이 벡터로 변환하고, 변조 여부(1/0) 라벨과 함께 랜덤 포레스트에 학습시킨다. 랜덤 포레스트는 비선형 관계와 특징 간 상호작용을 자연스럽게 포착하며, 과적합을 방지하기 위한 트리 수·깊이·리프 샘플 수 등을 하이퍼파라미터 탐색(480회 랜덤 서치)으로 최적화했다.

데이터셋은 359개의 실제 금융 문서(은행 명세서, 신용카드 청구서 등)에서 추출한 1470 페이지(학습)와 389 페이지(테스트)로 구성되었다. 각 문서의 문자 5%를 무작위로 시프트(1‑10 px) 또는 스케일(7‑25 %) 변조했으며, 변조 전후의 바운딩 박스 좌표를 정답 라벨로 저장했다. 중요한 점은 변조 정보를 OCR 결과와 별도로 보관했으며, 모델은 오직 OCR이 제공하는 바운딩 박스와 이미지 자체만을 사용한다는 점이다.

비교 대상은 Bertrand et al. (2013)의 문자‑레벨 변조 탐지 모델이다. 해당 모델도 Hu 모멘트와 크기·정렬 정보를 사용하지만, 두 단계의 거리·마할라노비스 스코어링을 통해 임계값 기반으로 판단한다. 반면 본 논문은 그래프 구조를 도입해 이웃 문자와의 상대적 관계를 명시적으로 모델링하고, 랜덤 포레스트가 학습된 복합 스코어링을 제공한다. 실험 결과, 기존 모델은 높은 재현율을 보이지만 거짓 양성이 많아 F1 점수가 낮은 반면, 제안 모델은 거짓 양성을 크게 줄이며 전체적인 F1 점수와 정확도가 크게 향상되었다.

한계점으로는 (1) OCR 오류에 민감할 수 있다는 점이다. 바운딩 박스가 잘못 추출되면 그래프 구조 자체가 왜곡되어 오탐·누락이 발생할 가능성이 있다. (2) 현재는 문자 수준 변조만을 다루며, 단어·문단 수준의 복합 변조(예: 문장 재배열, 폰트 교체)에는 적용이 어려울 수 있다. (3) 변조 유형이 스케일·시프트에 국한돼 있어, 색상·그림자·배경 노이즈 등을 이용한 고급 변조에 대한 일반화 능력은 검증되지 않았다. 향후 연구에서는 OCR 오류 보정, 다단계 그래프(문자→단어→문단) 확장, 그리고 딥러닝 기반 그래프 신경망(GNN) 도입을 통해 보다 복합적인 변조 시나리오를 포괄할 수 있을 것으로 기대된다.


댓글 및 학술 토론

Loading comments...

의견 남기기