스캔 문서 키 정보 추출을 위한 합성 데이터 기반 공동‑입자 적응 및 보정

스캔 문서 키 정보 추출을 위한 합성 데이터 기반 공동‑입자 적응 및 보정
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

SynJAC은 대규모 합성 데이터를 활용해 도메인 적응을 수행하고, 소량의 수작업 라벨을 이용해 모델을 보정함으로써 스캔된 시각적 풍부 문서(VRD)에서 키 정보 추출(KIE) 성능을 크게 향상시키는 프레임워크이다.

상세 분석

SynJAC은 네 가지 핵심 모듈로 구성된다. 첫 번째는 OCR 및 오프‑더‑쉘 파서와 대형 언어 모델(LLM)을 결합해 레이아웃 파싱, 토큰‑레벨 BIO 태깅, 질의‑응답(QA) 쌍 생성을 자동화하는 합성 데이터 생성 파이프라인이다. 이 과정에서 문서 이미지에서 추출된 텍스트와 좌표 정보를 기반으로 LLM이 각 토큰에 대한 태그를 할당하고, 문서 내용에 대한 질문을 생성해 답을 레이아웃 엔티티와 퍼지 매칭한다. 두 번째는 미세‑입자와 거친‑입자 표현을 동시에 학습하는 공동‑입자 모델이다. 미세‑입자는 단어 수준의 텍스트와 위치 정보를, 거친‑입자는 문단·표·그림 등 고수준 구조를 캡처한다. 여기서 제안된 Layout‑to‑Vector(L2V) 인코더는 박스 좌표를 벡터화해 공간적 관계를 강화하고, 두 입자 간 상호작용을 촉진한다. 세 번째는 구조적 도메인 쉬프팅(SDS), 합성 시퀀스 태깅(SST), 합성 인스트럭션 튜닝(SIT)이라는 세 가지 도메인 적응 전략이다. SDS는 합성 레이아웃과 실제 레이아웃의 분포를 정렬하고, SST는 토큰‑레벨 태깅 태스크에, SIT는 QA 기반의 거친‑입자 태스크에 각각 특화된 미세조정을 수행한다. 마지막으로, 소량의 고품질 수작업 라벨(가이드 셋)을 이용해 모델을 재조정하는 도메인 보정 모듈이 있다. 이 모듈은 합성 데이터의 노이즈를 완화하고, 풀링 메커니즘을 통해 합성 지식과 인간 라벨을 균형 있게 통합한다. 실험에서는 금융, 교육, 영수증 등 다양한 도메인에서 스캔 문서와 디지털 PDF를 대상으로 기존 최첨단 모델(Large Feature‑Driven, Joint‑Grained 등)과 비교했을 때, 라벨링 비용을 10배 이상 절감하면서도 동일 수준 혹은 그 이상의 F1 점수를 달성했다. 특히, SynJAC은 “Few/Zero‑Shot” 설정에서도 구조·의미 지식을 모두 활용해 강인한 일반화 능력을 보였으며, L2V와 공동‑입자 설계가 입자 간 상호보완성을 크게 향상시켰다. 전체적으로 SynJAC은 합성 데이터와 최소한의 인간 라벨을 결합해 도메인‑특화 KIE 문제를 효율적으로 해결하는 실용적인 솔루션으로 평가된다.


댓글 및 학술 토론

Loading comments...

의견 남기기