멀티모달 문서에서 키정보 추출을 위한 마스크 기반 병렬 추론 패러다임

멀티모달 문서에서 키정보 추출을 위한 마스크 기반 병렬 추론 패러다임
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 키정보 추출(KIE) 작업에서 기존 자동회귀 방식이 초래하는 속도 병목을 해소하고자, 모든 목표값을 “

상세 분석

PIP는 KIE가 본질적으로 “검색” 작업임을 전제로, 각 필드값이 이미지 내 특정 영역에 대응한다는 점을 활용한다. 기존 MLLM은 텍스트 토큰을 순차적으로 생성하므로, 필드 수가 늘어날수록 지연이 선형적으로 증가한다. PIP는 입력 프롬프트에서 모든 목표값을 “


댓글 및 학술 토론

Loading comments...

의견 남기기