문서 구조 인식 에이전트 DeepRead

문서 구조 인식 에이전트 DeepRead
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

DeepRead는 OCR 기반으로 추출한 문서의 계층·순서 정보를 좌표 체계로 변환하고, LLM이 ‘Locate‑then‑Read’ 전략을 스스로 선택하도록 두 가지 도구(Retrieve, ReadSection)를 제공한다. 구조‑인식 검색을 통해 기존 Search‑o1 스타일 에이전트보다 평균 10.3% 높은 정확도를 달성한다.

상세 분석

본 논문은 장문 문서에 대한 에이전트 기반 검색(RAG)에서 가장 큰 병목인 “구조적 맹목성”을 정확히 짚어낸다. 기존의 RAG 시스템은 문서를 단순히 텍스트 청크 집합으로 취급해, 인간이 자연스럽게 수행하는 ‘섹션 찾기 → 연속 읽기’ 과정을 재현하지 못한다. DeepRead는 최신 OCR 엔진이 제공하는 마크다운‑형식의 계층 정보를 활용해, 각 문서를 (섹션 번호, 단락 번호)라는 2‑차원 좌표 체계로 매핑한다. 이 좌표는 LLM에게 “어디에 위치한 증거를 찾아야 하는가”와 “어디까지 연속적으로 읽어야 하는가”를 명시적으로 전달한다는 점에서 혁신적이다.

두 가지 도구는 상호 보완적인 역할을 수행한다. Retrieve는 키워드 기반 검색을 수행하면서도 반환값에 좌표 메타데이터를 포함한다. 이를 통해 LLM은 특정 섹션에 대한 “앵커”를 빠르게 확보하고, 이후 ReadSection을 호출해 해당 섹션의 연속된 단락을 순서대로 읽어들인다. 이렇게 하면 단일 청크에 의존하던 기존 방식에서 발생하던 “중간 누락”과 “중복 탐색” 문제가 크게 감소한다.

구조‑인식 인터페이스는 ReAct 프레임워크 위에 구현되어, 에이전트는 매 라운드마다 ‘도구 호출 → 관찰 → 상태 업데이트’ 사이클을 반복한다. 중요한 점은 도구 호출이 명시적인 좌표 인자를 요구함으로써, 에이전트가 “이미 본 영역”을 내부 상태에 저장하고, 불필요한 재검색을 회피한다는 것이다. 이는 인간이 문서를 읽을 때 페이지를 넘기며 메모하는 방식과 유사하다.

실험에서는 금융 보고서, 법률 문서, 학술 논문 등 네 가지 도메인에 걸친 4개의 벤치마크를 사용했다. 각 벤치마크는 장문 증거가 여러 섹션에 분산돼 있는 복합 질문을 포함한다. DeepRead는 동일한 LLM(예: GPT‑4)를 기반으로 한 Search‑o1 스타일 에이전트 대비 평균 10.3% 높은 정확도를 기록했으며, 특히 “섹션 전체를 읽어야 하는” 질문에서 15% 이상 개선된 점이 눈에 띈다.

세부 분석에서는 에이전트가 실제로 ‘Locate‑then‑Read’ 패턴을 학습했는지 확인하기 위해 행동 로그를 시각화했다. DeepRead는 초기 라운드에서 Retrieve를 사용해 섹션 앵커를 찾고, 이후 연속적인 ReadSection 호출로 해당 섹션을 전부 소화한다. 반면 비교 모델은 키워드 탐색을 반복하며 불필요한 청크를 여러 번 호출하는 비효율적인 패턴을 보였다.

또한, Ablation 실험을 통해 Retrieve와 ReadSection 각각을 제거했을 때 성능이 급격히 떨어지는 것을 확인했다. 특히 ReadSection을 제외하면 동일한 좌표를 얻더라도 연속적인 문맥을 제공받지 못해 답변 정확도가 7~9% 감소한다. 이는 구조‑인식 읽기가 단순 좌표 제공을 넘어, 문맥 유지와 추론 연쇄에 핵심적인 역할을 함을 증명한다.

마지막으로, 논문은 현재 OCR 파이프라인이 완벽하지 않다는 점을 인정하고, 파싱 오류가 좌표 매핑에 미치는 영향을 정량화했다. 파싱 정확도가 95% 이상일 때는 성능 저하가 미미했지만, 85% 이하로 떨어지면 전체 정확도가 4~5% 감소한다는 결과를 제시한다. 이는 향후 OCR 품질 향상이 DeepRead의 실용성을 더욱 높일 여지를 남긴다.

요약하면, DeepRead는 문서의 원시 구조를 좌표화하고, 이를 LLM 에이전트의 도구 호출에 직접 연결함으로써 인간과 유사한 효율적인 증거 탐색·소화를 가능하게 한다. 구조‑인식 검색이 장문 문서 이해와 정확한 답변 생성에 얼마나 중요한지를 실험적으로 입증한 점이 가장 큰 공헌이다.


댓글 및 학술 토론

Loading comments...

의견 남기기