법률 문서 장기 맥락·장문 QA 시스템

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 복잡한 레이아웃과 전문 용어가 난해한 법률 문서에서, 여러 페이지에 걸친 정보를 종합해 장문 형태의 답변을 생성하는 LCLF‑QA 시스템을 제안한다. 도메인‑특화 질의 재작성, 레이아웃 인식 스마트 청킹, 하이브리드 검색·체인‑오브‑생각 필터링, 그리고 새로운 리콜 기반 커버리지 지표를 도입해 기존 장기 컨텍스트 QA 모델을 크게 개선한다. 546개의 QA 쌍(전문가 검증 60쌍 포함)으로 구축한 데이터셋에서 실험한 결과, 정확도·커버리지 모두 현존 베이스라인을 능가한다.

상세 분석

LCLF‑QA는 법률 문서 특유의 중첩 섹션, 각주, 페이지 헤더·풋터 등 구조적 요소를 손실 없이 보존하면서도, 토큰 수 제한을 초과하는 장기 컨텍스트를 효과적으로 처리한다. 핵심은 세 가지 모듈이다. 첫째, 도메인‑특화 질의 재작성기(ζₜ)는 사용자가 제시한 애매한 질의를 약어 확장·의미 보강·패러프레이징하여, 원문에 존재하지 않는 용어(예: “level‑of‑comfort”)를 포함한 검색 효율을 높인다. 이 모듈은 두 가지 구현 방식을 제공한다. 하나는 QLoRA 기반 Mistral‑3B‑Instruct 모델을 수천 개의 ⟨q, q̂⟩ 쌍으로 미세조정한 것이며, 다른 하나는 GPT‑4o를 활용한 프롬프트 기반 재작성기로, 도메인 샷 예시를 삽입해 내부 지식을 끌어낸다. 둘째, 레이아웃 인식 스마트 청킹은 문서를 섹션 단위로 파싱해 ‘부모 청크’를 만든 뒤, 각 섹션 헤더와 각주를 메타데이터로 삽입한 ‘자식 청크’를 생성한다. 섹션 헤더는 <section‑header> 태그로, 각주는 태그로 삽입돼, 검색 단계에서 의미적 연결성을 유지한다. 특히 각주 기반 자식 청크가 검색되면, 해당 청크와 연결된 모든 섹션 기반 부모 청크가 자동으로 확장돼, 숨겨진 문맥을 복원한다. 셋째, 하이브리드 검색은 BM25(희소)와 OpenAI text‑embedding‑3‑large(밀집)를 각각 적용한 뒤, Reciprocal Rank Fusion(RRF)으로 결합한다. 이렇게 얻어진 상위 k개의 자식 청크는 체인‑오브‑생각(COT) 필터(Φ)로 재검증돼, 논리적 일관성을 검증하고 불필요한 청크를 배제한다. 필터링된 청크와 확장된 부모 청크는 장기 컨텍스트 추출기(Σ)로 전달돼, 전체 문맥을 하나의 시퀀스로 결합한다. 마지막으로, 도메인‑특화 생성기(G_µ)는 법률 전용 어휘와 샷 예시를 프롬프트에 포함해, “should”와 같은 기술적 용어를 정확히 사용한 장문 답변을 생성한다. 평가에서는 기존 LongRAG 기반 모델과 비교해, 정확도(F1·EM)와 새로운 커버리지 지표(완전·부분·불충분 리콜) 모두에서 유의미한 향상을 보였다. 특히, 복잡한 질문(예: “US withholding tax treatment of at what level‑of‑comfort?”)에 대해, 재작성된 질의와 각주‑보강 청크 덕분에 정답을 완전하게 회수하는 비율이 27%p 상승했다. 데이터셋은 SME가 검증한 60개의 고품질 QA와, 자동 생성된 486개의 QA로 구성돼, 도메인 다양성과 장문 답변 요구를 모두 포괄한다. 전체 실험은 ablation을 통해 각 모듈(재작성, 청킹, 하이브리드 검색, COT 필터)의 기여도를 정량화했으며, 특히 재작성기와 청크 보강이 없을 경우 리콜이 급격히 감소함을 확인했다. 이 연구는 법률 AI 어시스턴트가 실제 업무에 투입될 때, 긴 문서 전체를 이해하고 정확한 법률 용어로 답변을 제공할 수 있는 실용적 기반을 제시한다.

법률 문서 장기 맥락·장문 QA 시스템

초록

상세 분석

댓글 및 학술 토론

의견 남기기