도메인 인식 최적화 기반 장문 질문응답

도메인 인식 최적화 기반 장문 질문응답
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

Halo는 사용자가 프롬프트에 포함한 도메인 지식을 자동으로 구조화하고, 이를 문서 전처리·청크 필터링·답변 검증 단계에 적용해 장문 QA의 정확도와 비용 효율을 동시에 향상시키는 프레임워크이다. 구조·필터·검증 세 종류의 연산자를 활용하고, 품질이 낮은 연산자는 런타임에 자동으로 비활성화한다. 실험 결과 금융·문학·과학 데이터셋에서 정확도가 최대 13% 상승하고 비용이 4.8배 감소했으며, 경량 오픈소스 모델도 최첨단 LLM 수준의 성능을 78배 저비용으로 달성한다.

상세 분석

Halo는 장문 질문응답(Long‑Context QA) 문제를 “도메인 지식 → 연산자 → 파이프라인”이라는 삼각 구조로 재구성한다. 기존 방법은 도메인 지식을 단순히 프롬프트 토큰에 삽입해 LLM이 암묵적으로 해석하도록 기대했지만, 긴 컨텍스트에서는 지시가 사라지거나 모델이 무시하는 경우가 빈번했다. Halo는 이를 해결하기 위해 KnowledgeParser를 도입, 사용자가 입력한 자연어 프롬프트에서 구조적(Structural), 필터링(Filter), 검증(Validate) 지시를 추출한다. 추출된 지시는 각각 전용 연산자에 전달된다.

  1. Structural 연산자는 문서에서 테이블, 섹션 등 사용자가 지정한 구조를 미리 식별하고, 비관련 부분을 제거한다. 이는 토큰 수를 크게 감소시켜 이후 단계의 비용을 절감한다.
  2. Filter 연산자는 경량 소형 모델(Small Language Model, SLM)을 이용해 청크 수준에서 불필요한 내용(예: 법적 고지, 보일러플레이트)을 걸러낸다. 모델 캐스케이드를 적용해 고비용 LLM이 처리해야 할 청크 수를 최소화한다.
  3. Validate 연산자는 생성된 후보 답변을 도메인 제약(예: “diluted EPS만 사용”, “basic EPS는 제외”)과 매칭시켜 점수를 재조정한다. 긍정적 지시와 부정적 지시를 동시에 활용해 hallucination을 효과적으로 억제한다.

핵심은 각 연산자를 가장 영향력이 큰 파이프라인 단계에 배치함으로써, 도메인 지식이 실제 실행 계획에 직접 반영되게 한다는 점이다. 또한 Halo는 Fallback Manager를 통해 연산자 성능을 실시간 모니터링한다. 연산자 적용 후 정확도가 떨어지는 신호(예: 모델 자체 신뢰도, 매칭 점수 감소)가 감지되면 해당 연산자를 일시 비활성화하고 기본 파이프라인으로 되돌린다. 이 메커니즘은 지시가 모호하거나 오류가 있을 때 시스템 전체 성능 저하를 방지한다.

실험에서는 금융(SEC 10‑K), 문학(소설), 과학(논문) 등 서로 다른 도메인에서 3가지 베이스라인(Vanilla LLM, 전통 RAG, RAG+구조 지시)과 비교했다. Halo는 정확도 향상(최대 13%p)과 비용 절감(4.8배) 모두에서 우수했으며, 특히 경량 오픈소스 모델(예: Llama‑2‑7B)과 결합했을 때 최첨단 상용 LLM(예: Sonnet 4.5)의 정확도에 근접하면서도 78배 저렴한 비용을 달성했다. 연산자 자체의 오버헤드는 전체 비용의 2% 미만에 불과했다.

이러한 설계는 장문 문서에서 도메인 전문가가 이미 보유한 암묵적 지식을 시스템이 명시적으로 활용하도록 함으로써, 비용 효율적인 대규모 QA 서비스를 구현하는 데 중요한 전환점을 제공한다.


댓글 및 학술 토론

Loading comments...

의견 남기기