핀란드 농업을 위한 도메인 특화 RAG 시스템 AgriHubi

핀란드 농업을 위한 도메인 특화 RAG 시스템 AgriHubi
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 핀란드어 농업 문서를 기반으로 한 오픈 소스 PORO 모델을 활용한 Retrieval‑Augmented Generation(RAG) 시스템 AgriHubi를 설계·구현하고, 8차례의 반복 개발과 두 차례의 사용자 연구를 통해 답변 완전성, 언어 정확성, 신뢰성 측면에서 기존 모델 대비 향상을 입증한다. 또한 모델 규모와 응답 지연 사이의 실용적 트레이드오프를 제시한다.

상세 분석

AgriHubi는 “문서 저장소‑검색‑생성‑피드백” 네 단계 파이프라인을 명확히 분리한 모듈형 아키텍처를 채택한다. PDF·OCR 기반 전처리 단계에서 텍스트를 의미 단위(chunk)로 분할하고 메타데이터를 부착함으로써 추후 추적 가능성을 확보한다. 임베딩은 OpenAI text‑embedding‑ada‑002를 이용해 8192 토큰 길이의 벡터를 생성하고, FAISS L2 인덱스로 저장해 실시간 유사도 검색을 지원한다. 검색 결과는 상위 k개(기본 5개) 텍스트 청크와 함께 사용자 질의가 모델에 전달되며, 모델은 PORO‑34B, PORO‑2‑8B, PORO‑2‑70B 등 다양한 규모의 파이프라인을 통해 실험된다.

핵심 설계 선택은 두 가지이다. 첫째, “명시적 근거 제시”를 위해 생성 프롬프트에 검색된 청크를 삽입하고, 답변 끝에 출처 URL/문서명을 자동 표기한다. 이는 사용자가 모델의 근거를 검증할 수 있게 하여 농업 현장의 신뢰성을 크게 높인다. 둘째, 사용자 피드백 루프를 SQLite에 저장하고, 5점 척도와 자유 서술형 의견을 수집해 반복 개발에 반영한다. 초기 1‑3차 반복에서는 Llama 3.2 기반으로 언어 흐름이 부자연스러웠으며, PORO‑34B 도입 후 핀란드어 전문 용어 처리와 문법 정확도가 현저히 개선되었다.

평가 측면에서는 두 차례 사용자 연구(첫 번째 67개 응답, 두 번째 120개 응답)를 통해 정량적(완전성, 정확성, 신뢰성 점수) 및 정성적(사용자 만족도, 작업 효율) 지표를 수집했다. 결과는 모델 규모가 클수록(특히 PORO‑2‑70B) 답변 품질이 상승하지만 평균 응답 지연이 1.8초에서 3.7초로 증가한다는 트레이드오프를 보여준다. 또한 피드백 기반 반복 개선이 진행될수록 1점 이하 저점 비율이 48%에서 12%로 감소했으며, 사용자는 “출처가 명시된 답변”에 대해 신뢰도가 30% 이상 상승했다고 보고했다.

기술적 한계로는 (1) 현재 FAISS 기반 유사도 검색이 텍스트 청크 수준에 머물러 문서 구조(섹션, 표, 그림)까지 활용하지 못한다는 점, (2) 임베딩 모델이 영어 기반이므로 핀란드어 특수 어휘에 대한 표현력이 제한적이며, (3) 실시간 서비스 시 GPU 비용과 API 호출 비용이 급증한다는 운영상의 제약이 있다. 향후 연구에서는 멀티모달 인덱싱, 핀란드어 전용 임베딩 학습, 그리고 비용‑효율적인 라우팅 전략을 도입해 시스템을 확장할 계획이다.

전반적으로 AgriHubi는 저자원이면서도 고품질 도메인 문서가 존재하는 언어 환경에서 RAG 시스템을 설계·평가하는 실증적 로드맵을 제공한다. 모델 선택, 프롬프트 설계, 피드백 루프 구축, 그리고 응답 지연과 품질 사이의 균형을 어떻게 관리할 것인가에 대한 구체적 가이드를 제시함으로써, 학계·산업 모두에 실용적인 인사이트를 제공한다.


댓글 및 학술 토론

Loading comments...

의견 남기기