텍스트마인엑스 인도주의 지뢰제거를 위한 데이터와 온톨로지 기반 LLM 파이프라인

텍스트마인엑스 인도주의 지뢰제거를 위한 데이터와 온톨로지 기반 LLM 파이프라인
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

텍스트마인엑스는 캄보디아 지뢰제거센터(CMAC) 보고서를 기반으로 만든 최초의 인도주의 지뢰제거( HMA ) 전용 데이터셋·평가 프레임워크·온톨로지‑가이드 LLM 파이프라인이다. 보고서를 (주어, 관계, 목적어) 삼중항으로 구조화하고, 온톨로지 정렬 프롬프트와 레이아웃‑인식 청킹을 결합해 추출 정확도를 최대 44.2% 향상시켰으며, 허위 생성( hallucination) 비율을 22.5% 감소, 형식 일관성을 20.9% 개선했다. 또한 인간 주석과 LLM‑as‑Judge를 결합한 편향‑인식 평가 방식을 제안한다.

상세 분석

본 논문은 인도주의 지뢰제거(HMA) 분야에서 비정형 보고서에 내재된 운영 지식을 구조화된 삼중항(주어‑관계‑목적어) 형태로 변환하는 문제에 초점을 맞춘다. 기존 연구는 재무·의료·재난 등 다양한 도메인에서 IE(Information Extraction) 데이터와 벤치마크를 제공했지만, HMA처럼 현장 전문가의 실무 지식이 고도로 전문화되고 용어 체계가 복잡한 영역은 거의 다루지 않았다. 텍스트마인엑스는 이러한 격차를 메우기 위해 다음과 같은 핵심 기여를 제시한다.

  1. 도메인 특화 데이터셋 구축: 캄보디아 지뢰제거센터(CMAC)와 국제 지뢰제거기구(GICHD)에서 공개된 120개 PDF 보고서를 수집·전처리하고, 최신 5개 보고서(233페이지)에서 1,095개의 고품질 삼중항을 인간·LLM 협업 방식으로 라벨링했다. 온톨로지는 IMSMA 코어 모델 6종과 일반 인도주의 온톨로지(Empathi)를 통합해 160개의 엔터티 타입과 86개의 관계 타입을 정의, 도메인 전반을 포괄하도록 설계하였다.

  2. 레이아웃‑인식 청킹: PDF 문서의 장, 절, 표, 그림 등 레이아웃 정보를 추출해 의미 단위인 문단 청크(평균 127단어)로 분할함으로써 LLM의 컨텍스트 윈도우 제한을 극복하고, 문맥 손실 없이 추출 작업을 수행한다. 이는 기존 문장‑단위 입력에 비해 문맥적 연관성을 유지하는 데 기여한다.

  3. 온톨로지‑가이드 프롬프트 설계: 제로‑샷, 랜덤 문장·문단 샷, 온톨로지 정렬 문장·문단 샷 등 5가지 프롬프트 변형을 실험하였다. 특히 온톨로지‑정렬 샷(OS, OP)은 대상 청크와 동일한 엔터티·관계 스키마를 포함하는 예시를 제공해 라벨 공간을 제한하고, 모델이 도메인 규칙을 내재화하도록 유도한다. 실험 결과, OS/OP 프롬프트가 RS/RP 대비 정확도 향상(최대 44.2%)과 허위 생성 감소(22.5%)를 달성했으며, 형식 일관성(스키마 준수)도 20.9% 개선되었다.

  4. 편향‑인식 평가 프레임워크: 인간 주석 삼중항을 기준으로 한 전통적인 정밀·재현율 외에도, LLM‑as‑Judge 방식을 도입해 레퍼런스‑프리 점수를 산출하였다. 이때 포지션 바이어스(예: 특정 위치에 나타나는 엔터티에 대한 과도한 가중치)를 완화하기 위해 다중 관점 평가와 샘플링 전략을 적용했다. 결과적으로, 동일 모델이라도 평가 방식에 따라 순위가 크게 변동함을 확인했으며, 편향을 고려한 종합 점수가 실제 현장 적용 가능성을 더 잘 반영한다는 결론을 도출했다.

  5. 실용적 파이프라인 구현: 전체 흐름은 (1) PDF 레이아웃 파싱 → (2) 문단 청킹 → (3) 온톨로지‑가이드 프롬프트 삽입 → (4) LLM 호출(그리디 디코딩) → (5) 다중 관점 평가 로 구성된다. 추출된 삼중항은 그래프 데이터베이스에 저장돼 질의·시각화가 가능하며, 향후 지뢰제거 작전 계획, 위험 지역 식별, 국제 협업 등에 바로 활용될 수 있다.

핵심 인사이트

  • 도메인 특화 온톨로지를 프롬프트에 직접 삽입하면 LLM이 추론 시 규칙 기반 제약을 자연스럽게 학습해 정확도와 신뢰성이 크게 향상된다.
  • 문단 수준 청킹은 컨텍스트 손실을 최소화하면서도 모델의 토큰 제한을 초과하지 않는 효율적인 입력 방식이다.
  • 인간 주석과 LLM‑as‑Judge를 결합한 평가 체계는 레퍼런스 부족 상황에서도 모델 성능을 객관적으로 측정할 수 있어, 고위험 분야에서의 실용적 검증에 필수적이다.

댓글 및 학술 토론

Loading comments...

의견 남기기