표 기반 추론 평가를 위한 경량 오염 인식 프레임워크 GLEAN
초록
GLEAN은 제한된 GPU 메모리(16 GB) 환경에서 작은 모델들의 표 기반 질문응답을 평가하기 위해 설계된 경량 프로토콜이다. 오염 탐지, 약한 지도 거버넌스, 검색‑추론 분리, 그리고 Squall의 금골 SQL을 활용한 실행 기반 오류 분류(L0‑L4)를 결합한다. 실험 결과 TAPEX는 근거 찾기(L3) 오류가, TAPAS는 환각·무응답(L2/L0) 오류가 주를 이룬다는 점을 밝혀냈으며, 검색 Recall@K가 높아도 최종 정확도는 제한적일 수 있음을 보여준다.
상세 분석
GLEAN은 표 기반 추론 평가의 핵심 문제인 데이터 오염, 데이터셋 편향, 그리고 검색‑추론 결합 오류를 체계적으로 진단한다. 첫 번째 단계인 ‘오염 탐지’에서는 카나리 삽입, n‑gram 겹침, 엔티티 교체, 스키마 변형, 값 교체 등 저비용 변형을 적용해 모델이 기억에 의존하는지를 측정한다. 인간 라벨링을 통해 변형 후 정답 보존 여부를 검증하고, 변형별 성능 감소량을 오염 민감도 지표로 보고한다. 두 번째 단계인 ‘약한 지도 거버넌스’는 Snorkel‑스타일 라벨링 함수(LF)를 파이썬/정규식으로 구현하고, 커버리지, 충돌률, 포기율, LF 정확도 등을 WRENCH 방식으로 평가한다. 이는 모델 훈련 없이도 라벨 품질을 정량화해 데이터 스스로의 신뢰성을 판단한다. 세 번째 단계는 검색‑추론 분리를 위한 ‘Retrieval‑Reasoning Disentanglement’이다. TF‑IDF, BM25, BM25F 같은 희소 검색, BGE/E5/DPR 같은 밀집 검색, 그리고 하이브리드·재랭크 방식을 K={1,2,5,10}에 대해 Recall@K로 측정한다. 증거 행이 검색되지 않으면 L0.5(컨텍스트 미스)로 라벨링하고, 검색된 행을 기반으로 질문‑표 토큰 예산(512/1024/2048) 내에서 행·열을 선택한다. 네 번째 단계인 ‘SQL‑Anchored Attribution’은 Squall 데이터셋의 금골 SQL을 SQLite에서 실행해 95.2% 성공률을 확보한다. 실행 결과와 모델 출력 사이의 차이를 L0‑L4 체계에 따라 자동 라벨링함으로써, 근거 오류(L3)와 계산 오류(L4)를 명확히 구분한다. 실험에서는 TabFact, WTQ‑Squall, TableBench, RobuT, SciTab을 대상으로 16 GB GPU 제한 하에 TAPAS, TAPEX, DeBERTa‑v3, Qwen2.5‑3B‑PoT 등을 평가했다. TAPEX는 L3 오류가 45% 이상 차지해 근거 선택이 주된 병목임을 확인했으며, TAPAS는 L2·L0 오류가 30% 이상 발생해 모델이 표 외 답변을 생성하거나 무응답하는 경향이 있음을 드러냈다. 또한, 증거 행 검색 Recall@K가 0.9 이상이더라도 최종 EM/F1는 0.4 수준에 머무는 경우가 다수 관찰돼, 검색 품질만으로는 성능을 예측하기 어렵다는 점을 강조한다. GLEAN은 모듈형 프레임워크와 감도 분석 스크립트를 공개해, 향후 연구자가 오염·검색·추론 오류를 독립적으로 검증하고, 경량 모델의 한계를 정량화할 수 있도록 지원한다.
댓글 및 학술 토론
Loading comments...
의견 남기기