스파르타: 텍스트·테이블 복합 다중 홉 QA를 위한 대규모 자동 벤치마크

SPARTA는 표와 텍스트를 동시에 활용해 다중 홉 추론과 집계·그룹화 같은 고급 연산을 요구하는 질문을 자동으로 생성하는 프레임워크다. 원본 테이블에 텍스트에서 추출한 원자 사실을 매핑한 ‘그라운딩 테이블’을 구축하고, 원하는 홉 수에 맞춰 중첩 SQL 쿼리를 합성한다. 실행 가능하고 자연스러운 질문을 보장하기 위해 ‘프로베넌스 기반 정제’와 ‘현실 구조 강제’ 기법을 도입했으며, 인간 검증 비용을 기존 벤치마크 대비 ¼ 수준으로 낮췄다. S…

저자: Sungho Park, Jueun Kim, Wook-Shin Han

스파르타: 텍스트·테이블 복합 다중 홉 QA를 위한 대규모 자동 벤치마크
본 논문은 실세계 Table‑Text 질문응답(Task)에서 요구되는 복합적인 다중 홉 추론과 고급 연산(집계, 그룹화 등)을 충분히 평가할 수 있는 대규모 벤치마크인 SPARTA를 제안한다. 기존 벤치마크(HybridQA, OTT‑QA 등)는 규모가 작고, 수작업 라벨링에 의존해 오류가 발생하기 쉬우며, 질문이 1~2 홉 수준에 머물러 복잡한 연산을 충분히 테스트하지 못한다는 한계가 있었다. 저자들은 이러한 문제점을 해결하기 위해 완전 자동화된 파이프라인을 설계했으며, 인간 검증 비용을 기존 대비 ¼ 수준으로 크게 낮추었다. 1. **참조 사실 데이터베이스 구축** - 원본 테이블을 입력으로 받아, 해당 테이블과 연관된 비정형 텍스트(문단)를 자동으로 전처리한다. - 텍스트에서 명사구·수치·날짜 등 원자적 사실을 추출하고, 이를 튜플 형태로 정규화한다. - 추출된 튜플을 ‘그라운딩 테이블’이라 명명하고, 원본 테이블과 1:1 매핑한다. 이 과정은 최신 정보 추출(NER, 관계 추출) 모델과 규칙 기반 필터링을 결합해 높은 정밀도를 달성한다. 2. **중첩 SQL 쿼리 합성** - 사용자는 목표 홉 수(H)를 지정한다. H에 따라 쿼리 그래프를 생성하고, 각 노드에 테이블·그라운딩 테이블·집계 연산·필터 등을 할당한다. - ‘현실 구조 강제’를 적용해, 실제 데이터베이스에서 실행 가능한 포스트오더 트리만을 허용한다. 이는 조인 순서, 키 제약, 집계 함수 사용 등을 사전에 검증한다. 3. **프로베넌스 기반 정제** - 생성된 SQL이 구문적으로는 올바르지만 결과가 비어 있거나 의미가 모호한 경우, 실행 결과의 프로베넌스를 추적한다. - 반환된 튜플이 실제 사실에 기반했는지 확인하고, 필요 시 조인 조건, 필터, 집계 함수를 재작성한다. 이 단계는 자동화된 루프를 통해 반복되며, 최종적으로 비어 있지 않은 정답을 보장한다. 4. **질문 자연어화** - 정제된 SQL을 템플릿 기반 및 신경망 기반 문장 생성 모델을 결합해 자연스러운 질문으로 변환한다. - 생성된 질문은 인간 검증자가 5분 이내에 ‘문법적 오류·불명확성·사실 오류’를 체크하는 최소 검증 절차만을 거친다. 5. **벤치마크 규모 및 특성** - 최종적으로 10 K 이상의 질문–답변 쌍이 생성되었으며, 이 중 40 %는 3~4 홉, 20 %는 5 홉 이상의 깊은 추론을 요구한다. - 집계(AVG, SUM, COUNT), 그룹화(GROUP BY), 정렬(ORDER BY), 서브쿼리 등 다양한 SQL 연산이 포함돼 실제 비즈니스 분석 시나리오를 반영한다. 6. **모델 평가** - 최신 멀티모달 QA 모델(T5‑XL, UnifiedQA, Graph‑based 모델 등)을 SPARTA에 적용했을 때, HybridQA에서 70 F1, OTT‑QA에서 50 F1를 기록하던 모델들이 각각 30 점 이상 급락했다. - 특히 다중 홉·집계·그룹화가 결합된 질문에서 성능 저하가 두드러졌으며, 이는 현재 모델들이 텍스트와 테이블 간의 복합 연산을 효과적으로 연결하지 못함을 의미한다. 7. **의의와 향후 연구** - SPARTA는 자동화된 대규모 벤치마크 생성 방법론을 제시함으로써, 연구자들이 비용 효율적으로 복잡한 크로스모달 추론 데이터를 확보할 수 있게 한다. - 또한, 프로베넌스 기반 정제와 현실 구조 강제라는 두 가지 새로운 기술은 생성된 질문·답변 쌍의 품질을 크게 향상시켜, 인간 검증 비용을 최소화한다. - 향후 작업으로는 더 다양한 도메인(재무, 의료 등)으로 확장하고, 생성된 SQL을 직접 학습 목표로 삼는 ‘SQL‑to‑Text’ 혹은 ‘Text‑to‑SQL’ 모델의 공동 학습을 탐색할 수 있다. 결론적으로, SPARTA는 텍스트·테이블 복합 QA에서 현재 모델들의 한계를 명확히 드러내며, 보다 정교한 다중 홉·고급 연산 추론 능력을 요구하는 차세대 벤치마크로서의 가치를 입증한다. 코드와 데이터는 공개되어 커뮤니티가 손쉽게 재현·확장할 수 있다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기