주석 기반 단계별 코드 생성으로 테이블 QA 정확도와 해석성 크게 향상

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 표 질문응답(TableQA)에서 LLM이 생성한 파이썬 코드를 “주석‑코드” 형태로 구조화하여, 각 연산 전 단계별 자연어 주석을 삽입함으로써 추론 과정을 명시하고, 실행 가능한 Pandas 프로그램을 한 번에 생성한다. WikiTableQuestions 벤치마크에서 Qwen2.5‑Coder‑7B‑Instruct를 사용해 70.9%의 정확도를 달성했으며, 기존 Repanda(67.6%)를 크게 앞섰다. 또한, 이 프레임워크를 강력한 엔드‑투‑엔드 TableQA 모델과 결합한 답변 선택 모듈을 도입해 최종 정확도 84.3%까지 끌어올렸다.

상세 분석

이 연구는 TableQA의 핵심 난제인 “2차원 구조 유지와 수치 연산 정확성”을 해결하기 위해, LLM이 자연어 질문과 표를 입력받아 단일 파이썬 함수를 출력하도록 설계된 새로운 프롬프트 템플릿을 제안한다. 함수 내부는 반드시 # PLAN 주석으로 전체 전략을 한 줄 요약하고, 필요에 따라 # FILTER, # PARSING, # AGGREGATE 등 단계별 주석을 삽입한다. 이러한 주석‑코드 결합은 두 가지 효과를 만든다. 첫째, 모델이 명시적 계획을 수립하도록 강제함으로써 무작위 토큰 생성에 의존하던 기존 엔드‑투‑엔드 방식보다 논리적 일관성을 높인다. 둘째, 각 Pandas 연산이 실제 실행되기 때문에 수치 연산의 정확성이 보장된다. 특히, pd.to_numeric(..., errors='coerce')와 같은 안전 파싱 로직을 자동 삽입하도록 지시함으로써, “1,234”, “5% (est)”와 같은 잡음이 섞인 셀도 올바르게 처리한다.

기존 코드 기반 접근법인 Repanda는 한 줄의 Pandas 표현식만을 허용해 주석이나 중간 단계가 사라지는 단점이 있었다. 반면, 본 방법은 다중 라인 프로그램을 한 번에 생성하면서도 토큰 효율성을 유지한다. 이는 “Chain of Table”과 같은 다단계 추론 방식이 요구하는 반복적인 인퍼런스와 토큰 소모를 회피한다는 의미다. 또한, # PLAN을 필수화함으로써 모델이 질문 의도를 먼저 파악하고, 이후 필요한 전처리·필터링·집계 순서를 스스로 설계하도록 유도한다.

실험에서는 WikiTableQuestions 데이터셋을 사용해 두 가지 설정을 비교했다. (1) 순수 코드 생성 모델만 적용했을 때 Qwen2.5‑Coder‑7B‑Instruct가 70.9% 정확도를 기록했으며, 이는 Repanda(67.6%)보다 3.3%p 상승했다. (2) 이 모델을 기존 엔드‑투‑엔드 TableQA 시스템(예: Table‑R1)과 답변 선택 모듈로 결합했을 때, 두 모델의 장점을 보완해 최종 정확도 84.3%를 달성했다. 이는 코드 기반 추론이 제공하는 수치 신뢰성과 엔드‑투‑엔드 모델이 제공하는 언어적 풍부함을 효과적으로 융합한 결과이다.

또한, 논문은 지시 설계에 대한 상세한 고찰을 제공한다. 표의 중복 컬럼명, 누락값, 다양한 날짜 포맷 등 현실 데이터의 잡음을 자동으로 감지·처리하도록 프롬프트에 규칙을 삽입했으며, 이는 모델이 데이터 전처리 단계에서 오류를 최소화하게 만든다. 이러한 설계는 실제 비즈니스 환경에서 복잡하고 비정형적인 표를 다룰 때도 높은 견고성을 보장한다.

요약하면, 이 연구는 (1) 주석을 통한 단계별 추론 명시, (2) 실행 가능한 Pandas 코드와의 일체화, (3) 경량화된 답변 선택 메커니즘을 결합함으로써 TableQA 성능을 크게 끌어올렸다. 향후 연구에서는 더 큰 LLM과 다양한 표 형식(예: HTML 테이블, 이미지 기반 표)으로 확장하고, 자동 오류 진단·수정 루프를 도입해 완전한 코드‑주석‑피드백 사이클을 구현할 여지가 있다.

주석 기반 단계별 코드 생성으로 테이블 QA 정확도와 해석성 크게 향상

초록

상세 분석

댓글 및 학술 토론

의견 남기기