주석 기반 단계별 코드 생성으로 테이블 QA 정확도와 해석성 크게 향상

주석 기반 단계별 코드 생성으로 테이블 QA 정확도와 해석성 크게 향상
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 표 질문응답(TableQA)에서 LLM이 생성한 파이썬 코드를 “주석‑코드” 형태로 구조화하여, 각 연산 전 단계별 자연어 주석을 삽입함으로써 추론 과정을 명시하고, 실행 가능한 Pandas 프로그램을 한 번에 생성한다. WikiTableQuestions 벤치마크에서 Qwen2.5‑Coder‑7B‑Instruct를 사용해 70.9%의 정확도를 달성했으며, 기존 Repanda(67.6%)를 크게 앞섰다. 또한, 이 프레임워크를 강력한 엔드‑투‑엔드 TableQA 모델과 결합한 답변 선택 모듈을 도입해 최종 정확도 84.3%까지 끌어올렸다.

상세 분석

이 연구는 TableQA의 핵심 난제인 “2차원 구조 유지와 수치 연산 정확성”을 해결하기 위해, LLM이 자연어 질문과 표를 입력받아 단일 파이썬 함수를 출력하도록 설계된 새로운 프롬프트 템플릿을 제안한다. 함수 내부는 반드시 # PLAN 주석으로 전체 전략을 한 줄 요약하고, 필요에 따라 # FILTER, # PARSING, # AGGREGATE 등 단계별 주석을 삽입한다. 이러한 주석‑코드 결합은 두 가지 효과를 만든다. 첫째, 모델이 명시적 계획을 수립하도록 강제함으로써 무작위 토큰 생성에 의존하던 기존 엔드‑투‑엔드 방식보다 논리적 일관성을 높인다. 둘째, 각 Pandas 연산이 실제 실행되기 때문에 수치 연산의 정확성이 보장된다. 특히, pd.to_numeric(..., errors='coerce')와 같은 안전 파싱 로직을 자동 삽입하도록 지시함으로써, “1,234”, “5% (est)”와 같은 잡음이 섞인 셀도 올바르게 처리한다.

기존 코드 기반 접근법인 Repanda는 한 줄의 Pandas 표현식만을 허용해 주석이나 중간 단계가 사라지는 단점이 있었다. 반면, 본 방법은 다중 라인 프로그램을 한 번에 생성하면서도 토큰 효율성을 유지한다. 이는 “Chain of Table”과 같은 다단계 추론 방식이 요구하는 반복적인 인퍼런스와 토큰 소모를 회피한다는 의미다. 또한, # PLAN을 필수화함으로써 모델이 질문 의도를 먼저 파악하고, 이후 필요한 전처리·필터링·집계 순서를 스스로 설계하도록 유도한다.

실험에서는 WikiTableQuestions 데이터셋을 사용해 두 가지 설정을 비교했다. (1) 순수 코드 생성 모델만 적용했을 때 Qwen2.5‑Coder‑7B‑Instruct가 70.9% 정확도를 기록했으며, 이는 Repanda(67.6%)보다 3.3%p 상승했다. (2) 이 모델을 기존 엔드‑투‑엔드 TableQA 시스템(예: Table‑R1)과 답변 선택 모듈로 결합했을 때, 두 모델의 장점을 보완해 최종 정확도 84.3%를 달성했다. 이는 코드 기반 추론이 제공하는 수치 신뢰성과 엔드‑투‑엔드 모델이 제공하는 언어적 풍부함을 효과적으로 융합한 결과이다.

또한, 논문은 지시 설계에 대한 상세한 고찰을 제공한다. 표의 중복 컬럼명, 누락값, 다양한 날짜 포맷 등 현실 데이터의 잡음을 자동으로 감지·처리하도록 프롬프트에 규칙을 삽입했으며, 이는 모델이 데이터 전처리 단계에서 오류를 최소화하게 만든다. 이러한 설계는 실제 비즈니스 환경에서 복잡하고 비정형적인 표를 다룰 때도 높은 견고성을 보장한다.

요약하면, 이 연구는 (1) 주석을 통한 단계별 추론 명시, (2) 실행 가능한 Pandas 코드와의 일체화, (3) 경량화된 답변 선택 메커니즘을 결합함으로써 TableQA 성능을 크게 끌어올렸다. 향후 연구에서는 더 큰 LLM과 다양한 표 형식(예: HTML 테이블, 이미지 기반 표)으로 확장하고, 자동 오류 진단·수정 루프를 도입해 완전한 코드‑주석‑피드백 사이클을 구현할 여지가 있다.


댓글 및 학술 토론

Loading comments...

의견 남기기