테이블 QA를 위한 검증 가능한 추론 보상 프레임워크 RE‑Tab
초록
RE‑Tab은 테이블 질의응답에서 단계별 테이블 변환을 평가하는 경량 무학습 보상 모델인 TAB‑ROUGE를 도입한다. POMDP로 문제를 정의하고, 상태 전이와 시뮬레이션 추론 단계에서 검증 가능한 보상을 제공함으로써 에이전트가 올바른 중간 테이블을 유지하도록 유도한다. 플러그‑인 방식으로 기존 LLM 기반 TableQA 파이프라인에 적용 가능하며, 정확도 41.77% 향상 및 추론 비용 33% 감소라는 실험적 이점을 보여준다.
상세 분석
본 논문은 TableQA가 텍스트·이미지 기반 QA와 달리 정적인 입력만으로 답을 도출할 수 없고, 테이블 상태를 단계적으로 변환하면서 다중 턴 추론을 수행해야 하는 고유의 복잡성을 지적한다. 이러한 특성은 에이전트가 중간 단계에서 수행한 액션의 품질을 판단할 명시적 피드백이 없을 경우, 초기 오류가 누적되어 최종 답변이 크게 왜곡되는 문제를 야기한다. 이를 해결하기 위해 저자들은 RE‑Tab이라는 플러그‑인 프레임워크를 제안한다. 핵심 아이디어는 테이블 변환 과정 자체를 ‘관측 가능한 마코프 결정 과정(POMDP)’으로 모델링하고, 각 상태 전이마다 검증 가능한 스칼라 보상을 부여하는 것이다. 보상 설계는 기존 이미지·텍스트 도메인에서 사용되는 의미적 유사도(예: CLIPScore, 코사인 유사도)와 달리, 테이블의 구조적·스키마적 제약을 반영한다. 구체적으로, 저자들은 ROUGE의 LCS 기반 커버리지와 unigram 기반 정밀도를 테이블에 적용한 TAB‑ROUGE를 정의한다. TAB‑ROUGE는 (1) Lexical Coverage – 현재 테이블이 질의에 필요한 핵심 정보를 포함하는지, (2) Precision – 불필요한 행·열을 최소화했는지, (3) Structural Integrity – 테이블 스키마가 유지되는지를 정량화한다.
보상은 두 단계에서 활용된다. 첫 번째는 State Transition 단계에서, 각 액션이 생성한 새로운 테이블에 대해 TAB‑ROUGE 점수를 계산해 즉시 피드백을 제공한다. 이 피드백은 에이전트가 “현재 행동이 올바른가?”를 판단하도록 돕고, 잘못된 경로를 조기에 차단한다. 두 번째는 Simulative Reasoning 단계에서, 에이전트가 여러 후보 트랙터리를 생성한 뒤, 각 트랙터리의 누적 보상(감가율 γ 적용)을 비교해 최종 답변을 선택한다. 이렇게 하면 탐색 공간이 크게 축소되고, 높은 보상을 받은 경로가 자동으로 선별된다.
학습이 전혀 필요 없는 경량 설계에도 불구하고, 실험에서는 다양한 최신 LLM(GPT‑4, LLaMA‑2, Claude 등)과 공개 TableQA 벤치마크(WikiTableQuestions, TabFact 등)에 RE‑Tab을 적용했을 때, 평균 정확도가 41.77% 상승하고, 테스트 시 생성 토큰 수가 33.33% 감소하는 효과를 보였다. 특히, 복잡한 셀 내부 텍스트(예: 박스 스코어)와 같이 구조적 정보를 손실하기 쉬운 경우에도 TAB‑ROUGE가 구조 보존을 정확히 평가해 오류를 크게 줄였다.
이론적으로는 보상 함수의 robustness를 정리한 Proposition 3.1을 통해, 보상이 부분 관측 상황에서 정보 엔트로피를 감소시켜 정책 π가 더 효율적인 의사결정을 할 수 있음을 증명한다. 또한, 보상 설계가 완전히 규칙 기반이므로, 새로운 도메인이나 스키마가 추가될 때도 별도의 라벨링 작업 없이 손쉽게 적용 가능하다.
결과적으로 RE‑Tab은 (1) 명시적, 검증 가능한 피드백을 통해 다중 턴 추론의 안정성을 확보하고, (2) 경량 무학습 구조로 기존 파이프라인에 손쉽게 통합할 수 있으며, (3) 구조·내용을 동시에 고려하는 보상 설계가 테이블 특화 QA에 적합함을 입증한다. 향후 연구에서는 보상 함수를 미세 조정하거나, 자동화된 보상 생성기를 학습시켜 더욱 복잡한 테이블 변환(예: 피벗, 조인)에도 확장하는 방향이 기대된다.
댓글 및 학술 토론
Loading comments...
의견 남기기