표 기반 추론을 위한 강화학습 TableGPT R1

TableGPT R1은 표 데이터에 대한 다단계 추론과 코드 실행 능력을 강화하기 위해 강화학습(RL) 프레임워크를 도입한 특화 모델이다. 난이도별 에이전트 궤적 생성, 규칙 기반·보상 모델 혼합 보상 설계, 다단계 학습 파이프라인을 통해 일반 지식 손실 없이 표 전용 성능을 크게 향상시켰다.

표 기반 추론을 위한 강화학습 TableGPT R1

초록

TableGPT R1은 표 데이터에 대한 다단계 추론과 코드 실행 능력을 강화하기 위해 강화학습(RL) 프레임워크를 도입한 특화 모델이다. 난이도별 에이전트 궤적 생성, 규칙 기반·보상 모델 혼합 보상 설계, 다단계 학습 파이프라인을 통해 일반 지식 손실 없이 표 전용 성능을 크게 향상시켰다.

상세 요약

본 논문은 표 기반 작업에서 LLM이 직면하는 세 가지 핵심 한계—고품질 에이전트 궤적 부족, 피드백 신호의 이질성, 수직 특화 시 일반 지식 소실—를 명확히 규정하고, 이를 해결하기 위한 체계적인 RL 설계를 제시한다. 첫 번째 단계는 데이터 엔지니어링 파이프라인으로, 표 구조와 난이도를 다양화한 합성 트레이닝 샘플을 자동 생성한다. 여기서는 기존 SFT 데이터와 달리, 각 단계마다 코드 실행 결과와 환경 피드백을 포함한 ‘닫힌 루프’ 형태의 궤적을 만든다. 난이도 계층화는 쉬운 기본 쿼리부터 복합적인 데이터 변환·시각화까지 포괄하여, 에이전트가 점진적으로 복잡성을 학습하도록 돕는다. 두 번째 단계는 보상 설계이다. 규칙 기반 검증(예: SQL 구문 오류, 실행 시간 초과)과 사전 학습된 기준 주입 보상 모델을 결합해, 정량적·정성적 피드백을 동시에 제공한다. 특히, 단계별 보상(shape reward)을 도입해 각 추론 단계마다 작은 보상을 부여함으로써 ‘중간 목표’ 달성을 장려하고, 행동 정규화(behavioral regularization)로 과도한 탐색을 억제한다. 세 번째 단계는 다중 단계 학습 프레임워크다. 초기에는 SFT와 RL 혼합으로 일반 언어 능력을 유지하면서 기본 표 작업을 학습하고, 이후 점진적으로 표 전용 데이터와 높은 보상 비중을 적용해 전문성을 강화한다. 이 과정에서 파라미터 고정 및 저학습률 스케줄링을 활용해 catastrophic forgetting을 최소화한다. 실험 결과, TableGPT R1은 TabFact, WikiTableQuestions, Spider 등 권위 있는 벤치마크에서 기존 최첨단 모델 대비 4~7%p의 절대 성능 향상을 기록했으며, 일반 언어 이해 테스트에서도 성능 저하가 거의 없었다. 이러한 성과는 제안된 RL 파이프라인이 표 기반 복합 추론에 필요한 ‘생성‑검증‑수정’ 사이클을 효과적으로 학습시켰음을 입증한다.


📜 논문 원문 (영문)

🚀 1TB 저장소에서 고화질 레이아웃을 불러오는 중입니다...