테이블마스터: 언어 모델을 위한 표 이해 혁신 레시피
초록
본 논문은 대형 언어 모델(LM)이 표 데이터를 이해하고 추론하는 데 직면한 네 가지 핵심 문제—목표 데이터 위치 파악 어려움, 표 의미 부족, 텍스트 기반 수치 연산 오류, 기호 추론의 의미 경직성—를 체계적으로 분석한다. 이를 해결하기 위해 표 내용 추출·구조화, 풍부한 의미를 담은 구두화, 프로그램 기반 기호 추론, 표 정규화, 텍스트‑가이드 기호 추론을 결합한 ‘TableMaster’ 프레임워크와 상황에 따라 텍스트와 기호 추론을 전환하는 Adaptive Reasoning(AR)을 제안한다. WikiTQ, TabFact, FetaQA 등 세 데이터셋에서 GPT‑4o‑mini 기반 TableMaster는 기존 최첨단 모델을 크게 앞서며, 특히 대형 표와 복잡한 수치 계산에서 강인한 성능을 보인다.
상세 분석
TableMaster 논문은 표 이해를 방해하는 근본 원인을 네 가지 특성—구조적 밀도, 데이터 집약성, 의미 희소성, 수치 집중성—과 연결시켜 분석한다. 첫 번째 문제인 ‘목표 데이터 위치 파악 어려움(C1)’은 표가 행·열로 구성된 2차원 배열이기 때문에 LLM이 긴 컨텍스트에서 핵심 셀을 식별하지 못하는 현상으로, 실험(Figure 2‑a)에서 행·열 수가 증가할수록 정확도가 급격히 감소함을 확인한다. 저자들은 이를 ‘Table‑of‑Focus’ 전략으로 해결한다. 즉, 질의와 직접 연관된 서브테이블만을 추출해 LLM에 제공함으로써 컨텍스트 길이를 최소화하고, 모델이 핵심 정보를 놓치지 않게 한다.
두 번째 문제인 ‘표 의미 부족(C2)’은 셀 텍스트가 짧고, 의미가 헤더·인덱스와의 관계에 의존한다는 점에서 발생한다. 기존 LLM은 이러한 구조적 힌트를 충분히 활용하지 못해 의미적 빈틈이 생긴다. 논문은 ‘Table Verbalization’(S2)을 도입해 표를 자연어 서술문으로 변환하고, 원본 표와 함께 제공한다. 이는 LLM의 사전학습 데이터와 형태를 맞추어 의미적 컨텍스트를 풍부하게 만든다. 실험 결과, 특히 작은 모델에서 1.5%p 이상의 정확도 향상이 관찰된다.
세 번째 문제인 ‘수치 텍스트 연산 오류(C3)’는 LLM이 큰 수나 반복 연산을 텍스트 기반으로 처리할 때 발생한다. Figure 2‑c에서 계산이 필요한 질문은 텍스트 추론만으로 20% 이상 정확도가 떨어진다. 저자들은 ‘Program‑Aided Reasoning’(S3)을 통해 Python 혹은 SQL 코드를 자동 생성·실행하도록 하여 수치 연산을 외부 엔진에 위임한다. 이렇게 하면 기호적 연산 정확도가 크게 상승하고, 텍스트 기반 오류를 회피할 수 있다.
네 번째 문제인 ‘기호 추론 의미 경직성(C4)’은 LLM이 코드 생성을 할 때 사전 학습된 패턴을 그대로 복제하는 경향을 말한다. 이는 표의 복잡한 구조와 짧은 텍스트를 제대로 이해하지 못하고, 잘못된 로직을 생성하게 만든다. 이를 해결하기 위해 ‘Text‑Guided Symbolic Reasoning’(S4)을 제안한다. 즉, 표와 질의를 자연어로 충분히 설명한 뒤, 그 설명을 기반으로 코드 생성 프롬프트를 구성한다. 이렇게 하면 LLM이 의미적 힌트를 활용해 보다 정확한 프로그램을 만들 수 있다.
TableMaster는 위 네 가지 솔루션을 하나의 파이프라인에 통합하고, 질의 특성에 따라 텍스트 추론과 기호 추론을 동적으로 전환하는 ‘Adaptive Reasoning(AR)’ 모듈을 추가한다. AR은 질의에 수치 연산이 포함되면 기호 추론을, 그렇지 않으면 텍스트 추론을 우선시한다. 실험에서는 AR이 없는 경우보다 평균 2.3%p, 최악의 경우 5.7%p까지 정확도가 향상되는 것을 확인했다.
전체적인 평가에서 TableMaster는 GPT‑4o‑mini 기반 모델로 WikiTQ에서 78.13%의 정확도를 기록했으며, 이는 기존 최첨단인 ‘LEVER’(73.4%)보다 4.7%p 높은 수치다. TabFact와 FetaQA에서도 각각 84.2%, 81.5%의 점수를 받아, 표 기반 사실 검증과 복합 질의 처리에서도 우수함을 입증한다. 특히 대형 표(>2000 토큰)와 복잡한 수치 연산(다중 단계 계산)에서 성능 격차가 두드러져, TableMaster가 실제 산업 현장의 대규모 스프레드시트 분석에 적용 가능함을 시사한다.
요약하면, 이 논문은 표 이해의 근본적인 구조적·의미적 한계를 정량적으로 분석하고, 각각에 맞는 구체적 해결책을 제시함으로써 LLM이 표 데이터를 다루는 전반적인 능력을 크게 향상시킨다. 제안된 레시피는 모델 아키텍처에 의존하지 않으며, 기존 LLM에 프롬프트 레벨에서 손쉽게 적용할 수 있다는 실용적 장점도 갖는다.
댓글 및 학술 토론
Loading comments...
의견 남기기