시각 토큰으로 바로 SQL을 생성하는 OptiSQL
초록
OptiSQL은 OCR‑전용 비전 인코더가 테이블 이미지를 소수의 광학 토큰으로 압축하고, 이를 고정된 디코더에 입력해 자연어 질문에 대한 실행 가능한 SQL을 직접 생성한다. 토큰 수를 10배 이상 줄이면서도 Spider 2.0‑Snow 기준 실행 정확도를 유지하고, 시각적 교란에 대한 견고함을 입증한다.
상세 분석
본 논문은 텍스트‑to‑SQL 패러다임이 전제하는 “깨끗한 구조화 텍스트” 가 현실 문서에서 흔히 부재함을 지적한다. 표가 이미지 형태로 존재할 때, 기존 파이프라인은 OCR → 텍스트 정제 → 스키마 링크 → SQL 파싱이라는 다단계 과정을 거치며 오류 전파와 토큰 폭증이라는 두 가지 큰 문제에 직면한다. OptiSQL은 이러한 전처리 단계를 제거하고, OCR‑전용 비전 인코더(DeepSeek‑OCR 기반)를 그대로 활용해 테이블 이미지를 고정된 길이의 광학 토큰 시퀀스로 변환한다. 핵심 설계는(1) 인코더를 동결하고(Freeze‑Encoder), (2) 토큰 예산을 명시적으로 제어함으로써 “표 현시 정보를 얼마나 압축해도 SQL 생성에 충분한가?”라는 질문에 답을 구한다는 점이다.
인코더는 이미지 내 셀 위치, 행‑열 정렬, 헤더‑데이터 연관성 등을 시각‑텍스트 혼합 특징으로 인코딩하고, 각 토큰은 1‑D 시퀀스로 직렬화된다. 이때 토큰 수 n은 인코더 설정에 따라 64~400 사이로 조절 가능하며, 텍스트 기반 선형화가 요구하는 수천 토큰에 비해 10배 이상 절감된다. 이후 자연어 질문 토큰과 광학 토큰을 단순 연결(
댓글 및 학술 토론
Loading comments...
의견 남기기