테이블 구조와 내용 평가를 위한 자체 감독 이중 트랙 프레임워크
초록
Table‑BiEval은 인간 개입 없이 LLM이 생성한 구조화 데이터의 품질을 평가하는 자체 감독 프레임워크이다. 모델이 만든 중간 표현(IR)을 활용해 내용 의미 정확도(CSA)와 정규화 트리 편집 거리(NTED)를 계산함으로써 구조와 내용을 분리해 정량화한다. 계층형 JSON/XML 트리와 CSV·HTML·Markdown·LaTeX·플랫 JSON/XML 리스트 등 6가지 포맷을 두 트랙으로 평가하고, 15개 최신 LLM을 실험한다. 결과는 모델 크기와 무관하게 구조적 효율성에 큰 차이가 있음을 보여주며, 깊은 재귀적 중첩이 현재 모델들의 보편적 병목임을 확인한다.
상세 분석
Table‑BiEval은 LLM이 자연어를 도구 호출에 필요한 구조화 형식(예: JSON, XML)이나 표 형식(예: CSV, HTML)으로 변환하는 능력을 정량적으로 측정하기 위해 설계된 두 트랙(Structure Eval, Table Eval) 자체 감독 평가 체계이다. 핵심 아이디어는 모델이 생성한 원시 텍스트를 “Intermediate Representation”(IR)이라고 부르는 결정적 중간 표현으로 파싱한 뒤, 동일한 IR을 두 번 사용해 (1) 내용 의미 정확도(Content Semantic Accuracy, CSA)와 (2) 정규화 트리 편집 거리(Normalized Tree Edit Distance, NTED)를 자동으로 계산한다는 점이다.
CSA는 IR에 포함된 의미 단위(키‑값 쌍, 셀 내용 등)를 정답 IR과 비교해 정확히 일치하는 비율을 측정한다. 이는 기존 BLEU·ROUGE와 달리 구조적 토큰이 아닌 의미적 일치를 평가하므로 코드‑유사 출력에서 발생하는 의미 드리프트를 포착한다. NTED는 트리 형태의 구조(노드 깊이, 자식 관계 등)를 정규화된 편집 거리로 변환해 구조적 일관성을 정량화한다. 트리 편집 연산(삽입, 삭제, 교체)을 최소화하는 비용을 정규화함으로써 모델이 얼마나 적은 구조적 변형으로 정답에 도달했는지를 나타낸다.
두 트랙은 각각 다른 포맷을 지원한다. Structure Eval는 JSON·XML 트리를 대상으로 하며, 복잡한 중첩 깊이와 재귀적 의존성을 평가한다. Table Eval은 CSV·HTML·Markdown·LaTeX·플랫 JSON·XML 리스트 등 6가지 2‑차원 데이터 포맷을 다루며, 행·열 정렬, 셀 병합, 헤더 계층 등 공간적 정합성을 측정한다. 평가 파이프라인은 (1) 원시 LLM 출력 → (2) IR 파싱 → (3) 정답 IR과 비교 → (4) CSA·NTED 산출 → (5) 종합 점수 산출의 5단계로 구성된다. 모든 단계가 자동화돼 인간 어노테이션 없이 대규모 베치 평가가 가능하다.
실험에서는 15개의 최신 LLM(예: GPT‑4, Claude‑2, LLaMA‑2‑70B 등)을 선택해 두 트랙 각각 8개의 과제(계층형 구조 생성, 복합 표 생성 등)를 수행하도록 했다. 결과는 크게 세 가지 인사이트를 제공한다. 첫째, 모델 크기와 성능이 반드시 구조적 효율성과 일치하지 않는다. 중형 모델(예: LLaMA‑2‑13B) 중 일부는 대형 모델보다 낮은 NTED와 높은 CSA를 기록해 구조‑내용 균형에서 우수함을 보였다. 둘째, 재귀적 중첩 깊이가 증가할수록 모든 모델의 NTED가 급격히 상승했으며, 이는 현재 LLM이 깊은 트리 구조를 유지·생성하는 데 근본적인 한계가 있음을 시사한다. 셋째, 표 형식에서는 행·열 정렬 정확도가 전반적으로 높았지만, 복합 셀 병합이나 다중 헤더 계층을 요구하는 과제에서는 CSA가 크게 떨어져 구조적 정확도와 내용 정확도 사이의 트레이드오프가 명확히 드러났다.
Table‑BiEval은 기존 텍스트‑중심 평가 지표가 놓치는 구조적 오류를 정량화함으로써, LLM을 도구 호출 에이전트나 데이터 파이프라인 자동화에 활용할 때 필요한 “구조적 신뢰성”을 객관적으로 측정한다. 또한, 자체 감독 방식이라 비용 효율성이 높아 지속적인 모델 개선 루프에 바로 적용할 수 있다. 한계점으로는 IR 파싱 단계에서 포맷‑특화 파서가 필요하고, 복잡한 비정형 표(예: 이미지 기반 표)에는 아직 적용이 어려운 점을 들 수 있다. 향후 연구에서는 멀티모달 표 인식과 동적 트리 구조 생성에 대한 확장, 그리고 NTED와 CSA를 결합한 복합 점수 체계 설계가 기대된다.
댓글 및 학술 토론
Loading comments...
의견 남기기