어휘 연산 시스템을 위한 비용 기반 최적화기 Abacus

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

Abacus는 대규모 비정형 문서 처리 파이프라인을 구성하는 의미 연산자들의 물리적 구현을 비용, 지연시간, 품질을 동시에 고려해 최적화하는 비용 기반 옵티마이저이다. 무한 팔 밴딧을 활용한 샘플링, Pareto‑Cascades 동적 계획법, 사전 신뢰도 활용 등 세 가지 핵심 기법을 통해 제한된 샘플 예산 안에서 연산자 성능을 추정하고, 제약 조건이 있는 경우에도 파레토 최적 해를 찾아낸다. 실험 결과, BioDEX·CUAD·MMQA 워크로드에서 기존 시스템 대비 품질 6.7‑39.4 % 향상, 비용 10.8배 절감, 지연시간 3.4배 단축을 달성하였다.

상세 분석

본 논문은 LLM 기반 의미 연산자를 활용한 비정형 데이터 파이프라인의 최적화 문제를 정의하고, 이를 해결하기 위한 새로운 옵티마이저인 Abacus를 제시한다. 기존의 의미 연산자 프레임워크는 품질 중심의 단일 목표 최적화에 머물렀으며, 비용·지연과 같은 실용적 제약을 반영하지 못했다. Abacus는 이러한 한계를 극복하기 위해 세 가지 핵심 설계를 도입한다. 첫째, 연산자 성능 추정을 무한 팔 밴딧(infinite‑armed bandit) 문제로 모델링하고, Upper‑Confidence‑Bound 기반 샘플링 전략을 변형해 파레토 프론티어를 탐색한다. 이때 사전 신뢰도(prior belief)를 활용하면 초기 샘플링 효율이 크게 향상된다. 둘째, 물리적 연산자들의 개별 성능 추정치를 이용해 전체 플랜의 비용·품질·지연을 선형 결합 방식으로 근사함으로써, 조합 폭이 기하급수적으로 증가하는 플랜 공간을 효율적으로 평가한다. 셋째, 전통적인 Cascades 옵티마이저의 동적 계획법을 확장해 Pareto‑Cascades 알고리즘을 설계, 각 서브플랜에 대해 파레토 최적 집합을 유지하면서 제약식(예: 비용 ≤ $1) 하에서도 최적 플랜을 선택한다. 구현은 Palimpzest 위에 이루어졌으며, 구현·변환 규칙을 통해 연산자 푸시다운, 조인 순서 재배치 등 관계형 옵티마이저와 유사한 최적화도 지원한다. 실험에서는 BioDEX(생의학), CUAD(법률), MMQA(멀티모달) 워크로드에 대해 기존 DocETL·LOTUS 대비 품질을 평균 20.8 %~39.4 % 향상시키고, 비용은 10.8배, 지연은 3.4배 절감했다. 또한 사전 신뢰도를 활용했을 때 동일 샘플 예산에서 품질이 최대 3.04배 개선되는 것을 확인하였다. Ablation 연구에서는 MAB 샘플링, Pareto‑Cascades, 사전 신뢰도 각각이 제약 최적화 성능에 기여함을 입증한다. 전체적으로 Abacus는 의미 연산자 시스템에 비용 기반, 제약식 지원, 확장성을 동시에 제공하는 최초의 프레임워크라 할 수 있다.

어휘 연산 시스템을 위한 비용 기반 최적화기 Abacus

초록

상세 분석

댓글 및 학술 토론

의견 남기기