비용 인식 텍스트 분류 모델 선택 파인튜닝 인코더와 LLM 프롬프트의 다중 목표 트레이드오프
초록
본 논문은 텍스트 분류 작업에서 파인튜닝된 인코더 모델과 제로·Few‑shot 프롬프트 기반 대형 언어 모델(LLM)을 비교한다. 예측 정확도(매크로 F1)뿐 아니라 추론 지연시간과 실제 운영 비용을 함께 측정해 다중 목표 의사결정 문제로 정의하고, 파레토 프론티어와 파라미터화된 효용 함수를 통해 다양한 배포 시나리오에서의 최적 모델을 제시한다. 실험 결과, BERT 계열 파인튜닝 모델이 대부분의 경우 정확도·지연·비용 모두에서 우수하며, LLM은 특수한 하이브리드 구조나 매우 높은 정확도가 절대적으로 요구되는 경우에만 보완적으로 사용될 수 있음을 확인한다.
상세 분석
이 연구는 텍스트 분류라는 고정 라벨 문제에 대해 두 가지 전혀 다른 접근법을 체계적으로 비교한다. 첫 번째는 BERT, RoBERTa, DistilBERT 등 인코더‑전용 모델을 데이터셋별로 파인튜닝하는 전통적인 파이프라인이며, 두 번째는 GPT‑4o, Claude Sonnet 4.5와 같은 최신 LLM을 프롬프트만으로 제로·Few‑shot 방식으로 활용하는 것이다. 논문은 IMDB, SST‑2, AG News, DBPedia 네 개의 베이스라인 데이터셋을 선택하고, 각 모델에 대해 매크로 F1 점수, 엔드‑투‑엔드 추론 지연시간(p50, p95, p99), 그리고 실제 클라우드 API 사용량 기반 비용을 측정한다.
운영 가정으로는 (1) 서비스‑레벨 지연 예산, (2) 초당 처리량 요구, (3) 월간 비용 한도를 설정하고, (4) 재현성·감사 가능·프라이버시와 같은 거버넌스 요인을 추가한다. 이러한 제약을 정량화한 뒤, 각 모델을 3차원 목표 공간에 매핑하고 파레토 최적점을 도출한다. 파라미터화된 효용 함수 U = α·F1 − β·Latency − γ·Cost 을 통해 α,β,γ 값을 바꾸어 “정확도 우선”, “지연 최소”, “비용 절감” 등 다양한 배포 전략을 시뮬레이션한다.
실험 결과는 다음과 같다. 파인튜닝된 BERT‑family 모델은 대부분의 데이터셋에서 매크로 F1가 0.90 이상이며, 지연시간은 평균 30 ms 수준, 비용은 LLM 대비 10⁻²10⁻¹ 달러 수준으로 12 오더 낮다. 반면 LLM은 제로‑shot 설정에서 F1가 0.78~0.85 정도로 다소 낮고, 토큰당 과금 구조 때문에 비용이 수십 달러에 달한다. Few‑shot 프롬프트를 적용해도 정확도 향상은 미미하고, 지연시간은 토큰 생성 과정 때문에 300 ms 이상으로 늘어난다. 또한 LLM API는 제공자 측 업데이트에 따라 모델 행동이 변동될 수 있어 재현성이 떨어진다.
그러나 특정 상황에서는 LLM이 유리하다. 예를 들어, 라벨이 매우 적고 빠르게 새로운 도메인에 적용해야 할 경우(프롬프트만 수정하면 됨)나, 복합적인 추론(예: 감정 + 이유 설명)과 같이 생성 능력이 필요한 경우 LLM이 효용을 제공한다. 또한 하이브리드 설계—인코더로 1차 분류 후 LLM으로 미세 조정된 후처리—는 파레토 최적점 근처에서 좋은 균형을 만든다.
논문은 또한 비용·지연·재현성 등 운영 요소를 정량화하고, 이를 기반으로 의사결정 프레임워크를 제공함으로써 “가장 큰 모델이 가장 좋은 선택이다”는 오해를 바로잡는다. 오픈소스 코드와 데이터, 평가 파이프라인을 공개해 향후 연구자와 엔지니어가 자체 환경에 맞게 재평가할 수 있도록 설계했다.
댓글 및 학술 토론
Loading comments...
의견 남기기