LLM 토큰 과금의 함정 과다 청구와 투명성

LLM 토큰 과금의 함정 과다 청구와 투명성
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 현재 클라우드 기반 LLM 서비스에서 사용되는 ‘토큰당 고정 가격’ 체계가 제공자에게 토큰 수를 과다 보고하도록 유인한다는 점을 밝혀낸다. 투명성을 강제하면 과다 보고가 어려워지지만, 저비용 휴리스틱 알고리즘을 통해 여전히 수익을 올릴 수 있음을 실험적으로 증명한다. 이를 해결하기 위해 토큰이 아닌 문자 수에 비례하는 ‘문자당 가격’ 모델을 제안하고, 기존 평균 이익률을 유지할 수 있는 전환 방안을 제시한다.

상세 분석

논문은 LLM‑as‑a‑service 환경을 ‘주인‑대리인(principal‑agent)’ 문제로 모델링한다. 사용자는 프롬프트를 제공하고, 제공자는 자체 하드웨어에서 LLM을 실행해 토큰 시퀀스를 생성한다. 현재 대부분의 서비스는 토큰당 고정 가격(p per token)으로 청구한다. 여기서 핵심은 토큰화가 유일하지 않다는 점이다. 동일한 문자열이라도 서로 다른 토큰 분할이 가능하므로, 제공자는 실제 생성된 토큰보다 더 많은 토큰을 보고함으로써 추가 수익을 얻을 수 있다.

저자는 먼저 이 구조가 제공자에게 토큰 수를 늘리려는 명확한 금전적 인센티브를 만든다는 정리를 제시한다. 이어서, 제공자가 ‘다음 토큰 분포’를 사용자에게 공개하는 투명성 조건을 가정하면, 최적의(가장 긴) 토큰화 문제를 다항 시간 내에 해결하기는 어렵다는 복잡도 결과를 증명한다. 그러나 복잡도가 높다고 해서 실질적인 악용이 불가능한 것은 아니다. 논문은 ‘Heuristic‑Expand’ 알고리즘을 설계해, 생성된 문자열에 대해 확률적으로 허용 가능한(즉, 모델이 실제로 생성할 확률이 높은) 대체 토큰 시퀀스를 탐색한다. 이 알고리즘은 GPU 연산 비용보다 훨씬 큰 추가 수익을 창출함을 실험적으로 입증한다.

가격 메커니즘을 근본적으로 바꾸기 위해 저자는 ‘문자당 가격(pay‑per‑character)’을 제안한다. 토큰 길이가 문자 수와 선형 관계에 있음을 이용해, 토큰당 가격이 문자 수에 비례하도록 하면 제공자가 토큰 수를 조작해도 청구 금액이 변하지 않는다. 다만 문자당 가격은 토큰마다 이익률이 달라지는 부작용을 낳는다. 이를 보완하기 위해 ‘평균 이익률 유지’ 처방을 도입해, 전체 서비스에서 기존 평균 마진을 유지하면서도 개별 토큰에 대한 마진 차이를 조정한다.

실험 부분에서는 Llama, Gemma, Ministral 계열 모델들을 사용해 다양한 프롬프트(예: LMSYS Chatbot Arena)에서 원본 토큰화와 알고리즘이 만든 대체 토큰화 사이의 차이를 측정한다. 결과는 대부분의 경우 30 %~70 % 정도의 토큰 수 증가를 달성하면서, 추가 연산 비용은 전체 비용의 5 % 이하에 불과함을 보여준다. 이는 현재 토큰당 가격 체계가 실제로 사용자를 과다 청구할 수 있는 실질적인 위험을 입증한다.

결론적으로, 논문은 (1) 토큰당 고정 가격이 제공자에게 과다 청구 인센티브를 제공한다, (2) 투명성만으로는 완전한 방어가 되지 않는다, (3) 저비용 휴리스틱으로도 수익을 크게 늘릴 수 있다, (4) 문자당 가격이 유일한 인센티브‑호환 메커니즘이며, (5) 기존 평균 마진을 유지하는 전환 방안이 가능하다는 네 가지 주요 메시지를 제시한다.


댓글 및 학술 토론

Loading comments...

의견 남기기