짧은 히스토리가 충분하다 LLM 기반 추천 에이전트 벤치마크

짧은 히스토리가 충분하다 LLM 기반 추천 에이전트 벤치마크
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 연구는 GPT‑4o‑mini, DeepSeek‑V3, Qwen2.5‑72B, Gemini 2.5 Flash 네 모델을 대상으로 REGEN 데이터셋의 구매 이력 길이(5 ~ 50개)와 추천 품질·지연·토큰 비용 간의 관계를 체계적으로 실험하였다. 50명의 사용자를 동일 조건에서 반복 측정한 결과, 이력 길이가 늘어나도 품질 점수(0.17 ~ 0.23)는 유의미하게 변하지 않았다. 반면 토큰 사용량은 8배 이상 증가해 비용이 크게 상승한다. 따라서 실시간 서비스에서는 5 ~ 10개 정도의 짧은 히스토리만 활용해도 품질 손실 없이 비용·지연을 크게 절감할 수 있음을 제시한다.

상세 분석

본 논문은 “더 많은 컨텍스트가 더 나은 추천을 만든다”는 일반적인 가정을 실증적으로 검증하고자, 네 가지 최신 대형 언어 모델(LLM)을 동일한 실험 파이프라인에 적용하였다. 실험 설계는 within‑subject 디자인으로, 50명의 사용자를 무작위(시드 42) 선정하고 각 사용자에 대해 5, 10, 15, 25, 50개의 최근 구매 아이템을 순차적으로 제공하였다. REGEN 데이터셋은 Amazon 오피스 제품군을 기반으로 하며, 각 아이템은 제목, 카테고리, 평점 등 메타데이터와 함께 리뷰 텍스트가 포함돼 있다. 연구자는 사용자 히스토리를 텍스트 프롬프트 형태로 변환하고, “다음에 구매할 제품은 무엇인가?”라는 질문을 모델에 전달했다.

품질 평가는 키워드 겹침(Jaccard‑like)과 카테고리 일치 여부를 0.7:0.3 비율로 가중합한 복합 점수로 정의했으며, 이는 기존 제로샷 추천 연구에서 사용된 평가 방식과 일치한다. 지연 시간은 API 호출부터 응답 수신까지의 실시간 측정값(초)이며, 토큰 수는 각 API가 반환한 입력 토큰 수를 비용의 proxy로 활용하였다.

결과적으로, 네 모델 모두 컨텍스트 길이가 5에서 50으로 증가함에 따라 품질 점수 변화가 –0.02 ~ +0.02 수준에 머물렀으며, 95% 신뢰구간이 겹쳐 통계적으로 유의미한 차이가 없었다(p > 0.05). 반복 측정 ANOVA에서도 F(4,196)=1.12, p=0.35로 컨텍스트 길이의 주효과가 없음을 확인했다. 반면 토큰 사용량은 평균 8.2배 증가했고, 이에 따른 비용 상승이 명확히 드러났다. 지연 시간은 모델마다 차이를 보였는데, Qwen2.5‑72B는 4.1 ~ 4.4초로 가장 안정적이며, Gemini 2.5 Flash은 컨텍스트가 길어질수록 10 ~ 15초까지 증가했다. 이는 토큰 처리 비용보다 네트워크 왕복 및 API 내부 최적화 차이가 지연에 큰 영향을 미친다는 점을 시사한다.

논문은 이러한 현상을 “Lost in the Middle” 현상, 최신 구매에 대한 recency bias, 신호 포화(signal saturation) 등으로 해석한다. 특히, LLM이 긴 시퀀스 중간 정보를 효과적으로 활용하지 못해 중요한 정보가 ‘잃어버려지는’ 현상이 품질 정체의 주요 원인일 가능성이 높다. 또한, 기존 순차 추천 연구와 일치하게 최신 5~10개의 아이템만으로도 사용자의 현재 선호를 충분히 포착한다는 점을 강조한다.

실무적 시사점으로는, 비용 효율적인 서비스 운영을 위해 컨텍스트 길이를 최소화(5~10개)하는 것이 바람직하며, 특히 토큰당 과금이 높은 OpenAI·DeepSeek 계열 모델에서는 88% 이상의 비용 절감이 가능하다. 또한, 실시간 응답이 중요한 환경에서는 Qwen2.5‑72B와 같이 지연이 안정적인 모델을 선택하는 것이 권장된다.


댓글 및 학술 토론

Loading comments...

의견 남기기