베어: 빔 서치 인식 최적화로 LLM 기반 추천 성능 향상

베어: 빔 서치 인식 최적화로 LLM 기반 추천 성능 향상
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 대형 언어 모델(LLM)을 추천 시스템에 적용할 때, 기존의 지도 미세조정(SFT)이 빔 서치와의 불일치로 인해 높은 전체 확률을 가진 아이템이 실제 검색 단계에서 제외되는 문제를 지적한다. 이를 해결하기 위해 저자들은 BEAR(Beam‑Search‑Aware Regularization)라는 새로운 정규화 목표를 제안한다. BEAR는 각 토큰이 빔 폭 B 내에서 상위 B에 들어가도록 제한함으로써, 빔 서치 과정에서 긍정 아이템이 조기에 잘리지는 않도록 한다. 실험 결과, 네 개 데이터셋에서 평균 12.5% 이상의 성능 향상을 달성했으며, 기존 SFT 대비 훈련 비용은 거의 증가하지 않는다.

상세 분석

LLM 기반 추천 시스템은 사용자 이력 시퀀스를 텍스트 프롬프트로 변환하고, 이를 기반으로 다음 아이템을 텍스트 형태로 생성한다. 일반적인 파이프라인은 (1) 프롬프트 구성, (2) 지도 미세조정(Supervised Fine‑Tuning, SFT)으로 긍정 아이템을 정답으로 학습, (3) 추론 단계에서 빔 서치(beam search)를 이용해 상위 B개의 후보 시퀀스를 확장·보존한다. SFT는 전체 시퀀스 확률 P(y|x)를 최대화하는 목표를 갖지만, 빔 서치는 각 토큰 단계에서 가장 확률이 높은 B개의 후보만 유지한다. 따라서 전체 확률이 높아도 초기에 낮은 프리픽스 확률을 가진 아이템은 빔 폭 B보다 아래로 밀려 조기에 잘릴 수 있다. 논문은 실제 데이터에서 “전체 확률 상위 B에 속하지만 빔 서치에서 잘리는 긍정 아이템”이 80% 이상 존재한다는 통계적 증거를 제시한다.

이 문제를 해결하기 위해 BEAR는 “필수 조건”을 도입한다. 즉, 긍정 아이템의 모든 토큰이 각 디코딩 단계에서 후보 토큰 집합 중 상위 B에 포함되어야 한다는 조건이다. 이 조건을 만족하면 빔 서치가 해당 경로를 절대 삭제하지 않으므로, 전체 확률이 높은 아이템이 최종 후보에 남을 확률이 크게 증가한다. BEAR는 직접 빔 서치를 시뮬레이션하는 비용이 prohibitive하다는 점을 인식하고, 손실 함수에 토큰‑레벨 순위 제약을 추가한다. 구체적으로, 각 토큰 t에 대해 Pθ(y_t|y_{<t},x) 를 계산하고, 이 확률이 전체 토큰 분포에서 상위 B에 들어가도록 hinge‑type 손실을 적용한다. 이렇게 하면 추가적인 forward pass 없이 기존 SFT와 동일한 연산량으로 학습이 가능하다.

실험에서는 4개의 공개 시퀀스 추천 데이터셋(책, 장난감, 영화 등)을 사용해 9개의 최신 LLM‑기반 추천 파인튜닝 기법과 비교하였다. BEAR는 평균 12.5%의 NDCG·Recall 향상을 기록했으며, 특히 빔 폭 B가 작을수록(예: B=5) 성능 차이가 크게 나타났다. 추가 분석에서는 BEAR가 “필수 조건 위반” 비율을 70% 이상 감소시켜, 빔 서치 단계에서의 잘림 현상을 실질적으로 억제함을 확인했다. 또한, BEAR는 다양한 LLM 백본(예: GPT‑2, LLaMA)과 결합했을 때 일관된 이득을 보여, 모델‑아그노스틱한 특성을 갖는다.

한계점으로는 BEAR가 충분히 큰 B에 대해서는 효과가 감소할 수 있으며, 토큰‑레벨 순위 손실이 희소 토큰 집합에서 과도한 제약을 줄 가능성이 있다. 향후 연구에서는 동적 B 조정, 토큰‑레벨 가중치 학습, 그리고 멀티‑모달 프롬프트와 결합한 확장성을 탐색할 여지가 있다.


댓글 및 학술 토론

Loading comments...

의견 남기기