LLM 프롬프트를 정책으로 전환한 지식그래프 기반 차가운 시작 POI 추천

LLM 프롬프트를 정책으로 전환한 지식그래프 기반 차가운 시작 POI 추천
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 대규모 언어 모델(LLM)을 파인튜닝 없이 고정하고, 지식그래프(KG)에서 추출한 관계 경로를 “증거 카드”로 변환한 뒤, 컨텍스트ual 밴딧을 이용해 동적으로 프롬프트를 구성하는 정책을 학습한다. 이를 통해 사용자‑POI 상호작용이 희박한 차가운 시작 상황에서도 활성 사용자와 동등하거나 더 높은 정확도를 달성한다.

상세 분석

이 연구는 LLM 기반 추천 시스템에서 가장 큰 병목이 모델 파라미터를 조정하는 것이 아니라, 모델에 제공되는 컨텍스트의 구성 방식이라는 가설을 세운다. 기존 SFT 방식은 대량의 라벨링 데이터와 높은 연산 비용을 요구하며, 활발한 사용자에 과도하게 적합해 차가운 시작 사용자에 대한 일반화가 떨어진다. 반면 정적인 ICL 프롬프트는 사용자마다 다른 상황을 반영하지 못해 성능 한계에 봉착한다. 논문은 이러한 문제를 해결하기 위해 세 가지 핵심 설계를 제안한다. 첫째, 사용자‑POI, 카테고리, 시간, 공간 그리드, 의도 등 이질적인 메타 정보를 포함하는 이종 지식그래프를 구축한다. 둘째, 그래프 탐색(BFS)으로 다중 홉 경로를 추출하고, 각 경로를 LLM에게 요약시켜 “증거 카드”라는 일관된 텍스트 단위로 변환한다. 이 카드들은 관계 근거(예: “사용자는 저녁에 카페를 선호하고, 현재 위치와 500m 이내에 카페가 있다”)를 담아 프롬프트에 삽입될 수 있다. 셋째, 컨텍스트ual 밴딧 모델이 각 후보 POI에 대해 선택할 카드 수(M), 포함할 카드 종류, 그리고 카드 순서를 정책으로 학습한다. 행동(action)은 “카드 i를 선택한다” 혹은 “카드 i를 제외한다”이며, 보상은 LLM이 반환한 순위 결과가 정답과 얼마나 일치했는가에 따라 부여된다. 이 강화학습 과정은 프롬프트의 길이와 정보량 사이의 트레이드오프를 자동으로 조절한다. 실험에서는 세 개의 Foursquare 도시 데이터셋(서울, 베이징, 뉴욕)을 사용해, 비활성 사용자(체크인 수 ≤ 5)에서 평균 11.87%의 Acc@1 향상을 기록했으며, 활성 사용자에 대해서도 기존 SFT 기반 베이스라인과 동등하거나 약간 앞선 성능을 보였다. Ablation 연구를 통해(1) KG 기반 증거 카드 없이 단순 텍스트 프롬프트, (2) 정적 프롬프트, (3) 밴딧 대신 무작위 카드 선택 등 각각의 구성 요소가 성능에 미치는 영향을 검증하였다. 결과적으로, 프롬프트 자체를 정책화함으로써 LLM의 추론 능력을 최대한 활용하고, 파인튜닝 비용을 회피하면서도 차가운 시작 상황에 강인한 추천을 구현할 수 있음을 입증한다.


댓글 및 학술 토론

Loading comments...

의견 남기기