지오GR 지리 인식 생성 추천 프레임워크
초록
**
GeoGR은 대규모 내비게이션 서비스에서 사용자의 시공간적 컨텍스트를 고려해 다음 방문 POI를 예측하는 생성형 추천 시스템이다. 고품질의 지리‑시공간 협업 의미 ID(SID)를 학습하고, 이를 기반으로 대형 언어 모델(LLM)을 단계별로 정렬·미세조정하여 자동 회귀 방식으로 POI를 생성한다. 실제 AMAP 서비스에 적용해 온라인 지표와 확장성을 크게 향상시켰다.
**
상세 분석
**
본 논문은 기존 POI 추천이 직면한 두 가지 근본적인 한계를 극복하기 위해 두 단계의 파이프라인을 설계하였다. 첫 번째 단계는 “Geo‑aware SID 토크나이제이션”으로, POI의 텍스트 설명뿐 아니라 위도·경도, 주변 POI와의 공동 방문 관계 등 시공간적 협업 신호를 활용한다. 구체적으로, 지리적으로 제한된 공동 방문 POI 쌍을 구성하고, LLM 기반 임베딩을 통해 의미적 표현을 얻은 뒤, 대비 학습(contrastive learning)으로 서로 가까운 POI를 끌어당긴다. 이후 RQ‑Kmeans(Residual Quantization‑Kmeans)를 적용해 연속적인 벡터를 계층적 이산 토큰인 SID로 양자화한다. 마지막으로 EM‑style 반복 최적화를 수행해 SID가 실제 사용자 행동 패턴을 반영하도록 정제한다. 이 과정은 기존의 무작위 ID(RID)와 달리 의미적·협업적 정보를 동시에 내포한 압축 토큰 집합을 만든다.
두 번째 단계는 “멀티‑스테이지 LLM 정렬 및 파인튜닝”이다. 새롭게 만든 SID는 기본 LLM의 어휘에 존재하지 않으므로, 템플릿 기반 텍스트‑to‑SID 데이터셋을 이용해 Continued Pre‑Training(CPT)으로 어휘와 도메인 지식을 정렬한다. CPT 이후에는 POI 추천을 위한 명시적 지시문(Instruction) 데이터를 구축하고, Supervised Fine‑Tuning(SFT)으로 조건‑aware(시간, 위치, 검색 질의 등) 자동 회귀 생성 능력을 부여한다. 모델은 “조건 → SID 시퀀스” 형태로 학습되며, 추론 시에는 사용자의 최근 체크인 히스토리와 실시간 컨텍스트를 입력으로 받아 다음 POI의 SID 토큰을 순차적으로 생성한다.
실험에서는 공개된 다중 시계열 POI 데이터셋(예: Gowalla, Foursquare)과 사내 AMAP 로그를 사용해 기존 SOTA(예: STAN, LLM4POI, OneRec‑V2)와 비교하였다. 평가 지표는 Hit@10, NDCG@10, MAP 등이며, GeoGR은 모든 베이스라인을 5%~12% 이상 능가하였다. 특히 희소한 카테고리 간 전이(공항→호텔→주차장) 상황에서 협업 SID가 크게 기여함을 확인했다.
산업 적용 단계에서는 AMAP 플랫폼에 실시간 서비스로 배포했으며, A/B 테스트 결과 클릭‑through‑rate(CTR), 체류 시간, 예약 전환율이 각각 3.4%, 5.1%, 2.8% 상승했다. 토큰 압축 덕분에 모델 파라미터는 기존 LLM 대비 30% 감소했으며, 추론 지연도 40ms 이하로 유지돼 대규모 실시간 서비스에 적합함을 입증했다.
핵심 기여는 (1) 시공간 협업 정보를 명시적으로 반영한 고품질 SID 학습 방법, (2) 비네이티브 토큰을 위한 다단계 LLM 정렬·미세조정 전략, (3) 대규모 내비게이션 서비스에서의 실제 효과와 확장성을 검증한 전천후 실험·배포 결과이다.
**
댓글 및 학술 토론
Loading comments...
의견 남기기