생성형 추천의 콜드 스타트 문제를 모델 편집으로 해결
초록
본 논문은 생성형 추천 시스템에서 새로 등장한 아이템(콜드 스타트 아이템)의 추천 정확도가 급격히 떨어지는 현상을 ‘콜드 스타트 붕괴’라 정의하고, 대규모 재학습 없이도 빠르게 지식을 주입할 수 있는 모델 편집 기법을 제안한다. GenRecEdit은 전체 시퀀스 컨텍스트와 다음 토큰 간의 관계를 명시적으로 모델링하고, 토큰 수준의 반복 편집과 One‑One 트리거 메커니즘을 통해 다중 토큰(아이템) 표현을 안정적으로 삽입한다. 실험 결과, 기존 재학습 대비 90% 이상의 시간 절감으로 콜드 스타트 아이템의 NDCG를 크게 향상시키면서 기존 추천 성능을 유지한다.
상세 분석
본 연구는 생성형 추천(Generative Recommendation, GR) 모델이 아이템을 의미론적 ID(SID) 토큰 시퀀스로 표현하고, 자동 회귀 방식으로 다음 토큰을 예측한다는 기본 설계에 착안한다. 기존 GR 모델은 훈련 데이터에 존재하지 않은 신규 아이템의 SID 패턴을 전혀 보지 못했기 때문에, 실제 서비스 환경에서 콜드 스타트 아이템이 등장하면 ‘콜드 스타트 붕괴’ 현상이 발생한다. 저자들은 두 가지 실험을 통해 (1) 첫 번째 SID 토큰은 비교적 높은 정확도로 예측되지만, 이후 토큰이 진행될수록 급격히 정확도가 떨어짐을 확인했고, (2) IID Ratio@K 지표를 통해 모델이 전체적으로 ‘보았던’(warm) SID 패턴을 선호하고 콜드 스타트 SID를 거의 생성하지 않음을 밝혀냈다.
이러한 현상을 해결하기 위해 NLP 분야의 모델 편집(model editing) 아이디어를 차용했지만, 직접 적용 시 두 가지 근본적인 장애물이 존재한다. 첫째, NLP 문장은 주어‑목적어와 같은 명시적 바인딩 구조가 있어 편집 대상(예: ‘American president’)을 쉽게 식별할 수 있지만, GR 시퀀스는 사용자 히스토리와 아이템 SID가 단순히 이어진 형태라 명확한 바인딩이 없다. 둘째, 자연어는 고빈도 구문(phrase) 형태로 토큰이 강하게 결합돼 있어 멀티‑토큰 삽입이 비교적 안정적이지만, GR에서는 신규 아이템의 SID 토큰이 전혀 관찰되지 않아 토큰 번들 삽입이 불안정하다.
GenRecEdit은 이러한 문제를 해결하기 위해 세 가지 핵심 설계를 도입한다. ① 전체 시퀀스 컨텍스트와 다음 토큰 간의 관계를 직접 모델링함으로써, ‘주어‑목적어’와 같은 구조가 없어도 특정 위치에서 목표 토큰을 유도할 수 있다. 구체적으로, 편집 대상 SID 토큰을 목표 토큰(o)으로, 앞선 컨텍스트를 (s, r) 형태의 조건부 입력으로 사용한다. ② 토큰‑레벨 반복 편집(iterative token‑level editing)을 적용해, 하나의 토큰씩 순차적으로 FFN 레이어의 가중치를 조정한다. 이는 멀티‑토큰 아이템을 여러 단계에 걸쳐 삽입함으로써, 각 토큰이 독립적으로 학습된 분포에 맞게 조정되어 안정성을 높인다. ③ One‑One 트리거 메커니즘을 도입해 편집 요청마다 고유한 트리거 토큰을 할당하고, 추론 시 해당 트리거가 활성화될 때만 해당 편집된 FFN이 적용되도록 설계했다. 이 설계는 다수의 편집이 동시에 존재할 경우 발생할 수 있는 상호 간섭(interference)을 효과적으로 차단한다.
학습‑무료 편집을 구현하기 위해 저자들은 기존 모델의 FFN 레이어에 대해 ‘가중치 시프트(weight shift)’를 계산한다. 편집 전후의 은닉 상태 차이를 선형 근사하여, 목표 토큰의 로짓을 증가시키는 방향으로 가중치를 미세 조정한다. 동시에, Null‑space 프로젝션을 이용해 기존 지식 보존을 위한 제약을 적용한다. 이러한 절차는 전체 모델 파라미터를 재학습하는 비용 없이, 편집 대상 토큰에만 국소적인 변화를 일으킨다.
실험에서는 대표적인 GR 모델인 SASRec‑based 생성기와 여러 공개 데이터셋(예: Cell Phones & Accessories, Amazon Beauty 등)을 사용했다. Baseline으로는 (1) 기존 재학습, (2) 단순 파인튜닝, (3) 최신 모델 편집 기법(Rome, MEMIT 등)을 적용하였다. 결과는 다음과 같다. GenRecEdit은 콜드 스타트 아이템에 대한 NDCG@10을 평균 27%p 상승시켰으며, warm 아이템에 대한 성능 저하를 0.3% 이하로 억제했다. 또한 전체 모델 업데이트 시간은 재학습 대비 9.5% 수준으로 크게 감소했다. Ablation study를 통해 One‑One 트리거가 없을 경우 다중 편집 간 간섭으로 성능이 급격히 저하되는 것을 확인했으며, 토큰‑레벨 반복 편집이 단일 단계 편집보다 안정적인 삽입을 보장함을 입증했다.
이와 같이 GenRecEdit은 (1) 콜드 스타트 아이템에 대한 빠른 지식 주입, (2) 기존 추천 능력 보존, (3) 최소 연산 비용이라는 세 축을 동시에 만족한다. 향후 연구에서는 트리거 설계의 자동화, 편집 대상 선정의 메타러닝, 그리고 대규모 멀티‑모달 추천 시나리오에의 확장을 기대한다.
댓글 및 학술 토론
Loading comments...
의견 남기기