LLM 기반 특징 추출기의 핵심 설계 요소 분석
초록
본 논문은 대형 언어 모델(LLM)을 활용한 순차 추천 시스템에서 아이템 메타데이터를 특징으로 변환하는 파이프라인을 네 개의 모듈(데이터 처리, 특징 추출, 특징 적응, 순차 모델링)로 분해하고, 각 모듈별 설계 선택지를 체계적으로 비교한다. 4개의 공개 데이터셋 실험을 통해 속성 평탄화 프롬프트, 연속 사전학습 후 감독 미세조정(CPT+SFT) 전략, 평균 풀링 기반 집계, PCA와 MoE를 결합한 하이브리드 적응, 그리고 ID 임베딩을 대체하는 방식이 가장 효과적임을 확인한다. 최적 조합은 기존 강력한 베이스라인 대비 NDCG@5에서 최대 18.7%, HR@5에서 15.1%의 상대적 향상을 달성한다.
상세 분석
RecXplore 프레임워크는 LLM‑as‑feature‑extractor 파이프라인을 네 개의 독립 모듈로 명확히 구분함으로써 설계 변수 간 상호작용을 최소화하고, 동일한 실험 환경에서 공정한 비교를 가능하게 한다. 데이터 처리 단계에서는 속성 평탄화(Attributes Flatten)가 가장 안정적인 성능을 보였으며, 키워드 추출·요약·지식 확장과 같은 고급 프롬프트는 오히려 잡음을 유발해 성능 저하를 초래한다는 점을 실증하였다. 이는 LLM이 이미 충분히 풍부한 의미 정보를 내재하고 있어, 불필요한 변형이 오히려 의미 손실을 일으킨다는 것을 의미한다.
특징 추출 단계에서는 LLM 백본을 LLaMA2‑7B로 고정하고, 미세조정 전략을 네 가지(CPT, SFT, SCFT, CPT+SFT)로 비교하였다. 연속 사전학습(CPT)만으로는 도메인 적합성이 제한적이지만, 이를 감독 미세조정(SFT)과 순차적으로 적용한 CPT+SFT 파이프라인이 가장 높은 전이 성능을 제공한다. 특히, SFT에서 질문‑답변 형태의 프롬프트를 사용해 누락된 속성을 예측하도록 학습시키는 것이 LLM의 내부 표현을 추천 태스크에 맞게 정렬시키는 데 효과적이었다.
집계 전략에서는 평균 풀링(Mean Pooling)이 가장 일관된 결과를 보였으며, 마지막 토큰이나 최대 풀링은 특정 토큰에 과도히 의존해 변동성이 크다. 명시적 한 단어 요약(EOL) 방식은 정보 손실이 커 실용성이 낮았다.
특징 적응 단계에서는 고차원 LLM 임베딩을 직접 압축하는 DDR과, PCA 기반 차원 축소 후 학습 가능한 어댑터를 적용하는 MDR을 비교했다. MDR이 파라미터 효율성과 성능 모두에서 우수했으며, 특히 PCA 뒤에 MoE 어댑터를 배치한 하이브리드 설계가 가장 높은 HR@5와 NDCG@5를 기록했다. 이는 선형 차원 축소만으로는 표현력을 충분히 보존하지 못하지만, 비선형 전문가 네트워크가 남은 차원을 효과적으로 재구성한다는 점을 시사한다.
ID 임베딩과의 융합 실험에서는 ‘대체(Replacement)’ 전략이 가장 좋은 결과를 냈다. 이는 충분히 풍부한 의미 임베딩이 협업 신호를 대체할 수 있음을 의미하며, 복합(concatenation)이나 정렬(alignment) 방식은 오히려 차원 폭증이나 학습 불안정을 초래한다.
마지막 순차 모델링 단계에서는 GRU4Rec, BERT4Rec, SASRec 세 모델을 적용했으며, SASRec이 가장 높은 성능을 보였다. 이는 Transformer 기반 모델이 고차원 의미 임베딩을 효과적으로 활용할 수 있기 때문이다.
전체 실험 결과는 각 모듈별 최적 설계 선택지를 조합했을 때, 기존 LLM 기반 추천 방법보다 평균 12~19% 수준의 상대적 성능 향상을 달성함을 보여준다. 특히, 복잡한 아키텍처 설계 없이도 모듈별 베스트 프랙티스를 체계적으로 식별·조합함으로써 실용적인 성능 개선이 가능함을 입증한다.
댓글 및 학술 토론
Loading comments...
의견 남기기