- Title: MergeRec Model Merging for Data-Isolated Cross-Domain Sequential Recommendation
- ArXiv ID: 2601.01753
- 발행일: 2026-01-05
- 저자: Hyunsoo Kim, Jaewan Moon, Seongmin Park, Jongwuk Lee
📝 초록
현대의 추천 시스템은 도메인별 데이터를 기반으로 학습되지만, 여러 도메인 간에 일반화하는 데 어려움을 겪는다. 도메인 간 순차적 추천은 이러한 문제점을 해결하기 위한 유망한 연구 방향으로 부상했지만, 기존 접근법들은 도메인 간 중복 사용자나 항목의존성 또는 프라이버시 제약을 무시하는 비현실적인 가정과 같은 근본적인 한계를 가지고 있다. 본 논문에서는 새로운 문제 설정인 데이터 고립된 도메인 간 순차적 추천 하에서 모델 합병에 기반한 새 프레임워크, MergeRec을 제안한다. 이 설정에서는 원시 사용자 상호작용 데이터가 도메인 간 공유되지 않는다. MergeRec은 세 가지 주요 구성 요소로 이루어져 있다: (1) 합병 초기화, (2) 가상 사용자 데이터 생성, (3) 공동 합병 최적화. 먼저, 우리는 트레이닝 없는 합병 기법을 통해 합병 모델을 초기화한다. 그다음으로 각 도메인에서 항목별로 가상 시퀀스를 만들어 실제 사용자 상호작용에 의존하지 않고 의미 있는 훈련 샘플을 생성한다. 마지막으로, 우리는 추천 손실과 디스티ல레이션 손실을 결합한 공동 목표를 통해 도메인별 합병 가중치를 최적화한다. 이 두 가지 손실은 각각 합병 모델이 관련 항목을 식별하도록 유도하고, 조정된 소스 모델에서 협업 필터링 신호를 전달한다. 광범위한 실험 결과 MergeRec은 원래 모델들의 강점을 유지하면서 새로운 도메인에 대한 일반화 능력을 크게 향상시킨다. 기존의 모델 합병 방법들과 비교했을 때, MergeRec은 평균적으로 Recall@10에서 최대 17.21%까지 개선되는 우수한 성능을 일관되게 보여주어, 모델 합병이 대규모 추천 시스템 구축에 효과적인 접근법임을 입증한다. 소스 코드는 https://github.com/DIALLab-SKKU/MergeRec에서 이용 가능하다.
💡 논문 해설
**1. 철저한 실증 분석**
- 추천 시스템에서 엔트로피 기반 최적화는 컴퓨터 비전이나 자연어 처리에서는 효과적이지만, 다중 의도 행동 패턴을 포착하는 데 실패한다는 것을 보여줍니다. 이는 마치 한 종류의 음식만 먹으면서 다양한 맛을 체험하려고 하는 것과 같습니다.
2. 추천 시스템을 위한 최초의 모델 병합 프레임워크
MergeRec은 작업 벡터를 기반으로 한 모델 병합 프레임워크로, 개인화된 데이터 없이도 효과적인 추천을 가능하게 합니다. 이는 마치 각자의 특성을 가진 친구들이 함께 놀아나면서 서로의 장점을 공유하는 것과 같습니다.
3. 포괄적인 평가
다양한 실험을 통해 MergeRec은 기존 병합 방법들보다 우수한 성능을 보여주며, 특히 새로운 도메인에도 효과적으로 일반화된다는 것을 입증합니다. 이는 마치 여러 종류의 음식에 적응하는 능력 있는 요리사와 같습니다.
📄 논문 발췌 (ArXiv Source)
<ccs2012> <concept>
<concept_id>10002951.10003317.10003347.10003350</concept_id>
<concept_desc>정보 시스템 추천 시스템</concept_desc>
<concept_significance>500</concept_significance> </concept>
</ccs2012>
서론
다중 도메인에서 순차적 추천의 훈련 및 검증 사용자 시퀀스를 보여주는 그림. 각 검증 사용자 시퀀스(검은 상자)는 훈련 기간(파란색 상자)의 모든 이전 상호작용을 포함하며, 실제 세계 시나리오에서 검증 데이터가 훈련 데이터의 초집합임을 강조합니다.
순차적 추천(SR)은 사용자의 상호 작용 기록을 바탕으로 다음에 선호할 가능성이 있는 항목을 예측하는 것을 목표로 합니다. 최근 신경망 SR 모델들은 다양한 아키텍처를 활용하여 항목 간 순차적인 종속성을 효과적으로 포착하려고 노력하고 있습니다. 그러나 여전히 차가운 시작(cold-start) 및 데이터 희소성 문제와 같은 내재적 한계를 극복하지 못한 채, 일반화 능력과 전체 성능이 제한받고 있습니다.
다중 도메인 순차 추천(CDSR)은 연구 방향으로 부상하고 있습니다. CDSR은 여러 도메인에서 모델을 함께 학습하거나 데이터가 풍부한 도메인에서 더 희박한 도메인으로 지식을 전달함으로써 추천 정확도를 개선하려고 합니다. 그러나 현재의 CDSR 작업들은 세 가지 기본적인 제약점을 가지고 있습니다.
사용자/항목 겹침 의존성: 지식 전달은 일반적으로 도메인 간에 겹치는 사용자 또는 항목의 존재를 필요로 합니다. 하지만 실제 세계에서는 이러한 겹침이 매우 제한적입니다. 우리는 8개의 아마존 도메인에서 겹치는 사용자가 16명이고 항목은 전혀 없다는 것을 관찰했습니다.
데이터 고립: 실제 시나리오에서는 조직 경계 또는 개인 정보 보호 규정으로 인해 원시 사용자 데이터에 대한 접근이 제한됩니다. 사용자 로그에는 민감한 정보가 포함되어 있어 도메인 간 공유할 수 없으며, 이로 인해 도메인별 훈련 데이터에 접근할 수 없습니다.
저런 확장성: 여러 도메인에서 함께 학습하는 것은 상당한 계산 부담을 초래하여 대규모 배포가 불가능합니다. 따라서 대부분의 기존 작업은 두 개 또는 세 개의 도메인만 통합하는 데 한정되어 있으며, 대규모 다중 도메인 통합이 여전히 해결되지 않은 상태입니다.
우리는 모델 병합이 만능 추천 시스템을 구축하기 위한 효과적인 대안이라고 제안합니다. 모델 병합은 여러 도메인 또는 작업에 특화된 모델에서 조정된 파라미터를 하나의 통합된 모델로 통합하는 것입니다. 이러한 패러다임은 CDSR의 주요한 한계점들을 직접적으로 해결하는데 다음과 같은 장점을 제공합니다.
도메인 간 겹치는 사용자나 항목이 필요하지 않습니다.
민감한 상호작용 데이터가 아닌 모델 파라미터만 필요한 것으로 개인 정보를 자연스럽게 보존합니다.
여러 도메인에서 함께 학습하는 계산 부담을 피함으로써 높은 확장성을 달성합니다.
본 논문에서는 새로운, 현실적인 문제 설정인 데이터 고립 CDSR 하에서 모델 병합을 적용할 수 있는 가능성에 대해 탐구합니다. 이 설정은 실제 세계의 제약사항을 동기로 삼습니다. 여기서 사용자 상호작용 데이터는 도메인별 모델 훈련에만 사용될 수 있으며, 도메인 간 공유하거나 이후에 접근할 수 없습니다. 기존 CDSR과 달리, 데이터 고립 CDSR은 겹치지 않는 도메인을 허용합니다. 또한 개인 정보 보호를 위한 CDSR은 일반적으로 모델 최적화 과정에서 도메인별 상호작용 데이터에 접근해야 하지만, 데이터 고립 CDSR은 사용자 상호작용 데이터에 전혀 접근하지 않고도 만능 다중 도메인 추천 시스템을 구축할 수 있어 더 강력한 개인 정보 보호를 제공합니다.
이런 설정 하에서는, 기존 모델 병합 방법을 직접 적용하는 것은 두 가지 주요 이유로 쉽지 않습니다. 첫째, 상호 작용 데이터가 도메인 간 공유되지 않기 때문에 테스트 시 적응 방안들이 통상적으로 사용되는 병합 가중치를 최적화하기 위한 모델 병합 패러다임에서는 적용할 수 없습니다. 둘째, 심지어 테스트 데이터가 접근 가능하다고 해도 순차 추천에서 테스트 시퀀스를 활용하는 것은 모델 병합의 핵심 가정을 위반합니다. 모델 병합 패러다임은 명시적으로 훈련 데이터 사용을 금지하지만, 이러한 가정이 순차 추천 시스템에서는 성립하지 않습니다. 이런 시스템에서 테스트 시퀀스는 훈련 데이터로부터 독립적이지 않고 같은 진화하는 사용자 행동으로부터 생성됩니다. 따라서 병합 과정 중 테스트 시점의 사용자 상호 작용 시퀀스를 활용하면 훈련 정보가 불가피하게 노출되게 됩니다(그림 1). 따라서 데이터 고립 CDSR 설정에서는 테스트 데이터를 모델 병합에 활용하는 것이 근본적으로 호환되지 않습니다.
이를 위해 우리는 데이터 고립 CDSR을 위한 새롭게 설계된 프레임워크인 MergeRec을 제안합니다. MergeRec은 세 가지 핵심 구성 요소로 구성됩니다.
병합 초기화, 2) 가상 사용자 데이터 생성, 및 3) 협업 병합 최적화. 먼저 우리는 각 도메인의 특성을 포착하는 데 사용되는 전처리 모델과 조정된 모델 간의 파라미터 차이로 정의된 작업 벡터를 기반으로 훈련 없는 병합 방법을 통해 초기 병합 모델을 합성합니다. 다음으로, 우리는 각 도메인에서 항목을 개별 시퀀스로 취급하여 가상 사용자 데이터를 생성합니다. 이는 간단하지만 MergeRec은 실제 사용자 데이터에 의존하지 않고도 병합 도메인을 위한 의미 있는 샘플을 구성하고 도메인 간 차가운 시작 사용자를 효과적으로 시뮬레이션할 수 있습니다. 마지막으로, 우리는 추천에 초점을 맞춘 병합 목표를 통해 도메인별 병합 가중치를 세밀하게 조정합니다.
병합 추천 시스템을 위한 효과적인 목적 함수를 설계하기 위해, 이상적인 병합 모델은 두 가지 기본 요구 사항을 충족해야 한다는 것을 주장합니다. 첫째, 사용자의 다양한 의도를 디코딩할 수 있어야 합니다. 이는 종종 도메인별 순차 패턴에 반영됩니다. 둘째, 통합 모델은 각 도메인 맥락 내에서 가장 클릭 가능성이 높은 항목을 정확하게 우선시하는 강력한 순위 매기기 능력을 갖추어야 합니다. 우리는 기존의 적응형 병합 방법, 즉 AdaMerging이 이러한 측면 중 후자만 다루며 따라서 추천 시스템 병합에 부족하다는 것을 지적합니다(장 3).
이 한계를 극복하기 위해, 우리는 다음과 같은 결합 목적 함수를 제안합니다.
디스트리뷰션 손실은 조정된 모델의 예측 분포를 부드러운 라벨로 활용하고,
추천 손실은 각 도메인에서 가상 사용자에 대해 조정된 모델이 상위 1개 항목을 예측한 것을 히든 라벨로 취급합니다. 디스트리뷰션 손실은 조정된 모델로부터 협업 필터링(CF) 신호를 병합 모델로 전달하고, 추천 손실은 클릭 가능성이 가장 높은 항목에 따라 정확하게 순위 매기도록 병합 모델을 안내합니다.
수많은 실험을 통해 MergeRec이 개별 원본 모델의 강점을 유지하면서 동시에 미개척 도메인에도 효과적으로 일반화된다는 것을 보여주었습니다. 기존 병합 방법 및 강력한 베이스라인, 특히 조정된 모델과 공동 학습 모델과 비교했을 때 MergeRec은 일관되게 우수한 성능을 나타냈습니다. 구체적으로 MergeRec은 Recall@10에서 공동 학습 및 AdaMerging에 각각 평균 8.72%와 17.21%의 개선을 보여주었습니다. 이러한 결과는 모델 병합이 만능 추천 시스템을 구축하기 위한 확장적이고 효율적인 패러다임이라는 것을 강조합니다.
우리의 기여를 요약하면 다음과 같습니다:
철저한 실증 분석: 우리는 컴퓨터 비전과 자연어 처리에서 효과적이지만, 추천 시스템에 내재된 다중 의도 행동 패턴을 포착하는 데 실패한다는 것을 입증합니다.
첫 번째 추천 시스템을 위한 모델 병합 프레임워크: MergeRec은 작업 벡터를 기반으로 한 추천 시스템을 위한 모델 병합 프레임워크입니다. MergeRec은 세 가지 핵심 구성 요소로 구성됩니다.
훈련 없는 병합 초기화, 2) 개인 정보 보호 가상 사용자 데이터 생성, 및 3) 추천에 초점을 맞춘 병합 목표.
포괄적인 평가: 다양한 실험을 통해 MergeRec은 기존 모델 병합 베이스라인을 일관되게 능가하고 미개척 도메인으로의 우수한 일반화 능력과 데이터 부족 조건 하에서 견고한 성능을 보여주었습니다.
전제
다중 도메인 순차 추천
$`\mathcal{D}=\{D_1, D_2, ..., D_K\}`$를 모든 추천 도메인의 집합으로 나타내며, 여기서 $`D_k`$는 $`k`$번째 도메인을 의미합니다. 각 도메인 $`D_k`$에는 항목들의 집합 $`\mathcal{I}_k`$와 사용자들 $`\mathcal{U}_k`$가 포함됩니다. 임의의 사용자 $`u \in \mathcal{U}_k`$에 대한 상호 작용 기록은 시간戳