길이 인식 샘플링으로 더 안정적인 트래젝토리 생성 모델

2026년 02월 04일

읽는 시간: 8 분

...

#paper #AI 요약

📝 원문 정보

- Title: Length-Aware Adversarial Training for Variable-Length Trajectories Digital Twins for Mall Shopper Paths
- ArXiv ID: 2601.01663
- 발행일: 2026-01-04
- 저자: He Sun, Jiwoong Shin, Ravi Dhar

📝 초록

이 논문은 다양한 영역에서 시뮬레이션과 역사적 분석을 위한 실제적인 경로와 순서 모델 학습의 중요성을 강조한다. 특히, 이동성 분석, 추천 시스템, 교육 분야에서의 순차적인 결정 로그 등에서 길이가 다양한 트래JECTORY를 처리하는 데에 어려움이 있다. 이러한 문제를 해결하기 위해 제안된 방법은 길이 인식 샘플링(LAS) 기법으로, 이는 미니배치 내의 길이 다양성을 통제하고 생성자/판별자의 업데이트를 더 일관되게 만드는 트레이닝 시 개입이다. 또한, LAS와 조건부 트래JECTORY GAN 및 보조 시간 정렬 손실을 결합하여 트래JECTORY 데이터용 디지털 트윈을 구축한다.

💡 논문 해설

1. **길이 인식 샘플링 (LAS)의 도입**: 이 논문에서 제안한 LAS는 길이가 다양한 미니배치를 처리하는 데에 있어 중요한 역할을 한다. 이를 통해 길이와 관련된 신호만을 집중시키지 않고, 실제 행동 구조를 학습할 수 있다. 이것은 마치 다양한 크기의 옷을 한 번에 입는 대신, 같은 사이즈의 옷끼리 모아서 입듯이 작동한다. 2. **분포 일치 평가**: 트래JECTORY에서 도출된 통계량의 분포를 일치시키는 것을 목표로 한다. 이를 통해 생성된 시퀀스와 실제 시퀀스 사이에 중요한 차이를 줄일 수 있다. 이는 마치 두 그룹의 사람들이 같은 장소에서 사진을 찍었을 때, 그들의 위치가 동일하게 분포되어야 한다고 생각할 수 있다. 3. **이론적 배경**: LAS가 어떻게 길이에 따른 통계량의 분포를 더 잘 일치시키는지 설명하는 이론적 근거를 제시한다. 이것은 마치 운동을 할 때, 각 부분을 집중적으로 운동하여 전체적인 균형을 맞추듯이 작용한다.

📄 논문 발췌 (ArXiv Source)

# 소개

실제 트래JECTORY와 시퀀스 모델 – 그리고 점점 더 중요해지는 시뮬레이션과 역사적 분석을 위한 트래JECTORY 생성기 – 은 이동성 분석, 추천 시스템, 교육 분야에서의 순차적인 결정 로그와 같은 다양한 영역에서 중요한 역할을 한다. 이러한 설정들 사이에 공유되는 주요 어려움 중 하나는 가변 길이 트래JECTORY이다: 실제 시퀀스는 몇 단계에서 수백 단계까지 다양하게 변하며, 길이는 종종 다른 특성(예: 체류 시간, 이벤트 간 시간 또는 항목/카테고리 다양성)과 강하게 관련되어 있다.

실제로, 우리는 확률적 미니배치를 사용하여 딥 생성 모델을 학습한다. 트래JECTORY 길이가 크게 다르다면, 매우 짧은 시퀀스와 매우 긴 시퀀스가 혼합되면서 판별자/평가자가 길이에 따라 신호를 활용하는 경향이 생기고, 내부 행동 구조보다 길이만을 집중한다. 이는 특히 분포 일치를 위한 트래JECTORY에서 도출된 변수 – 전체 시퀀스로부터 계산되는 통계량(예: 총 지속 시간, 평균 단계별 시간, 전환 구조 또는 엔트로피 같은 측정값) – 에서 특히 치명적이다. 결과적으로, 적대적 목표는 향상될 수 있지만 중요한 도출 변수의 분포가 여전히 일치하지 않아, 후속 시뮬레이션에서 정확도를 제한한다.

이 문제를 해결하기 위해 길이 인식 샘플링(LAS) 방안을 제시한다. 이는 (i) 트래JECTORY를 길이 버킷으로 분할하고 (ii) 각 미니배치를 단일 버킷에서 추출하는 것이다. LAS는 모델 변경 없이 학습 시 개입이며, 배치 내 길이 다양성을 통제하고 실제 업데이트에서 생성자/판별자 업데이트를 더 일관되게 만든다. 우리는 LAS와 조건부 트래JECTORY GAN 및 보조 시간 정렬 손실을 결합하여 트래JECTORY 데이터용 디지털 트윈을 구축한다 – 시나리오 변수에 조건부로 조정할 수 있는 생성자를 통해 역사적 시뮬레이션을 지원한다.

쇼핑몰 디지털 트윈: 동기 부여 사례 연구

쇼핑몰은 여전히 가장 데이터가 풍부하지만 최적화되지 않은 물리적인 시장 중 하나이다. 우리는 네 개의 대형 쇼핑몰에서 수집된 익명화된 발자국 트래JECTORY를 포함하는 독점 데이터셋을 연구하고, “어떤 상점이 닫히거나 입주 업체 구성이 바뀌면 체류 시간과 방문 분포가 어떻게 변화할까?“와 같은 역사적 질문들을 조사한다. 쇼핑몰 적용 사례는 이 논문을 동기 부여하지만, 우리의 방법론 및 평가는 도메인에 무관하며 추가적인 공개 시퀀스 데이터셋에서 검증된다.

기여

트래JECTORY 생성과 도출된 변수 분포 일치를 평가 목표로 정의한다.
**길이 인식 샘플링(LAS)**이라는 간단한 길이 버킷 배치 전략을 제안하고, GAN 학습에 어떻게 통합할 수 있는지 보여준다.
이론: (i) 유계성과 제어된 학습 손실 하에서 도출된 변수 분포의 워터스틴 경계와 (ii) LAS가 길이만을 활용하는 판별자를 제거하고 버킷 내 차이를 목표로 함으로써 분포 일치를 개선하는 IPM/워터스틴 메커니즘을 설명한다. -LAS가 무작위 샘플링보다 우수한 성능을 보이는 여러 쇼핑몰 데이터셋과 공개 시퀀스 데이터셋에서 경험적 증거를 제공한다.

문제 설정

우리는 가변 길이 트래JECTORY의 조건부 생성을 고려한다. 트래JECTORY는 시퀀스

MATH

x=\{(j_t,\tau_t^{(\mathrm{intra})},\tau_t^{(\mathrm{inter})})\}_{t=1}^{T},

클릭하여 더 보기

여기서 $`j_t`$는 이산 위치/항목 식별자이고, $`\tau_t^{(\mathrm{intra})}`$은 단계 $`t`$에서의 체류 시간이며, $`\tau_t^{(\mathrm{inter})}`$은 다음 단계로의 전환 시간이다. 길이 $`T`$는 트래JECTORY 간에 다릅니다.

조건부 생성

각 트래JECTORY는 관찰된 컨텍스트 $`c`$(예: 입장 시간, 사용자 세그먼트, 시나리오 변수)와 연결되어 있다. $`p_{\mathrm{data}}(x\mid c)`$를 실제 조건부 분포라 하고, $`p_G(x\mid c)`$를 생성기 분포라고 하자. 우리의 목표는 $`p_G`$를 학습하여 생성된 트래JECTORY가 실제 분포와 일치되도록 하는 것이다.

도출된 변수 및 평가

$`f:\mathcal{X}\to\mathbb{R}`$를 전체 트래JECTORY에서 계산되는 스칼라 도출변수라고 하자(예: 총 지속 시간, 평균 체류 시간, 방문 횟수, 카테고리 엔트로피 또는 데이터셋별 통계량). $`P_f`$와 $`Q_f`$를 각각 $`x\sim p_{\mathrm{data}}(\cdot\mid c)`$ 및 $`x\sim p_G(\cdot\mid c)`$일 때의 $`f(x)`$ 분포라고 하자(적절한 경우 $`c`$에 대한 적분). 우리는 이러한 거리 측정을 사용하여 분포 불일치를 측정한다: 연속 변수인 경우 워터스틴-1을, 이산/히스토그램 변수인 경우 이산화 후 KL/JS 발산을 사용한다. 쇼핑몰 도메인에서는 체류 시간, 전환 및 방문 패턴을 포착하는 광범위한 도출변수를 보고하며 다른 도메인에서는 데이터셋별로 정의된 간결한 집합의 도출변수를 사용한다.

방법

조건부 트래JECTORY GAN

우리는 $`p_G(x\mid c)`$을 조건부 생성기 $`G_\theta`$와 판별자(평가자) $`D_\phi`$로 구현한다. 주요 아키텍처 구성 요소를 아래에 요약하고 자세한 내용은 부록 8을 참조한다.

아키텍처 요약

우리는 세 단계 설계를 사용한다: (1) 주의 기반 이웃 융합이 포함된 매장 특성 임베딩, (2) 다음 매장을 출력하는 LSTM 기반 조건부 생성기 및 타이밍 헤드, 그리고 (3) 전체 시퀀스에 대한 양방향 LSTM 판별자/평가자.

매장과 컨텍스트 인코딩

우리는 각 쇼핑몰을 노드가 매장이고 공간 인접성이 에지인 그래프 $`G=(V,E)`$로 표현한다. 각 매장 $`v_i`$는 특성 벡터 $`\mathbf{x}_i`$(매장 ID, 층수, 카테고리, 트래픽/오픈 특성 및 이웃 통계; 부록 8 참조)를 갖는다. 학습된 인코더는 $`\mathbf{x}_i`$를 임베딩 $`\mathbf{e}_i\in\mathbb{R}^{d_e}`$로 매핑하고 주의 메커니즘을 통해 이웃 정보를 융합한다.

MATH

\tilde{\mathbf{e}}_i 
= \mathbf{e}_i + \sum_{j\in\mathcal{N}(i)} \alpha_{ij}\,\mathbf{W}\mathbf{e}_j,
\qquad
\alpha_{ij}=\mathrm{softmax}_{j}\big(\mathbf{q}_i^\top \mathbf{k}_j\big),

클릭하여 더 보기

이로써 컨텍스트에 따른 매장 표현 $`\tilde{\mathbf{e}}_i`$를 얻는다. 쇼핑몰 수준의 일별 컨텍스트 $`c`$(일정/캠페인/날씨 지표)는 각 단계에서 생성기 입력에 이MBEDDING되고 결합된다.

생성자 및 판별자 헤드

단계 $`t`$에서 생성기는 이전 은닉 상태, 이전 방문 매장 임베딩 및 컨텍스트 $`c`$를 조건부로 다음 매장을 출력하는 카테고리 분포(다иффер런시얼성을 위해 Gumbel-Softmax 완화를 사용)와 별도의 회귀 헤드를 통해 비음성 내부 및 외부 매장 시간을 생성한다. 판별자는 전체 시퀀스에 대한 양방향 LSTM을 처리하고 시퀀스 레벨 실재 점수를 출력한다.

학습 목표

우리는 비포화 GAN 목표를 사용한다:

MATH

\mathcal{L}_D(\phi)
=
-\mathbb{E}_{x\sim p_{\mathrm{data}}}\big[\log D_\phi(x)\big]
-\mathbb{E}_{\hat{x}\sim p_G}\big[\log(1-D_\phi(\hat{x}))\big],

클릭하여 더 보기

MATH

\mathcal{L}_{\mathrm{adv}}(\theta)
=
-\mathbb{E}_{\hat{x}\sim p_G}\big[\log D_\phi(\hat{x})\big].

클릭하여 더 보기

타이밍 통계량을 더 잘 맞추기 위해 보조 시간 손실(부록 9 참조)을 추가한다:

MATH

\mathcal{L}_G(\theta)
=
\mathcal{L}_{\mathrm{adv}}(\theta)
+
\lambda_{\mathrm{time}}\Big(\mathcal{L}_{\mathrm{intra}}+\mathcal{L}_{\mathrm{inter}}\Big),

클릭하여 더 보기

길이 $`T`$의 실제 트래JECTORY와 길이 $`\hat{T}`$의 생성된 트래JECTORY에 대해,

MATH

\mathcal{L}_{\mathrm{intra}}
=
\frac{1}{\min(T,\hat{T})}\sum_{t=1}^{\min(T,\hat{T})}
\left|\hat{\tau}_t^{(\mathrm{intra})}-\tau_t^{(\mathrm{intra})}\right|,

클릭하여 더 보기

MATH

\mathcal{L}_{\mathrm{inter}}
=
\frac{1}{\min(T,\hat{T})}\sum_{t=1}^{\min(T,\hat{T})}
\left|\hat{\tau}_t^{(\mathrm{inter})}-\tau_t^{(\mathrm{inter})}\right|.

클릭하여 더 보기

우리는 $`\phi`$와 $`\theta`$에 대한 교대 경사 업데이트를 수행한다(부록 10 참조).

데이터셋별 목표

쇼핑몰 도메인에서는 적대적 손실과 위의 보조 내/외 시간 정렬 항목을 함께 사용하여 학습한다. 공개 시퀀스 데이터셋에 대해선 쇼핑몰 특수한 시간 손실을 사용하지 않고 대신 해당 데이터셋에 맞는 적대적 목표를 사용한다: 교육과 GPS는 각 예제를 시퀀스로 처리하고 판별자가 타이밍/구조를 암묵적으로 학습하도록 하는 표준 적대적 손실을 사용하며, 영화는 특징 일치 정규화 항목(feature_matching_loss)을 추가한 적대적 손실을 사용하고, 아마존은 훈련 안정성을 개선하기 위해 워터스틴(WGAN 스타일) 목표를 사용한다. 전체 손실 정의는 부록 9 참조.

학습 절차 및 복잡도

각 반복은 RS 또는 LAS(제4장 섹션 3)를 사용하여 실제 트래JECTORY의 미니배치를 샘플링하고, $`G_\theta`$로부터 일치하는 미니배치를 생성하며, $`D_\phi`$와 $`G_\theta`$에 대한 교대 업데이트를 수행한다. 주된 비용은 최대 길이가 $`T_{\max}`$인 $`B`$ 시퀀스에 대한 전방/역방향 패스로, 즉 아키텍처 종속 상수까지 $`O(BT_{\max})`$ 업데이트당이며 LAS는 버킷 샘플링을 위한 작은 부가적인 관리 비용만 추가한다.

길이 인식 샘플링 (LAS)

길이 $`\ell(x)=T`$를 트래JECTORY의 길이라고 하자. 학습 세트를 길이 양분에 따라 $`K`$ 개의 길이 버킷 $`\{\mathcal{D}_k\}_{k=1}^K`$로 분할한다. LAS는 각 미니배치를 단일 버킷에서 샘플링한다: 먼저 버켓 인덱스 $`K_s \sim w`$(가중치 $`w_k`$)를 샘플링하고, 그 다음 $`\mathcal{D}_{K_s}`$에서 모든 $`m`$ 개의 예제를 균일하게 샘플링한다. 실험에서는 경험적 버켓 혼합 $`w_k \propto p_k`$, 여기서 $`p_k := |\mathcal{D}_k|/|\mathcal{D}|`$가 경험적 버킷 질량이다. 이를 통해 배치 내 길이 다양성을 제거하고 판별자/생성자 업데이트를 더 일관되게 만들지만, 학습 과정에서 모든 길이에 노출된다.

버켓 인덱스 $`k \sim \text{Categorical}(w_1,\dots,w_K)`$ 샘플링
$`x_1,\dots,x_m \sim \text{Unif}(\mathcal{D}_k)`$ 샘플링
$`\mathcal{B}=\{x_i\}_{i=1}^m`$

이론

우리는 두 가지 유형의 결과를 제시한다: (i) 도출 변수에 대한 분포 수준 경계, 그리고 (ii) 길이만을 활용하는 판별자를 제거하고 버킷 내 차이점을 대상으로 함으로써 분포 일치를 개선하는 IPM/워터스틴 메커니즘.

가정

가정 1 (유계성 및 제어된 학습 손실).
(i) 트래JECTORY 길이는 유계이다: $`T\le T_{\max}`$ 거의 확실히.
(ii) 단계별 시간 기여는 유계이다: 모든 $`t`$에 대해, $`0\le \tau_t^{(\mathrm{intra})}+\tau_t^{(\mathrm{inter})}\le B`$.
(iii) 학습 후 시퀀스 수준 발산 및 보조 손실이 제어된다:

MATH

\begin{aligned}
\mathrm{JS}(p_{\mathrm{data}}\Vert p_G) &\le \delta,\\
\mathcal{L}_{\mathrm{intra}} &\le \epsilon_{\mathrm{intra}},\\
\mathcal{L}_{\mathrm{inter}} &\le \epsilon_{\mathrm{inter}}.
\end{aligned}
```*

</div>

$`C_{\mathrm{JS}}`$는 $`\mathrm{TV}(P,Q)\le C_{\mathrm{JS}}\sqrt{\mathrm{JS}(P\Vert Q)}`$을 만족하는 보편 상수라고 하자.

## 도출된 변수 분포 경계

쇼핑몰 도메인에서 사용한 도출변수(부록 <a href="#app:theory_full" data-reference-type="ref"
data-reference="app:theory_full">11</a> 참조):
``` math
\begin{aligned}
\mathrm{Tot}(x)
&=\sum_{t=1}^{T}\tau_t^{(\mathrm{intra})}
  +\sum_{t=1}^{T-1}\tau_t^{(\mathrm{inter})},\\
\mathrm{Avg}(x)
&=\frac{1}{T}\sum_{t=1}^{T}\tau_t^{(\mathrm{intra})},\\
\mathrm{Vis}(x)
&=T.
\end{aligned}

클릭하여 더 보기

그리고 일반적으로 스칼라 $`f(x)`$에 대한 경계를 사용한다.

ArXiv 원문 PDF 보기