맞춤형 에이전트로 짧은 동영상 필터 버블을 시뮬레이션
초록
PersonaAct은 실제 사용자 행동 로그와 자동 인터뷰를 결합해 다중모달 퍼소나를 생성하고, 이를 조건으로 한 에이전트를 학습시켜 짧은 동영상 플랫폼의 필터 버블을 정량적으로 감사한다. 실험 결과, 기존 텍스트 기반 LLM 시뮬레이터보다 행동 재현도가 크게 향상되었으며, Bilibili, Douyin, Kuaishou에서 콘텐츠 다양성 감소와 버블 탈출 가능성을 정량화했다.
상세 분석
본 논문은 짧은 동영상 플랫폼에서 개인화 추천이 초래하는 필터 버블 현상을 대규모로 감사하기 위한 새로운 시뮬레이션 프레임워크인 PersonaAct을 제안한다. 기존의 사용자 시뮬레이터는 텍스트 로그에 의존하거나 규칙 기반으로 동작해, 시각·청각 등 멀티모달 신호를 반영하지 못하고, 퍼소나 조건화가 약해 실제 사용자의 미세 행동 차이를 재현하지 못한다는 한계가 있었다. PersonaAct은 두 단계의 혁신을 통해 이 문제를 해결한다. 첫 번째 단계는 ‘자동 퍼소나 인터뷰’이다. 행동 로그에서 카테고리 분포, 시청 시간, 좋아요·댓글·공유 비율, 크리에이터 선호도 등 정량적 특성을 추출하고, 이를 기반으로 동적 질문을 생성해 사용자의 동기·관심·탐색 성향을 질의한다. 인터뷰 결과는 정량적 특성과 서술형 설명을 결합한 퍼소나 프로필(p)로 정제된다. 두 번째 단계는 퍼소나‑조건화 멀티모달 에이전트 학습이다. 영상 프레임, 오디오 전사, 메타데이터를 입력으로 하여 행동 정책 πθ(a|p, o) 를 학습한다. 학습은 먼저 실제 로그를 이용한 감독 미세조정(SFT)으로 기본 행동 매니폴드를 형성하고, 이어서 그룹 상대 정책 최적화(GRPO)라는 강화학습 기법으로 보상(Raction, Rduration, Rformat)을 최적화한다. 특히 시청 지속시간에 대한 정규화된 손실 함수(1−min(1,|d−d̂|/d))를 도입해, 짧은 동영상 특유의 ‘스킵·완전 시청’ 패턴을 정밀하게 모델링한다.
시뮬레이션 정확도 평가는 SMAPE와 MAE를 사용했으며, PersonaAct(SFT+GRPO)은 두 퍼소나 모두에서 기존 LLM 시뮬레이터 대비 SMAPE 0.617→1.161, MAE 5.10s→6.69s 등 큰 개선을 보였다. Ablation 실험에서는 퍼소나 조건을 제거했을 때 오차가 2.6% 상승, 행동 튜닝을 제거했을 때 88% 급증하는 등 두 요소가 모두 필수적임을 확인했다.
감사 실험에서는 ‘버블 폭넓이(breadth)’와 ‘버블 깊이(depth)’를 각각 콘텐츠 다양성(카테고리 수·엔트로피)와 버블 탈출 가능성(Bubble Escape Potential, BEP)으로 측정했다. Fresh account 실험에서 800회 인터랙션 후 Persona A는 20%, Persona B는 40% 정도 콘텐츠 다양성이 감소했으며, 이는 추천 알고리즘이 사용자의 초기 행동에 빠르게 적응한다는 증거다. 반면, 역퍼소나(counterfactual) 실험에서는 BEP 값을 Jensen‑Shannon divergence로 정의해, Bilibili가 가장 높은 BEP를 보여 플랫폼이 행동 변화에 가장 민감하게 반응함을 나타냈다.
기술적 기여는 세 가지로 요약된다. 첫째, 멀티모달 짧은 동영상 데이터를 공개함으로써 연구 커뮤니티에 중요한 리소스를 제공한다. 둘째, 자동 인터뷰와 강화학습을 결합한 퍼소나‑조건화 에이전트 설계로 시뮬레이션 충실도를 크게 높였다. 셋째, 순차적 카운터팩추얼 프로토콜을 통해 필터 버블의 폭과 깊이를 동시에 정량화함으로써, 플랫폼 별 알고리즘 관성(inertia)과 탈출 가능성을 비교 분석했다. 이와 같은 접근은 개인정보 보호를 유지하면서도 대규모 정책·알고리즘 감사를 가능하게 하며, 향후 다양한 미디어 환경에서 사용자 행동 시뮬레이션 및 윤리적 AI 평가에 활용될 전망이다.
댓글 및 학술 토론
Loading comments...
의견 남기기