비디오 모델의 출력 반복 현상 체계적 평가와 스트레스 테스트

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

VideoSTF는 비디오 대형 언어 모델(VideoLLM)에서 발생하는 출력 반복 현상을 정량화하고, 시간적 변형을 이용해 스트레스 테스트하는 최초의 프레임워크이다. 3가지 n‑gram 기반 메트릭(반복률, 반복 강도, 정보 엔트로피)과 10,000개의 다양한 비디오 테스트베드, 그리고 프레임 삽입·삭제·대체·역전·셔플링을 포함한 시간적 스트레스 라이브러리를 제공한다. 10개 모델에 대한 실험 결과, 출력 반복이 널리 존재하며 특히 시간적 교란에 매우 민감함을 밝혀냈으며, 이러한 현상이 블랙박스 공격으로도 쉽게 유발될 수 있음을 입증한다.

상세 분석

본 논문은 비디오‑텍스트 생성 모델에서 “출력 반복”이라는 기존 평가 지표가 포착하지 못한 심각한 생성 오류를 체계적으로 규명한다. 먼저, 반복 현상을 n‑gram 기반 3가지 메트릭으로 정량화한다. ‘반복률(RR)’은 최소 하나의 n‑gram이 두 번 이상 등장했는지를 이진화해 전체 샘플 중 비율을 산출하고, ‘반복 강도(RI)’는 전체 n‑gram 중 중복된 비율을 평균해 반복의 정도를 측정한다. ‘정보 엔트로피(IE)’는 n‑gram 확률 분포의 정규화 엔트로피를 이용해 어휘 다양성 감소 정도를 파악한다. n = 5를 기본으로 설정한 RR은 의미 있는 구문 반복을 포착하고, RI와 IE는 unigram을 사용해 반복 초기에 민감하게 반응한다는 설계적 선택이 눈에 띈다.

데이터 측면에서는 LLaVA‑Video‑178K, Next‑QA, ActivityNetQA, LLaVA‑Hound 등 네 개 공개 데이터셋에서 무작위 추출한 10,000개의 비디오를 수집해, 길이(최대 180 초)와 내용(코미디, 라이프스타일, 스포츠 등)에서 높은 다양성을 확보한다. 이는 실제 서비스 환경에서 모델이 마주할 다양한 시간적·시맨틱 상황을 대변한다.

시간적 스트레스 라이브러리는 ‘Add’, ‘Delete’, ‘Replace’, ‘Reverse’, ‘Shuffle’ 다섯 가지 변환을 정의한다. 각 변환은 프레임 순서를 교란하거나 삽입·삭제함으로써 시각적 의미는 유지하면서도 시간적 구조만을 변형한다. 이러한 설계는 비디오‑언어 모델이 시계열 정보를 어떻게 인코딩하고, 그 인코딩이 언어 디코딩에 어떤 영향을 미치는지를 정밀하게 탐색할 수 있게 한다.

실험에서는 LLaVA‑Video‑7B‑Qwen2, LLaVA‑NeXT‑7B‑DPO, VideoLLaMA2, ShareGPT‑4V, InternVL3.5‑8B, Qwen3‑VL‑8B‑Instruct, Molmo2‑8B 등 10개 최신 모델을 deterministic 설정(temperature = 0, do_sample = False)에서 평가한다. ‘프레임 샘플링 수’를 8, 16, 24, 32로 변동시켜도 대부분 모델에서 반복률이 크게 변하지 않으며, 특히 프레임이 반복되는 장면이 많은 비디오에서 “continues to”와 같은 고정 구문이 반복되는 경향을 보인다.

시간적 스트레스 테스트 결과, 변환 후 반복률이 원본 대비 30 %~90 %까지 급증한다. 특히 ‘Shuffle’과 ‘Reverse’는 모델이 시간적 일관성을 상실했을 때 반복 현상이 폭발적으로 나타나는 트리거 역할을 한다. 이는 모델이 프레임 간 연관성을 과도하게 의존하고, 시계열 교란 시 내부 상태가 고정 루프에 빠지는 구조적 취약점을 시사한다.

블랙박스 공격 실험에서는 변환된 비디오를 몇 차례(수십 회) 질의만으로도 정상 출력을 보이던 비디오를 반복 출력으로 전환시킬 수 있음을 입증한다. 이는 서비스 차원에서 악의적인 사용자가 간단한 프레임 재배열만으로 모델의 연산 자원을 고갈시키는 ‘Denial‑of‑Service’ 공격이 가능함을 의미한다.

종합적으로, 논문은 (1) 출력 반복을 정량화하는 메트릭 체계, (2) 대규모 표준 테스트베드, (3) 시간적 스트레스 라이브러리라는 세 축을 통해 기존 평가에서 놓친 안정성 문제를 드러냈다. 다만, 메트릭이 n‑gram에 기반해 언어적 반복에 초점을 맞추므로, 시각적 반복(예: 동일 프레임 연속)과의 연관성을 별도 분석하지 않은 점은 향후 연구 과제로 남는다. 또한, 현재는 deterministic 디코딩만을 대상으로 했으므로, 샘플링 기반 디코딩에서의 반복 억제 효과나 온도 파라미터와의 상관관계는 추가 검증이 필요하다.

비디오 모델의 출력 반복 현상 체계적 평가와 스트레스 테스트

초록

상세 분석

댓글 및 학술 토론

의견 남기기