광고 영상 이해를 위한 구조화된 추론 프레임워크 AD‑MIR

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

AD‑MIR은 광고 영상의 시각·음성·텍스트 정보를 구조화된 데이터베이스로 변환한 뒤, 마케팅 전문가 역할을 하는 추론 에이전트가 반복적인 질의‑응답 루프를 통해 설득 전략을 해석하고, 각 단계에서 프레임 수준의 시각적 증거를 검증함으로써 기존 일반 영상 모델보다 높은 정확도를 달성한다.

상세 분석

본 논문은 광고 영상이라는 특수 도메인에서 “무엇이 일어났는가”(perception)와 “왜 일어났는가”(intent) 사이의 인지 격차를 메우기 위해 두 단계 아키텍처를 제안한다. 첫 번째 단계인 Structure‑Aware Memory Construction은 원시 비디오를 시간적 클립으로 분할하고, 각각에 대해 대형 비전‑언어 모델(VLM)과 Whisper 기반 음성 인식기를 활용해 시각적 내러티브와 자막을 생성한다. 여기서 핵심은 밀집 의미 임베딩과 정확한 키워드 매칭을 선형 결합한 하이브리드 점수 S(Q, cᵢ) = cos + β·K 로 관련 클립을 재검색함으로써 브랜드 로고, 슬로건 등 미세한 마케팅 단서를 놓치지 않는 것이다.

두 번째 단계인 Structured Reasoning Agent는 ReAct 스타일의 “Think‑Act‑Observe” 루프를 채택한다. 질의의 성격에 따라 사실 확인용 perception tool(프레임 검사, OCR, 객체 탐지)과 설득 전략 분석용 communication expert(마케팅 심리학, 레토릭 분석) 중 적절한 도구를 동적으로 선택한다. 특히, 에이전트는 자체 검증 메커니즘을 통해 고수준 가설을 구체적인 프레임(예: 00:04 초의 “Sprint my order” OCR)과 매칭시키고, 증거가 부족하면 자동으로 백트랙하여 재추론한다. 이 과정은 POMDP 기반의 정책 π(aₜ|Hₜ₋₁, oₜ; Θ) 를 프롬프트 기반 인‑컨텍스트 학습으로 구현함으로써 파라미터 업데이트 없이도 긴 영상에 대한 장기 기억을 유지한다.

구조화된 메모리 레이어는 전역 브라우징, 희소 샘플링, 그리고 주제‑인물 레지스트리(S_reg) 를 포함한다. S_reg은 GPT‑4o를 이용해 인물별 풍부한 의미 프로필을 생성하고, 추론 시 동적 활성화 전략으로 현재 질의와 연관된 주인공만을 선택한다. 이는 광고에서 흔히 나타나는 다중 인물·배경 잡음 문제를 효과적으로 억제한다.

실험은 광고 QA 벤치마크인 AdsQA에서 수행되었으며, AD‑MIR은 기존 일반 목적 비디오 에이전트 DVD 대비 strict 정확도 +1.8%, relaxed 정확도 +9.5%를 기록했다. 특히, 설득 전략(감정 호소, 은유, 상징)에 대한 질문에서 기존 모델이 빈번히 발생시키던 “hallucination”을 크게 감소시켰다. 코드와 데이터 파이프라인이 공개돼 재현 가능성도 확보하였다.

요약하면, AD‑MIR은 (1) 하이브리드 의미‑키워드 검색을 통한 정밀 메모리 구축, (2) 도메인‑전문 툴을 활용한 단계적 추론, (3) 시각적 증거 기반 자기 교정이라는 세 축을 결합해 광고 영상 이해의 핵심 과제인 “시각 → 설득” 변환을 성공적으로 구현한다.

광고 영상 이해를 위한 구조화된 추론 프레임워크 AD‑MIR

초록

상세 분석

댓글 및 학술 토론

의견 남기기