영상에서 대화로 자가 시점 작업 지원을 위한 자동 데이터셋 구축

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 단일 인스트럭션 영상(egocentric)을 자동으로 전문가‑초보자 대화 형태로 변환하는 파이프라인을 제안하고, 이를 통해 507개의 멀티턴 대화와 24시간 분량의 영상으로 구성된 HowToDIV 데이터셋을 구축한다. LLM 기반 프롬프트 엔지니어링으로 절차적 단계 추출·대화 생성·영상 정렬을 수행하고, Gemma‑3와 Qwen‑2.5를 이용한 베이스라인 실험을 제공한다.

상세 분석

이 연구는 기존의 대규모 인스트럭션 영상 데이터(NIV, EgoPER 등)가 대화형 상호작용을 포함하지 못한다는 한계를 정확히 짚고, “Monologue‑to‑Dialogue Conversion (MDC)”이라는 자동 변환 프레임워크를 설계한다. 핵심 아이디어는 (1) 영상과 자막(또는 행동 라벨)에서 절차적 단계(step)를 추출하고, (2) 추출된 단계 리스트를 기반으로 LLM에게 전문가‑초보자 대화를 시뮬레이션하도록 프롬프트를 제공, (3) 각 사용자 턴에 대응하는 영상 클립을 시간적으로 정렬한다는 3단계 흐름이다.

1️⃣ Instruction Formation 단계에서는 멀티모달 LLM(Gemma‑3)에게 영상 프레임과 자막을 입력해 “전체 작업 흐름”과 “단계별 핵심 행동”을 요약한다. 여기서 중요한 점은 LLM이 긴 영상(최대 128K 토큰) 전체를 한 번에 처리할 수 있다는 점이다. 이는 기존의 텍스트‑기반 단계 추출 방식보다 더 풍부한 시각 정보를 활용하게 해준다.

2️⃣ Dialogue Generation 단계는 LLM에게 “전문가가 초보자에게 단계별로 설명하고, 초보자는 오류를 범하거나 질문을 할 때 어떻게 반응할지”를 명시한 프롬프트를 제공한다. 프롬프트는 (a) 사용자 발화 스타일(간결 vs. 상세), (b) 오류 유형(누락, 추가, 수정, 슬립), (c) 전문가의 교정 문구를 포함하도록 설계돼, 실제 인간‑인간 인터랙션을 모방한다. LLM은 각 단계마다 ‘사용자 질문‑전문가 답변’ 쌍을 생성하고, 오류가 포함된 경우 전문가가 즉시 교정하도록 유도한다.

3️⃣ Video Localization 단계에서는 생성된 대화 턴마다 해당 단계에 매핑되는 영상 구간을 자동으로 찾는다. 이는 영상 타임스탬프와 단계 라벨을 매칭하는 규칙 기반 알고리즘과 LLM의 “시각‑언어 일치” 능력을 결합해 구현한다. 결과적으로 각 사용자 발화는 정확히 해당 행동을 보여주는 egocentric 클립과 1:1로 연결된다.

데이터 품질 검증을 위해 175개의 턴을 인간 annotator가 두 명이 독립적으로 평가했으며, 93.2%가 ‘사용 가능’으로 판정되었다. 자동 중복·길이· profanity 필터링을 통해 전체 4% 이하만 제거했으며, 이는 대규모 자동 생성 데이터셋에서 흔히 발생하는 노이즈 수준보다 현저히 낮다.

HowToDIV은 3개 도메인(요리, 기계 수리, 식물 재배)에서 9개의 구체적 작업을 포함하고, 평균 13턴(최대 16.4턴)의 멀티턴 대화를 제공한다. 사용자 발화는 간결형(평균 3.4단어)과 상세형(평균 10.7단어)으로 구분되며, 오류가 포함된 75개의 세션에서는 ‘누락’, ‘추가’, ‘수정’ 등 5가지 오류 유형이 실제 영상에 반영된다.

베이스라인 실험에서는 멀티모달 LLM인 Gemma‑3와 Qwen‑2.5를 사용해 ‘다음 단계 예측’, ‘사용자 질문 답변’, ‘오류 교정’ 세 가지 태스크를 평가했다. 평가 지표는 BLEU, ROUGE, 그리고 LLM‑as‑Judge(LLM 자체를 평가자 삼는 방식)이며, 두 모델 모두 절차적 정확도는 70% 이상, 자연스러운 대화 흐름은 0.68~0.73의 점수를 기록했다. 이는 완전 자동 생성 데이터임에도 불구하고 인간‑주도 데이터와 비교해 경쟁력 있는 수준임을 시사한다.

이 논문의 주요 기여는 (1) 비용·시간 효율적인 자동 데이터 생성 파이프라인, (2) 절차적 단계와 오류 교정을 동시에 포함한 멀티모달 대화 데이터, (3) AR 기반 실시간 작업 지원 연구에 바로 활용 가능한 고품질 데이터셋 제공이다. 향후 연구에서는 (a) 더 다양한 도메인 확대, (b) 실시간 사용자 행동 인식과 피드백 루프 통합, (c) 인간‑LLM 혼합 주석 기법을 통한 데이터 품질 향상이 기대된다.

영상에서 대화로 자가 시점 작업 지원을 위한 자동 데이터셋 구축

초록

상세 분석

댓글 및 학술 토론

의견 남기기