스포츠 피드백 생성의 일반화: 암벽 등반을 통한 영상‑LLM 활용과 새로운 평가 지표
초록
본 논문은 영상‑LLM이 스포츠 피드백을 생성할 때 소스 도메인(축구·농구)에서 학습한 모델을 목표 도메인(암벽 등반)으로 확장하는 방법을 제안한다. 경쟁 경기 영상과 코칭 매뉴얼 등 무료 웹 데이터를 활용해 약하게 정렬된 멀티모달 데이터를 정제·정위치시킨 뒤, 이를 기존 피드백 데이터와 함께 미세조정한다. 또한 피드백의 특성을 반영한 ‘구체성(specificity)’과 ‘실행 가능성(actionability)’ 두 가지 자동 평가 지표를 설계하고, LLM 기반 평가와 인간 평가 간의 상관성을 검증한다.
상세 분석
이 연구는 영상‑LLM이 스포츠 피드백 생성에 직면한 두 가지 근본적 한계를 동시에 해결한다. 첫 번째는 도메인 간 데이터 부족 문제이다. 기존의 ExpertAF와 같은 고품질 피드백 데이터는 축구·농구·암벽 등 세 종류에 국한되며, 특히 목표 스포츠에 대한 라벨링 비용이 매우 높다. 저자들은 이러한 제약을 극복하기 위해 목표 도메인인 암벽 등반의 공개 경기 영상과 전문가 해설, 그리고 코칭 서적을 대규모로 수집한다. 수집된 18,615개의 영상‑해설 쌍은 ASR 기반 전사본이 포함된 약하게 정렬된 데이터이며, 텍스트만 있는 코칭 매뉴얼은 97,989 토큰 규모이다. 이 데이터를 바로 학습에 사용하면 잡음과 시간적 불일치가 심각한 오류를 초래할 수 있다. 따라서 두 단계의 정제 파이프라인을 설계한다. 첫 번째 단계는 LLM(Phi‑4 14B)을 이용해 해설을 ‘관련성’ 여부로 분류하고, 관련 없는 80%를 제거한 뒤 핵심 행동·품질 정보를 요약한다. 두 번째 단계에서는 Whisper를 활용해 요약된 해설에 대해 단어 수준 타임스탬프를 얻고, 또 다른 LLM 프롬프트를 통해 정확한 영상 구간에 매핑한다. 이렇게 얻어진 ‘강하게 정렬된’ 멀티모달 데이터는 기존 소스 도메인 피드백과 함께 미세조정에 사용되어, 도메인 전이 성능을 크게 향상시킨다. 실험 결과, BLEU‑4가 106%, METEOR가 36%, ROUGE‑L이 39%, BERTScore가 25% 상승했으며, 이는 단순히 소스 도메인 피드백만으로 미세조정했을 때 대비한 수치이다. 두 번째 기여는 평가 지표의 재정의이다. 기존 BLEU·ROUGE 등은 레퍼런스와의 표면적 일치를 측정하지만, 피드백의 핵심인 ‘구체성’(어떤 부위·동작을 정확히 언급했는가)과 ‘실행 가능성’(제시된 교정이 실제 수행 가능하고 구체적인가)을 반영하지 못한다. 저자들은 motor learning theory의 Knowledge of Performance(KP) 개념을 차용해 두 가지 LLM 기반 자동 평가 메트릭을 설계한다. 구체성 평가는 설명적 내용의 디테일을, 실행 가능성 평가는 제시된 교정이 실천 가능한 단계적 지시를 포함하는지를 점수화한다. 인간 평가와의 상관관계를 검증한 결과, LLM 점수가 인간 점수와 높은 일치도를 보였으며, 이는 레퍼런스‑프리 평가가 가능함을 시사한다. 전체적으로 이 논문은 (1) 약하게 정렬된 공개 멀티모달 데이터를 정제·정위치시켜 도메인 전이 학습에 활용하는 방법론, (2) 스포츠 피드백 특화 자동 평가 지표를 제시함으로써, 제한된 라벨링 환경에서도 실용적인 피드백 생성이 가능함을 입증한다는 점에서 의미가 크다.
댓글 및 학술 토론
Loading comments...
의견 남기기