인공지능 몸짓 고고학 인간·로봇·생성시스템의 움직임 추적

인공지능 몸짓 고고학 인간·로봇·생성시스템의 움직임 추적
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

ReTracing은 과학소설 문장을 LLM으로 “해야 할 일”·“하지 말아야 할 일” 프롬프트로 변환하고, 텍스트‑투‑비디오 확산 모델로 인간 안무를, 동일 프롬프트를 로봇 명령어로 변환한다. 거울 바닥 위에서 인간과 사족보행 로봇이 동시에 수행하고, 다중 카메라와 3D 포인트 클라우드로 움직임을 기록·아카이브한다. 이를 통해 생성 AI가 내재한 사회문화적 편향을 몸짓으로 드러낸다.

상세 분석

본 논문은 인공지능이 신체 움직임을 어떻게 규정하고 재현하는지를 고고학적 관점에서 탐구한다. 첫 단계에서는 프랑켄슈타인, 황색 벽지 등 7편의 SF 소설에서 인간‑기계 상호작용을 묘사한 문장을 추출한다. Qwen‑2.5 모델을 온도 0.7로 설정해 각 문장에 대해 긍정 프롬프트(‘what to do’)와 부정 프롬프트(‘what not to do’)를 동시 생성한다. 이때 LLM은 텍스트의 정서·행동적 의미를 해석해 구체적인 동작 명령어로 변환하는데, 이는 기존 텍스트‑투‑이미지 파이프라인을 넘어 텍스트‑투‑동작으로 확장한 시도이다. 인간 안무는 MDM·Di2Pose와 같은 최신 확산 기반 3D 포즈 생성 모델을 활용해 짧은 비디오 시퀀스로 시각화한다. 로봇 측면에서는 동일 프롬프트를 사족보행 로봇(Unitree Go2)의 미리 정의된 동작 집합(스트레치, 점프, 러닝 등)으로 매핑하고, 순차적 명령 리스트를 생성한다. 이 과정은 인간과 기계가 동일한 의미 체계에 의해 제어된다는 점에서 ‘프롬프트‑드리븐 제어’라는 새로운 패러다임을 제시한다.

실험 환경은 거울 바닥 위에 인간과 로봇을 동시에 배치하고, 4대 이상의 고속 카메라로 다각도 영상을 수집한다. 수집된 2D 영상은 SpatialTrackerV2 기반의 단일 카메라 3D 포인트 트래킹 모델에 입력돼, 시간 일관성을 유지한 3D 스켈레톤 키포인트와 포인트 클라우드 시퀀스를 생성한다. 이렇게 재구성된 데이터는 ‘움직임 흔적’이라는 형태로 디지털 아카이브에 저장되며, 향후 프롬프트‑동작 매핑을 역추적하거나 편향 분석에 활용될 수 있다.

논문은 또한 생성 모델이 여성형 신체를 과도하게 재현하거나 특정 문화적 코드를 반복하는 등 사회문화적 편향을 내재하고 있음을, 인간과 로봇의 동작 차이를 통해 시각적으로 드러낸다. 윤리적 고찰에서는 데이터 프라이버시, 훈련 데이터의 불투명성, 그리고 관객이 미학적 즐거움에만 집중해 비판적 메시지를 놓칠 위험을 지적한다. 전체적으로 본 연구는 LLM‑프롬프트 생성, 확산 기반 동작 합성, 로봇 제어, 3D 트래킹을 통합한 멀티모달 파이프라인을 제시함으로써, 생성 AI가 신체와 정체성을 어떻게 ‘각인’하고 ‘보존’하는지를 고고학적 증거로 남긴다.


댓글 및 학술 토론

Loading comments...

의견 남기기