픽셀스마일: 연속적이고 정밀한 얼굴 표정 편집을 위한 확산 프레임워크

PixelSmile은 연속적인 감정 강도 조절과 12가지 표정 카테고리를 지원하는 확산 기반 편집 모델이다. 저자들은 연속적인 정서 점수를 제공하는 Flex Facial Expression(FFE) 데이터셋과 구조적 혼동·정확도·선형 제어·정체성 보존을 평가하는 FFE‑Bench을 제안한다. 대칭형 공동 학습과 대비 학습, 흐름 매칭 손실을 결합해 표정 의미를 분리하고, 텍스트 잠재공간 보간을 통해 선형적인 강도 제어를 구현한다. 실험 결과, …

저자: Jiabin Hua, Hengyuan Xu, Aojie Li

픽셀스마일: 연속적이고 정밀한 얼굴 표정 편집을 위한 확산 프레임워크
**1. 연구 배경 및 문제 정의** 얼굴 표정 편집은 인간의 감정을 시각적으로 조작하는 핵심 기술이다. 기존의 GAN 기반 혹은 스타일GAN 기반 방법들은 주로 이산적인 표정 카테고리를 사용해 ‘행복→슬픔’처럼 명확히 구분되는 변화를 만들었다. 그러나 실제 인간 감정은 연속적인 스펙트럼을 이루며, ‘공포‑놀람’, ‘분노‑혐오’처럼 의미가 겹치는 쌍이 많다. 이러한 구조적 겹침은 (1) 표정 간 혼동, (2) 강도 조절의 비선형성, (3) 편집 시 정체성 손실을 초래한다. **2. 데이터셋 구축 – Flex Facial Expression (FFE)** 저자들은 이 문제를 데이터 차원에서 해결하고자, 4단계 파이프라인(수집‑구성‑생성‑주석)을 통해 FFE를 만든다. - **베이스 아이덴티티**: 실사 6,000명, 애니메이션 6,000명(총 12,000명) 확보. - **표정 프롬프트 라이브러리**: 12가지 표정(6 기본 + 6 확장)을 얼굴 부위(입, 눈썹, 눈 등)별 속성 조합으로 세분화하고, VLM을 이용해 부자연스러운 조합을 필터링. - **표정 이미지 생성**: 최신 이미지 편집 모델 Nano Banana Pro를 사용해 각 아이덴티티에 대해 다양한 강도의 표정을 합성, 실사·애니메이션 각각 30,000장씩 총 60,000장 확보. - **연속 감정 점수 라벨**: Gemini 3 Pro를 통해 12차원 연속 점수(v∈

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기