딥러닝으로 전체 문장 입술읽기: Seq2Seq와 CNN 기반 접근
본 논문은 시퀀스‑투‑시퀀스(LSTM) 구조와 2D/3D CNN 전처리기를 결합해, 6000어휘와 59명의 화자를 포함한 TCD‑TIMIT 데이터셋에서 입술읽기 성능을 크게 향상시킨다. 온라인 단조(attention)와 CTC‑Seq2Seq 혼합 손실을 도입해 학습 효율과 정확도를 동시에 개선했으며, HMM 기반 기존 시스템 대비 20% 이상 높은 정확도를 달성했다.
저자: George Sterpu, Christian Saam, Naomi Harte
본 논문은 “Can DNNs Learn to Lipread Full Sentences?”라는 제목으로, 대규모 어휘(6000단어)와 다수 화자(59명)를 포함한 공개 데이터셋 TCD‑TIMIT을 대상으로 최신 딥러닝 기법을 적용한 입술읽기 시스템을 제안한다. 전통적인 입술읽기 연구는 주로 손수 만든 특징(DCT, AAM 등)과 HMM 기반 모델에 의존했으며, 복잡한 시각‑음성 패턴을 충분히 포착하지 못하는 한계가 있었다. 저자들은 이러한 한계를 극복하기 위해 두 가지 주요 축을 설계했다.
첫 번째 축은 시각적 전처리 단계이다. 입술 영역을 36×36 픽셀로 크롭하고 회색조 혹은 RGB 형태로 변환한다. 여기서 두 종류의 특징 추출 방식을 비교한다. (1) 기존 방식인 2D DCT 변환 후 44개의 저주파 성분과 1·2차 미분을 사용한 손수 만든 특징, (2) 2D CNN과 3D CNN을 이용한 학습 기반 특징. 2D CNN은 4계층(16‑32‑64‑128 필터) 구조에 3×3 커널과 스트라이드 2를 적용해 공간 차원을 빠르게 축소하고, 마지막에 128‑차원 벡터로 평탄화한다. 3D CNN은 동일 구조에 시간축을 포함한 3×3×3 커널을 사용해 움직임 정보를 직접 학습한다. 실험 결과, 2D CNN이 DCT보다 약 5%p 높은 정확도를 제공했으며, 3D CNN과 고해상도(64×64) 입력은 수렴하지 못해 얕은 구조의 한계를 드러냈다.
두 번째 축은 시퀀스‑투‑시퀀스(Seq2Seq) 모델이다. 인코더와 디코더는 각각 두 개의 128‑셀 LSTM 레이어(양방향 옵션 포함)로 구성된다. 인코더는 입력 프레임 시퀀스를 “생각 벡터(thought vector)”로 압축하고, 디코더는 시작 토큰부터 순차적으로 viseme 레이블을 생성한다. 이때 어텐션 메커니즘이 핵심 역할을 한다. 기본은 Luong‑style 소프트맥스 어텐션이며, 이를 대체하거나 보완하기 위해 온라인 단조 어텐션(monotonic attention)을 적용했다. 단조 어텐션은 디코더가 현재 시점에서 과거 인코더 출력만을 순차적으로 참조하도록 강제해, 반복적인 viseme 발생 시 불필요한 재참조를 방지하고 실시간 디코딩 비용을 크게 낮춘다.
학습 손실은 두 부분으로 나뉜다. 디코더 측에서는 교차 엔트로피(CE) 손실을 사용해 시퀀스 레벨 정답과의 차이를 최소화하고, 인코더 측에는 CTC 손실을 추가해 프레임‑레벨 클래스 예측을 강제한다. 두 손실을 0.2(CTC) : 0.8(CE) 비율로 혼합함으로써 인코더가 시각적 신호에 집중하도록 유도하면서도 디코더의 언어 모델링 능력을 유지한다.
실험은 TCD‑TIMIT 데이터셋을 사용해 수행되었다. 각 화자는 98개의 phonetically balanced 문장을 녹음했으며, 문장 길이는 10~65 viseme에 해당한다. 학습은 speaker‑dependent 프로토콜을 적용해 67문장을 학습, 31문장을 테스트에 사용했다. 데이터 전처리 단계에서 무작위 셔플링과 길이 기반 버킷팅(15프레임 단위)으로 배치 효율을 높였으며, 드롭아웃(0.9)과 L2 정규화(0.0001~0.01)로 과적합을 방지했다.
성능 결과는 표 1에 정리된다. HMM 기반 DCT 전처리 베이스라인(A)은 31.59% 정확도를 기록했으며, 동일 특징에 LSTM 인코더‑디코더를 적용한 시스템(E)는 61.52%로 크게 향상되었다. 어텐션을 제거한 시스템(G)은 48.29%에 그쳐, 어텐션이 시각적 정보와 언어 모델을 연결하는 핵심임을 확인했다. 온라인 단조 어텐션을 적용한 시스템(H)은 61.58%로 기존 소프트맥스 어텐션과 동등한 성능을 유지하면서 실시간 처리 가능성을 확보했다. 2D CNN + BiLSTM(시스템 K)은 66.27%라는 최고 정확도를 달성했으며, 이는 DCT 기반 최선 모델보다 약 5%p 상승한 수치다. CTC‑Seq2Seq 혼합 손실을 적용한 시스템(L, O)는 학습 속도가 크게 빨라졌지만 최종 정확도는 약간 낮았다(64.6%). 이는 두 손실 간 목표 충돌 가능성을 시사한다.
시각적 분석에서는 viseme 별 정확도 향상을 확인했다. ‘입술을 이와 맞대는(f/v)’, ‘입술을 모은(b/p/m)’, ‘혀가 앞쪽에 위치하는(ch/jh/sh/zh)’ 등 명확히 구분 가능한 클래스에서 80~95% 수준의 높은 정확도를 보였으며, ‘입술 둥근(o/ao)’와 같이 미묘한 차이를 보이는 클래스는 오히려 성능이 감소했다. 이는 정면 영상만으로는 깊이 정보를 충분히 포착하기 어려워, 30° 측면 뷰를 추가하면 개선될 가능성을 제시한다.
결론적으로, 이 연구는 (1) Seq2Seq 기반 언어 모델이 입술읽기 성능을 크게 끌어올린다, (2) 단조 어텐션이 실시간 적용에 적합하고 정확도 손실이 없으며, (3) 2D CNN 전처리가 시각적 특징 추출에 효과적이며, (4) CTC와 CE 손실의 적절한 조합이 학습 효율을 높인다는 네 가지 주요 인사이트를 제공한다. 향후 연구는 더 깊은 CNN 구조, 멀티‑뷰 융합, 그리고 CTC‑CE 가중치 자동 튜닝을 통해 성능 한계를 넘어설 수 있을 것으로 기대된다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기