인간 사회 인지를 활용한 가짜 얼굴 탐지와 기억망

본 논문은 인간의 사회적 인지 과정을 모방하여, 계층적 기억 네트워크(HMN)를 통해 얼굴 위조를 탐지한다. 이미지와 영상에서 얼굴의 현재 시맨틱 임베딩을 추출하고, 메모리를 활용해 미래 시맨틱 임베딩을 예측함으로써 진위 판단과 미래 상태 예측을 동시에 수행한다. 다중 과제 학습과 적대적 손실 학습을 결합해 기존 CNN 기반 탐지기의 한계를 극복하고, 보이지 않는 위조 유형에도 높은 일반화 성능을 보인다.

저자: Tharindu Fern, o, Clinton Fookes

인간 사회 인지를 활용한 가짜 얼굴 탐지와 기억망
본 논문은 급속히 발전하는 딥러닝 기반 합성 기술이 초래하는 가짜 얼굴 및 영상의 사회적 위험성을 배경으로, 인간의 사회 인지 메커니즘을 모방한 새로운 탐지 프레임워크를 제안한다. 서론에서는 DeepFake와 같은 최신 위조 기술이 기존 검증 시스템을 회피하는 방식과, 현재 CNN 기반 탐지기가 특정 위조 패턴에 과적합되는 문제점을 지적한다. 이러한 한계를 극복하기 위해 인간이 얼굴을 인식할 때 시각적 템플릿 매칭과 정신 상태 추론이라는 두 단계 과정을 거친다는 신경과학적 연구를 인용한다. 관련 연구 파트는 네 부분으로 구성된다. 첫 번째는 인간 사회 인지와 언어·시각 처리에 관한 연구로, 얼굴 템플릿 매칭과 사회적 평가 단계가 뇌의 특정 영역에서 활성화된다는 사실을 정리한다. 두 번째는 최신 얼굴 위조 기법(DeepFake, Face2Face, GAN 기반 변형 등)을 소개하고, 이들 기법이 얼굴 표정·입술·조명 등에서 비자연적인 변화를 일으키는 점을 강조한다. 세 번째는 기존 위조 탐지 방법을 검토한다. 여기서는 픽셀‑레벨 예측 커널, 3D 컨볼루션, 눈 깜빡임 패턴, 캡슐 네트워크, 인코더‑디코더 기반 전이 학습 등 다양한 접근법을 소개하고, 이들 방법이 새로운 위조 유형에 대한 일반화에 한계가 있음을 지적한다. 네 번째는 메모리 아키텍처에 관한 선행 연구를 정리한다. NTM, TMN, 외부 메모리 모듈이 장기 의존성 학습에 유리하지만, 평면 구조로 인해 계층적·시간적 복합 의존성을 충분히 포착하지 못한다는 점을 제시한다. 핵심 제안인 계층적 기억 네트워크(HMN)는 다음과 같은 구성 요소로 이루어진다. 1) 입력 모듈: 사전 학습된 ResNet‑50을 사용해 얼굴 이미지에서 2048‑차원 시맨틱 임베딩을 추출한다. 2) 시퀀스 모델링: Bi‑GRU가 임베딩 시퀀스를 처리해 시간적 관계를 인코딩한다. 3) 입력 레벨 어텐션: 중요한 프레임을 가중치 부여하여 메모리 질의 벡터를 생성한다. 4) 계층적 메모리 모듈: 기존 평면 메모리와 달리 다중 레벨(예: 로컬·글로벌) 메모리를 갖추어, 각 레벨에서 장기 의존성을 저장·검색한다. 5) 출력 모듈: 메모리 출력은 두 갈래로 흐른다. 첫 번째는 진위 분류기(FC + Softmax)이며, 두 번째는 미래 시맨틱 임베딩 예측기(FC)이다. 6) 적대적 학습 프레임워크: 미래 임베딩 예측기는 합성된 임베딩을 생성하고, 별도의 판별기(Discriminator)는 실제 Δ프레임 임베딩과 합성 임베딩을 구분한다. 예측기는 판별기를 속이도록 학습하면서, 동시에 진위 분류 손실과 결합된 복합 손실을 최소화한다. 이 과정은 두 과제 간의 상호 보완성을 강화한다. 학습 단계에서는 얼굴 이미지와 해당 영상의 Δ프레임(예: 5프레임 뒤) 시맨틱 임베딩을 쌍으로 제공한다. 손실 함수는 (1) 진위 교차 엔트로피, (2) 미래 임베딩 L2 손실, (3) 적대적 손실(판별기와 예측기 간의 GAN‑style 게임)으로 구성된다. 테스트 시에는 단일 이미지 혹은 비디오 프레임을 입력해 진위 확률과 함께 미래 임베딩을 출력한다. 실험에서는 FaceForensics++, Celeb-DF, DeepFakeDetection 등 3개의 대규모 데이터셋을 사용해 기존 최첨단 모델과 비교하였다. 평가 지표는 정확도, AUC, EER 등이다. 결과는 HMN이 특히 보이지 않는 위조 유형(새로운 GAN, 고해상도 합성)에서 평균 8~12% 높은 AUC를 기록했으며, 기존 CNN 기반 모델은 60~70% 수준에 머물렀다. 또한, Ablation Study를 통해 메모리 계층 구조와 적대적 손실이 각각 성능 향상에 기여함을 확인했다. 메모리 활성화 시각화에서는 눈, 입, 피부 질감 등 인간이 사회적 단서로 활용하는 영역이 높은 가중치를 받는 것을 보여, 인간 인지와의 연관성을 실증하였다. 논문의 마지막 부분에서는 한계와 향후 연구 방향을 논의한다. 현재 HMN은 메모리 파라미터가 많아 학습 비용이 높으며, 실시간 적용을 위해 경량화가 필요하다. 또한, 미래 임베딩 예측이 실제 감정 변화를 완전히 모델링하지 못해, 극도로 정교한 위조에 대한 오탐률이 존재한다. 향후 연구에서는 메모리 압축, 트랜스포머 기반 어텐션, 미세 표정·눈동자 움직임 등 추가 사회적 단서를 통합해 성능과 효율성을 동시에 개선할 계획이다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기