공개키 검증 가능한 음성 출처 증명 시스템 MerkleSpeech
초록
MerkleSpeech은 음성 데이터를 청크 단위로 퍼셉추얼 지문을 추출하고, 그 지문을 Merkle 트리로 커밋한 뒤 루트에 발행자의 공개키 서명을 부여한다. 청크마다 작은 워터마크 페이로드를 삽입해 배포 중에도 복구 가능하도록 설계했으며, 두 단계 검증(워터마크 기반 귀속과 Merkle 포함·서명 검증)을 통해 스플라이스·편집에 강인한 출처 증명을 제공한다.
상세 분석
본 논문은 기존 신경망 기반 오디오 워터마크가 제공하는 “워터마크 존재 여부” 수준의 검증을 넘어, 청크 단위의 공개키 기반 무결성 검증을 실현한다는 점에서 혁신적이다. 핵심 아이디어는 (1) 청크 길이 L과 스트라이드 S를 고정한 deterministic chunking, (2) 청크마다 퍼셉추얼 지문을 생성하는 두 가지 옵션(SSL 임베딩 양자화와 전통적인 MFCC·Chromaprint 기반) 중 선택 가능, (3) 지문과 메타데이터를 SHA‑256 해시로 압축해 leaf digest를 만든 뒤 Merkle 트리를 구축하고, (4) 트리 루트에 Ed25519 혹은 ECDSA‑P256 서명을 부착한다. 이러한 구조는 Merkle inclusion proof가 O(log N) 크기로 제공돼 개별 청크 검증을 효율적으로 만든다.
워터마크 페이로드는 CID(랜덤 콘텐츠 식별자), 청크 인덱스 i, 루트 포인터 rid, 발행자 키 식별자 kid, 버전 정보를 포함한다. ECC(예: BCH·Reed‑Solomon)로 오류 정정 코딩을 적용해 삽입된 페이로드가 재샘플링·밴드패스 필터링·노이즈 등 일반적인 배포 변환에서도 복구될 수 있게 설계했다. 워터마크 채널 자체는 QIM‑STFT 기반을 기본으로 하면서, 향후 학습 기반 워터마크 모델로 교체 가능하도록 모듈화하였다.
검증 단계는 (1) 워터마크 디코더로 페이로드 복구, (2) CID 기반 매니페스트와 포함 증명 조회, (3) 서명 검증, (4) 청크에 대한 지문 재계산 및 leaf digest 재해시, (5) Merkle inclusion 검증 순으로 진행된다. 두 단계 검증 결과를 시간축에 매핑해 “WM‑only 통과 / MSv1 통과 / 실패 원인”을 표시함으로써, 스플라이스된 구간이 어느 수준의 무결성을 유지하는지 직관적으로 파악할 수 있다.
위협 모델에서는 공격자가 일반적인 배포 변환과 편집(컷, 연결, 스플라이스)만 수행할 수 있다고 가정하고, 임베딩 키와 모델 가중치를 비밀로 유지한다는 전제하에 서명 위조와 Merkle 트리 변조를 방지한다. 다만, 지문 함수가 충돌 저항성을 보장하지 않으므로, 지문 자체가 변조에 민감하게 설계돼야 한다는 제한을 명시한다.
실험에서는 2 초 청크, 비중첩 스트라이드(L = S = 2 s)를 사용해 다양한 변환(리샘플링, 밴드패스, 가우시안 노이즈, 신경 코덱) 하에서 false positive rate를 10⁻⁴ 이하로 유지했으며, 스플라이스 경계 탐지 정확도도 높은 편이었다. 특히 신경 코덱에 의한 왜곡이 기존 워터마크 시스템을 크게 약화시키는 반면, MerkleSpeech은 지문 재계산 단계에서 변형을 감지해 MSv1 레이어에서 실패를 보고함으로써 변조를 명확히 드러낸다.
전체적으로 MerkleSpeech은 C2PA와 같은 기존 매니페스트 기반 출처 증명 체계의 한계를 보완하고, 오디오 재인코딩·편집 상황에서도 검증 가능성을 유지한다는 점에서 실용적이며, 공개키 기반 검증을 통해 제3자 감시와 법적 증거력 확보에 기여할 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기