광고가 만든 디지털 초상: LLM으로 드러나는 개인 속성 역추적
초록
본 논문은 대규모 멀티모달 LLM을 활용해 사용자가 보는 광고 스트림만으로도 개인의 정치 성향·학력·고용 상태 등 사적 속성을 높은 정확도로 추론할 수 있음을 실증한다. 891명의 페이스북 이용자(435 000개 이상 광고) 데이터를 기반으로 제안한 3단계 파이프라인(멀티모달 특성 추출 → 세션‑레벨 추론 → 장기 프로파일링)을 적용했으며, 기존 인구통계 기반 베이스라인과 인간 평가자를 모두 능가한다. 짧은 관찰 기간에도 실효성이 입증돼, 브라우저 확장 프로그램 등으로 손쉽게 실행 가능한 새로운 프라이버시 위협을 제시한다.
상세 분석
이 연구는 기존 디지털 풋프린트 기반 프라이버시 침해 연구와 LLM 활용 연구를 융합한 독창적인 위협 모델을 제시한다. 먼저, “광고 스트림 = 고해상도 디지털 풋프린트”라는 전제를 검증한다. 메타·구글 등 플랫폼이 민감 타깃 옵션을 제한했음에도, 최적화 알고리즘이 사용자 행동과 사적 속성을 암묵적으로 학습해 광고를 맞춤 제공한다는 점을 사전 분석으로 확인하였다.
핵심 기술은 최신 멀티모달 LLM(Gemini 2.0 Flash)을 ‘추출 프롬프트’와 결합해 각 광고의 이미지와 텍스트를 구조화된 특징(F_i)으로 변환하는 단계이다. 여기서 캡션, 자유형 카테고리, IAB 라벨, 감정·정서 지표 등 네 가지 요소를 자동 생성한다. 이 과정은 별도 라벨링 작업 없이 제로샷으로 수행되며, 43만 건 이상의 광고를 비용 효율적으로 처리한다는 점에서 실용성이 높다.
다음으로 세션‑레벨 추론 단계에서는 LLM이 시간 순서대로 제공된 F_i 시퀀스를 입력받아 특정 속성(예: 정당 선호)을 확률적으로 예측한다. 이때 프롬프트는 “이 사용자는 어떤 정당을 지지할 가능성이 높은가?”와 같이 자연어 형태이며, LLM은 내부의 대규모 세계 지식과 추론 능력을 활용해 광고 내용과 연관된 사회·경제적 힌트를 종합한다.
마지막 장기 프로파일링 단계에서는 세션별 예측을 베이지안 방식으로 누적해 사용자 전반의 프로파일을 구축한다. 실험 결과, 정당 선호(정확도 ≈ 78 %), 고용 상태(≈ 81 %), 학력(≈ 79 %) 등 주요 속성에서 인구통계 기반 사전(prior)보다 평균 7~12%p 높은 F1 점수를 기록했으며, 인간 라벨러(223배 비용, 52배 시간 대비)와 비교해 비슷하거나 더 우수한 성능을 보였다.
특히, 관찰 윈도우를 5~10분 수준의 짧은 세션으로 제한했을 때도 정확도가 크게 떨어지지 않아, 장기 추적 없이도 실용적인 프로파일링이 가능함을 입증했다. 이는 브라우저 확장 프로그램이나 광고 차단기 등 정상적인 권한을 가진 클라이언트‑사이드 코드가 광고 콘텐츠를 수집하고 즉시 LLM API에 전송해 실시간 프로파일링을 수행할 수 있음을 의미한다.
위협 모델에서는 공격자가 (1) LLM 사용에 대한 전문 지식이 거의 없고, (2) 클라이언트‑사이드에서 광고 시각·텍스트를 읽을 수 있는 권한만 있으면 된다고 가정한다. 따라서 기존의 “악성 코드 배포”나 “데이터 브로커 구매”와 같은 고비용·고위험 경로를 대체하는 저비용·고효율 공격 벡터가 등장한다. 논문은 이러한 위험을 완화하기 위한 정책적·기술적 방안을 제시하지는 않지만, 규제 당국이 “광고 노출 자체”를 새로운 개인정보 처리 행위로 인식하고, LLM 기반 자동 추론에 대한 투명성·감시 체계를 구축할 필요성을 강조한다.
전반적으로 이 연구는 (1) 광고 스트림이 고차원적 사적 신호를 담고 있음을 실증, (2) 멀티모달 LLM이 별도 학습 없이도 이를 추론할 수 있음을 입증, (3) 기존 프라이버시 보호 메커니즘이 이러한 새로운 공격 경로에 취약함을 경고한다는 점에서 학술·산업·정책 모두에 중요한 시사점을 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기