DSA 하 메타·틱톡 연구 API 데이터 접근 실태 진단

DSA 하 메타·틱톡 연구 API 데이터 접근 실태 진단
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 EU 디지털 서비스법(DSA) 제40조 12항이 요구하는 연구자용 데이터 접근 권한을 메타와 틱톡의 연구 API를 통해 실증적으로 검증한다. 두 개의 소크퍼펫 계정을 이용해 선거 기간 동안 공개 정보 환경(PIE)을 완전 재구성하고, 이를 공식 연구 API가 제공하는 데이터와 비교함으로써 범위 축소, 메타데이터 삭제, 운영 제한이라는 세 가지 메커니즘이 데이터 완전성을 크게 저해한다는 사실을 밝혀냈다.

상세 분석

본 연구는 DSA가 규정한 “공개 접근 가능 데이터”의 실질적 제공 수준을 평가하기 위해 메타(Content Library)와 틱톡(Research API) 두 VLOP의 연구 API를 정량적으로 감사하였다. 먼저, SO AP 시스템을 활용해 두 개의 제어된 소크퍼펫 계정을 생성하고, 2024년 미국 대통령 선거와 2025년 독일 연방 선거 기간 동안 각각의 플랫폼에서 사용자에게 노출되는 피드(For You, Explore)를 실시간으로 캡처했다. 이 과정에서 HTTP 응답에 포함된 모든 필드—시각적 UI에 표시되지 않는 내부 식별자, 추천 알고리즘 점수, 위치·언어 메타데이터 등—를 저장함으로써 ‘공개 정보 환경(PIE)’의 완전한 스냅샷을 구축하였다.

그 후, 동일한 계정에 대해 플랫폼이 제공하는 연구 API를 호출해 얻은 데이터 세트를 수집했다. 여기서 발견된 주요 차이는 세 가지 메커니즘으로 귀결된다.

  1. 범위 축소(Scope Narrowing): API는 공개 계정 중에서도 특정 팔로워 수, 지역, 혹은 콘텐츠 유형(예: 짧은 동영상 vs. 라이브 스트림)만을 반환하도록 필터링한다. 결과적으로 전체 PIE의 약 45‑52%에 해당하는 포스트가 API 응답에서 완전히 누락되었다.

  2. 메타데이터 삭제(Metadata Stripping): API가 제공하는 필드 수는 전체 HTTP 응답에 비해 현저히 적다. 예를 들어, Instagram Content Library는 236개의 원본 파라미터 중 100개만 노출하고, UI 자체는 14개만 보여준다. 틱톡 역시 게시물 ID, 작성자 인증 정보, 추천 점수 등 핵심 메타데이터의 70‑83%를 제외한다. 이러한 손실은 콘텐츠의 맥락적 해석—예: 알고리즘적 노출 경로, 사용자 맞춤형 순위—을 불가능하게 만든다.

  3. 운영상 제한(Operational Restrictions): 연구 API는 일일 요청 한도를 약 1,000건으로 제한하고, 응답 페이징·시간 지연을 강제한다. 이는 대규모 시계열 분석이나 실시간 위험 감시를 수행하려는 연구자에게 실질적인 장애물이다. 또한, API 엔드포인트의 불안정성(예: 갑작스러운 버전 교체)으로 인해 데이터 수집 파이프라인이 빈번히 중단된다.

이 세 메커니즘은 겹쳐서 작동함으로써 PIE의 구조적 편향을 초래한다. 데이터 누락은 특정 정치적 성향·지역·콘텐츠 형식에 치우친 샘플을 만들고, 메타데이터 부재는 인과관계 분석과 알고리즘 투명성 검증을 방해한다. 결국, 현재 제공되는 연구 API는 DSA가 기대하는 ‘독립적인 시스템 위험 감사’를 수행하기에 충분한 완전성과 신뢰성을 제공하지 못한다. 논문은 이러한 결함을 보완하기 위해 DSA 조항에 ‘공개 데이터 정의 명확화’, ‘메타데이터 최소 제공 의무’, ‘연구용 요청량 상한 완화’ 등을 제안한다.


댓글 및 학술 토론

Loading comments...

의견 남기기