LLM의 온라인 뉴스 소비 및 생산에 대한 영향

읽는 시간: 9 분
...

📝 원문 정보

- Title: The Impact of LLMs on Online News Consumption and Production
- ArXiv ID: 2512.24968
- 발행일: 2025-12-31
- 저자: Hangcheng Zhao, Ron Berman

📝 초록

생성 AI와 대형 언어 모델(LLM)이 소비자가 온라인에서 정보를 찾아보고 소비하는 방법을 바꾸고 있습니다. 이 논문은 LLM의 도입으로 인한 뉴스 출판사의 트래픽 감소, LLM 크롤러 차단에 따른 영향, 그리고 채용 및 콘텐츠 생산 양식 변화를 분석합니다.

💡 논문 해설

1. **LLM의 도입이 뉴스 출판사의 트래픽에 미치는 영향:** LLM이 등장하면서 뉴스 출판사들은 트래픽 감소를 경험하고 있습니다. 이는 마치 인터넷에서 직접 답변을 제공하는 AI가 기존 검색 엔진의 중개 역할을 대체하려고 시도하는 것과 같습니다.
  1. LLM 크롤러 차단: 일부 출판사들은 봇 트래픽 감소를 위해 LLM 크롤러를 차단하고 있습니다. 하지만 이는 실제 인간 방문자 수까지 줄이는 부작용을 초래할 수 있습니다. 이를 이해하는 것은 AI가 웹사이트에 직접적인 영향을 미치는 방식과 비슷합니다.

  2. 콘텐츠 생산 양식의 변화: LLM 도입 후, 출판사들은 텍스트보다는 이미지와 동영상 등 더 풍부한 콘텐츠로 이동하고 있습니다. 이것은 AI가 단순히 텍스트를 생성하는 것 이상으로 콘텐츠 포맷과 사용자 참여에 영향을 미치고 있다는 것을 의미합니다.

📄 논문 발췌 (ArXiv Source)

# 소개

생성 AI(GenAI)와 대형 언어 모델(LLM)은 소비자가 온라인에서 정보를 찾아보고 소비하는 방법을 바꾸고 있습니다. 검색 기반 중개자(예: Google)는 주로 링크를 통해 사용자를 출판사에게 리다이렉트시키지만, LLM 매개 인터페이스는 직접 답변과 요약을 제공하여 클릭 트래픽을 대체할 수 있습니다. 최근 증거에 따르면, LLM의 채택은 전통적인 검색 활동과 작은 사이트로의 하류 브라우징을 줄이고 AI 요약이 검색 결과에 나타날 때 사용자가 외부 링크를 클릭하는 횟수도 줄입니다. 이러한 변화는 몇 가지 흥미로운 질문을 제기합니다: (1) 생성 AI가 출판사 트래픽 및 수익화에 어떤 정도의 대체 효과를 가질까? (2) 출판사는 어떻게 반응할까? 그리고 (3) 이러한 반응이 효과적일까?

뉴스 출판사는 LLMs의 영향에 대한 논쟁의 중심에 서 있습니다. 이는 LLM들이 뉴스 콘텐츠를 모델 훈련을 개선하고 사용자 질의에 답변하기 위해 활용하기 때문입니다. 뉴스 출판사의 비즈니스 모델이 중개자의 발견과 전송에 크게 의존하기 때문에 일부 출판사는 robots.txt 표준을 사용하여 LLM에 대한 접근을 차단하는 데 서두르고 있습니다. 이러한 차단의 영향은 세 가지로 나눌 수 있습니다: 웹사이트를 스캔하여 모델을 훈련시키는 LLM 봇 트래픽을 줄일 수 있고, 사용자 질의에 답변하기 위해 사용되는 LLM 봇 트래픽도 줄일 수 있으며, LLM이 사용자를 뉴스 출판사로 방문하게 함으로써 전송 트래픽도 줄일 수 있습니다. 출판사는 고용 인원을 줄여 비용을 절감하거나 LLM을 이용하여 콘텐츠 생산을 늘려 소비자에게 더 많이 접근할 수도 있습니다.

이러한 다양한 가능성 효과를 고려하면 여전히 이해하기 어려운 사항들이 있습니다: (1) LLMs가 출판사 트래픽에 미치는 전체적인 영향은 무엇인가? (2) 차단을 전략적 반응으로서 효과적이었나? 그리고 (3) 채용 결정과 양식 및 콘텐츠 생산량 변화를 통해 LLM 도구가 출판사의 뉴스 콘텐츠 공급에 어떻게 영향을 미쳤는가?

이러한 질문들을 해결하기 위해, 우리는 고주파도 출판사 패널을 구축하여 LLM 크롤러에 대한 전략적 차단 규칙, 출판사의 페이지 구조 및 채용과 연결된 일일 트래픽을 링크합니다. 우리는 SimilarWeb에서 제공하는 도메인 수준 방문 데이터와 HTTP Archive 및 Revelio에서 제공하는 기록 robots.txt 파일 및 HTML 스냅샷, 고용자 관련 직업 게시물을 결합했습니다. 출판사에 대한 총 방문(봇과 크롤러 트래픽을 포함할 수도 있음)에서 실제 관객 수요를 분리하기 위해 Comscore Web-Behavior Panel의 가구 브라우징 데이터도 사용합니다.

이러한 데이터를 통해 생성 AI가 확산된 후 뉴스 출판 산업에 대한 초기 변화 4가지를 문서화했습니다. 이들은 아래에서 요약됩니다.

출판사 트래픽이 감소하지만, 이러한 감소는 2024년 8월 이후에만 나타납니다.

ChatGPT가 2022년 11월에 도입되고 Google AI 개요가 2024년 5월에 도입된 후 출판사 트래픽이 크게 감소할 것이라는 예측과 입증 사례가 있었습니다. 그러나 SimilarWeb의 뉴스 도메인 방문 데이터를 사용한 분석 결과, 2023년 중반까지 트래픽은 광범위하게 안정적이었으며 ChatGPT와 Google AI 개요 이후에 즉시 붕괴하지 않았습니다. 우리는 다중 변화점 감지 방법론을 활용하여 지속적인 트래픽 패턴의 변화를 식별했습니다. 이러한 변화는 2023년 11월과 2024년 8월에 가장 두드러졌으며, 그 이후로 트래픽 수준이 낮은 수준으로 이동하였습니다. 우리는 각 감지된 변화점 전후의 6개월 동안 로그 트래픽을 사용하여 합성 차이분 분석(SDID) 모델을 추정했습니다. 2024년 8월 이후, 뉴스 출판사 웹사이트로의 방문은 대조 그룹에 비해 약 13.2% 감소하였습니다. 2023년 11월 변화점에 대한 점 추정치는 음수이지만 통계적으로 유의하지 않습니다.

일부 출판사는 LLM 트래픽을 차단하기로 결정했으나, 차단은 대형 출판사의 총 방문과 인간 방문을 모두 줄입니다.

출판사들이 그들의 콘텐츠가 LLM에 의해 크롤링되고 봇 트래픽이 증가함에 따라 반응하는 한 가지 방법은 robots.txt 파일에서 크롤링을 허용하지 않는다는 것을 선언하는 것입니다. 웹사이트의 robots.txt 파일(RFC 9309 표준의 일부)은 웹 크롤러에게 무엇을 접근할 수 있고 접근할 수 없는지 지시합니다. 우리는 HTTP Archive를 사용하여 각 출판사가 처음으로 GPT 관련 크롤러에 대해 허용하지 않는 시점을 식별했습니다. 뉴스 출판사는 비뉴스 웹사이트보다 LLM 크롤러 차단을 더 자주 선택합니다. 2023년 중반부터 차단 패턴이 시작되어 약 80%의 상위 출판사가 2023년에 LLM 크롤러를 차단했습니다. 우리는 차단 도입 패턴을 이용하여 차단한 출판사와 아직 차단하지 않은 출판사를 비교하는 차이분 분석을 수행하여 LLM 크롤러 차단의 효과를 추정합니다. SimilarWeb에서 측정한 로그 월 방문은 지속적으로 23.1% 감소했습니다. 실제로 이러한 효과가 자동화된 트래픽(예: 봇)이 아닌 실제 관객 수요의 변화를 반영하는지 확인하기 위해 Comscore Web-Behavior 패널 데이터를 사용하여 분석을 재현하였습니다. 다시 한 번, 월 방문은 차단 후에 통계적으로 유의하게 13.9% 감소했습니다. 이러한 결과는 LLMs 차단이 출판사에게 큰 부정적 영향을 미칠 수 있음을 의미합니다: 총 트래픽과 인간 방문이 줄어들고, 단순히 봇 방문의 기계적인 제거를 초월합니다. 실제로 일부 출판사는 2024년에 Disallow 규칙을 제거했습니다. 그러나 Comscore 데이터에서 저트래픽 웹사이트로 분석을 확장할 때 사이트 크기에 따라 다양한 결과가 나타납니다.

뉴스룸 채용의 단기적인 수축 없음.

출판사들은 트래픽 감소와 콘텐츠 생산 비용 절감에 대응하여 뉴스룸 인원을 줄이는 방법으로 반응할 수 있습니다. 우리는 고용자 관련 직업 게시물을 사용하여 출판사의 직업별 채용을 추적했습니다. LLM 노출이 작업마다 다르며 측정된 노동 시장 영향이 단기적으로 미미하다는 증거에 근거하여, 출판사가 LLM 도입 후 편집 및 콘텐츠 생산 역할의 수요를 비례적으로 줄이는지 확인했습니다. 이러한 패턴은 발견되지 않았습니다: 편집 게시물이 단일한 AI 이후 감소하지 않았으며, 게시물의 비율이 줄어들기보다 증가하였습니다. 이는 출판사들이 LLM에 대한 주요 반응으로 뉴스룸 인원을 줄이는 것이 아니라는 것을 시사합니다.

출판사는 텍스트 생산을 확대하지 않고, 더 풍부한 페이지와 내장 컴포넌트로 이동합니다.

LLM 사용과 관련된 최근 현상 중 하나는 콘텐츠 슬롭(content slop)의 생산입니다. 우리는 HTTP Archive 및 Internet Archive에서 제공하는 페이지 구조 메트릭과 URL 기록을 사용하여 출판사가 LLM 도입 후 더 많은 콘텐츠를 생성했거나 콘텐츠를 변경했는지 추정했습니다. 출판사들이 섹션 수를 확대하거나 텍스트 및 기사 관련 URL의 성장을 가속화하는 것으로 반응한 증거는 발견되지 않았습니다. 대신 페이지는 상호 작용 요소(68.1%)와 광고 및 타겟팅 기술 구성 요소(50.1%)가 상대적으로 크게 증가하였습니다, 특히 이미지 관련 URL에서 성장이 집중되었습니다. 이 패턴은 수익화 설계를 콘텐츠 인센티브에 연결하는 작업과 일치하며 다미디어 및 상호 작용이 사용자 참여를 형성한다는 증거와도 일치합니다.

요약하자면, 우리는 뉴스 출판사 트래픽 감소를 확인했지만 대부분 2024년 8월 이후에 나타났습니다. 일부 출판사는 LLM 크롤러 차단을 선택하지만 이는 그들에게 해가 될 수 있음을 발견했습니다. 또한 콘텐츠 제작 및 편집 역할의 채용 감소 증거를 찾지 못했지만, 콘텐츠가 더 풍부해지고 있다는 증거를 찾았습니다.

이러한 사실들은 생성 AI가 현재 전통적인 뉴스 생산에 직접 대체되지 않는다는 초기 증거를 제공합니다. 대신 산업은 접근 제어, 고용 구성, 콘텐츠 생산 양식 및 수량 등 여러 영역에서 조정되고 있습니다. 이러한 조정의 영향은 때때로 예상치 못한 결과를 초래할 수도 있습니다.

본 논문의 나머지 부분에서는 데이터 구축과 경험적 전략을 설명하고, 트래픽 패턴을 문서화하며 차단에 따른 총 방문 및 인간 방문 효과를 추정하고, 고용 구성 분석을 수행하며 페이지 구조, 다미디어 풍부성 및 광고 밀도의 변화를 특징짓습니다.

기여와 관련 연구

첫째로, 우리의 논문은 디지털 플랫폼, 발견 중개자 및 새로운 기술이 주의력과 트래픽을 재분배하여 콘텐츠 수요와 수익화를 어떻게 다시 형성하는지에 대한 문헌에 기여합니다. 뉴스 집약, 중개 및 플랫폼 경쟁에 관한 연구는 플랫폼이 출판사의 트래픽과 전략적 결과에 크게 영향을 미칠 수 있음을 보여줍니다. 최근 증거는 LLM 매개 정보 접근성에서도 유사한 변화가 나타나고 있다는 것을 시사합니다: 클릭스트림 데이터에서 LLM 채택은 전통적인 검색 활동과 작은 사이트로의 하류 브라우징을 줄이고, AI 요약이 검색에 나타날 때 사용자가 외부 링크를 더 적게 클릭합니다. 우리는 출판사에 초점을 맞춘 패널을 통해 언제, 얼마나 트래픽이 감소하는지 확인함으로써 이러한 영향을 문서화하고 있습니다.

둘째로, 우리의 논문은 접근 제어, 재사용 경제학 및 저작권과 관련된 문헌에 기여합니다. 증가하는 연구는 GenAI가 콘텐츠 접근 및 재사용에 대한 협상 환경을 바꾸고 대체, 라이선스 및 다양한 저작권 체계 하에서 복지에 관한 질문을 제기하고 있습니다. 웹사이트가 단기간에 통제할 수 있는 기관적 마진은 기술적 접근입니다: robots.txt(Robots 배제 프로토콜)는 허가(RFC 9309)가 아닙니다. 이 자발적인 프로토콜의 한계와 일치하여, 대규모 증거 및 제어된 robots.txt 실험은 지시사항이 엄격해질수록 준수가 줄고 일부 봇 카테고리(인공지능 관련 크롤러 포함)가 거의 robots.txt를 확인하지 않는다는 것을 보여줍니다. 2023년 말까지 약 48%의 널리 사용되는 뉴스 웹사이트가 OpenAI의 크롤러를 차단하였습니다. 우리는 차단을 측정 가능한 전략적 행동으로 취급하고, 총 트래픽과 실제(인간) 트래픽을 분리하여 그 효과에 대한 인과 증거를 제공함으로써 robots.txt 준수에 대한 증거에도 불구하고 GenAI 크롤러 차단이 신문 웹사이트 트래픽에 통계적으로 유의미한 영향을 미친다는 것을 보여줍니다.

셋째로, 우리의 논문은 작업장에서 LLM 채택과 그 노동 수요 및 조직적 조정에 대한 함의에 관한 증가하는 문헌과 관련이 있습니다. 노출 기반 분석은 어떤 직업 패키지의 작업이 LLM 능력에 가장 크게 영향을 받는지를 맵핑합니다. 실험적 및 현장 증거는 생성 AI가 지식 작업 태스크에서 생산성을 높일 수 있으며 종종 경험이 적은 근로자에게 더 큰 이익을 제공하는 것으로 나타났습니다. 집단적인 수준에서는 최근 증거는 신속한 확산에도 불구하고 단기적으로 소득과 시간에 대한 제한된 영향을 발견하였으며 노출된 작업의 온라인 노동 시장에서 수요 변화가 더 명확하게 나타납니다; 거시적 관점은 경제 전체적인 영향이 가까운 미래에는 미미할 수 있음을 경고합니다. 우리는 출판사 측면의 고용 구성(편집/콘텐츠 역할 대비 다른 게시물)을 조사하고 핵심 뉴스룸 역할에 대한 단기적 대체가 적다는 것을 문서화함으로써 기여합니다.

마지막으로, 우리의 논문은 콘텐츠 공급, 포맷 선택 및 수익화 기술과 관련된 문헌과 연관되어 있습니다. 고전적인 작업은 수익화 방안이 콘텐츠 인센티브와 형식을 연결하며 광고 기반 수익화가 콘텐츠 품질과 주제 선택을 바꿀 수 있음을 보여주며, 구독, 월페이퍼 및 프리미엄 설계는 도달 범위와 수익 사이의 타협점을 제공합니다. 생성 AI는 온라인 지식 커뮤니티에서 참여와 기여 패턴을 바꾸었습니다. 우리는 출판사들이 단순히 텍스트 출력을 확대하지 않고 대신 더 많은 이미지, 동영상 및 상호 작용 요소를 포함한 더 풍부한 페이지로 이동하고 있다는 것을 보여줌으로써 이 문헌에 기여하며, 이는 다미디어와 상호 작용이 사용자 경험과 참여를 형성한다는 전문적 증거와 일치합니다.

데이터

우리는 여러 데이터 원에서 웹사이트 트래픽, 페이지 구조 및 콘텐츠 대리인, 고용에 대한 높은 주파도 측정을 결합하여 출판사 패널을 구성했습니다.

웹사이트 트래픽

SimilarWeb

우리의 첫 번째 트래픽 측정은 Dewey Data Platform을 통해 접근한 SimilarWeb에서 나옵니다. 이 데이터는 2022년 10월 17일부터 2025년 7월 1일까지 샘플 웹사이트 각 도메인 수준의 총 방문(데스크톱 및 모바일)에 대한 일일 추정치를 제공합니다. 각 도메인-날짜별로, 우리는 전 세계적인 일일 방문 추정 수를 관찰합니다. 이러한 데이터는 집단적 트래픽 패턴을 특성화하고 출판사 GenAI 봇 정책 변경에 대한 트래픽 반응을 연구하는 데 사용됩니다.

Comscore Web-Behavior Panel

인간의 브라우징을 측정하기 위해 2022-2024년도 Comscore Web-Behavior 패널을 WRDS에서 사용합니다. 이 패널은 미국 가구 대표 집단의 데스크톱 브라우징 행태를 기록합니다. 각 가구-URL 사건에 대해, 우리는 도메인 URL과 타임스탬프를 관찰합니다. 이러한 사건을 모아 출판사 수준에서 “실제” 고객 방문 측정치를 구성하고 이를 집단적 트래픽 측정치로부터 실제 인간 브라우징을 구분하는 데 사용합니다.

출판사 특성 및 콘텐츠 양

robots.txt와 페이지 구조

각 출판사 도메인에 대해 HTTP Archive에서 robots.txt 규칙과 페이지 수준 HTML 메타데이터를 수집합니다. 이러한 데이터는 특정 도메인이 주요 GenAI 크롤러를 차단했는지 및 언제 차단했는지를 코드화하고 페이지 구성의 변화량을 양화하는 데 사용됩니다, 이는 이미지, 비디오 및 상호 작용 요소의 강도를 포함합니다.

콘텐츠 양 대리인

출판된 콘텐츠의 규모와 범위를 대리하기 위해 Internet Archive의 Wayback Machine에서 각 도메인에 대한 고유 URL의 연간 카운트를 생성합니다. 이러한 카운트는 출판사가 시간이 지남에 따라 유지하는 독립 페이지 수를 대리하며 콘텐츠 생산 분석에 사용됩니다.

직업 게시물 및 고용

채용 패턴을 연구하기 위해 WRDS에서 Revelio Labs의 직업 게시물을 사용합니다. Revelio는 다양한 출처의 직업 게시물을 집계하고 고용자 식별자, 직위 제목, 업종 코드, 위치 및 게시 날짜를 제공합니다. 우리는 이러한 데이터를 사용하여 편집/콘텐츠 생산 역할 대비 다른 역할에 대한 출판사 수준의 월간 신규 직업 게시물 카운트를 구성하고 시간 경과에 따른 편집/콘텐츠 게시물 및 전체 게시물 변화를 추적합니다.

샘플 구성 및 원에서의 병합

우리는 Revelio에서 고용자 관련 직업 게시물이 있고 최소한 하나의 트래픽 소스(SimilarWeb 또는 Comscore)에 나타나는 도메인으로부터 샘플을 시작합니다. 도메인은 Revelio의 회사-URL 매핑을 사용하여 도메인 수준에서 원 사이를 일치시킵니다. 총 6,286개 공통 도메인이 Revelio와 SimilarWeb에 있습니다.

[Title_Easy_KO]: AI와 뉴스 출판: 변화의 징후 [Title_Easy_EN]: AI and News Publishing: Signs of Change


📊 논문 시각자료 (Figures)

Figure 1



Figure 2



Figure 3



Figure 4



Figure 5



Figure 6



Figure 7



Figure 8



Figure 9



Figure 10



Figure 11



Figure 12



Figure 13



Figure 14



Figure 15



Figure 16



Figure 17



Figure 18



Figure 19



Figure 20



Figure 21



Figure 22



Figure 23



Figure 24



Figure 25



Figure 26



Figure 27



Figure 28



Figure 29



Figure 30



Figure 31



Figure 32



Figure 33



Figure 34



Figure 35



Figure 36



Figure 37



Figure 38



감사의 말씀

이 글의 저작권은 연구하신 과학자분들께 있으며, 인류 문명 발전에 공헌해주신 노고에 감사를 드립니다.

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키