AI 데이터 초대량화가 초래하는 지속가능성 비용의 전면적 고찰
초록
본 논문은 대규모 데이터가 AI 모델 개발에 미치는 환경·사회·경제적 비용을 ‘초대량 데이터화(Hyper‑Datafication)’라는 개념으로 정의하고, Hugging Face Hub에 공개된 55만 개 데이터셋 메타데이터와 케냐 데이터 노동자 설문을 분석한다. 저장소 에너지 소비·탄소발자국, 언어·문화 대표성, 노동 조건 등을 정량·정성적으로 평가한 뒤, 데이터 출처·자원 인식·소유·개방·절약·표준을 강조하는 Data PROOFS 가이드라인을 제시한다.
상세 분석
이 연구는 세 가지 차원에서 초대량 데이터화가 지속가능성에 미치는 영향을 심층적으로 분석한다. 첫째, Hugging Face Hub에서 수집한 550 000개 데이터셋의 연도별 성장 추이를 통해 연간 신규 데이터셋 수와 전체 저장 용량이 급격히 증가함을 확인했다. 특히 멀티모달 데이터가 비중을 크게 차지하면서 저장소 요구량이 기하급수적으로 확대되었다. 저자들은 데이터 저장에 필요한 전력 소비를 추정하기 위해 평균 스토리지 전력 효율(PUE)과 지역별 전력 탄소 강도(kg CO₂/kWh)를 적용했으며, 결과적으로 2025년 기준 전체 데이터셋 저장에 연간 약 1.2 TWh의 전력이 소모되고, 이는 약 650 000 tCO₂eq에 해당한다는 점을 밝혀냈다. 이는 기존 모델 훈련 단계에서 보고된 탄소 배출량의 30 %에 해당하는 규모이며, 데이터 저장·전송 과정이 환경 부담의 중요한 부분임을 시사한다.
둘째, 사회적 비용 측면에서는 케냐의 데이터 노동자 112명을 대상으로 실시한 설문·심층 인터뷰 결과, 대다수가 대형 기술 기업의 계약 하에 저임금·불안정한 고용 형태로 작업하고 있음을 확인했다. 특히, 그래픽·폭력성 콘텐츠를 라벨링하거나 합성 데이터 생성에 참여하면서 정신적 스트레스와 2차 외상 증후군(PTSD) 위험이 높아졌다. 노동자들은 작업 효율을 강제하는 KPI와 실시간 모니터링 시스템에 의해 지속적인 감시를 받으며, 이는 노동 착취와 정신 건강 악화를 초래한다는 점이 강조되었다.
셋째, 언어·문화 대표성 분석에서는 데이터셋에 포함된 언어를 전 세계 언어 사용 인구와 웹 존재 비율에 대비해 비교했다. 결과는 영어, 중국어, 스페인어 등 고소득 국가 언어가 전체 데이터 용량의 78 %를 차지하고, 아프리카·남아시아 언어는 2 % 미만에 머물러 데이터 편향이 심화되고 있음을 보여준다. 이는 AI 모델이 특정 문화·언어에 과도히 최적화되어 글로벌 서비스 제공 시 불공정성을 확대할 위험이 있음을 의미한다.
이러한 정량·정성 결과를 바탕으로 저자들은 데이터 생산·축적 과정에서 발생하는 환경·사회·경제 비용을 최소화하기 위한 여섯 가지 원칙인 Data PROOFS( provenance, resource awareness, ownership, openness, frugality, standards)를 제안한다. 구체적으로 데이터 생성 단계에서 탄소 메타데이터를 기록하고, 저장 효율을 높이며, 데이터 소유권을 명확히 하고, 불필요한 데이터 중복을 방지하는 ‘프루갈리티(frugality)’ 정책을 강조한다. 또한, 국제 표준화 기구와 협력해 데이터 라벨링·합성 과정의 윤리·안전 가이드라인을 제정하고, 데이터 노동자에게 공정 임금·심리 지원을 제공하도록 권고한다.
전반적으로 이 논문은 AI 연구 커뮤니티가 모델 중심의 지속가능성 논의를 넘어 데이터 자체의 비용을 가시화하고, 정책·산업 차원에서 체계적인 대응이 필요함을 설득력 있게 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기