AI 투명성, 설계가 답이다: EU AI법 제50조II의 구조적 격차
본 논문은 EU 인공지능법 제50조II가 요구하는 인간이 이해할 수 있는 라벨과 기계가 읽을 수 있는 라벨을 동시에 제공해야 하는 투명성 의무가 현재 생성형 AI 시스템의 구조적 한계와 충돌한다는 점을 진단한다. 합성 데이터 생성과 자동 사실 검증 두 사례를 통해 표기 형식 부재, 신뢰성 기준과 확률적 출력 사이의 불일치, 사용자 전문성 차이에 대한 지침 부족이라는 세 가지 구조적 격차를 제시하고, 투명성을 사후 메타데이터가 아니라 시스템 설계…
저자: Vera Schmitt, Niklas Kruse, Premtim Sahitaj
본 논문은 EU 인공지능법(Artificial Intelligence Act) 제50조II가 요구하는 이중 투명성 의무—인간이 이해할 수 있는 라벨과 기계가 자동 검증할 수 있는 라벨을 동시에 제공해야 함—가 현재의 생성형 AI 시스템과 근본적으로 충돌한다는 점을 체계적으로 분석한다. 먼저 규제 배경을 설명하면서, 제50조II가 AI 시스템의 출력 자체를 규제 대상으로 삼아, 기존 GDPR과는 달리 ‘출력 수준’에서 사전 통제를 시도한다는 점을 강조한다. 그러나 조문은 구체적인 기술 사양을 제시하지 않으며, ‘효과적·상호운용·견고·신뢰성’이라는 네 가지 품질 기준만을 언급한다. 현재 존재하는 국제·유럽 표준(ISO 42001, ISO/IEC 24028 등)은 조직·시스템 수준의 관리에 초점을 맞추고 있어, 실제 출력에 대한 라벨링 방법론을 제공하지 못한다.
논문은 두 개의 고위험 사용 사례를 통해 구조적 격차를 구체화한다. 첫 번째는 합성 데이터 생성이다. 합성 데이터는 실제 데이터 부족을 메우기 위해 널리 활용되며, 이미지, 텍스트, 시계열 등 다양한 형태를 가진다. 여기서 라벨링은 두 가지 측면에서 문제를 일으킨다. 인간이 인식할 수 있는 워터마크는 인간 검증 단계에서 사라질 위험이 있고, 동시에 모델 학습 과정에서 반복적으로 등장하면 모델이 이를 의미 있는 특성으로 학습해 ‘현실 격차’를 확대한다. 반면, 기계가 읽을 수 있는 메타데이터(예: 암호화된 해시)는 데이터 파이프라인에서 압축·포맷 변환·재학습 과정에서 손실되기 쉽다. 따라서 ‘두 가지 형태를 동시에 유지’한다는 규제 요구는 기술적으로 모순이며, 현재의 표준화 작업으로는 충족할 수 없는 구조적 한계가 있다.
두 번째는 자동 사실 검증 시스템이다. 사실 검증 파이프라인은 LLM이 생성한 주장에 대해 다중 출처를 추적하고, 신뢰도 점수를 부여한다. 그러나 이러한 시스템은 ‘보조 기능’ 예외에 해당하지 않는다. 보조 기능은 인간이 최종 편집을 담당하고 AI는 단순히 제안을 제공하는 경우에만 적용되는데, 사실 검증 시스템은 AI가 직접 진위값을 할당하고 신뢰도 판단을 내리므로 규제 대상이 된다. 또한, 라벨링은 인간‑AI 협업 과정에서 여러 차례 편집·요약·재구성되면서 원본 메타데이터가 소실된다. 현재 메타데이터 스키마(Dublin Core, Schema.org 등)는 복합적인 출처 추적과 라벨 유지에 충분히 대응하지 못한다.
이 두 사례를 통해 논문은 세 가지 구조적 격차를 도출한다. (a) 인간‑AI 혼합 출력에 대한 통합 라벨 포맷 부재: 현재 표준은 단일 미디어(텍스트·이미지·오디오)별로만 정의돼 있어, 멀티모달 혹은 인간과 AI가 교차 편집한 결과물에 대한 일관된 라벨링이 불가능하다. (b) 법적 ‘신뢰성’ 기준과 확률적 모델 행동 사이의 불일치: 동일 입력에 대해 모델이 매번 다른 출력을 생성하므로, 라벨이 언제, 어떻게 유지·검증될지에 대한 명확한 기준이 없다. (c) 사용자 전문성 차이에 대한 지침 부족: 라벨이 일반 독자에게는 직관적이어야 하고, 전문가 시스템에게는 구조화된 형태여야 하는데, 이를 조정하는 가이드라인이 전혀 제시되지 않는다.
논문은 이러한 격차를 해소하기 위해 투명성을 ‘사후 메타데이터’가 아니라 ‘시스템 설계 단계에서 내재화된 아키텍처’로 재정의할 것을 제안한다. 구체적으로는 (1) 표준화 기구가 인간‑기계 이중 라벨링을 위한 통합 메타데이터 스키마와 검증 프로토콜을 신속히 제정하고, (2) 모델 학습 단계에서 라벨을 ‘조건부’ 혹은 ‘동적’으로 삽입해 출력 변동성에 대응하며, (3) 사용자 모델링을 기반으로 라벨 표현을 다층화(예: 시각적 워터마크 + 기계용 해시)하는 설계가 필요하다고 주장한다. 또한, 법적 해석 측면에서 ‘보조 기능’ 예외의 적용 범위를 명확히 정의하고, 라벨 손실 위험을 최소화하기 위한 ‘프로세스 인증’ 메커니즘을 도입해야 한다고 강조한다.
결론적으로, EU AI법 제50조II의 목표인 ‘디지털 콘텐츠에 대한 신뢰 회복’은 현재 기술 수준만으로는 달성하기 어렵다. 규제와 기술 사이의 구조적 격차를 메우기 위해서는 법률·AI 공학·인간‑컴퓨터 상호작용(HCI) 분야의 협업이 필수이며, 투명성을 설계 요구사항으로 전환하는 연구 로드맵이 시급히 마련돼야 한다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기