AIReg‑Bench: AI 규제 준수 평가를 위한 LLM 벤치마크

AIReg‑Bench: AI 규제 준수 평가를 위한 LLM 벤치마크
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

AIReg‑Bench는 EU AI Act(이하 AIA) 준수 여부를 판단하도록 설계된 120개의 가상 기술 문서 샘플과, 법률 전문가가 부여한 준수 라벨을 제공한다. LLM 기반 문서 생성 파이프라인, 전문가 검증 절차, 10개 최신 LLM에 대한 초기 평가 결과를 제시하며, 향후 규제‑AI 연구에 표준 데이터셋으로 활용될 수 있음을 강조한다.

상세 분석

본 논문은 AI 규제 준수 평가라는 새로운 과제에 대한 정량적 벤치마크를 최초로 제시한다는 점에서 의의가 크다. 먼저 샘플 생성 파이프라인은 gpt‑4.1‑mini를 중심으로 3단계 프롬프트 설계(시스템 개요 → 규정 프로파일 → 기술 문서 발췌)로 구성돼, 고위험 AI(HRAI) 사용 사례 8가지와 AIA 조항(9,10,12,14,15) 조합을 다양하게 생성한다. 이 과정에서 ‘컴플라이언스 방향(준수 vs 비준수)’을 조절하는 스티어링 파라미터를 도입해 데이터의 라벨 분포를 인위적으로 균형 맞추었다는 점이 눈에 띈다.

생성된 120개의 발췌문은 법률 전문가 6명(법학 전공 대학원생·변호사)에게 3인 1중복 방식으로 검토되었다. 라벨링은 1‑5 Likert 척도로 ‘준수 가능성’과 ‘비준수 가능성’을 각각 평가했으며, 평균 타당도는 Krippendorff α 0.651(주석자 2명 제외 시 0.786)으로 중간 수준이다. 이는 규제 해석이 주관적일 수 있음을 시사하면서도, 다수 라벨이 4~5점(높은 준수 가능성)으로 집중돼 데이터의 신뢰성을 어느 정도 확보했다는 점을 보여준다.

벤치마크 적용 실험에서는 Gemini 2.5 Pro, GPT‑4o, Claude 3 등 10개 최신 LLM을 동일 프롬프트로 평가했다. 모델별 Cohen’s κ(가중) 점수는 0.62~0.86 사이였으며, 특히 Gemini 2.5 Pro가 0.856이라는 높은 순위 상관을 기록했다. 이는 현존 LLM이 인간 전문가와 유사한 수준으로 규제 조항을 해석할 수 있음을 의미한다. 그러나 모델 간 성능 격차가 크고, 특히 Article 10·15와 같이 해석이 복잡한 조항에서 일관성이 떨어지는 점은 한계로 지적된다.

데이터셋 공개와 함께 파이프라인 코드를 오픈소스로 제공함으로써, 향후 다른 규제(예: 미국 AI Bill of Rights)나 실제 기업 문서에 적용해 확장할 수 있는 기반을 마련했다. 다만, 가상 문서에 의존한다는 점, 라벨링의 주관성, 그리고 LLM이 외부 지식에 접근하지 못하도록 제한한 실험 설계 등이 실제 규제 감사 환경과 차이를 만들 수 있다. 향후 연구에서는 실제 기업의 AI 시스템 문서와 연계한 검증, 다중 라벨(법적·기술·윤리) 통합, 그리고 라벨링 자동화 기법을 탐색할 필요가 있다.


댓글 및 학술 토론

Loading comments...

의견 남기기