한국어 멀티모달 안전 평가 데이터셋 어슈레이 구축

초록

본 논문은 한국어와 한국 사회·문화적 특성을 반영한 멀티모달 안전 평가 데이터셋 AssurAI를 제안한다. 35개의 위험 요인 택소노미를 정의하고, 전문가 주도 시드 단계와 크라우드소싱 확대 단계를 결합한 두 단계 구축 과정을 거쳐 텍스트·이미지·비디오·오디오 4가지 모달리티에 걸쳐 11,480개의 고품질 샘플을 확보한다. 삼중 독립 주석·전문가 레드팀 검증을 포함한 엄격한 품질 관리 절차를 적용했으며, 최신 대형 언어 모델(LLM)의 안전성을 평가한 파일럿 실험을 통해 데이터셋의 실용성을 입증한다.

상세 분석

AssurAI는 기존 영어 중심 안전 데이터셋이 놓치기 쉬운 한국 고유의 문화·사회적 맥락을 포괄하도록 설계되었다. 논문은 먼저 다학제 전문가 그룹(AI 윤리, 언어학, 사회학, 법학 등)이 기존 위험 프레임워크(예: OpenAI Safety Taxonomy, EU AI Act)를 기반으로 35개의 위험 요인을 도출하고, 한국어 특수성(예: 사전·속어·역사·정치적 민감도)을 반영한 세부 항목을 추가한다. 두 단계 구축 방식은 ‘전문가 시드 단계’에서 위험 요인별 대표 사례를 전문가가 직접 생성·검증하고, 이를 토대로 ‘크라우드소싱 확대 단계’에서 대규모 라벨링을 수행한다. 라벨링은 텍스트, 이미지, 비디오, 오디오 각각에 대해 삼중 독립 주석자를 배정해 교차 검증을 실시하고, 불일치가 발생하면 전문가 레드팀이 재검토·수정한다. 이 과정에서 ‘품질 점수(Quality Score)’와 ‘위험 심각도(Severity Score)’를 동시에 부여해 데이터의 정량적 신뢰성을 확보한다. 파일럿 실험에서는 GPT‑4, LLaMA‑2, KoGPT‑Turbo 등 최신 한국어 LLM에 AssurAI를 적용해 위험 요인별 오류율을 측정했으며, 특히 이미지·음성 모달에서 발생하는 문화적 오해와 편향이 텍스트 대비 현저히 높음을 확인했다. 이러한 결과는 멀티모달 안전 평가가 텍스트만으로는 포착하기 어려운 위험을 드러낼 수 있음을 시사한다. 마지막으로 논문은 데이터셋 공개와 함께 지속적인 업데이트·커뮤니티 기반 검증 메커니즘을 제안해 장기적인 품질 유지와 확장을 도모한다.