SEA Guard 동남아 문화 맞춤형 다국어 안전 모델

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 동남아시아 8개 언어와 53개 문화 카테고리를 포괄하는 870 K 샘플 규모의 문화·언어 맞춤형 안전 데이터셋을 자동 생성하고, 이를 기반으로 4 B·8 B·12 B 규모의 SEA‑Guard 모델을 학습한다. 다중 에이전트·프롬프트 가이드라인·Monte Carlo Reasoning Ensemble(MCRE) 기반 라벨링으로 지역 특수성을 반영했으며, 문화 안전 벤치마크와 일반 다국어 안전 벤치마크, 비전‑텍스트 제로샷 테스트에서 기존 보호 모델을 크게 앞선 성능을 보였다.

상세 분석

SEA‑Guard은 “문화적 안전”이라는 새로운 차원을 기존 LLM 보호 파이프라인에 도입한다는 점에서 의미가 크다. 첫 번째 핵심은 데이터 생성 프레임워크이다. 저자들은 문화 주제, 국가, 프롬프트 유형, 라벨 유형이라는 네 가지 메타데이터 축을 정의하고, 각 축의 조합을 균형 있게 커버하도록 요구사항을 설계한다. 이를 바탕으로 가이드라인 에이전트가 단계별 지침(주제·목표, 민감도 레벨, 예시, 금지 행위 등)을 자동 생성하고, 이를 Persona(연령·성별·거주 국가)와 목표 언어와 결합해 프롬프트·응답을 생성한다. 특히, 같은 문화 주제라도 태국과 미얀마처럼 세부 관습이 다른 경우를 반영하기 위해 ‘Songkran’과 같은 사례를 들어 설명한다.

두 번째 핵심은 라벨링·품질 검증 단계이다. 저자들은 MCRE(Monte Carlo Reasoning Ensemble)를 제안해 동일 입력에 대해 N = 10개의 확률적 추론 경로를 수행하고, 각 경로의 예측을 집계해 확률 분포를 만든다. 이를 통해 5단계(안전‑안전‑민감‑민감‑위험) 순위 라벨을 부여하고, 연속적인 해악 점수를 계산해 최종 3단계(안전·민감·위험) 라벨로 변환한다. 이 방식은 단일 CoT(Chain‑of‑Thought) 라벨링보다 과신을 완화하고, 문화적 미묘함이 있는 경계 사례에 대한 불확실성을 정량화한다.

데이터 품질 보장은 문화·주제·사용 목적 분류기 3종을 추가로 MCRE 기반으로 운영해 메타데이터 일치 여부를 검증하고, bag‑of‑words 기반 중복 탐지기로 표면적 중복을 제거해 1 M → 870 K 샘플로 축소한다. 마지막으로 32명의 현지 네이티브 어노테이터가 100개씩 샘플을 검토해 79.5 %가 고품질임을 확인했다.

모델 학습에서는 SEA‑HELM 벤치마크에서 우수한 성능을 보인 Qwen‑SEA‑LION‑v4‑VL(4 B·8 B)와 Gemma3‑12 B를 베이스로 선택하고, 동일 구조의 파인튜닝 프롬프트와 하이퍼파라미터를 적용했다. 실험에서는 (1) 문화 안전 벤치마크에서 기존 SOTA 보호 모델을 크게 앞섰으며, (2) 일반 다국어 안전 벤치마크에서도 경쟁력을 유지했고, (3) 비전‑텍스트 제로샷 도메인에서도 7개 중 6개에서 성능 향상을 기록했다. 또한 과소·과다 방어(under‑/over‑defensiveness)와 적대적 공격에 대한 견고성도 검증했다.

이러한 설계는 대규모 인간 라벨링이 어려운 저자원 언어·문화에 대해 자동화된 고품질 안전 데이터와 모델을 제공한다는 점에서 실용적이다. 다만, 데이터 생성에 사용된 LLM 자체의 편향이 전이될 위험, MCRE의 높은 연산 비용, 8개 언어에 국한된 평가 범위 등 한계도 존재한다. 향후 실제 서비스 적용 시 실시간 라벨링 비용 절감 및 문화·언어 범위 확대가 필요하다.

SEA Guard 동남아 문화 맞춤형 다국어 안전 모델

초록

상세 분석

댓글 및 학술 토론

의견 남기기