경량 언어 모델로 개인정보 마스킹: 정확도·속도·실제 적용 비교

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 경량 모델인 T5‑small과 Mistral‑Instruct‑v0.3을 AI4Privacy 기반 영어 데이터셋으로 미세조정하여, 24개의 표준 PII 카테고리를 마스킹하는 성능을 평가한다. 라벨 정규화가 모든 아키텍처에서 성능을 향상시키며, Mistral은 높은 F1·Recall을 보이지만 지연 시간이 길고, T5는 낮은 비용과 구조화된 출력 제어가 강점이다. 두 모델 모두 실시간 Discord 봇에 적용했을 때 비공식적 대화에서 성능 저하가 관찰되었다.

상세 분석

본 연구는 경량 언어 모델이 대형 LLM에 비해 개인정보(PII) 마스킹 작업에서 충분히 경쟁력 있는지를 체계적으로 검증한다. 먼저, AI4Privacy에서 제공하는 200k 규모의 PII‑masking 데이터셋을 영어 샘플만 추출하고, 라벨 중복·오류를 정규화하는 전처리 파이프라인을 구축하였다. 원본 라벨 225개를 24개의 표준 카테고리(예: PERSON, EMAIL, PHONE 등)로 매핑하고, 정규표현식 기반 보정 함수를 적용해 누락된 마스킹을 자동으로 삽입하였다. 이렇게 정제된 데이터는 두 가지 변형(전체 라벨 유지 vs. 상위 24개 라벨만 사용)으로 학습에 활용되었다.

모델 측면에서는 인코더‑디코더 구조의 T5‑small(60M 파라미터)과 디코더‑전용 Mistral‑Instruct‑v0.3(7B 파라미터)을 선택하였다. T5‑small은 텍스트‑투‑텍스트 프레임워크에 맞춰 입력 문장을 “mask: <문장>” 형태로 전달하고, 마스킹된 출력 문자열을 직접 생성하도록 학습시켰다. 반면 Mistral은 프롬프트 기반 지시문(“Mask all PII in the following text: …”)을 이용해 제로샷에 가까운 방식으로 fine‑tuning을 진행했으며, 토큰 레벨에서 마스크 토큰(

경량 언어 모델로 개인정보 마스킹: 정확도·속도·실제 적용 비교

초록

상세 분석

댓글 및 학술 토론

의견 남기기