Bangla 혐오 발언 탐지를 위한 CNN과 GRU 주의 융합 모델

Bangla 혐오 발언 탐지를 위한 CNN과 GRU 주의 융합 모델
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 BLP‑2025 과제 1의 1A·1B 서브태스크에 참여하기 위해 BanglaBERT 임베딩을 기반으로 CNN과 Bi‑GRU를 병렬로 처리하고, 각각에 셀프‑어텐션을 적용한 하이브리드 모델을 제안한다. 클래스 불균형을 고려한 전처리와 레이어 정규화, 드롭아웃 등을 활용해 1A에서 마이크로 F1 0.7345(2위), 1B에서 0.7317(5위)을 기록하였다.

상세 분석

본 연구는 저자들이 Bangla 언어 특유의 형태소 변형과 문자 결합 문제를 해결하기 위해 Unicode 정규화와 bnUnicodeNormalizer를 적용한 전처리 파이프라인을 설계한 점이 눈에 띈다. 전처리 단계에서 URL 제거, 영문 소문자 변환, 이모지 → Bangla 텍스트 변환, 숫자와 쉼표 결합, 퍼센트 기호를 Bangla 용어로 치환하는 등 세심한 작업을 수행함으로써 모델 입력의 일관성을 확보하였다.

모델 아키텍처는 크게 네 부분으로 구성된다. 첫 번째는 사전학습된 BanglaBERT를 이용해 입력 문장을 128 차원의 토큰 임베딩으로 변환하는 단계이며, 이는 저자들이 언어‑특화 사전학습 모델이 일반적인 다국어 BERT보다 Bangla 텍스트에 더 적합하다는 가정에 기반한다. 두 번째는 변환된 임베딩을 병렬로 전달하는 CNN과 Bi‑GRU 두 경로이다. CNN 경로는 커널 사이즈 1, 2, 3을 각각 128개의 필터로 적용해 다양한 n‑gram 특징을 추출하고, ReLU와 Adaptive Max‑Pooling을 거쳐 고정 길이 표현을 만든 뒤 레이어 정규화와 셀프‑어텐션을 통해 지역적 중요 정보를 강조한다. Bi‑GRU 경로는 2층, hidden 128의 양방향 GRU를 사용해 순차적 의존성을 포착하고, 이후 단일 헤드 셀프‑어텐션으로 장기 의존성 중 핵심 토큰에 가중치를 부여한다.

세 번째 단계인 Feature Fusion Layer에서는 CNN과 Bi‑GRU에서 얻은 어텐션 가중치가 적용된 특징 벡터를 단순 연결(concatenation)한 뒤, 128 차원 선형 변환 → ReLU → 레이어 정규화 → Dropout(0.3) 순으로 처리한다. 이는 두 종류의 특징을 균형 있게 통합하고 과적합을 방지한다. 마지막 Output Layer는 목표 클래스 수에 맞는 선형 레이어와 Softmax를 통해 최종 로짓을 출력한다.

학습 설정은 배치 사이즈 16, 학습률 1e‑5, AdamW 옵티마이저, CrossEntropyLoss, Gradient Clipping을 적용했으며, 최대 시퀀스 길이는 128로 제한하였다. 이러한 하이퍼파라미터는 작은 배치와 낮은 학습률이 대규모 사전학습 모델의 미세조정에 유리함을 반영한다.

실험 결과는 두 서브태스크 모두에서 상위 성적을 기록했으며, 특히 1A에서 0.0017점 차이로 1위를 차지한 팀에 근접한 점수를 얻었다. 이는 클래스 불균형이 심한 데이터셋에서도 CNN‑GRU‑Attention 구조가 효과적으로 다중 클래스 구분 능력을 유지한다는 증거다. 다만, 소수 클래스(예: Sexism, Religious Hate)의 재현율이 낮을 가능성이 남아 있어 향후 클래스‑별 가중치 조정이나 데이터 증강 기법이 필요할 것으로 보인다.

전반적으로 본 논문은 Bangla 특화 사전학습 모델과 병렬 CNN·Bi‑GRU‑Attention 융합이라는 설계가 저자들의 목표인 “문맥적 의미와 지역적 언어 단서 모두를 포착”하는 데 성공했음을 보여준다. 향후 연구에서는 멀티‑헤드 어텐션, 트랜스포머 기반 인코더, 혹은 메타‑학습을 도입해 소수 클래스 성능을 더욱 끌어올릴 여지가 있다.


댓글 및 학술 토론

Loading comments...

의견 남기기