호주·인도 영어 속 은어 이해력 평가: 대형 언어 모델의 한계와 가능성
초록
본 연구는 인도 영어(en‑IN)와 호주 영어(en‑AU)에 특화된 은어 377개(웹)와 1,492개(생성) 사례를 구축하고, 7개 최신 언어 모델을 대상어 예측(TWP), 가이드형 예측(TWP*), 선택형(TWS) 과제에 적용해 성능을 비교한다. 결과는 TWS에서 평균 정확도 0.49로 가장 높았으며, 웹 기반 데이터가 생성 데이터보다 약간 우수하고, en‑IN이 en‑AU보다 전반적으로 더 잘 처리됨을 보여준다.
상세 분석
이 논문은 비표준 영어 변종, 특히 지역별 은어에 대한 대형 언어 모델(LLM)의 이해도를 체계적으로 조사한다. 먼저 두 변종(en‑IN, en‑AU)에서 각각 940·2540개의 후보 은어를 위키터리와 Urban Dictionary에서 수집하고, 원어민 검증을 거쳐 최종적으로 377개의 실제 사용 예(웹 데이터, WEB)와 1,492개의 시나리오 기반 합성 예(GEN)를 만든다. 데이터는 슬랭 구문, 정의, 사용 예를 포함하며, GEN은 Google Gemini Pro 2.5를 활용해 네 가지 상황을 자동 생성하도록 설계돼 lexical diversity와 semantic dissimilarity를 ROUGE와 cosine similarity로 검증한다.
평가 과제는 세 가지로 구성된다. (1) Target Word Prediction(TWP): 마스크된 문장에서 은어를 자유롭게 생성하도록 요구한다. (2) Guided TWP(TWP*): 프롬프트에 “특정 지역의 은어를 사용하라”는 지시를 추가해 모델이 변종에 맞는 은어를 생성하도록 유도한다. (3) Target Word Selection(TWS): 정답 은어와 3개의 무작위 방해어를 제시하고, 가장 적합한 선택지를 고르게 한다. Encoder‑only 모델(BERT‑Base, RoBERTa‑Large, XLM‑RoBERTa‑Large)은 마스크 토큰 예측을, Decoder‑only 모델(Granite‑1B, Llama‑3.2‑3B‑Instruct, Olmo‑2‑7B‑Instruct, Qwen‑3‑4B‑Instruct)은 클로즈 형식 프롬프트와 온도 0.8 설정으로 수행한다.
성능 지표는 정확도와 문장 임베딩 간 코사인 유사도이다. 전체 평균 결과는 TWP에서 정확도 0.02, 유사도 0.27, TWP*에서 정확도 0.04, 유사도 0.28, TWS에서 정확도 0.49, 유사도 0.61으로 나타났다. 즉, 자유 생성(open‑vocab) 과제에서는 모델이 은어를 거의 맞추지 못하지만, 선택형 과제에서는 제한된 후보군 내에서 정답을 인식하는 능력이 현저히 높다.
도메인 별 차이도 확인되었다. WEB 데이터가 실제 사용자 작성 예시이므로 모델이 약간 더 높은 정확도(예: TWP 0.04 vs 0.01)와 유사도를 보였으며, 이는 사전 학습 코퍼스에 웹 텍스트가 포함돼 있을 가능성을 시사한다. 반면 GEN은 스타일과 맥락이 인위적이어서 모델이 더 어려워한다.
언어 변종 효과는 더욱 두드러졌다. en‑IN이 en‑AU보다 전반적으로 높은 정확도와 유사도를 기록했으며, 특히 TWS에서는 정확도 차이가 0.10(0.54 vs 0.44)까지 벌어졌다. 이는 인도 영어 은어가 프리트레인 데이터에 더 많이 노출됐거나, 문화적·사회적 맥락이 모델에 더 친숙했음을 의미한다.
오류 분석에서는 가장 높은 유사도를 보인 Olmo‑2‑7B‑Instruct를 대상으로, 모델이 종종 의미는 비슷하지만 정확히 일치하지 않는 동의어 혹은 변형을 생성함을 발견했다. 또한, 일부 은어는 다의적 특성 때문에 문맥만으로는 구분이 어려워, 선택형 과제에서만 정확히 맞출 수 있었다.
결론적으로, 현재 LLM은 은어와 같은 비표준 어휘를 “인식”하는 데는 어느 정도 능력이 있지만, “생성” 단계에서는 크게 부족하다. 데이터 다양성 확보와 변종별 사전 학습 데이터 보강이 필요하며, 평가 벤치마크에도 변종 특화 은어를 포함한 다중 과제가 요구된다.
댓글 및 학술 토론
Loading comments...
의견 남기기