퀴어 정체성 존중을 위한 베이지안 발음대명사 학습 모델

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

이 논문은 개인별 이름·대명사 선택을 확률 그래프 모델인 중첩 중국식 레스토랑 프랜차이즈 과정(nCRFP)으로 구현한다. 형식‑의미 매핑을 배제하고, 새로운(neopronoun) 형태와 이름을 단일 표본으로도 빠르게 학습·갱신할 수 있게 하여, 성소수자에 대한 언어 기술의 형평성을 높이는 방법을 제시한다.

상세 분석

본 연구는 기존 자연어 처리(NLP) 시스템이 대명사와 이름을 고정된 형태‑의미 쌍으로 취급하는 한계를 지적한다. 특히, 비이진·네오프라운(예: “ze”, “xe”, “ey”)과 같은 신조어는 훈련 코퍼스에 충분히 나타나지 않아 모델이 제대로 인식하지 못한다는 문제를 제기한다. 이를 해결하기 위해 저자는 베이지안 비모수 과정, 특히 중첩 중국식 레스토랑 프랜차이즈 과정(nCRFP)을 활용한다. nCRFP는 무한히 많은 토픽(여기서는 ‘커뮤니티’ 혹은 ‘사회적 집단’)을 계층적으로 모델링하며, 각 토픽은 자체적인 단어(대명사·이름) 분포를 가진다. 개인은 하나의 ‘문서’에 해당하고, 해당 문서는 개인이 경험한 대명사·이름 시퀀스로 구성된다.

모델의 핵심 변수는 다음과 같다. ① P: 화자가 일반적으로 대명사를 생성할 확률, ② P_t: 특정 대상 t에 대한 화자의 사전(prior) 분포, ③ produced pronoun(pro_t,i): 특정 상호작용 i에서 t를 지시하기 위해 실제 사용된 대명사, ④ topic T_d: 대화 d가 속한 커뮤니티 토픽. 베이지안 업데이트를 통해 화자는 새로운 대명사 형태를 관찰하면 해당 토픽의 하위 분포에 추가하고, 개인별 사전은 커뮤니티 사전과 상호작용한다. 이렇게 하면 (1) 새로운 형태를 어휘에 동적으로 삽입, (2) 단일 예시만으로도 개인의 사전이 급격히 변형, (3) 커뮤니티 간 차이(예: 전통적 이진 성별 커뮤니티 vs. 퀴어 친화적 커뮤니티)를 자연스럽게 반영한다.

또한, 저자는 ‘강직성(prior rigidity)’이라는 개념을 도입한다. 이는 화자가 기존 성별 이분법에 기반한 강한 사전을 가지고 있어, 새로운 대명사를 받아들이기 어려운 상황을 수학적으로 표현한다. 반대로, 퀴어 커뮤니티에 속한 화자는 보다 평탄한 사전 분포를 가지며, 새로운 형태를 빠르게 통합한다. 이러한 차이는 nCRFP의 하이퍼파라미터(α, γ 등) 조절로 모델링 가능하며, 실험적으로는 사전 강도와 학습 속도 사이의 트레이드오프를 시뮬레이션한다.

논문은 또한 기존 LDA 기반 토픽 모델과의 차별점을 강조한다. LDA는 고정된 어휘와 토픽 수를 전제로 하지만, nCRFP는 무한 어휘와 토픽을 허용한다. 따라서 네오프라운과 같은 신조어가 등장하면 즉시 새로운 ‘단어’와 ‘토픽’이 생성되어 모델에 반영된다. 이는 현재 대규모 언어 모델이 사전 정의된 토큰 집합에 의존하는 한계를 극복하는 중요한 설계 선택이다.

마지막으로, 저자는 이 모델이 실제 NLP 파이프라인에 적용될 경우, 대명사 교정, 자동 텍스트 생성, 대화형 에이전트 등에서 성소수자에 대한 오인(misgendering)을 크게 감소시킬 수 있음을 제시한다. 특히, 개인별 사전 업데이트를 실시간으로 수행함으로써, 사용자가 이름·대명사를 변경했을 때 시스템이 즉시 반영하도록 할 수 있다. 이는 현재의 ‘버전 업데이트’ 방식보다 훨씬 사용자 친화적이며, 형평성을 실현하는 기술적 기반이 된다.

퀴어 정체성 존중을 위한 베이지안 발음대명사 학습 모델

초록

상세 분석

댓글 및 학술 토론

의견 남기기