우르두 언어를 위한 트랜스포머 기반 적응형 추천 시스템 ULTRA
초록
ULTRA는 짧은 질의와 긴 질의를 구분하는 임계값 기반 라우팅을 도입해, 헤드라인 수준과 전체 문서 수준의 두 개별 트랜스포머 임베딩 파이프라인으로 동적으로 매칭한다. 이를 통해 저자원 언어인 우르두 뉴스 코퍼스에서 90% 이상의 정밀도를 달성하며, 기존 단일 파이프라인 방식보다 높은 적합성을 보인다.
상세 분석
본 논문은 우르두와 같이 데이터와 언어 도구가 부족한 저자원 언어에서 의미 기반 콘텐츠 추천의 한계를 극복하기 위해 ULTRA라는 새로운 아키텍처를 제안한다. 핵심 아이디어는 질의 길이에 따라 두 개의 전용 임베딩 파이프라인으로 라우팅하는 것이다. 짧은 질의는 헤드라인(제목) 임베딩과 매칭시켜 고정밀도를 확보하고, 긴 질의는 전체 문서 임베딩을 활용해 풍부한 문맥 정보를 반영한다. 라우팅은 사전에 정의된 토큰 수 임계값 θ를 기준으로 수행되며, 이 값은 실험을 통해 최적화된다. ULTRA는 우르두에 특화된 사전학습 트랜스포머 모델(BERT 기반)을 사용하고, CLS 토큰 혹은 평균 풀링 등 다양한 풀링 전략을 비교하여 최적의 문서 표현을 도출한다. 또한 고차원 임베딩의 검색 효율성을 위해 PCA, UMAP, AutoEncoder 등 여러 차원 축소 기법을 적용하고, 압축 후에도 의미 손실을 최소화한다. 실험에서는 대규모 우르두 뉴스 데이터셋(수십만 기사)에서 인덱싱 및 실시간 유사도 검색을 수행했으며, 단일 파이프라인 대비 정밀도(P@10)가 90% 이상 향상되었다는 결과를 제시한다. 이러한 성과는 질의의 의도와 길이에 맞는 시멘틱 정렬이 저자원 언어에서도 효과적임을 입증한다. 논문은 또한 시스템의 확장성, 라우팅 임계값 선정 방법, 그리고 다양한 도메인(이커머스, 블로그 등)으로의 일반화 가능성을 논의한다.
댓글 및 학술 토론
Loading comments...
의견 남기기