다지라봇: 알제리 방언을 위한 RAG 기반 지능형 대화 에이전트

다지라봇: 알제리 방언을 위한 RAG 기반 지능형 대화 에이전트
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

다지라봇은 알제리 방언(다르자)의 비표준 표기와 프랑스어·아라비지(라틴 문자) 혼용 문제를 해결하기 위해, Rasa 기반 희소 특징 파이프라인, 전통 머신러닝, 그리고 다지라BERT 파인튜닝을 비교·평가한 하이브리드 NLU‑RAG 시스템이다. 8 k개의 아라비아 문자와 7 k개의 라틴 문자 데이터셋을 정규화·증강한 뒤, 69개 의도 분류와 지식 기반 검색·생성을 결합해 정확도 88 %(아라비아)·92 %(라틴)를 달성했다.

상세 분석

다지라봇은 알제리 통신 서비스 현장의 실제 요구를 반영한 엔드‑투‑엔드 파이프라인을 제시한다. 첫 단계에서는 두 스크립트(아라비아 문자와 라틴 문자, 즉 아라비지)를 별도로 정규화한다. 아라비아 문자에서는 알리프·하므자·타 마르부타 등 음운 변형을 하나의 기본 형태로 통합하고, 라틴 문자에서는 ‘3’, ‘7’, ‘9’와 같은 숫자 대체 문자를 원음 문자로 복원한다. 이러한 스크립트‑특화 전처리는 어휘 희소성을 크게 감소시켜 토크나이저와 임베딩 단계의 효율을 높인다.

데이터 증강은 세 가지 축으로 진행된다. (1) 원어민이 수행한 수동 패러프레이징을 통해 희귀 의도에 최소 13~28개의 샘플을 확보하고, (2) 방언 동의어 사전을 활용한 어휘 교체로 지역 변이성을 반영했으며, (3) 프랑스어‑아라비지 혼합 문장을 백트랜슬레이션(프랑스어→다르자)으로 재생성해 의미 일관성을 검증했다. 결과적으로 8 178개의 아라비아 문자와 7 259개의 라틴 문자 데이터가 69개 의도로 균형 있게 배치되었다.

모델링 단계에서는 세 가지 접근법을 비교한다. Rasa 기반 희소 특징 파이프라인은 TF‑IDF 문자 n‑그램과 DIET 의도 분류기를 사용해 빠른 프로토타입을 제공하지만, 코드‑스위칭과 철자 변형에 취약했다. 전통 머신러닝(예: SVM, 랜덤 포레스트)은 중간 수준의 정확도를 보였으나, 대규모 파라미터 튜닝이 필요했다. 최종적으로 다지라BERT(DziriBER‑T)를 2단계 파인튜닝(스크립트 별 사전 학습 → 도메인 파인튜닝)하여 가장 높은 성능을 기록했으며, 특히 라틴 스크립트에서 92 %의 정확도를 달성했다.

핵심 혁신은 RAG(검색‑증강 생성) 모듈이다. 의도 분류 결과가 ‘스마트 라우팅’이 아닌 지식‑집약형 질문으로 판단되면, 사전 구축된 기업 문서 인덱스(E5 기반 벡터 검색)에서 관련 문단을 추출하고, 이를 프롬프트에 삽입해 LLM이 답변을 생성하도록 설계했다. 이 과정은 ‘Hallucination’ 문제를 크게 억제하고, 최신 요금제·계약 정보와 같은 시시각각 변하는 데이터를 실시간으로 반영한다.

실험 결과는 두 스크립트 모두에서 파인튜닝된 다지라BERT가 기존 베이스라인을 7~10 %p 상회함을 보여준다. 특히 ‘코드 PUK’와 같은 희귀 의도, 그리고 ‘roaming 활성화’와 같은 프랑스어 혼용 문장에서 오류율이 현저히 낮았다. 시스템 응답 지연은 350 ms 이하로, 실시간 고객 서비스에 충분히 적용 가능함을 입증했다.

한계점으로는 데이터 규모가 여전히 수천 수준에 머물러 대규모 상용 서비스에 대한 일반화 검증이 부족하고, 라틴 스크립트에서 숫자 대체 규칙이 일부 최신 신조어를 포착하지 못한다는 점을 들 수 있다. 향후 연구에서는 지속적인 데이터 파이프라인 자동화와 멀티모달(음성·텍스트) 확장을 통해 실사용 환경에서의 견고성을 높일 계획이다.


댓글 및 학술 토론

Loading comments...

의견 남기기