LLM 기반 추천 설명의 견고성 평가 RobustExplain 프레임워크

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 사용자 행동 기록에 발생할 수 있는 다양한 노이즈 상황을 모사한 5가지 교란 방식을 제시하고, LLM이 생성한 추천 설명의 일관성을 의미·키워드·구조·길이 네 차원에서 측정하는 RobustExplain 프레임워크를 구축한다. 7B‑70B 규모의 네 모델을 실험한 결과, 현재 모델들은 평균 0.50 수준의 중간 정도 견고성을 보이며, 모델 규모가 클수록 최대 8% 정도 안정성이 향상됨을 확인하였다.

상세 분석

RobustExplain은 설명 생성기의 견고성을 정량화하기 위해 두 가지 핵심 요소를 설계한다. 첫째, 현실적인 사용자 행동 교란을 5가지 유형(노이즈 삽입, 시간 순서 섞기, 행동 희석, 카테고리 드리프트, 결측값)으로 정의하고, 각 유형을 1~5 단계의 심각도 레벨로 세분화한다. 예를 들어 노이즈 삽입은 무작위 아이템을 일정 비율로 추가해 ‘우연 클릭’ 상황을 재현하고, 시간 순서 섞기는 로그 지연이나 타임존 오류를 모사한다. 이러한 교란은 설명 에이전트가 실제 서비스 환경에서 마주할 수 있는 데이터 불확실성을 체계적으로 반영한다.

둘째, 설명 간 유사성을 네 가지 지표로 측정한다. 의미적 유사도(Sem)는 BoW 기반 코사인 유사도로 핵심 의미 보존을 평가하고, 키워드 안정성(Key)은 명사·제품명·카테고리 등 핵심 용어의 Jaccard 지수를 사용해 중요한 정보가 유지되는지를 확인한다. 구조적 일관성(Struct)은 BLEU 점수로 n‑gram 겹침을 측정해 문장 구조와 흐름의 변화를 포착하며, 길이 안정성(Len)은 설명 길이 비율 차이를 1‑norm 형태로 정규화한다. 최종 견고성 점수는 가중합(α1·Sem + α2·Key + α3·Struct + α4·Len)으로 계산되며, 의미적 일관성에 가장 높은 가중치를 부여해 사용자 입장에서 가장 중요한 의미 보존을 강조한다.

실험에서는 전자상거래 도메인에서 합성된 200개 아이템·7개 카테고리 데이터를 사용해 4개의 LLM(7B, 13B, 30B, 70B)을 평가하였다. 각 모델에 대해 원본 히스토리와 교란 히스토리를 입력으로 설명을 생성하고, 네 지표를 모두 계산했다. 결과는 전반적으로 중간 수준의 견고성을 보였으며, 특히 시간 순서 섞기와 결측값 교란에 취약한 경향이 두드러졌다. 모델 규모가 커질수록 의미적·키워드 안정성이 상승했으며, 70B 모델은 가장 높은 평균 0.58 점수를 기록했다. 그러나 구조적 일관성(BLEU)과 길이 안정성은 모델 크기와 크게 상관관계가 없었으며, 이는 LLM이 교란에 대해 문장 형태는 자유롭게 변형하지만 핵심 의미는 유지하려는 경향을 시사한다.

한계점으로는 교란이 합성 데이터에 기반해 설계되었으며, 실제 로그 데이터에서 발생하는 복합적인 노이즈와는 차이가 있을 수 있다. 또한, 의미적 유사도를 BoW 코사인으로 단순화함으로써 문맥적 뉘앙스를 충분히 포착하지 못한다는 점이 있다. 향후 연구에서는 실제 서비스 로그를 활용한 교란 시나리오와, BERTScore·Sentence‑BERT와 같은 더 정교한 의미 측정 방법을 도입해 평가 정밀도를 높일 필요가 있다.

이와 같이 RobustExplain은 LLM 기반 설명 에이전트의 신뢰성을 평가하는 최초의 체계적 프레임워크를 제공하며, 모델 설계·튜닝 단계에서 견고성 목표를 명시적으로 포함시킬 수 있는 기반을 마련한다.

LLM 기반 추천 설명의 견고성 평가 RobustExplain 프레임워크

초록

상세 분석

댓글 및 학술 토론

의견 남기기