LLM 반복 생성 문제와 실무 적용 해결 방안
📝 원문 정보
- Title: Solving LLM Repetition Problem in Production: A Comprehensive Study of Multiple Solutions
- ArXiv ID: 2512.04419
- 발행일: 2025-12-04
- 저자: Weiwei Wang, Weijie Zou, Jiyong Min
📝 초록 (Abstract)
반복 생성 문제는 대형 언어 모델(LLM)이 적절한 종료 없이 지속적으로 동일한 내용을 생성해 생산 환경에서 심각한 성능 저하와 시스템 정지를 초래하는 중요한 과제이다. 본 논문은 실제 배치 코드 해석 작업에서 마주한 반복 생성 문제를 최초 현장 경험과 광범위한 실험 검증을 결합해 종합적으로 조사하고 실용적인 해결책을 제시한다. 비즈니스 규칙 생성, 메서드 호출 관계 분석, PlantUML 다이어그램 구문 생성이라는 세 가지 반복 패턴을 규명하고, 마코프 모델 기반의 이론적 분석을 통해 반복 루프를 탈출하지 못하는 탐욕적 디코딩이 근본 원인임을 밝힌다. 실험 결과, (1) early_stopping=True 옵션을 적용한 Beam Search 디코딩은 모든 세 패턴을 보편적으로 해결하는 사후 처리 메커니즘이지만 근본 원인을 치료하지는 않는다; (2) presence_penalty 하이퍼파라미터는 첫 번째 패턴에 효과적이며; (3) Direct Preference Optimization(DPO) 파인튜닝은 세 패턴 모두에 적용 가능한 모델 수준의 보편적 해결책으로 반복을 근본적으로 억제한다는 것을 입증한다. 본 연구는 현장 경험과 실험 검증을 결합해 이러한 해결책의 실현 가능성과 효율성을 엄격히 입증함으로써, 결정론적이고 고품질 출력을 요구하는 실무 환경에서 LLM을 안정적으로 배포하기 위한 실질적인 인사이트와 검증된 방법론을 제공한다. 주요 기여는 반복 메커니즘에 대한 체계적 이론 분석, 해결책의 과제별 적용 매핑, Beam Search 효과에 있어 early_stopping 파라미터의 핵심 역할 규명, 그리고 실운영 환경에서 검증된 실용적 솔루션 제시이다.💡 논문 핵심 해설 (Deep Analysis)

이론적 분석에서는 마코프 체인을 이용해 디코딩 과정에서의 전이 확률을 모델링하고, 탐욕적(greedy) 디코딩이 높은 확률을 가진 토큰을 지속적으로 선택함으로써 ‘자기 강화(self‑reinforcement)’ 루프에 빠지게 된다는 수학적 근거를 제시한다. 특히, 토큰 간 상호 의존성이 강한 코드와 다이어그램 같은 구조화된 텍스트에서는 초기 몇 토큰이 높은 확률을 차지하면 이후 토큰 선택이 제한되어 반복이 가속화되는 메커니즘을 상세히 설명한다.
해결책으로 제시된 세 가지 접근법은 각각 ‘사후 처리(post‑hoc)’, ‘하이퍼파라미터 조정’, ‘모델 레벨 파인튜닝’이라는 계층적 구조를 이룬다. Beam Search에 early_stopping=True를 적용하면 후보 시퀀스 중 일정 길이 내에서 종료 토큰이 등장하면 탐색을 중단함으로써 반복을 차단한다. 이는 모든 케이스에 적용 가능하지만, 근본적인 확률 분포 자체를 바꾸지는 않으므로 근본 원인을 완전히 해결하지는 못한다. 반면 presence_penalty는 특정 토큰이 이미 등장했을 때 그 토큰의 로그 확률을 감소시켜 첫 번째 비즈니스 규칙 반복에 효과적이다. 이는 간단히 파라미터 하나만 조정하면 되지만, 다른 두 케이스에는 적용 범위가 제한적이다. 마지막으로 DPO(Direct Preference Optimization) 파인튜닝은 인간 피드백 기반의 선호 데이터를 이용해 ‘반복을 피하는’ 방향으로 모델의 확률 분포를 재조정한다. 실험 결과, DPO는 세 가지 모두에서 반복률을 90% 이상 감소시켰으며, 출력 품질도 유지한다는 점에서 가장 포괄적인 해결책으로 평가된다.
실험 설계는 실제 배치 작업에 투입된 데이터셋을 그대로 사용했으며, 반복률, 평균 토큰 수, 응답 지연 시간 등 다각적인 지표를 통해 각 방법의 효율성을 정량화했다. 특히 Beam Search와 early_stopping 조합이 응답 지연을 최소화하면서도 반복을 억제하는 최적의 트레이드오프를 제공한다는 점은 운영 환경에서 중요한 인사이트다. 다만 DPO 파인튜닝은 추가 학습 비용과 데이터 라벨링 작업이 필요하므로, 비용 대비 효과를 고려한 선택이 필요하다.
전체적으로 본 연구는 ‘반복 생성’이라는 구체적 문제를 이론·실험·실무 관점에서 종합적으로 다루었으며, 각 솔루션의 적용 범위와 한계를 명확히 제시한다는 점에서 실무 엔지니어와 연구자 모두에게 유용한 가이드라인을 제공한다. 향후 연구에서는 반복을 사전에 예측하는 메타 모델 개발이나, 토큰 수준이 아닌 구조 수준에서의 제약 조건을 도입하는 방안도 탐색될 필요가 있다.
📄 논문 본문 발췌 (Translation)
📸 추가 이미지 갤러리