LLM 반복 생성 문제와 실무 적용 해결 방안

읽는 시간: 4 분
...

📝 원문 정보

  • Title: Solving LLM Repetition Problem in Production: A Comprehensive Study of Multiple Solutions
  • ArXiv ID: 2512.04419
  • 발행일: 2025-12-04
  • 저자: Weiwei Wang, Weijie Zou, Jiyong Min

📝 초록 (Abstract)

반복 생성 문제는 대형 언어 모델(LLM)이 적절한 종료 없이 지속적으로 동일한 내용을 생성해 생산 환경에서 심각한 성능 저하와 시스템 정지를 초래하는 중요한 과제이다. 본 논문은 실제 배치 코드 해석 작업에서 마주한 반복 생성 문제를 최초 현장 경험과 광범위한 실험 검증을 결합해 종합적으로 조사하고 실용적인 해결책을 제시한다. 비즈니스 규칙 생성, 메서드 호출 관계 분석, PlantUML 다이어그램 구문 생성이라는 세 가지 반복 패턴을 규명하고, 마코프 모델 기반의 이론적 분석을 통해 반복 루프를 탈출하지 못하는 탐욕적 디코딩이 근본 원인임을 밝힌다. 실험 결과, (1) early_stopping=True 옵션을 적용한 Beam Search 디코딩은 모든 세 패턴을 보편적으로 해결하는 사후 처리 메커니즘이지만 근본 원인을 치료하지는 않는다; (2) presence_penalty 하이퍼파라미터는 첫 번째 패턴에 효과적이며; (3) Direct Preference Optimization(DPO) 파인튜닝은 세 패턴 모두에 적용 가능한 모델 수준의 보편적 해결책으로 반복을 근본적으로 억제한다는 것을 입증한다. 본 연구는 현장 경험과 실험 검증을 결합해 이러한 해결책의 실현 가능성과 효율성을 엄격히 입증함으로써, 결정론적이고 고품질 출력을 요구하는 실무 환경에서 LLM을 안정적으로 배포하기 위한 실질적인 인사이트와 검증된 방법론을 제공한다. 주요 기여는 반복 메커니즘에 대한 체계적 이론 분석, 해결책의 과제별 적용 매핑, Beam Search 효과에 있어 early_stopping 파라미터의 핵심 역할 규명, 그리고 실운영 환경에서 검증된 실용적 솔루션 제시이다.

💡 논문 핵심 해설 (Deep Analysis)

Figure 1
본 논문은 최근 기업 현장에서 LLM을 활용한 자동 코드 해석 및 문서 생성 파이프라인을 구축하면서 빈번히 발생한 ‘반복 생성’ 현상을 과학적으로 규명하고, 실무 적용 가능한 해결책을 제시한다는 점에서 큰 의미를 가진다. 먼저 저자들은 반복 현상을 세 가지 구체적인 케이스로 분류한다. 첫 번째는 비즈니스 규칙을 생성할 때 동일한 규칙 조각을 무한히 반복하는 경우이며, 두 번째는 메서드 호출 관계를 분석하면서 동일한 호출 패턴을 계속해서 나열하는 경우, 마지막으로 PlantUML 다이어그램을 생성할 때 구문 토큰이 반복되어 유효하지 않은 다이어그램이 출력되는 경우이다. 이러한 현상은 단순히 ‘출력 길이 제한’이나 ‘토큰 수 초과’와는 구별되며, 모델이 내부 상태에서 특정 토큰 시퀀스에 과도하게 머무르는 ‘루프 현상’에 기인한다는 점을 강조한다.

이론적 분석에서는 마코프 체인을 이용해 디코딩 과정에서의 전이 확률을 모델링하고, 탐욕적(greedy) 디코딩이 높은 확률을 가진 토큰을 지속적으로 선택함으로써 ‘자기 강화(self‑reinforcement)’ 루프에 빠지게 된다는 수학적 근거를 제시한다. 특히, 토큰 간 상호 의존성이 강한 코드와 다이어그램 같은 구조화된 텍스트에서는 초기 몇 토큰이 높은 확률을 차지하면 이후 토큰 선택이 제한되어 반복이 가속화되는 메커니즘을 상세히 설명한다.

해결책으로 제시된 세 가지 접근법은 각각 ‘사후 처리(post‑hoc)’, ‘하이퍼파라미터 조정’, ‘모델 레벨 파인튜닝’이라는 계층적 구조를 이룬다. Beam Search에 early_stopping=True를 적용하면 후보 시퀀스 중 일정 길이 내에서 종료 토큰이 등장하면 탐색을 중단함으로써 반복을 차단한다. 이는 모든 케이스에 적용 가능하지만, 근본적인 확률 분포 자체를 바꾸지는 않으므로 근본 원인을 완전히 해결하지는 못한다. 반면 presence_penalty는 특정 토큰이 이미 등장했을 때 그 토큰의 로그 확률을 감소시켜 첫 번째 비즈니스 규칙 반복에 효과적이다. 이는 간단히 파라미터 하나만 조정하면 되지만, 다른 두 케이스에는 적용 범위가 제한적이다. 마지막으로 DPO(Direct Preference Optimization) 파인튜닝은 인간 피드백 기반의 선호 데이터를 이용해 ‘반복을 피하는’ 방향으로 모델의 확률 분포를 재조정한다. 실험 결과, DPO는 세 가지 모두에서 반복률을 90% 이상 감소시켰으며, 출력 품질도 유지한다는 점에서 가장 포괄적인 해결책으로 평가된다.

실험 설계는 실제 배치 작업에 투입된 데이터셋을 그대로 사용했으며, 반복률, 평균 토큰 수, 응답 지연 시간 등 다각적인 지표를 통해 각 방법의 효율성을 정량화했다. 특히 Beam Search와 early_stopping 조합이 응답 지연을 최소화하면서도 반복을 억제하는 최적의 트레이드오프를 제공한다는 점은 운영 환경에서 중요한 인사이트다. 다만 DPO 파인튜닝은 추가 학습 비용과 데이터 라벨링 작업이 필요하므로, 비용 대비 효과를 고려한 선택이 필요하다.

전체적으로 본 연구는 ‘반복 생성’이라는 구체적 문제를 이론·실험·실무 관점에서 종합적으로 다루었으며, 각 솔루션의 적용 범위와 한계를 명확히 제시한다는 점에서 실무 엔지니어와 연구자 모두에게 유용한 가이드라인을 제공한다. 향후 연구에서는 반복을 사전에 예측하는 메타 모델 개발이나, 토큰 수준이 아닌 구조 수준에서의 제약 조건을 도입하는 방안도 탐색될 필요가 있다.

📄 논문 본문 발췌 (Translation)

반복 문제는 대형 언어 모델(LLM)이 적절한 종료 없이 지속적으로 반복적인 내용을 생성함으로써 생산 환경에서 심각한 성능 저하와 시스템 정지를 초래하는 중요한 과제이다. 본 논문은 실제 배치 코드 해석 작업에서 마주한 반복 문제를 최초 현장 경험과 광범위한 실험 검증을 결합하여 종합적으로 조사하고 실용적인 해결책을 제시한다. 우리는 비즈니스 규칙 생성 반복, 메서드 호출 관계 분석 반복, PlantUML 다이어그램 구문 생성 반복이라는 세 가지 뚜렷한 반복 패턴을 규명한다. 마코프 모델에 기반한 엄격한 이론적 분석을 통해 근본 원인이 탐욕적 디코딩이 반복 루프를 탈출하지 못하는 데에 있으며, 이는 자기 강화 효과에 의해 악화된다는 것을 입증한다. 우리의 포괄적인 실험 평가는 세 가지 실효성 있는 해결책을 보여준다. 첫째, early_stopping=True 옵션을 적용한 Beam Search 디코딩은 모든 세 반복 패턴을 보편적으로 해결하는 사후 메커니즘이지만, 증상만을 완화하고 근본 원인을 치료하지는 않는다. 둘째, presence_penalty 하이퍼파라미터는 BadCase 1에 대해 효과적인 해결책을 제공한다. 셋째, Direct Preference Optimization(DPO) 파인튜닝은 모든 세 BadCase에 대해 보편적인 모델 수준 해결책을 제공하여 반복을 근본적으로 억제한다. 이 작업의 주요 가치는 현장 경험과 광범위한 실험 검증을 결합하여 이러한 해결책의 실현 가능성과 효율성을 엄격히 입증함으로써, 결정론적이고 고품질의 출력을 요구하는 실무 환경에서 LLM을 안정적으로 배포하기 위한 실행 가능한 인사이트와 검증된 방법론을 제공한다. 우리의 주요 기여는 반복 메커니즘에 대한 체계적인 이론 분석, 작업별 적용 가능성 매핑을 포함한 다중 해결책의 포괄적 평가, Beam Search 효과에 있어 early_stopping 파라미터의 핵심 역할 규명, 그리고 실제 배포 환경에서 검증된 실용적인 솔루션을 제시하는 것이다.

📸 추가 이미지 갤러리

page_1.png page_2.png page_3.png

Reference

이 글은 ArXiv의 공개 자료를 바탕으로 AI가 자동 번역 및 요약한 내용입니다. 저작권은 원저자에게 있으며, 인류 지식 발전에 기여한 연구자분들께 감사드립니다.

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키