복사와 붙여넣기로 LLM 환각 방지

복사와 붙여넣기로 LLM 환각 방지
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 Retrieval‑Augmented Generation(RAG) 환경에서 LLM이 제공된 컨텍스트를 충분히 신뢰하지 못해 발생하는 환각을, 답변에 원문을 그대로 복사·붙여넣는 “Copy‑Paste” 전략으로 감소시킨다. 고복사 응답을 선호하도록 두 단계 학습(DPO)한 CopyPasteLLM은 365개의 고품질 샘플만으로도 FaithEval 등 벤치마크에서 12.2%~24.5% 정확도 향상을 달성한다. 또한 Context‑Parameter Copying Capturing 기법을 통해 모델이 파라메트릭 지식보다 컨텍스트에 의존하도록 재조정됨을 보인다.

상세 분석

본 연구는 LLM이 외부 컨텍스트와 내부 파라메트릭 지식 사이에서 충돌할 때, 내부 지식을 우선시해 비현실적인 답변(환각)을 생성한다는 문제를 지적한다. 이를 해결하기 위해 “복사‑붙여넣기(Copy‑Paste)”라는 새로운 생성 패러다임을 제안한다. 핵심 아이디어는 답변에 가능한 한 많은 원문 조각을 그대로 삽입함으로써, 모델이 컨텍스트를 직접 인용하도록 강제하고, 파라메트릭 지식에 대한 의존도를 낮추는 것이다.

복사 정도를 정량화하기 위해 두 가지 메트릭을 도입한다. 첫째, 복사 커버리지(κ)는 답변 토큰 중 컨텍스트에서 복사된 비율을 나타내며, 전체적인 복사 수준을 측정한다. 둘째, 복사 밀도(δ)는 복사된 구간의 길이를 가중치로 반영해, 짧은 단어 복사보다 긴 구절을 그대로 가져오는 경향을 강조한다. 이러한 메트릭은 기존 RAGTruth 데이터셋에서 복사 정도가 높을수록 환각 밀도가 낮다는 경험적 상관관계를 확인하는 데 사용되었다.

Copy‑Paste를 구현하기 위한 프롬프트 설계는 세 단계로 구성된다. CP‑Order는 컨텍스트 문장을 선택·재배열만 허용해 가장 강력한 하드 제약을 둔다; CP‑Link는 재배열된 문장 사이에 짧은 연결 구문을 삽입해 가독성을 보완한다; CP‑Refine은 작가‑리뷰어 루프를 도입해 복사 점수가 임계값을 초과할 때까지 반복적으로 수정한다. 실험 결과 CP‑Refine이 복사율과 유창성, 질의 관련성 사이의 최적 균형을 제공한다는 것이 확인되었다.

두 번째 단계에서는 이러한 고복사 응답들을 선호 데이터로 변환해 직접 선호 최적화(DPO) 방식으로 모델을 미세조정한다. 후보 응답 6종(기존 베이스, 인용형, 그리고 세 가지 Copy‑Paste 변형)을 생성한 뒤, 복사 강도, 질의 관련성, 퍼플렉시티 등을 기준으로 다중 기준 필터링하고, Elo‑style LLM‑as‑Judge 토너먼트를 통해 오류 유형(트위스트 vs. 인과)별 가중치를 부여한다. 최종적으로 각 샘플당 약 5개의 선호 쌍을 확보해 365개의 고품질 데이터만으로도 효율적인 DPO 학습이 가능했다.

모델의 메커니즘을 해석하기 위해 제안된 Context‑Parameter Copying Capturing은 컨텍스트가 제공된 경우와 제공되지 않은 경우를 각각 디코딩하면서 토큰‑레벨 확률과 히든 스테이트를 비교한다. 컨텍스트에 존재하는 토큰은 “컨텍스트 지식”, 컨텍스트가 없을 때 높은 확률을 보이는 토큰은 “파라메트릭 지식”으로 간주한다. 이 분석을 통해 CopyPasteLLM은 동일한 내부 표현을 유지하면서도 파라메트릭 지식에 대한 신뢰도를 낮추고, 컨텍스트에 대한 의존성을 강화한다는 결론에 도달한다.

실험에서는 FaithEval, ConFiQA, PubMedQA 등 세 가지 벤치마크에서 기존 최첨단 모델 대비 12.2%~24.5%의 정확도 향상을 기록했으며, 특히 반사실(counterfactual) 상황에서도 컨텍스트를 올바르게 신뢰하는 능력이 크게 개선되었다. 데이터 효율성 측면에서도 1/50 수준의 학습 샘플만으로 동일하거나 더 나은 성능을 달성했다는 점이 주목할 만하다.

요약하면, 복사‑붙여넣기 전략은 LLM이 컨텍스트를 “읽고 이해한다”기보다 “그대로 인용한다”는 단순하지만 강력한 메커니즘을 제공한다. 이는 환각을 근본적으로 억제하고, 의료·법률 등 고신뢰성이 요구되는 도메인에서 LLM 활용 가능성을 크게 확대한다.


댓글 및 학술 토론

Loading comments...

의견 남기기