LLM 인용 행동을 인간 선호와 맞추기

LLM 인용 행동을 인간 선호와 맞추기
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 대형 언어 모델(LLM)이 언제, 어떤 텍스트에 인용을 달아야 하는지에 대한 인간의 선호와 모델의 실제 행동을 비교한다. 위키피디아 문장을 8가지 인용 동기 유형으로 분류하고, 유형 간 쌍별 선호도를 인간과 11개 모델에 대해 측정했다. 모델은 의료 관련 문장에는 인간과 유사하게 인용을 선호하지만, “Citation needed” 표시가 있는 문장에는 과도하게 인용하고, 숫자나 인명 포함 문장에는 부족하게 인용한다는 편차를 보였다. 직접 선호 최적화(DPO) 훈련을 통해 이러한 격차를 부분적으로 해소할 수 있음을 보였다.

상세 분석

이 연구는 LLM이 생성 텍스트에 인용을 삽입하는 ‘cite‑worthiness’를 어떻게 판단하는지, 그리고 그 판단이 인간 사용자의 기대와 얼마나 일치하는지를 정량적으로 분석한다. 먼저 저자들은 위키피디아의 인라인 템플릿을 활용해 8개의 인용 동기 카테고리를 정의했다. ‘Missing Information’, ‘Sic’, ‘Doubt’, ‘Vague’, ‘POV’, ‘Medical Content’, ‘Jargon’, ‘Unclear’ 등으로 재구성한 뒤, 각 카테고리에서 750개씩 총 6,000개의 문장을 추출하였다. 이후 서로 다른 카테고리 간에 균형 있게 쌍을 만들고(총 2,596개의 유효 쌍), 인간 annotator 402명이 각 쌍에 대해 어느 문장이 더 인용이 필요하다고 판단하는지를 기록했다. 인간 선호 매트릭스는 의료 관련 문장이 대부분의 다른 유형에 비해 가장 높은 인용 선호(예: Vague 대비 75.9%)를 보였으며, ‘Unclear’와 ‘Jargon’ 역시 가독성·이해를 돕기 위해 인용이 요구되는 경향을 나타냈다.

다음으로 11개의 공개·폐쇄형 LLM(GPT‑5, Claude Sonnet 4, Gemini 2.5 Flash 등)과 다양한 규모의 Llama, Mistral, DeepSeek, Qwen 등을 대상으로 동일한 쌍별 평가를 수행했다. 모델들의 전체 평균 일치율은 약 60% 수준으로, 인간과 완전 일치하지 않음이 확인되었다. 특히 ‘Citation needed’ 라벨이 붙은 문장에 대해서는 대부분의 모델이 인간보다 1027% 더 높은 인용 선택률을 보였으며, 이는 훈련 데이터에 위키피디아 인용 필요 표시가 과다하게 포함돼 모델이 이를 과대평가함을 시사한다. 반대로 숫자 표현이 포함된 문장과 인명(인물 이름)이 들어간 문장에 대해서는 모델이 인간보다 923% 낮은 인용 선택률을 보였으며, 이는 정량적·인물 정보에 대한 신뢰도가 낮다고 오판하는 경향으로 해석된다.

모델 규모와 성능 사이에는 뚜렷한 상관관계가 있었는데, Llama 70B, DeepSeek Chat, Qwen Max 등 대형 모델이 평균 일치율 61~63%로 소형 모델(Llama 1B)의 무작위 수준(≈50%)보다 현저히 우수했다. 그러나 규모가 커져도 특정 유형(예: ‘Citation needed’)에 대한 과잉 인용은 지속되었다.

이러한 격차를 줄이기 위해 저자들은 Direct Preference Optimization(DPO)을 적용해 인간 선호 데이터를 직접 학습시켰다. DPO‑fine‑tuned 모델은 전체 일치율이 11.8%p 상승했으며, 특히 ‘Citation needed’ 과잉 인용이 5~7%p 감소하는 등 인간과의 정렬도가 눈에 띄게 개선되었다. 이는 LLM이 사전 훈련 단계에서 학습한 편향을 후처리 단계에서 보정할 수 있음을 보여준다.

연구의 주요 기여는 (1) 인용 필요성을 판단하는 인간 선호를 최초로 체계화한 데이터셋 구축, (2) 다양한 LLM의 인용 행동을 인간 기준과 비교한 정량적 분석, (3) 훈련 데이터 편향이 모델 인용 선택에 미치는 영향을 실증, (4) DPO를 통한 정렬 개선 가능성을 입증한 점이다. 한계점으로는 위키피디아 중심의 데이터가 일반 웹 텍스트와 차이가 있을 수 있고, 쌍별 평가가 실제 사용자 흐름과 완전히 일치하지 않을 가능성이 있다. 향후 연구에서는 다양한 도메인(법률, 과학 논문 등)과 실시간 사용자 피드백을 활용한 지속적 정렬 메커니즘을 탐색할 필요가 있다.


댓글 및 학술 토론

Loading comments...

의견 남기기