한쪽 주장만으로 대형 언어 모델의 답변을 바꿀 수 있을까

한쪽 주장만으로 대형 언어 모델의 답변을 바꿀 수 있을까
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 논쟁적인 이진 질문에 대해 한쪽 입장만을 지지하는 논거들을 제시했을 때, 다양한 대형 언어 모델(LLM)의 답변이 해당 입장으로 전환되는지를 체계적으로 조사한다. 질문 형식(YES/NO vs. I agree/I disagree), 질문에 대한 직접 응답 vs. 입장 확인, 그리고 논거 제시 방식(대화형 vs. 블록형)이라는 세 가지 차원을 조합해 실험했으며, 5개의 최신 모델(gpt‑oss‑120b, Llama 3.3 70B, Llama 3.1 8B, Mistral 7B, Gemma 3 4B)을 대상으로 의견 전환 효과를 측정했다. 결과는 대부분의 설정에서 한쪽 논거만으로도 긍정적인 답변이 크게 증가하고, 부정적인 답변은 감소한다는 점을 보여준다. 특히 질문·논거의 개인·비개인적 성격이 일치할 때 전환 효과가 가장 강했다. 논거를 다른 주제의 것으로 교체하면 전환 효과가 급격히 감소해, 효과가 논거 내용 자체에 기인함을 확인했다.

상세 분석

이 연구는 “극단적·양측 입장이 존재하는 이진 논쟁 질문”을 대상으로, LLM이 초기에는 중립·양쪽 모두 제시하거나 거부(refusal)하는 경우가 많다는 점에 주목한다. 저자는 이러한 초기 응답을 특정 입장으로 유도하기 위해 **단일 입장을 지지하는 일방적 논거(one‑sided arguments)**만을 제공하는 간단하고 직관적인 방법을 제안한다.

실험 설계는 세 축으로 구성된다. 첫째, 질문 형식은 “YES/NO”(비인격적)와 “I agree/I disagree”(인격적) 두 가지로 나뉜다. 둘째, 모델에게 질문에 직접 답하게 할지, 혹은 질문에 내포된 입장을 “YES/NO” 혹은 “I agree/I disagree”로 확인하도록 할지(confirmation) 구분한다. 셋째, 논거 제시 방식은 (a) 대화형(dialog) – 모델에게 각 논거에 대해 이미 “YES” 혹은 “I agree”했다고 알려주는 형태와, (b) 블록형(block) – 논거들을 연속적인 문단으로 단순히 나열하는 형태로 구분한다.

데이터는 역사·정치·종교 등 3개 분야에서 30개의 주제를 선정하고, 각 주제당 평균 4~7개의 일방적 논거(총 132개)를 수집·검증했다. 논거는 모두 단문이며, 1인칭 표현을 배제하고 사실 여부는 별도 검증 없이 ‘입장 지지’만을 기준으로 선정했다.

모델은 오픈소스와 상용 모델을 포함해 5종을 사용했으며, 각 질문‑논거 조합마다 50번의 샘플을 생성해 다수결로 최종 응답을 라벨링했다. 응답은 “긍정”(입장에 동의), “부정”(입장에 반대), “중립”(거부·양측 제시·무응답)으로 구분한다.

주요 결과는 다음과 같다.

  1. 전반적 의견 전환: 일방적 논거가 제공되면 긍정 응답 비율이 현저히 상승하고, 부정 응답 비율은 거의 감소하지 않는다. 이는 모델이 논거를 ‘설득’하는 메커니즘을 갖고 있음을 시사한다.
  2. 질문·논거 성격 일치 효과: 인격적 질문(Agree/Disagree)과 대화형 논거 제시가 결합될 때, 혹은 비인격적 질문(YES/NO)과 블록형 논거가 결합될 때 전환 효과가 가장 크게 나타났다. 이는 모델이 질문의 사회적·인격적 맥락에 맞춰 정보를 처리한다는 점을 보여준다.
  3. 주제·논거 수의 영향: 정치·역사·종교 등 주제별로 설득된 비율에 차이가 있었으며, 특히 정치 주제가 가장 높은 전환율을 보였다. 논거 수(3~7개)와 전환율 사이에는 일관된 추세가 없으며, 소수의 논거만으로도 충분히 설득 효과를 발휘한다.
  4. 논거 교체 실험: 동일 주제 내 다른 질문의 논거 혹은 전혀 다른 주제의 논거로 교체하면 긍정 응답 비율이 크게 감소한다. 이는 전환 효과가 단순히 ‘사용자와의 동조(sycophancy)’나 모델 내부의 스팸 상관관계가 아니라, 실제 논거 내용에 의해 발생한다는 강력한 증거다.

의의와 한계를 살펴보면, 첫째 이 연구는 LLM의 ‘정렬(Alignment) 방어벽’을 우회하거나 과도한 거부를 완화하는 새로운 방법을 제시한다는 점에서 안전성·윤리 연구에 중요한 시사점을 제공한다. 둘째, 일방적 논거가 인간의 설득 과정과 유사하게 작동한다는 점은 LLM을 ‘논쟁 파트너’ 혹은 ‘여론 조작 도구’로 활용할 위험성을 경고한다. 셋째, 논거가 단순 문장 형태이며 사실 검증을 하지 않았기 때문에, 허위·혐오·편향된 내용이 그대로 전파될 가능성이 있다. 마지막으로, 실험에 사용된 모델들은 비교적 제한된 규모와 프롬프트 설정에 의존했으며, 더 큰 모델이나 다양한 언어·문화권에 대한 일반화는 추가 검증이 필요하다.

향후 연구는 (1) 인간 피험자를 대상으로 논거 설득력을 비교·검증하여 LLM 응답 변화를 인간 설득의 지표로 활용 가능성을 탐색하고, (2) 허위·혐오가 포함된 일방적 논거가 모델에 미치는 윤리적·사회적 영향을 정량화하며, (3) 프롬프트 엔지니어링·시스템 레벨 방어 메커니즘을 설계해 일방적 논거에 의한 ‘조작’ 위험을 완화하는 방안을 모색하는 것이 될 것이다.


댓글 및 학술 토론

Loading comments...

의견 남기기