과학 커뮤니케이션에서 일반화 표현: 일반인·과학자·대형언어모델의 해석 차이

과학 커뮤니케이션에서 일반화 표현: 일반인·과학자·대형언어모델의 해석 차이
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 연구는 심리학·의학 분야의 과학 논문에서 사용되는 ‘일반화(generic)’ 문장이 일반인, 과학자, 그리고 최신 대형언어모델(LLM)인 ChatGPT‑5와 DeepSeek‑V3.1에 의해 어떻게 다르게 인식되는지를 실험적으로 조사한다. 결과는 일반인이 과학적 일반화를 더 넓게 받아들이고 신뢰도를 높게 평가하는 반면, LLM은 그 정도를 더욱 과장한다는 점을 보여준다.

상세 분석

이 논문은 과학 커뮤니케이션에서 흔히 사용되는 ‘일반화(generic)’ 문장이 청중에 따라 의미가 크게 달라질 수 있음을 실증적으로 입증한다. 연구 설계는 18개의 단문 연구 결론(심리·의학 각각 9개)을 ‘bare generic’, ‘past tense’, ‘hedged’ 세 가지 형태로 변형하고, 이를 일반인(대학 학부 이하), 과학자(대학원·전문가 수준), 두 종류의 LLM에 제시해 5점 척도로 일반화 정도, 신뢰도, 영향력(impact)을 평가하도록 했다.

주요 발견은 다음과 같다. 첫째, 모든 집단에서 ‘bare generic’ 형태가 ‘past tense’나 ‘hedged’ 형태보다 일반화와 신뢰도, 영향력 점수가 높았다(H1). 이는 일반화 문장이 청중에게 더 포괄적이고 설득력 있게 다가간다는 기존 연구와 일치한다. 둘째, 일반인은 과학자보다 동일한 generic 문장을 더 넓게 해석하고, 특히 신뢰도와 영향력에서 높은 점수를 부여했다(H2). 이는 일반인이 과학적 전문지식이 부족해 ‘epistemic vigilance’가 낮아, 문장의 함축적 의미를 과대평가한다는 해석을 뒷받침한다. 셋째, LLM은 인간 집단보다도 더 높은 일반화·신뢰도·영향력 점수를 부여했으며, 특히 ChatGPT‑5가 DeepSeek보다 이러한 경향이 강했다(H2). 이는 LLM이 훈련 데이터에서 ‘generic’ 문장을 긍정적·범용적 맥락과 연관짓는 통계적 편향을 가지고 있음을 시사한다.

또한, 그룹 간 변동성 분석에서 과학자는 문장 형태에 따른 점수 변동이 가장 적었으며, 이는 전문가가 언어적 뉘앙스에 덜 민감하거나 보다 일관된 기준을 적용한다는 것을 의미한다(H3). 반면 일반인과 LLM은 프레이밍 효과에 크게 흔들려, 같은 내용이라도 평가가 크게 달라졌다.

정성적 응답 분석에서는 일반인과 LLM 모두 “전체 인구에 적용된다”는 직관적 해석을 제시했으며, 과학자는 “표본에 한정된 결과”라는 보다 보수적인 해석을 제시했다. 이는 ‘공통 기반(common ground)’의 부재가 오해를 초래한다는 기존 이론을 실증적으로 뒷받침한다.

연구는 또한 방법론적 강점을 갖는다. 인간 집단은 사전 검증된 주의력 검사와 최소 33명 이상을 확보해 통계적 파워를 만족시켰으며, LLM은 API 대신 웹 UI를 이용해 일반 사용자의 인터랙션을 모사했다. 그러나 제한점으로는 영어 원문에만 초점을 맞추었고, 문화·언어적 다양성을 반영하지 못했으며, LLM의 ‘pseudo‑participant’ 처리 방식이 실제 사용자와 차이가 있을 수 있다는 점을 들 수 있다.

결론적으로, 과학자들은 일반화 문장을 사용할 때 청중이 이를 과도하게 일반화하거나 과학적 근거를 과대평가할 위험을 인지해야 한다. 또한, LLM이 과학적 요약에 활용될 경우, 모델이 일반화 문장을 자동으로 확대 해석하는 경향을 보이므로, 프롬프트 설계나 후처리 단계에서 명시적 한계 제시가 필요하다.


댓글 및 학술 토론

Loading comments...

의견 남기기