대형 언어모델의 인간 전문가와 알고리즘에 대한 모순된 편향

본 논문은 8개의 최신 LLM을 대상으로 인간 전문가와 알고리즘 에이전트에 대한 신뢰도를 평가한다. 직접적인 신뢰 질문(명시적 선호)에서는 인간을 더 신뢰하지만, 실제 성과 정보를 제공하고 베팅을 요구하는 상황(암묵적 선호)에서는 성능이 낮음에도 불구하고 알고리즘을 선택한다. 모델 규모가 작을수록 이러한 격차가 크게 나타난다.

저자: Jessica Y. Bo, Lillio Mok, Ashton Anderson

대형 언어모델의 인간 전문가와 알고리즘에 대한 모순된 편향
본 논문은 대형 언어모델(LLM)이 인간 전문가와 알고리즘 에이전트 사이에서 어떻게 정보를 가중하고 의사결정을 내리는지를 조사한다. 연구자는 행동경제학에서 널리 사용되는 두 가지 실험 설계—알고리즘 회피를 측정하는 ‘명시적 선호(stated preference)’와 실제 성과에 기반한 ‘암묵적 선호(revealed preference)’—를 LLM에 적용하였다. **연구 질문** RQ1: LLM이 인간 전문가와 알고리즘에 대해 직접적인 신뢰 질문에 답할 때 알고리즘 회피가 나타나는가? RQ2: LLM이 성과 정보를 제공받고 베팅을 요구받을 때 알고리즘 회피가 나타나는가? RQ3: 두 실험 간에 나타나는 선호가 일치하는가? **실험 설계** - **대상 모델**: OpenAI(GPT‑3.5‑turbo, GPT‑4‑turbo), Meta(Llama‑3‑8b, Llama‑3‑70b, Llama‑3.1‑8b, Llama‑3.1‑70b), Anthropic(Claude‑3‑haiku, Claude‑3‑sonnet) 총 8개. 각 모델군에서 소형·대형 모델을 각각 선택하였다. - **Study 1 (명시적 선호)**: 27개의 과업(객관적·주관적 혼합)에서 인간 전문가와 알고리즘에 대해 1~100점 신뢰 점수를 매기게 함. 각 과업당 100번 반복, 순서와 에이전트 제시 순서를 무작위화하였다. - **Study 2 (암묵적 선호)**: 6개의 과업(Heart disease, Recidivism, Romantic partner, Film rating, Student performance, Airport traffic)에서 인간과 알고리즘 각각 10개의 예측과 실제 결과를 제시하고, “$100을 베팅”하도록 함. 인간과 알고리즘의 정확도를 90%와 50%로 조작해 강·약 에이전트 조합을 두 가지 조건으로 만든다. 각 조건당 100번, 총 200번 반복. **주요 결과** 1. **Study 1**: 모든 모델이 인간에 대해 평균 8.6~30.9점 높은 신뢰를 부여했으며, 이는 ‘알고리즘 회피’가 명시적 질문에서도 존재함을 보여준다. 모델 간 차이는 크지 않으며, 대형 모델일수록 신뢰 격차가 약간 감소한다. 2. **Study 2**: 인간이 더 정확함에도 불구하고, 많은 모델이 알고리즘에 베팅한다. 특히 소형 모델(gpt‑3.5‑turbo, llama‑3‑8b)은 약 45%의 경우에 약한 알고리즘을 선택했으며, 대형 모델은 20~30% 수준으로 낮지만 여전히 ‘알고리즘 선호’ 현상이 존재한다. 3. **RQ3**: 명시적·암묵적 선호 사이에 뚜렷한 불일치가 확인되었다. 모델은 인간을 ‘사회적으로 신뢰할 만한’ 존재로 인식하지만, 실제 성과 기반 선택에서는 알고리즘을 과대평가한다. 4. **모델 규모 효과**: 파라미터 수가 많을수록(예: GPT‑4‑turbo, Claude‑3‑sonnet) 불일치 정도가 감소하지만 완전히 사라지지는 않는다. **논의 및 시사점** - LLM이 인간 데이터를 학습하면서 인간의 사회적 규범(‘인간을 더 신뢰한다’)을 반영하지만, 내부 표현에서는 알고리즘에 대한 긍정적 메타 인식이 강화될 수 있다. 이는 프롬프트 설계와 후처리 단계에서 두 가지 편향을 동시에 고려해야 함을 의미한다. - 고위험 분야(의료, 금융, 채용 등)에서 LLM이 인간 전문가와 알고리즘 사이의 위임 결정을 내릴 때, 명시적 설문 결과만을 신뢰하면 실제 행동과 차이가 발생할 위험이 있다. - 평가 방법론의 견고성을 위해 명시적·암묵적 선호를 모두 포함한 다중 평가 프레임워크가 필요하며, 특히 인센티브가 부여된 상황에서 모델이 보이는 ‘알고리즘 과대평가’를 교정하기 위한 메타 학습 또는 보정 기법이 요구된다. **결론** LLM은 인간과 알고리즘에 대한 편향을 상황에 따라 다르게 표현한다. 명시적 질문에서는 인간을 더 신뢰하지만, 실제 성과 정보를 제공받고 금전적 베팅을 요구받을 때는 알고리즘을 과대평가한다. 모델 규모가 클수록 이러한 불일치는 완화되지만, 완전한 해결은 아니다. 따라서 LLM을 의사결정 지원 시스템에 통합할 때는 두 종류의 편향을 모두 진단하고, 적절한 교정 메커니즘을 설계해야 한다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기