다국어 LLM의 위치 편향: 모델·언어별 차이와 프롬프트 효과 분석
초록
본 연구는 영어, 러시아어, 독일어, 힌디어, 베트남어 5개 언어와 Qwen2.5‑7B‑Instruct, Llama3‑8B‑Instruct, DeepSeek‑7B‑Chat, Gemma‑7B‑it, Mistral‑7B‑Instruct 등 5개 모델을 대상으로 위치 편향을 정량화한다. 결과는(1) 위치 편향이 주로 모델 구조와 학습 데이터에 의해 결정되지만 언어별 미세 차이가 존재함을, (2) “관련 문맥은 1번에 있다”는 명시적 지시가 오히려 정확도를 감소시킴을, (3) 중간 위치에 놓인 관련 정보는 정확도는 크게 떨어지지만 출력 엔트로피는 상승하지 않아 모델가 자신감을 유지한다는 점을 보여준다.
상세 분석
이 논문은 장문 컨텍스트 처리에서 LLM이 토큰 위치에 따라 정보를 과소평가하는 ‘위치 편향(position bias)’을 다국어·다모델 환경에서 체계적으로 조사했다. 실험 설계는 각 질문당 5개의 컨텍스트를 무작위로 배치하고, 정답 컨텍스트를 TOP, MIDDLE, BOTTOM 중 하나에 놓는 3가지 위치와, Aligned(정답에 1점), All‑Zero(모두 0점), No‑Scores(점수 제거) 3가지 스코어링 전략을 조합한 9가지 조건을 만든 뒤 2,000개 QA 샘플(언어당)으로 450,000개의 응답을 수집했다. 주요 발견은 다음과 같다. 첫째, Qwen2.5‑7B‑Instruct, DeepSeek‑7B‑Chat, Mistral‑7B‑Instruct는 후기 토큰을 선호하는 ‘late‑position bias’를 보였으며, 이는 기존 연구가 주장한 초기 토큰 편향과 정반대이다. 반면 Llama3‑8B‑Instruct는 초기 토큰을 더 잘 활용했다. 이러한 차이는 모델별 학습 코퍼스 규모·구성, 어텐션 메커니즘(예: RoPE vs. 절대 위치 인코딩) 차이에서 기인할 가능성이 있다. 둘째, 정답 컨텍스트에 “1번에 있다”는 명시적 지시를 넣은 Aligned 전략은 모든 언어와 모델에서 정확도를 현저히 낮추었다. 저자들은 이는 무작위 잡음 컨텍스트가 섞인 상황에서 모델이 점수 라벨을 과신해 잘못된 정보를 우선시하기 때문이라고 해석한다. 이는 Zhang et al. (2024a)의 결과와 상반되며, ‘관련성 점수’를 제공하는 방식과 잡음의 의미적 일치 여부가 결과에 큰 영향을 미친다. 셋째, 정답이 중간에 위치했을 때 정확도는 가장 크게 떨어졌지만, 평균 예측 엔트로피(Predictive Entropy)는 크게 변동하지 않았다. 즉, 모델은 자신감 있게 답을 생성하지만 실제로는 중간 정보를 활용하지 못한다는 ‘confidence‑accuracy gap’이 존재한다. 이는 불확실성 기반의 편향 완화 기법이 엔트로피만으로는 충분히 감지되지 않을 수 있음을 시사한다. 마지막으로, 언어별 차이는 미세하지만 존재한다. 예를 들어 힌디어와 베트남어에서는 전체 정확도가 다소 낮고, 특히 형태소가 풍부한 언어에서 중간 위치 손실이 더 크게 나타났다. 이는 토큰화 방식과 어휘 다양성이 위치 편향에 미치는 영향을 암시한다. 실용적 시사점으로는(1) CoT나 RAG 파이프라인에서 ‘최근 토큰 우선’ 가정이 모든 모델에 적용되지 않으며, 모델별·언어별 컨텍스트 재배열 전략이 필요하고, (2) 명시적 위치 라벨링은 오히려 성능을 저하시킬 수 있어 신중히 설계해야 하며, (3) 엔트로피만으로는 위치 편향에 따른 불확실성을 포착하기 어려워 추가적인 메트릭(예: 토큰‑레벨 어텐션 가중치) 도입이 요구된다.
댓글 및 학술 토론
Loading comments...
의견 남기기