동일 의미, 다른 점수: LLM 평가의 어휘·구문 민감도 분석

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 연구는 23개 최신 대형 언어모델을 MMLU, SQuAD, AMEGA 세 벤치마크에 적용해 의미는 동일하지만 어휘와 구문이 변형된 입력이 모델 성능과 순위에 미치는 영향을 조사한다. 어휘 교체는 일관된 성능 저하를, 구문 재배치는 과업에 따라 상승·하강이 혼재함을 확인했다. 모델 규모와 견고성 사이에 일관된 관계가 없으며, 작은 변형만으로도 리더보드가 크게 흔들린다.

상세 분석

이 논문은 LLM 평가의 신뢰성을 검증하기 위해 두 종류의 의미보존 변형 파이프라인을 설계했다. 어휘 변형은 사전학습된 Llama‑3.3‑70B‑Instruct를 활용해 문맥에 맞는 동의어로 교체하도록 프롬프트를 구성했으며, 정답 문자열이 포함된 SQuAD에서는 답변 구간을 그대로 유지하도록 제약을 추가했다. 구문 변형은 spaCy 의존구문 분석기로 문장을 분해하고, 주어·목적어·보어 등 주요 구성요소를 식별한 뒤 LLM에게 재배열을 지시했다. 이렇게 생성된 변형 데이터셋을 원본과 동일한 zero‑shot 설정(temperature = 0)으로 23개 모델에 적용했다.

성능 평가는 MMLU는 정확도, SQuAD은 Exact Match·F1·Semantic Answer Similarity, AMEGA는 가이드라인 준수 점수를 사용했으며, 각 변형 전후 차이를 t‑검정과 부트스트랩 신뢰구간으로 검증했다. 어휘 변형은 거의 모든 모델·과업에서 평균 5~~8 퍼센트포인트의 정확도 감소를 보였고, 통계적으로 유의미했다. 반면 구문 변형은 모델마다 상이했으며, 일부 모델은 오히려 1~~2 퍼센트포인트 상승을 기록했다. 이는 LLM이 표면 어휘 패턴에 크게 의존하고, 구문 구조를 추론하는 능력은 모델마다 차이가 크다는 점을 시사한다.

리더보드 안정성 분석에서는 원본 순위와 변형 후 순위 간의 Kendall’s τ가 0.3 이하로 낮아, 작은 변형만으로도 상위·하위 모델이 뒤바뀌는 현상을 확인했다. 모델 규모와 견고성 간의 상관관계는 일관되지 않았으며, 특히 70B 파라미터 모델조차도 7B 모델보다 더 민감한 경우가 있었다. 이는 “스케일링이 견고성을 보장한다”는 기존 가설에 반하는 결과다.

전체적으로 이 연구는 LLM 평가에 있어 표면 어휘 의존성을 정량화하고, 의미보존 변형 테스트를 표준 평가 절차에 포함시켜야 함을 강조한다.

동일 의미, 다른 점수: LLM 평가의 어휘·구문 민감도 분석

초록

상세 분석

댓글 및 학술 토론

의견 남기기