미묘한 차이에도 흔들리는 LLM 신뢰성 프롬프트 변형에 대한 새로운 평가 지표와 벤치마크
읽는 시간: 2 분
...
📝 원문 정보
- Title: Revisiting the Reliability of Language Models in Instruction-Following
- ArXiv ID: 2512.14754
- 발행일: 2025-12-15
- 저자: Jianshuo Dong, Yutong Zhang, Yan Liu, Zhenyu Zhong, Tao Wei, Chao Zhang, Han Qiu
📝 초록 (Abstract)
고성능 대형 언어 모델(LLM)은 IFEVAL과 같은 벤치마크에서 거의 최상위 수준의 지시 수행 정확도를 보인다. 그러나 실제 서비스에서는 사용자가 표현 방식, 맥락, 과제 정의를 다양하게 바꾸는 경우가 많아, 이러한 점수만으로는 신뢰성을 보장할 수 없다. 본 연구는 “미묘한 차이”를 반영한 프롬프트(‘cousin prompts’)에 대해 모델이 일관된 능력을 유지하는지를 평가하는 ‘nuance‑oriented reliability’를 조사한다. 이를 정량화하기 위해 새로운 지표 reliable@k를 제안하고, 고품질 cousin 프롬프트를 자동 생성하는 파이프라인을 구축하였다. 또한 IFE‑VAL++라는 확장 벤치마크를 설계해 체계적인 평가를 수행하였다. 20개의 상용 모델과 26개의 오픈소스 모델을 시험한 결과, 현재 모델들은 미묘한 프롬프트 변형에 따라 성능이 최대 61.8%까지 급락하는 등 신뢰성이 크게 부족함을 확인했다. 마지막으로 현상을 분석하고 세 가지 개선 방안을 탐색하였다. 연구 결과는 nuance‑oriented reliability가 신뢰할 수 있는 LLM 서비스 구현을 위한 핵심 과제임을 강조한다. 코드와 벤치마크는 https://github.com/jianshuod/IFEval-pp 에서 공개한다.💡 논문 핵심 해설 (Deep Analysis)
본 논문은 기존 LLM 평가가 “정답률”에 초점을 맞추는 반면, 실제 사용자와의 상호작용에서는 동일한 의도를 다양한 언어적·맥락적 변형으로 표현한다는 점을 지적한다. 이러한 변형을 ‘cousin prompts’라 명명하고, 모델이 이들에 대해 일관된 성능을 보이는지를 측정하는 것이 핵심 연구 질문이다.우선 저자들은 nuance‑oriented reliability를 정량화하기 위해 reliable@k라는 새로운 메트릭을 도입한다. reliable@k는 동일한 의도를 가진 k개의 변형 프롬프트 중 최소 하나라도 정답을 도출하지 못하면 ‘신뢰성 결함’으로 간주하는 방식으로, 기존 정확도 지표와 달리 “안정성”을 강조한다. 이 메트릭은 서비스 환경에서 사용자가 여러 번 시도할 때 발생할 수 있는 실질적 위험을 반영한다는 점에서 실용적이다.
cousin 프롬프트 생성 파이프라인은 크게 세 단계로 구성된다. (1) 원본 IFEVAL 질문을 의미론적으로 파싱하고, (2) 동의어 교체, 어순 변형, 문맥 삽입·삭제, 질문 형식 전환 등 다양한 데이터 증강 기법을 적용해 다수의 변형…