그레이딩어택: 대형 언어모델을 겨냥한 정답 채점 공격 프레임워크

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 대형 언어모델(LLM) 기반 자동 단답 채점(ASAG) 시스템의 취약성을 평가하기 위해 GradingAttack이라는 정밀한 적대적 공격 프레임워크를 제안한다. 토큰 수준과 프롬프트 수준의 두 가지 공격 전략을 설계하고, 공격 성공률과 위장성을 동시에 고려한 Camouflage Attack Score(CAS) 지표를 도입한다. 실험 결과, 프롬프트 수준 공격이 높은 성공률을 보이며, 토큰 수준 공격은 더 높은 위장성을 확보한다는 점을 확인하였다.

상세 분석

GradingAttack 논문은 LLM 기반 자동 단답 채점(ASAG) 시스템이 실제 교육 현장에서 활용될 때 마주할 수 있는 보안·공정성 문제를 체계적으로 탐구한다. 먼저 기존의 일반적 적대적 공격 기법을 ASAG의 특수 목적에 맞게 재구성한다는 점에서 의의가 크다. 저자들은 두 가지 세부 공격 방식을 제시한다.

토큰‑레벨 공격: 원본 학생 답변에 미세한 토큰 교체·삽입을 수행한다. 여기서는 의미를 크게 변형하지 않으면서도 모델의 채점 로직을 오도하도록 설계한다. 예를 들어, 동의어 치환, 불필요한 부사·형용사 추가, 구문 재배열 등을 통해 모델이 정답으로 오인하도록 만든다. 이러한 방식은 인간 채점자에게는 거의 눈에 띄지 않아 위장성이 뛰어나다.
프롬프트‑레벨 공격: 채점 프롬프트 자체를 변형한다. 질문·정답·학생 답변을 포함하는 프롬프트에 공격용 문구나 힌트를 삽입해 모델이 기대하는 채점 기준을 왜곡한다. 프롬프트 전체 구조를 바꾸는 만큼 모델의 출력에 미치는 영향이 크고, 실험에서 가장 높은 공격 성공률(ASR)을 기록한다.

이 두 전략을 정량적으로 비교하기 위해 Camouflage Attack Score (CAS) 라는 새로운 평가 지표를 정의한다. CAS는 베타 분포를 기반으로 공격 성공률(ASR)과 공격 전후 정확도 비율(A_after / A_before)을 결합한다. 구체적으로
\

그레이딩어택: 대형 언어모델을 겨냥한 정답 채점 공격 프레임워크

초록

상세 분석

댓글 및 학술 토론

의견 남기기