AI 남용 평가를 위한 다단계 프레임워크와 사기·사이버범죄 위험 분석

AI 남용 평가를 위한 다단계 프레임워크와 사기·사이버범죄 위험 분석
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 대형 언어 모델이 로맨스 사기, CEO 사칭, 신원 도용 등 세 가지 주요 사기·사이버범죄 시나리오에서 제공할 수 있는 실질적인 정보와 공격 자료를 평가한다. 다중 턴(LFT) 프롬프트를 사용해 악의적·비악의적 프레이밍을 비교하고, 모델의 안전 가드와 웹 검색 기능이 결과에 미치는 영향을 분석한다. 결과는 현재 모델이 고급 탈옥 없이도 제한적인 실용 정보를 제공하지만, 가드가 해제된 ‘언센서드’ 모델은 더 높은 행동 가능성을 보인다는 점을 강조한다.

상세 분석

이 연구는 AI 남용 위험을 체계적으로 측정하기 위해 ‘Long‑Form Tasks(LFT)’라는 다단계 평가 방식을 도입했다. 먼저 모델 기능을 분석해 고급 추론과 웹 검색 두 가지 핵심 능력을 식별했으며, 이를 기반으로 사기·사이버범죄 라이프사이클의 6단계(계획·정보수집·위조·실행·회피·확대)를 매핑했다. 각 단계마다 두 차례의 프롬프트(초기 탐색·추가 상세)로 구성된 12개의 질문을 고정하고, 악의적 프레이밍과 비악의적 프레이밍을 각각 적용해 총 216개의 프롬프트 세트를 만든다.

평가 대상은 14개의 LLM으로, 모델 크기, 추론 능력, 웹 검색 연동 여부, 그리고 안전 가드 해제 여부(‘언센서드’ 모델) 등 다양한 변수를 포함한다. 응답은 자동 채점기(Inspect 프레임워크 기반)와 인간 전문가의 교차 검증을 통해 두 차원, 즉 ‘행동 가능성(Actionability)’과 ‘정보 접근성(Information Access)’을 1‑6 단계로 점수화했다.

핵심 결과는 다음과 같다. 첫째, 전체 응답의 88.5%가 행동 가능성에서 거부 혹은 비실용 수준에 머물렀으며, 정보 접근성에서도 67.5%가 웹 검색 기준을 넘지 못했다. 이는 현재 LLM이 사기·사이버범죄에 직접적인 ‘툴킷’을 제공하기보다는 일반적인 정보 제공에 머무른다는 것을 의미한다. 둘째, 안전 가드가 제거된 언센서드 모델은 두 차원 모두에서 유의미하게 높은 점수를 기록했으며, 특히 행동 가능성 점수가 평균 1‑2 단계 상승했다. 셋째, 악의적 프레이밍보다 비악의적(연구·교육 등) 프레이밍이 모델의 거부율을 낮추고 더 구체적인 답변을 이끌어냈다. 이는 공격자가 의도는 숨기고 정상적인 질문 형태로 접근할 경우 모델이 더 협조적일 가능성을 시사한다.

또한, 시스템 수준의 저레벨 탈옥(jailbreak) 시도는 큰 효과를 보이지 않았으며, 모델 자체의 안전 메커니즘이 여전히 기본적인 방어선을 형성한다는 점을 확인했다. 연구는 다중 턴 인터랙션이 단일 턴 테스트보다 모델의 실제 악용 가능성을 더 잘 드러낸다는 점을 강조하며, 향후 평가에 있어 시나리오 복잡도와 프레이밍 다양성을 확대할 필요성을 제시한다. 한계로는 프롬프트가 고정되어 있어 모델의 동적 적응 능력을 완전히 포착하지 못한다는 점, 그리고 인간 평가자의 주관성이 자동 채점과 완전 일치하지 않는다는 점을 들었다.

전반적으로 이 논문은 AI 남용 위험을 정량화하고 추적할 수 있는 재현 가능한 프레임워크를 제공함으로써, 정책 입안자와 보안 전문가가 모델 발전에 따른 위험 변화를 지속적으로 모니터링할 수 있는 기반을 마련한다.


댓글 및 학술 토론

Loading comments...

의견 남기기