오프스크립트 대형 언어 모델 지시 준수 자동 감사

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

오프스크립트는 사용자 지정 지시가 LLM에 제대로 적용되는지를 자동으로 감시하는 시스템이다. 레딧에서 수집한 맞춤 지시를 대상으로 파일럿 실험을 수행했으며, 대화 86.4%에서 잠재적 위반을 탐지했고, 그 중 22.2%는 인간 검토를 통해 실제 위반으로 확인되었다. 결과는 자동 감사가 정보 탐색 행동 지시의 준수 여부를 평가하는 실용적인 방법임을 시사한다.

상세 분석

본 논문은 LLM이 사용자 지정 지시(custom instructions)나 행동 프롬프트를 정확히 따르는지를 검증할 메커니즘이 부재함을 지적하고, 이를 해결하기 위한 자동화된 감사 도구인 Offscript을 제안한다. Offscript은 크게 두 단계로 구성된다. 첫 번째는 지시 텍스트와 LLM 응답을 자연어 이해(NLU) 모델에 입력해 “지시 위반 가능성” 점수를 산출하는 단계이며, 두 번째는 사전 정의된 임계값을 초과하는 경우 자동으로 플래그를 지정하고, 인간 검토자를 호출해 최종 판단을 내리도록 설계되었다.

파일럿 연구에서는 Reddit 커뮤니티에서 실제 사용자들이 공유한 150여 개의 맞춤 지시를 수집하고, 각각에 대해 5개의 독립적인 대화를 생성하였다. Offscript은 86.4%의 대화에서 최소 하나의 위반 가능성을 탐지했으며, 이는 LLM이 지시를 완전히 무시하거나 부분적으로만 이행하는 경우가 빈번함을 보여준다. 인간 검토자는 자동 플래그 중 22.2%를 “실질적 위반”으로 확정했는데, 여기에는 민감한 정보 노출, 부정확한 출처 표기, 사용자 의도와 상반되는 어조 사용 등이 포함된다.

기술적 관점에서 Offscript은 기존의 텍스트 분류 모델을 그대로 활용하는 것이 아니라, 지시와 응답 사이의 의미적 일관성을 측정하기 위해 쌍방향 인코더(Bi-Encoder)와 교차 엔코더(Cross-Encoder)를 혼합한 하이브리드 구조를 채택한다. 이 접근법은 단순 키워드 매칭보다 높은 정밀도를 제공하면서도, 대규모 배치 처리 시 연산 비용을 크게 절감한다. 또한, 도구는 지시 유형(예: 정보 제공, 스타일 지정, 윤리적 제한)별로 별도 임계값을 설정할 수 있어, 다양한 응용 시나리오에 맞춤형 감시가 가능하도록 설계되었다.

한계점으로는 현재 Offscript이 주로 영어 기반 LLM과 영어 지시를 대상으로 평가되었으며, 다국어 환경이나 비정형 지시(예: 은유적 표현)에는 성능 저하가 예상된다. 또한, 자동 플래그의 정확도는 기본 모델의 품질에 크게 의존하므로, 최신 LLM이 지속적으로 개선될 경우 재학습 및 파라미터 튜닝이 필요하다. 향후 연구에서는 다중 언어 지원, 지시 복합성 평가, 그리고 실시간 사용자 피드백 루프를 통합해 감사 시스템의 적응성을 높이는 방향을 제시한다.