블랙박스 LLM 지식 경계 표현을 위한 딥러닝 기반 LSCL 방법

블랙박스 LLM 지식 경계 표현을 위한 딥러닝 기반 LSCL 방법
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 API 형태로만 제공되는 블랙박스 대형 언어모델(LLM)의 내부 지식 한계를 정량화하고 표현하기 위해, 질문·답변·토큰 확률을 입력으로 하는 딥러닝 모델 LSCL을 제안한다. LSCL은 지식 증류 프레임워크 위에 ‘정답‑조정 토큰 확률(CATP)’이라는 새로운 신뢰 지표를 도입하고, ‘Know’, ‘Sciolism’, ‘Unknow’의 3단계 지식 상태를 자동으로 분류한다. 토큰 확률을 제공하지 않는 모델에 대해서는 대체 적응 방식을 제시한다. 다중 공개 데이터셋과 여러 상용 블랙박스 LLM에 대한 실험 결과, LSCL이 기존 베이스라인보다 정확도·재현율 모두에서 크게 우수함을 입증한다.

상세 분석

LSCL은 블랙박스 LLM의 내부 파라미터에 접근할 수 없는 상황에서도 지식 경계를 추정할 수 있다는 점에서 기존 화이트박스 기반 방법과 근본적으로 차별화된다. 핵심 아이디어는 ‘지식 증류’라는 메타프레임을 차용해, 원본 LLM이 생성한 답변과 토큰 확률을 교사 신호로 활용하고, 이를 별도의 경량 딥러닝 네트워크에 학습시켜 LLM의 내재된 지식 상태를 근사한다는 것이다. 특히, 저자는 토큰 확률 자체가 ‘신뢰도’와 ‘정답성’ 사이에 일관성이 부족하다는 점을 지적하고, 정답 여부와 토큰 확률을 결합한 Correctness‑Adjusted Token Probability(CATP)를 새로운 신뢰 지표로 정의한다. CATP는 높은 토큰 확률이 반드시 정답을 의미하지 않으며, 반대로 낮은 확률이 무조건 무지임을 뜻하지 않는다는 기존 한계를 보완한다.

모델 구조는 크게 세 부분으로 나뉜다. 첫 번째는 질문‑답변 쌍을 입력으로 받아 의미적 정렬을 수행하는 ‘질문‑답변 정렬 모듈’로, 로컬(단어 수준) 및 글로벌(문장 전체) 의미 일치를 동시에 고려한다. 두 번째는 정렬된 특징을 기반으로 CATP를 예측하는 ‘신뢰 학습 모듈’이며, 이는 다층 퍼셉트론 혹은 경량 트랜스포머 형태로 구현되어 소비자 급 GPU에서도 실시간 추론이 가능하도록 설계되었다. 세 번째는 학습 데이터에서 도출된 CATP 분포를 자동으로 구간화하여 ‘Know’, ‘Sciolism’, ‘Unknow’ 세 가지 상태를 구분하는 ‘적응 임계값 탐색 모듈’이다. 이 모듈은 기존 연구에서 흔히 사용되던 경험적 임계값 설정을 배제하고, 데이터‑드리븐 방식으로 객관적인 경계값을 산출한다는 점에서 실용성이 높다.

‘Sciolism’이라는 중간 상태 도입은 특히 중요한 기여이다. 기존 이진 분류 방식은 정답이지만 확률이 낮은 경우와 정답이 아니지만 확률이 높은 경우를 동일하게 처리해 오버‑컨피던스 혹은 언더‑컨피던스 문제를 야기한다. ‘Sciolism’은 부분적인 지식 보유 혹은 불확실성을 명시적으로 표시함으로써, 위험 회피가 요구되는 의료·법률 등 고신뢰성 분야에서 LLM의 응답을 보다 안전하게 활용할 수 있게 만든다.

실험에서는 GPT‑4, DeepSeek‑V3, Claude 등 주요 상용 블랙박스 모델을 대상으로 다중 도메인(의료, 금융, 일반 상식) 데이터셋을 사용하였다. 평가 지표는 정확도, 재현율, F1, 그리고 CATP 기반의 AUC를 포함했으며, LSCL은 모든 기준에서 기존 베이스라인(단순 토큰 확률 기반, 프롬프트‑기반 불확실성 표시 등)보다 평균 12%~18% 높은 성능을 기록했다. 또한 토큰 확률을 제공하지 않는 모델에 대해 제안된 ‘대체 적응 방식’은 성능 저하가 3% 이하에 그쳐, 실무 적용 가능성을 크게 높였다.

한계점으로는 (1) 학습 데이터에 의존하는 신뢰 추정 특성상, 도메인‑특화 데이터가 부족한 경우 성능이 감소할 수 있다는 점, (2) CATP 계산을 위해 정답 라벨이 필요하므로 완전한 무라벨 상황에서는 적용이 어려울 수 있다는 점을 들 수 있다. 향후 연구에서는 라벨‑프리 혹은 반지도 학습을 결합해 라벨 의존성을 완화하고, 멀티‑모달 입력(이미지·표 등)까지 확장하는 방향이 제시된다.

전반적으로 LSCL은 블랙박스 LLM의 지식 경계 표현을 위한 실용적이고 확장 가능한 프레임워크를 제공하며, 특히 신뢰도와 정답성을 동시에 고려한 CATP와 3단계 상태 분류는 향후 LLM 안전성·신뢰성 연구에 중요한 기반이 될 것으로 기대된다.


댓글 및 학술 토론

Loading comments...

의견 남기기