경량화된 LLM 기반 기술 서비스 에이전트를 위한 잠재 논리 강화와 잡음 감소 기법

본 논문은 대형 언어 모델(LLM)을 복잡한 기술 서비스 환경에 효과적으로 적용하기 위해, 기존 학습·평가 파이프라인이 가지고 있는 두 가지 근본적인 한계—(1) 인간 시연이 제공하지 않는 잠재 의사결정 논리와 (2) 다수의 정당한 답변이 존재함에도 불구하고 단일 골드 레퍼런스에 의존하는 레이블 편향—를 동시에 해결하는 경량화 적응 프레임워크를 제시한다. 첫 번째 핵심 기법인 ‘잠재 논리 보강(Latent Logic Augmentation)’은 두 가지 서브모듈로 구성된다. ‘Decision Reasoning Augmentation(DRA)’은 각 상태‑행동 쌍(qₜ, aₜ)마다 역방향 사고 사슬(cₜ)을 LLM이 생성하도록 하여, 모델이 단순히 행동을 모방하는 것이 아니라 그 행동을 정당화하는 논리를 함께 학습하도록 만든다. 손실 함수는 log pθ(cₜ, aₜ | qₜ)의 음의 기대값으로 정의된다. ‘Planning‑Aware Trajectory Modeling(PATM)’은 현재 질의 qₜ와 모델의 응답 aₜ, 이어지는 환경 반응 qₜ₊₁, 그리고 다음 응답 aₜ₊₁을 3‑step 미래 궤적으로 재구성한다. LLM은 이를 (˜aₜ, ˜qₜ₊₁, ˜aₜ₊₁) 형태의 구조화된 계획으로 변환하고, 해당 시퀀스를 자동회귀적으로 예측하도록 학습한다. PATM은 환경 전이 확률 P(qₜ₊₁ | ·)을 모델 내부에 내재화시키며, DRA와 결합될 경우 사고 사슬(cₜ)까지 포함한 ‘cₜ, ˜aₜ, ˜qₜ₊₁, ˜aₜ₊₁’ 형태의 복합 데이터가 생성된다. 실험적 ablation 결과, DRA와 PATM을 동시에 사용했을 때 SFT 단계에서 응답 품질과 전략적 예측 능력이 모두 크게 향상되었으며, 각각 단독 적용 시보다 평균 3~5% 높은 BLEU·ROUGE·ECS 점수를 기록했다. 두 번째 핵심 기법인 ‘강건 잡음 감소(Robust Noise Reduction)’는 ‘다중 정답(Multi‑GT)’ 데이터셋을 자동으로 구축하는 ‘Dual‑Filtering’ 파이프라인을 제시한다. 후보 생성은 (i) 오프라인 단계에서 저사양 모델(Qwen3‑4B)을 고온(τ=1.2) 설정으로 다채로운 텍스트를 생성하고, (ii) 온라인 단계에서 초기 RL 정책이 만든 고확률 롤아웃을 수집하는 두 흐름으로 이루어진다. 이후 두 종류의 LLM 기반 판정기—‘Consistency Judge’(비즈니스 로직 일관성 평가)와 ‘Utility Judge’(티켓 해결 효과 평가)—가 각각 후보를 검증한다. Consistency Judge는 92% 인간 라벨과 일치, Utility Judge는 83% 일치율을 보이며, 두 판정 중 하나라도 통과하면 해당 후보를 Y⋆(x) 집합에 추가한다. 이 과정을 거쳐 원본 5,120개의 레퍼런스가 10,127개로 확대되었으며, 데이터 다양성은 크게 증가했다. Multi‑GT를 활용한 평가 지표인 Ensemble‑Consistency Score(ECS)는 기존 단일 레퍼런스 기반 평가에 비해 평균 7% 높은 점수를 얻었고, 모델이 다양한 정답을 학습함에 따라 ‘지식 붕괴’ 현상이 현저히 감소하였다. 세 번째 핵심 기법인 ‘경량 적응(Lightweight Adaptation)’은 강화학습 단계에서 보상 함수를 효율적으로 설계한다. 전통적인 LLM‑as‑Judge 방식은 매 롤아웃마다 대형 LLM(예: Qwen3‑32B)을 호출해 높은 연산 비용을 초래한다. 이를 해결하기 위해 저자는 ‘Hybrid Reward Mechanism(HRM)’을 도입한다. HRM은 (1) 경량 재랭커(S_R)—Qwen3‑4B 기반 비‑생각 모델로, 논리적 일관성을 빠르게 점수화하고, (2) 대형 LLM 판정기(S_J)—Qwen3‑32B 기반 ‘생각’ 모델로 정밀한 일관성 점수를 제공한다. 두 점수를 결합하는 ‘단일 구간 캐스케이드’ 전략은 S_R이 신뢰 구간(

경량화된 LLM 기반 기술 서비스 에이전트를 위한 잠재 논리 강화와 잡음 감소 기법

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기