경량화된 LLM 기반 기술 서비스 에이전트를 위한 잠재 논리 강화와 잡음 감소 기법

본 논문은 복잡한 기술 서비스 환경에서 대형 언어 모델(LLM)을 효율적으로 적응시키기 위해 세 가지 핵심 기법을 제안한다. 첫째, 계획‑인식 궤적 모델링(PATM)과 의사결정 추론 보강(DRA)을 통해 잠재적인 의사결정 논리를 학습 데이터에 명시적으로 삽입한다. 둘째, 오프라인·온라인 후보를 이중 필터링하여 다중 정답(Multi‑GT) 데이터셋을 구축함으로써 레이블 잡음을 감소시킨다. 셋째, 경량화된 재랭커와 대형 LLM 판정기를 결합한 하이…

저자: Yi Yu, Junzhuo Ma, Chenghuang Shen

경량화된 LLM 기반 기술 서비스 에이전트를 위한 잠재 논리 강화와 잡음 감소 기법
본 논문은 대형 언어 모델(LLM)을 복잡한 기술 서비스 환경에 효과적으로 적용하기 위해, 기존 학습·평가 파이프라인이 가지고 있는 두 가지 근본적인 한계—(1) 인간 시연이 제공하지 않는 잠재 의사결정 논리와 (2) 다수의 정당한 답변이 존재함에도 불구하고 단일 골드 레퍼런스에 의존하는 레이블 편향—를 동시에 해결하는 경량화 적응 프레임워크를 제시한다. 첫 번째 핵심 기법인 ‘잠재 논리 보강(Latent Logic Augmentation)’은 두 가지 서브모듈로 구성된다. ‘Decision Reasoning Augmentation(DRA)’은 각 상태‑행동 쌍(qₜ, aₜ)마다 역방향 사고 사슬(cₜ)을 LLM이 생성하도록 하여, 모델이 단순히 행동을 모방하는 것이 아니라 그 행동을 정당화하는 논리를 함께 학습하도록 만든다. 손실 함수는 log pθ(cₜ, aₜ | qₜ)의 음의 기대값으로 정의된다. ‘Planning‑Aware Trajectory Modeling(PATM)’은 현재 질의 qₜ와 모델의 응답 aₜ, 이어지는 환경 반응 qₜ₊₁, 그리고 다음 응답 aₜ₊₁을 3‑step 미래 궤적으로 재구성한다. LLM은 이를 (˜aₜ, ˜qₜ₊₁, ˜aₜ₊₁) 형태의 구조화된 계획으로 변환하고, 해당 시퀀스를 자동회귀적으로 예측하도록 학습한다. PATM은 환경 전이 확률 P(qₜ₊₁ | ·)을 모델 내부에 내재화시키며, DRA와 결합될 경우 사고 사슬(cₜ)까지 포함한 ‘cₜ, ˜aₜ, ˜qₜ₊₁, ˜aₜ₊₁’ 형태의 복합 데이터가 생성된다. 실험적 ablation 결과, DRA와 PATM을 동시에 사용했을 때 SFT 단계에서 응답 품질과 전략적 예측 능력이 모두 크게 향상되었으며, 각각 단독 적용 시보다 평균 3~5% 높은 BLEU·ROUGE·ECS 점수를 기록했다. 두 번째 핵심 기법인 ‘강건 잡음 감소(Robust Noise Reduction)’는 ‘다중 정답(Multi‑GT)’ 데이터셋을 자동으로 구축하는 ‘Dual‑Filtering’ 파이프라인을 제시한다. 후보 생성은 (i) 오프라인 단계에서 저사양 모델(Qwen3‑4B)을 고온(τ=1.2) 설정으로 다채로운 텍스트를 생성하고, (ii) 온라인 단계에서 초기 RL 정책이 만든 고확률 롤아웃을 수집하는 두 흐름으로 이루어진다. 이후 두 종류의 LLM 기반 판정기—‘Consistency Judge’(비즈니스 로직 일관성 평가)와 ‘Utility Judge’(티켓 해결 효과 평가)—가 각각 후보를 검증한다. Consistency Judge는 92% 인간 라벨과 일치, Utility Judge는 83% 일치율을 보이며, 두 판정 중 하나라도 통과하면 해당 후보를 Y⋆(x) 집합에 추가한다. 이 과정을 거쳐 원본 5,120개의 레퍼런스가 10,127개로 확대되었으며, 데이터 다양성은 크게 증가했다. Multi‑GT를 활용한 평가 지표인 Ensemble‑Consistency Score(ECS)는 기존 단일 레퍼런스 기반 평가에 비해 평균 7% 높은 점수를 얻었고, 모델이 다양한 정답을 학습함에 따라 ‘지식 붕괴’ 현상이 현저히 감소하였다. 세 번째 핵심 기법인 ‘경량 적응(Lightweight Adaptation)’은 강화학습 단계에서 보상 함수를 효율적으로 설계한다. 전통적인 LLM‑as‑Judge 방식은 매 롤아웃마다 대형 LLM(예: Qwen3‑32B)을 호출해 높은 연산 비용을 초래한다. 이를 해결하기 위해 저자는 ‘Hybrid Reward Mechanism(HRM)’을 도입한다. HRM은 (1) 경량 재랭커(S_R)—Qwen3‑4B 기반 비‑생각 모델로, 논리적 일관성을 빠르게 점수화하고, (2) 대형 LLM 판정기(S_J)—Qwen3‑32B 기반 ‘생각’ 모델로 정밀한 일관성 점수를 제공한다. 두 점수를 결합하는 ‘단일 구간 캐스케이드’ 전략은 S_R이 신뢰 구간(

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기