딥러닝과 기존 애플리케이션을 연결하는 추정·대체 기법
초록
본 논문은 비미분 가능한 기존 프로그램을 딥 뉴럴 네트워크에 통합하기 위해, 해당 프로그램의 동작을 추정하는 EstiLayer를 학습하고, 추론 단계에서 실제 프로그램으로 교체하는 “Estimate and Replace” 방식을 제안한다. 다중 과제 학습과 Gumbel‑Softmax 기반 선택자를 활용해 API 인터페이스를 학습하고, 적은 데이터로도 성능을 향상시킨다.
상세 분석
‘Estimate and Replace’는 기존 애플리케이션의 API를 직접 호출할 수 없는 딥러닝 모델에 비미분 함수의 역할을 대신하도록 설계된 EstiLayer를 도입한다. EstiLayer는 일반적인 트랜스포머 기반 DNN으로 구현되며, 입력‑출력 형태가 외부 API와 동일하도록 강제한다. 이를 위해 모델은 세 가지 서브네트워크—입력 표현, Selector, EstiLayer—로 구성된다. 입력 표현 서브네트워크는 질문‑표 형태의 복합 입력을 벡터화하고, Selector는 Gumbel‑Softmax를 이용해 이산적인 API 선택과 인자 추출을 확률적으로 수행한다. 이렇게 얻어진 선택 결과는 EstiLayer에 전달되어 추정된 API 연산을 수행하고, 전체 네트워크는 최종 태스크 손실과 함께 온라인으로 생성된 API 레이블 손실을 동시에 최소화한다.
학습 단계는 크게 두 가지로 나뉜다. 오프라인 학습에서는 별도로 EstiLayer를 사전 학습한 뒤 고정하거나 미세조정하며, 온라인 다중 과제 학습에서는 EstiLayer와 전체 모델을 동시에 최적화한다. 온라인 학습에서는 ‘soft’와 ‘hard’ 선택 모드에서 각각 손실을 계산하고, EstiLayer 파라미터에 대한 역전파를 차단함으로써 추정된 함수가 실제 API와 동일한 동작을 유지하도록 강제한다. 이러한 설계는 비미분 API 호출을 직접 포함하지 않으면서도, 추론 시에는 학습된 EstiLayer를 실제 프로그램으로 교체함으로써 정확도와 효율성을 동시에 확보한다.
실험에서는 표 기반 질문응답(TAQ) 데이터셋을 사용해, 숫자 비교, 문자열 매칭 등 다양한 비미분 연산을 포함하는 태스크를 수행하였다. EstiNet은 동일한 구조의 순수 DNN 대비 적은 학습 데이터로도 높은 정확도를 달성했으며, 특히 추론 단계에서 EstiLayer를 실제 API로 교체했을 때 성능 향상이 두드러졌다. 이는 EstiLayer가 API 인터페이스를 정확히 학습했음을 의미한다. 또한, 다중 과제 손실을 통한 학습이 단일 손실 기반 학습보다 안정적인 수렴과 더 나은 일반화 성능을 제공한다는 점이 확인되었다.
핵심 기여는 (1) 비미분 외부 프로그램을 딥러닝 파이프라인에 자연스럽게 통합하는 새로운 프레임워크, (2) API 인터페이스 학습을 위한 다중 과제 손실 설계, (3) 적은 데이터로도 높은 성능을 보이는 실증적 증거이다. 이 접근법은 복잡한 수치 연산, 데이터베이스 쿼리, 기존 비즈니스 로직 등 다양한 도메인에 적용 가능하며, 향후 연속적인 API 호출 시퀀스 처리와 더 복잡한 인터페이스 제약을 다루는 연구로 확장될 여지가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기