적응형 차등 진화 기반 양자 변분 오토인코더‑트랜스포머를 이용한 소프트웨어 결함 예측
본 논문은 기존 머신러닝 기반 결함 예측 모델이 데이터 노이즈, 클래스 불균형, 시계열 의존성 등에서 한계를 보이는 문제를 해결하고자, 차등 진화 알고리즘을 적응형으로 변형한 ADE와 양자 변분 오토인코더‑트랜스포머(QVAET)를 결합한 ADE‑QVAET 모델을 제안한다. ADE는 하이퍼파라미터와 가중치 최적화를 담당하고, QVAET는 고차원 잠재 표현을
초록
본 논문은 기존 머신러닝 기반 결함 예측 모델이 데이터 노이즈, 클래스 불균형, 시계열 의존성 등에서 한계를 보이는 문제를 해결하고자, 차등 진화 알고리즘을 적응형으로 변형한 ADE와 양자 변분 오토인코더‑트랜스포머(QVAET)를 결합한 ADE‑QVAET 모델을 제안한다. ADE는 하이퍼파라미터와 가중치 최적화를 담당하고, QVAET는 고차원 잠재 표현을 추출하면서 시퀀스 정보를 보존한다. 실험 결과, 90 % 학습 비율 하에서 정확도 98.08 %, 정밀도 92.45 %, 재현율 94.67 %, F1‑점수 98.12 %를 달성해 기존 차등 진화(DE) 모델을 크게 능가하였다.
상세 요약
ADE‑QVAET 모델은 크게 두 축으로 혁신을 시도한다. 첫 번째 축은 최적화 단계에서 차등 진화(DE)의 탐색·활용 메커니즘을 적응형으로 확장한 ADE이다. 전통적인 DE는 고정된 교차·돌연변이 비율을 사용해 전역 탐색을 수행하지만, 데이터 특성(노이즈 수준, 클래스 비율)과 학습 진행 상황에 따라 변동 가능한 파라미터 스케줄링을 도입함으로써 수렴 속도를 가속화하고 지역 최적에 빠지는 위험을 감소시켰다. 특히, 변동형 스케일 파라미터와 동적 인구 크기 조절 전략은 고차원 잠재 공간을 탐색할 때 발생하는 “차원 저주”를 완화한다.
두 번째 축은 양자 변분 오토인코더와 트랜스포머의 결합이다. 양자 변분 오토인코더(QVAE)는 양자 회로를 이용해 확률적 인코딩을 수행함으로써 전통적인 VAE보다 더 풍부한 확률 분포를 모델링한다. 여기서는 파라미터화된 양자 게이트를 통해 입력 피처를 고차원 힐베르트 공간에 매핑하고, 변분 베이즈 최적화를 통해 재구성 손실을 최소화한다. 이어지는 트랜스포머 블록은 셀프‑어텐션 메커니즘을 활용해 시퀀스형 결함 데이터(예: 버전 히스토리, 커밋 로그)의 장기 의존성을 포착한다. 이 두 모듈을 연계함으로써, 모델은 노이즈가 섞인 비정형 피처와 시계열적 구조를 동시에 학습할 수 있다.
실험 설계는 5가지 공개 소프트웨어 결함 데이터셋(예: NASA‑MDP, PROMISE)에서 10‑fold 교차 검증을 수행했으며, 비교 대상으로는 기존 DE, 랜덤 포레스트, XGBoost, LSTM‑AE 등을 포함한다. ADE‑QVAET는 전반적으로 정확도·F1 점수에서 3~7 %p 상승을 보였으며, 특히 클래스 불균형 비율이 1:20 이하인 경우에도 높은 재현율을 유지했다. 이는 ADE가 적응형 가중치 조정을 통해 소수 클래스에 대한 민감도를 높인 결과로 해석된다.
하지만 몇 가지 한계도 존재한다. 첫째, 양자 회로 시뮬레이션 비용이 높아 실제 양자 하드웨어가 없을 경우 학습 시간이 기존 딥러닝 모델보다 수배 이상 늘어난다. 둘째, 하이퍼파라미터 설정(예: 양자 회로 깊이, 어텐션 헤드 수)이 데이터셋마다 민감하게 변동하므로 자동화된 메타‑학습 기법이 추가로 필요하다. 셋째, 모델 해석 가능성 측면에서 양자 파라미터와 어텐션 가중치가 어떻게 결함 특성과 연결되는지에 대한 설명이 부족하다. 향후 연구에서는 양자‑클래식 하이브리드 아키텍처의 경량화, 메타‑최적화, 그리고 SHAP·LIME과 같은 해석 기법을 결합해 실무 적용성을 높이는 방향을 제안한다.
📜 논문 원문 (영문)
🚀 1TB 저장소에서 고화질 레이아웃을 불러오는 중입니다...