알고리즘 실행시간 예측 방법과 평가

초록

본 논문은 기계학습을 활용해 알고리즘의 실행시간을 사전 미지의 입력에 대해 예측하는 모델을 개발하고, SAT, TSP, MIP 분야의 다양한 인스턴스와 파라미터를 포함한 11개 알고리즘에 대해 포괄적인 실험을 수행한다. 새로운 특성 집합과 파라미터 처리 기법을 도입한 모델이 기존 방법보다 일반화 성능이 크게 향상됨을 입증한다.

상세 분석

이 연구는 알고리즘 런타임 예측이라는 문제를 세 가지 주요 축으로 확장한다. 첫째, 기존 연구에서 간과되던 알고리즘 파라미터를 모델 입력으로 체계적으로 포함한다. 파라미터 공간를 연속형·이산형 변수로 다루며, 파라미터 간 상호작용을 포착하기 위해 다항식 커널과 트리 기반 앙상블을 결합한 하이브리드 모델을 제안한다. 둘째, SAT, TSP, MIP 각각의 도메인 특성을 반영한 새로운 인스턴스 특성을 설계한다. 예를 들어 SAT에서는 변수-절(clause) 비율, 리터럴 빈도 분포, 구조적 그래프 지표 등을, TSP에서는 도시 간 거리 행렬의 스펙트럼 특성, 클러스터링 계수, 최소 신장 트리 비용 등을, MIP에서는 제약 행렬의 희소도, 변수 범위, 라그랑주 이완값 등을 포함한다. 이러한 특성은 기존의 단순 통계량을 넘어 문제 구조를 정량화함으로써 모델의 설명력을 높인다. 셋째, 실험 설계는 35개의 인스턴스 분포와 11개의 알고리즘(파라미터화된 변형 포함)을 아우르며, 무작위 생성 인스턴스부터 산업 현장 데이터까지 폭넓은 범위를 커버한다. 교차 검증은 인스턴스, 알고리즘, 파라미터 세 축을 동시에 보존하는 “3중 외삽” 방식을 채택해, 모델이 실제 적용 상황에서 얼마나 일반화되는지를 엄격히 평가한다. 결과는 제안된 하이브리드 회귀 트리와 확장된 랜덤 포레스트가 평균 절대 오차와 로그-스케일 RMSE 측면에서 기존 선형 회귀, 서포트 벡터 회귀, 기본 랜덤 포레스트 등을 크게 앞선다는 것을 보여준다. 특히 파라미터가 변하는 새로운 알고리즘에 대한 예측 정확도가 20% 이상 개선되었으며, 이는 파라미터-특성 상호작용을 효과적으로 모델링했기 때문이다. 전체적으로 이 논문은 런타임 예측 모델링에 있어 특성 설계, 파라미터 통합, 그리고 평가 프로토콜의 세 가지 요소를 동시에 고도화함으로써, 향후 자동 알고리즘 선택·구성 시스템 구축에 핵심적인 기반을 제공한다.