상호작용 항을 포함한 변수 선택을 위한 효율적인 염색체 설계
본 논문은 전통적인 0‑1 이진 염색체 방식이 고차원 데이터와 상호작용 항을 포함할 때 메모리·연산 효율이 떨어지는 문제를 지적하고, 변수 인덱스를 저장하는 ‘인덱스형 염색체’를 제안한다. 최대 염색체 길이 l을 사전에 정의하고, 비활성 자리(더미 비트)를 두어 모델 희소성을 보장한다. 변이 연산을 추가·삭제 변이로 구분하고, 교차 시 중복 제거를 수행한다. 실험에서는 UCI 와 시뮬레이션 데이터를 이용해 로지스틱 회귀 적합도를 평가했으며, 인…
저자: Chee Chun Gan, Gerard Learmonth
본 논문은 변수 선택을 위한 유전 알고리즘(GA)의 핵심 구성 요소인 염색체 표현 방식을 재검토하고, 특히 상호작용 항을 포함한 고차원 데이터에서 발생하는 메모리·연산 효율성 문제를 해결하고자 한다. 기존의 표준 염색체는 n개의 잠재 변수에 대해 0‑1 이진 벡터를 사용한다. 이 방식은 변수 수가 적을 때는 충분히 작동하지만, 변수 수가 수백에서 수천 수준으로 늘어나고 k‑way 상호작용을 고려하면 가능한 변수의 총 개수가 n + C(n, k) 로 급격히 증가한다. 예를 들어 100개의 주 변수만으로도 2차 상호작용을 포함하면 5 050개의 추가 변수가 생겨 염색체 길이가 5 150비트가 된다. 이러한 초대형 이진 벡터는(1) 메모리 사용량이 인구 규모와 비례해 급증하고, (2) 대부분의 비트가 0인 희소 구조이므로 변이 연산에서 의미 있는 변수를 선택할 확률이 낮아 탐색 효율이 저하되는 두 가지 주요 단점을 가진다.
이를 극복하기 위해 저자는 ‘인덱스형 염색체’를 제안한다. 핵심 설계는 다음과 같다. 첫째, 모델러가 사전에 최대 허용 변수 수 l을 정의한다. 이는 실제 모델이 가질 수 있는 변수 개수의 상한이며, 일반적으로 전체 변수 수 n보다 훨씬 작다. 둘째, 염색체는 길이 l의 고정된 벡터이며, 각 위치에는 ‘0(더미 비트)’ 혹은 ‘변수 인덱스(1…n)’가 저장된다. 즉, 비활성 자리(더미 비트)를 두어 변수 삽입·삭제를 자유롭게 수행한다. 초기 염색체는 모든 위치를 더미 비트로 채우고, 1 ~ l 사이의 개수를 무작위로 선택해 해당 인덱스를 할당한다. 사전 지식이 있으면 프리시딩을 통해 초기 변수들을 지정할 수도 있다.
변이 연산은 두 가지 형태로 구분된다. ‘추가 변이(Pa)’는 무작위 더미 비트를 선택해 아직 모델에 포함되지 않은 변수를 삽입한다. ‘삭제 변이(Pd)’는 무작위 비더미 비트를 선택해 해당 변수를 0으로 바꾸어 제거한다. 두 변이는 각각 독립적인 확률로 적용되며, 동시에 발생할 경우 하나의 변수는 삭제되고 다른 변수는 삽입되는 스위치 효과가 나타난다. 이러한 설계는 표준 이진 염색체에서 변이 확률이 전체 변수 수 n에 비례하는 반면, 인덱스형에서는 l ≪ n이므로 특정 변수를 추가·삭제할 확률이 크게 증가한다(표 1 참조). 따라서 변이 단계에서 탐색 다양성이 크게 향상된다.
교차 연산은 기존의 단일점 교차를 그대로 사용한다. 염색체 길이가 동일하므로 교차 후에도 길이가 유지된다. 다만 교차 결과에 중복된 변수 인덱스가 존재할 경우 이를 제거하는 추가 검증 절차가 필요하다. 인덱스형 염색체는 변수 순서가 의미 없으며, 더미 비트가 무작위로 배치돼 있기 때문에 ‘머리‑꼬리’ 불균형 문제가 사라지고, 교차 시 정보가 고르게 섞여 탐색 효율이 높아진다.
실험은 두 부분으로 구성된다. 첫 번째는 UCI 머신러닝 저장소의 와인 품질 데이터(11 개 주 변수, 55 개 2차 상호작용, 총 66 개 변수)를 사용한 실증 분석이다. 두 염색체 방식 모두 10‑fold 교차 검증을 통해 로지스틱 회귀 모델의 AUC를 적합도 함수로 사용했으며, 동일한 초기 시드와 메타 파라미터를 적용했다. 결과적으로 두 방식 모두 최종 모델에 11개의 주 변수와 26개의 상호작용 항을 선택했으며, AUC는 0.8397로 거의 동일했다. 그러나 인덱스형 염색체는 평균 실행 시간이 표준 방식보다 약 30 % 짧았고, 메모리 사용량도 현저히 낮았다.
두 번째 실험은 시뮬레이션 데이터로, 주 변수 수를 200으로 확대하고 2차 상호작용을 모두 포함해 약 20 000개의 후보 변수를 생성했다. 이 경우 표준 이진 염색체는 메모리 초과와 연산 지연으로 실험이 중단되었지만, 인덱스형 염색체는 최대 l = 100으로 제한된 길이 덕분에 수십 초 내에 수렴했으며, 선택된 변수 집합은 실제 신호를 포함한 변수들에 높은 정확도로 접근했다. 또한 모델 희소성 측면에서 인덱스형은 평균 12개의 주 변수와 18개의 상호작용 항만을 포함해 과적합 위험을 최소화했다.
논문은 또한 ‘강한 계층 구조(strong hierarchy)’를 유지하기 위한 구현 세부 사항을 제시한다. 즉, 상호작용 항이 모델에 포함될 경우 해당 주 변수도 자동으로 삽입하고, 주 변수가 삭제될 경우 연관된 모든 상호작용 항을 동시에 제거한다. 이는 통계적 해석 가능성을 보장하면서도 GA 탐색 과정에서 불필요한 후보를 줄이는 역할을 한다.
결론적으로, 인덱스형 염색체는 (1) 메모리 사용량을 O(pop·l)로 감소시켜 고차원·상호작용 변수 선택 문제에 스케일러블하게 적용 가능하고, (2) 변이 단계에서 특정 변수를 추가·삭제할 확률을 높여 탐색 다양성을 강화하며, (3) 교차 시 정보가 고르게 섞이도록 함으로써 수렴 속도를 가속한다. 이러한 장점은 기존 GA 프레임워크에 최소한의 수정만으로 구현할 수 있어 실무 적용 가능성이 높다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기