학습 분류기 시스템의 진화 CS1에서 XCS까지
초록
본 논문은 초기 학습 분류기 시스템(CS‑1)부터 최신 시스템인 XCS에 이르기까지의 발전 과정을 조망한다. 규칙의 정확도를 핵심 유틸리티로 채택하고, 공동 활성 규칙 집합(co‑active set) 내에서 탐색 효율성을 높이는 설계 원리를 중심으로, GOFER, ANIMAT, ZCS, UCS 등 중간 단계의 변형들을 분석한다. 최종적으로 XCS가 제시한 정확도 기반 적합도와 일반화 압력의 결합이 이후 XCSF, XCSR, XCS‑Hybrid 등 다양한 학습 형태로 확장되는 기반이 되었음을 강조한다.
상세 분석
학습 분류기 시스템(LCS)은 규칙 기반 지식 표현과 강화학습 메커니즘을 결합한 하이브리드 프레임워크로, 1980년대 초 Holland가 제안한 CS‑1이 시초이다. CS‑1은 조건‑행동‑예측 3‑요소 규칙을 사용했으며, 적합도는 보상 누적값에 기반한 단순한 강화학습 방식을 채택했다. 그러나 탐색 공간이 방대하고, 규칙의 일반화가 부족해 과적합과 학습 속도 저하가 발생했다. 이를 개선하기 위해 Holland는 “공동 활성 규칙 집합”(co‑active set) 개념을 도입, 현재 상황에 맞는 규칙들만을 동시에 활성화함으로써 연산량을 크게 줄였다.
그 후, Wilson은 GOFER와 ANIMAT을 통해 “조건 부분의 특성 선택”(feature selection)과 “환경 모델링”(environment modeling)이라는 두 단계 학습 구조를 제시했다. GOFER는 입력 공간을 클러스터링하여 의미 있는 특성 집합을 추출하고, ANIMAT은 이러한 특성을 이용해 행동 정책을 학습함으로써 규칙의 일반화와 정확도를 동시에 향상시켰다.
ZCS(Zero‑Crossover System)는 규칙 교차 연산을 제거하고, 적합도 업데이트에 Q‑learning 형태의 차감 방식을 도입해 학습 안정성을 높였다. 그러나 ZCS는 여전히 보상 기반 적합도만을 사용했기 때문에, 규칙의 예측 정확도와 일반화 정도를 별도로 평가하기 어려웠다.
UCS(Accuracy‑Based Classifier System)는 적합도를 “예측 정확도”로 정의함으로써, 보상 크기와 무관하게 규칙의 신뢰성을 직접 측정할 수 있게 했다. 이는 규칙이 높은 정확도를 보일수록 선택 확률이 증가하도록 하는 메커니즘으로, 탐색‑활용 균형을 보다 정교하게 조절한다.
XCS(Accuracy‑Based Classifier System)는 UCS의 정확도 기반 적합도 개념을 확장하여, “일반화 압력”(generalization pressure)을 명시적으로 도입했다. 구체적으로, 동일한 정확도를 가진 더 일반적인 규칙이 더 높은 적합도를 부여받아, 규칙 집합이 최소한의 특성으로 최대한의 상황을 커버하도록 유도한다. 이 설계는 규칙 수를 크게 줄이면서도 높은 예측 정확도를 유지하는 데 성공했으며, 이후 다양한 파생 모델의 토대가 되었다.
XCS 이후의 연구는 주로 두 축으로 전개되었다. 첫 번째는 연속적인 상태·행동 공간을 다루기 위한 XCSF(Function Approximation)와 XCSR(Real‑valued) 등이며, 두 번째는 메타‑학습·다중 목표 학습·다중 에이전트 협업 등을 위한 XCS‑Hybrid, XCS‑M 등이다. 이러한 파생 모델들은 기본 XCS의 정확도‑일반화 프레임워크를 유지하면서, 함수 근사, 신경망 통합, 진화적 파라미터 조정 등 현대 머신러닝 기법과 결합한다. 결과적으로, LCS는 규칙 기반 해석 가능성과 강화학습 효율성을 동시에 제공하는 독특한 위치를 확보하게 되었다.
댓글 및 학술 토론
Loading comments...
의견 남기기