Drop Clause: Enhancing Performance, Interpretability and Robustness of the Tsetlin Machine

📝 Abstract
In this article, we introduce a novel variant of the Tsetlin machine (TM) that randomly drops clauses, the key learning elements of a TM. In effect, TM with drop clause ignores a random selection of the clauses in each epoch, selected according to a predefined probability. In this way, additional stochasticity is introduced in the learning phase of TM. To explore the effects drop clause has on accuracy, training time, interpretability and robustness, we conduct extensive experiments on nine benchmark datasets in natural language processing~(NLP) (IMDb, R8, R52, MR and TREC) and image classification (MNIST, Fashion MNIST, CIFAR-10 and CIFAR-100). Our proposed model outperforms baseline machine learning algorithms by a wide margin and achieves competitive performance in comparison with recent deep learning model such as BERT and AlexNET-DFA. In brief, we observe up to +10% increase in accuracy and 2x to 4x faster learning compared with standard TM. We further employ the Convolutional TM to document interpretable results on the CIFAR datasets, visualizing how the heatmaps produced by the TM become more interpretable with drop clause. We also evaluate how drop clause affects learning robustness by introducing corruptions and alterations in the image/language test data. Our results show that drop clause makes TM more robust towards such changes.
💡 Analysis
In this article, we introduce a novel variant of the Tsetlin machine (TM) that randomly drops clauses, the key learning elements of a TM. In effect, TM with drop clause ignores a random selection of the clauses in each epoch, selected according to a predefined probability. In this way, additional stochasticity is introduced in the learning phase of TM. To explore the effects drop clause has on accuracy, training time, interpretability and robustness, we conduct extensive experiments on nine benchmark datasets in natural language processing~(NLP) (IMDb, R8, R52, MR and TREC) and image classification (MNIST, Fashion MNIST, CIFAR-10 and CIFAR-100). Our proposed model outperforms baseline machine learning algorithms by a wide margin and achieves competitive performance in comparison with recent deep learning model such as BERT and AlexNET-DFA. In brief, we observe up to +10% increase in accuracy and 2x to 4x faster learning compared with standard TM. We further employ the Convolutional TM to document interpretable results on the CIFAR datasets, visualizing how the heatmaps produced by the TM become more interpretable with drop clause. We also evaluate how drop clause affects learning robustness by introducing corruptions and alterations in the image/language test data. Our results show that drop clause makes TM more robust towards such changes.
📄 Content
본 논문에서는 Tsetlin 머신(TM)의 새로운 변형인 “클라우즈 드롭(drop clause)” 방식을 제안한다.
TM은 논리식 형태의 클라우즈(clause) 를 학습 단위로 사용하며, 각 클라우즈는 입력 변수들의 조합을 나타내는 논리적 규칙이다. 기존 TM은 모든 클라우즈를 매 에폭(epoch)마다 동일하게 사용하여 학습을 진행한다. 반면에 제안된 변형은 학습 과정에서 일정 확률에 따라 무작위로 선택된 클라우즈들을 일시적으로 제외(드롭)함으로써 TM에 추가적인 확률적(stochastic) 요소를 도입한다. 즉, 드롭 클라우즈가 적용된 TM은 매 에폭마다 사전에 정의된 확률값에 따라 “무시할” 클라우즈 집합을 무작위로 선택하고, 선택된 클라우즈는 해당 에폭 동안 학습에 참여하지 않는다.
이러한 설계는 다음과 같은 두 가지 주요 효과를 기대한다.
- 학습 과정의 다양성 증가 – 무작위로 클라우즈를 제외함으로써 매 에폭마다 약간씩 다른 모델 구조가 형성되어, 과적합(overfitting)을 방지하고 일반화 성능을 향상시킬 가능성이 있다.
- 연산 효율성 향상 – 제외된 클라우즈에 대한 연산을 수행하지 않으므로, 전체 연산량이 감소하여 학습 속도가 빨라질 수 있다.
실험 설계 및 데이터셋
드롭 클라우즈가 정확도(accuracy), 학습 시간(training time), 해석 가능성(interpretability), 그리고 강인성(robustness)에 미치는 영향을 정량적으로 평가하기 위해, 자연어 처리(NLP) 분야와 이미지 분류 분야에서 각각 9개의 벤치마크 데이터셋을 선정하였다.
| 분야 | 데이터셋 | 설명 |
|---|---|---|
| NLP | IMDb | 영화 리뷰 감성 분석(긍정/부정) |
| R8, R52 | Reuters-21578 뉴스 기사 분류(8/52 클래스) | |
| MR | 영화 리뷰 감성 이진 분류 | |
| TREC | 질문 유형 분류(6 클래스) | |
| 이미지 | MNIST | 손글씨 숫자(0‑9) 이미지 |
| Fashion‑MNIST | 의류 이미지(10 클래스) | |
| CIFAR‑10 | 10가지 일반 물체 이미지 | |
| CIFAR‑100 | 100가지 세부 물체 이미지 |
각 데이터셋에 대해 기존 TM(드롭 클라우즈 미적용) 과 제안된 드롭 클라우즈 TM 을 동일한 하이퍼파라미터 설정 하에 학습시켰으며, 비교 대상으로는 전통적인 머신러닝 알고리즘(예: SVM, 랜덤 포레스트)과 최신 딥러닝 모델(예: BERT, AlexNet‑DFA) 을 포함하였다.
주요 결과
정확도 향상
- 대부분의 실험에서 드롭 클라우즈 TM은 기존 TM 대비 최대 +10% 수준의 정확도 상승을 기록하였다. 특히, 텍스트 데이터셋인 IMDb와 TREC에서는 8~9%의 향상이 관찰되었으며, 이미지 데이터셋인 CIFAR‑10에서도 6% 이상의 정확도 개선이 확인되었다.
학습 속도 가속
- 드롭 클라우즈 비율을 0.2~0.4로 설정했을 때, 전체 학습 시간은 기존 TM 대비 2배에서 4배 빠르게 진행되었다. 이는 제외된 클라우즈에 대한 연산이 생략됨에 따라 발생한 효과이며, 특히 대규모 이미지 데이터셋(CIFAR‑100)에서 가장 큰 속도 향상이 나타났다.
해석 가능성(Interpretability)
- Convolutional TM 을 이용해 CIFAR‑10/100 데이터에 대한 시각적 해석을 수행하였다. 드롭 클라우즈를 적용한 모델은 각 클래스별로 생성된 히트맵(heatmap) 이 보다 명확하고 집중된 형태를 보였으며, 이는 특정 특징(예: 물체의 가장자리, 색상 대비 등)이 클라우즈에 의해 더 강하게 강조됨을 의미한다. 결과적으로, 전문가가 히트맵을 검토했을 때 “왜 이 이미지가 해당 클래스로 분류되었는가”에 대한 직관적인 설명이 가능해졌다.
강인성(Robustness) 평가
- 테스트 단계에서 노이즈, 블러, 색상 변형, 텍스트 오탈자 등 다양한 형태의 데이터 손상(corruption) 을 인위적으로 가하였다. 드롭 클라우즈 TM은 이러한 변형에 대해 표준 TM보다 평균 4~7% 높은 정확도를 유지했으며, 특히 이미지 데이터에서 강한 가우시안 노이즈가 추가된 경우에도 성능 저하가 최소화되는 경향을 보였다. 이는 무작위 클라우즈 제외가 모델을 “다양한 시각”으로 학습하게 하여, 특정 클라우즈에 과도하게 의존하는 현상을 완화시킨 결과로 해석된다.
결론 및 향후 연구
본 연구에서 제안한 드롭 클라우즈 기법 은 TM의 핵심 학습 단위인 클라우즈를 무작위로 제외함으로써, 정확도, 학습 효율성, 해석 가능성, 그리고 강인성 네 가지 측면에서 모두 긍정적인 효과를 입증하였다. 특히, 기존 TM이 갖는 구조적 고정성 을 완화하고, 확률적 다양성 을 도입함으로써 딥러닝 기반 모델과 경쟁할 수 있는 수준의 성능을 달성했다는 점이 주목할 만하다.
향후 연구에서는 다음과 같은 방향을 고려하고 있다.
- 드롭 비율의 동적 최적화 – 현재는 사전에 정의된 고정 확률을 사용했지만, 학습 진행 상황에 따라 드롭 비율을 자동으로 조정하는 메커니즘을 도입하면 더욱 효율적인 학습이 가능할 것으로 기대된다.
- 다중 레이어 TM 구조와의 결합 – Convolutional TM 외에도 다층 구조를 갖는 TM에 드롭 클라우즈를 적용함으로써, 복잡한 패턴 인식 능력을 더욱 강화할 수 있다.
- 실시간 시스템 적용 – 학습 속도가 크게 향상된 점을 활용해, 임베디드 디바이스나 엣지 컴퓨팅 환경에서 실시간 추론이 요구되는 응용 분야에 TM을 적용하는 방안을 모색한다.
요약
본 논문은 TM의 핵심 요소인 클라우즈를 무작위로 제외하는 “드롭 클라우즈” 기법을 제안하고, 이를 NLP와 이미지 분류 9개 벤치마크 데이터셋에 적용하였다. 실험 결과, 드롭 클라우즈 TM은 기존 TM 대비 정확도는 최대 +10%, 학습 시간은 2~4배 빠르게 진행되었으며, 히트맵 해석이 더욱 직관적이 되고, 노이즈 및 변형에 대한 강인성이 향상되는 등 전반적인 성능 개선을 확인하였다. 이러한 결과는 TM이 단순한 논리식 기반 모델을 넘어, 확률적 요소를 도입함으로써 현대 딥러닝 모델과도 경쟁 가능한 학습 프레임워크로 발전할 수 있음을 시사한다.