RNN과 HMM을 결합한 해석 가능성 향상

본 논문은 최근 딥러닝 모델, 특히 순환 신경망(RNN)의 뛰어난 성능에도 불구하고 해석 가능성 부족으로 실용화에 제약이 있다는 점에 주목한다. 특히 음성 인식·기계 번역 등 시퀀스 데이터를 다루는 분야에서 RNN은 ‘블랙 박스’로 인식되어 의료·법률 등 신뢰성이 요구되는 영역에서 채택이 저조하다. 이러한 문제를 해결하고자 저자들은 RNN과 은닉 마르코프 모델(HMM)을 결합한 세 가지 하이브리드 방식을 제안한다. 첫 번째 방식은 연속형 방출 HMM을 LSTM의 은닉 상태에 직접 적용하는 것이다. LSTM을 2‑layer, 1‑layer 등 다양한 차원으로 학습한 뒤, 각 시점의 은닉 벡터를 HMM의 관측값으로 사용한다. 초기 상태는 K‑means 클러스터링을 통해 설정해 수렴 속도를 높였으며, 전방‑후방 샘플링(FFBS)과 다항‑디리클레 사후분포를 이용해 전이 행렬을 추정한다. 연속형 방출 파라미터는 정규‑역와이샤트 사후분포에서 평균과 공분산을 동시에 샘플링한다. 두 번째 방식은 HMM을 먼저 학습하고, 그 결과인 상태 확률 분포 p_t를 LSTM의 출력층에 추가 입력으로 제공하는 순차적 하이브리드 모델이다. 여기서 LSTM은 HMM이 잘 예측하지 못하는 미세한 패턴을 보완하도록 설계되며, LSTM의 은닉 차원을 기존보다 작게 설정해도 성능 저하가 최소화된다. 구현은 Python 기반 HMM 모듈과 PyTorch 기반 LSTM 모듈을 결합한 형태이며, 선형 출력층에 HMM 상태 수만큼의 추가 열을 삽입한다. 세 번째 방식은 HMM과 LSTM을 동시에 학습하는 공동 학습 모델이다. HMM을 미분 가능하게 구현해 SGD로 파라미터를 업데이트한다. 이 접근법은 순차적 하이브리드보다 학습 시간이 크게 늘어나지만, 데이터가 작을수록(예: Tiny Shakespeare) 성능 향상이 두드러진다. 실험은 세 가지 문자 수준 텍스트 데이터셋(Penn Treebank, Tiny Shakespeare, Linux Kernel)에서 수행되었다. HMM 상태 수 k=20은 LSTM 은닉 상태의 주성분 분석(PCA) 결과 대부분의 분산을 설명한다는 근거로 선택되었다. 각 모델의 예측 성능은 로그우도(log‑likelihood)로 평가했으며, 하이브리드 모델은 동일 LSTM 차원 대비 평균 0.1~0.2 정도 로그우도 개선을 보였다. 특히 HMM 상태 수를 10에서 20으로 늘릴 경우 성능이 상승했으며, LSTM 차원을 크게 늘리면 HMM의 상대적 기여도가 감소하는 경향을 확인했다. 시각화 결과는 하이브리드 모델의 해석 가능성을 강조한다. HMM 상태를 색으로 구분하고, LSTM 은닉 벡터에 K‑means 클러스터링을 적용해 텍스트 상의 공백, 들여쓰기, 주석 기호, 구두점 등을 직관적으로 파악했다. 예를 들어 Linux 데이터에서는 HMM이 주석 시작과 들여쓰기 구분에 강하고, LSTM은 단어 사이 공백과 특정 문자 패턴을 포착한다는 점이 확인되었다. 이러한 보완적 특성은 모델이 어떤 정보를 어떤 방식으로 활용하는지에 대한 통찰을 제공한다. 논문의 결론은 HMM과 RNN을 결합하면 해석 가능성을 크게 향상시키면서도 예측 성능을 유지하거나 약간 개선할 수 있다는 것이다. 또한, 작은 하이브리드 모델이 동일 규모의 단일 LSTM보다 더 효율적일 수 있음을 보여준다. 한계점으로는 연속형 HMM이 고차원 은닉 상태를 충분히 표현하지 못할 가능성, 공동 학습 시 최적화 안정성 문제, 그리고 문자 수준 실험에 국한된 일반화 가능성 등이 있다. 향후 연구에서는 변분 추정, 멀티‑모달 입력, 그리고 의료·법률 등 고위험 분야에 적용해 실용성을 검증하는 방향이 제시된다.

RNN과 HMM을 결합한 해석 가능성 향상

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기