법안 통과 예측과 텍스트 분석을 위한 워드벡터 앙상블 모델

**1. 연구 배경 및 목적** 미국 의회에 매년 수천 건의 법안이 제출되지만, 제정 비율은 약 4 %에 불과하다. 법안 텍스트는 수백 페이지에 달하는 복잡한 법률 언어를 포함하고 있어, 전통적인 통계 모델로는 성공 요인을 파악하기 어렵다. 본 논문은 (1) 텍스트 기반 언어 모델과 (2) 정치·제도적 메타데이터를 결합해 법안 제정 확률을 예측하고, (3) 각 변수의 영향력을 정량화함으로써 입법 과정의 이해를 돕는 것을 목표로 한다. **2. 데이터** - 기간: 103~113대 의회(1993‑2015) - 총 법안: 68 863건 (하원·상원 모두) - 텍스트: 최초 제출본(99 %가 도입 시점)과 최신 버전(87 %가 도입 시점) 두 종류 - 메타데이터: 후원자 지역, 당 비율, 임기·위원회 경력, 위원회 리더십, 주제 카테고리, 법안 길이 등 30여 변수 **3. 텍스트 모델링** Word2vec을 이용해 성공·실패 각각의 코퍼스에서 100차원 워드벡터를 학습한다. 각 문장은 두 언어 모델에 입력돼 로그우도 점수를 얻고, 베이즈 정리를 적용해 사후 확률을 계산한다. 문장별 확률을 평균해 법안 전체의 텍스트 기반 확률(p_text)을 산출한다. **4. 컨텍스트 모델링** 랜덤 포레스트, GBM, 탄성‑넷 로지스틱 회귀를 베이스 러너로 사용한다. 각 베이스 러너는 메타데이터와 p_text를 입력받아 개별 예측값을 만든다. **5. 앙상블 스태킹** 베이스 러너의 교차검증 예측값을 메타 러너(비음수 가중치의 탄성‑넷)로 다시 학습한다. 최종 예측은 메타 러너의 출력이며, 이는 텍스트와 컨텍스트의 비선형 상호작용을 자동으로 포착한다. **6. 실험 설계** - 시계열 학습: 107대 의회부터 순차적으로 이전 의회 데이터를 학습에 사용하고, 현재 의회를 테스트 셋으로 활용. - 두 가지 데이터 시점: (a) 도입 시점 텍스트·메타데이터, (b) 최신 버전 텍스트·메타데이터. - 모델 비교: 텍스트‑전용, 컨텍스트‑전용, 텍스트 + 컨텍스트 결합. **7. 성능 평가** 평가지표는 로그 스코어, Brier 스코어, ROC‑AUC이다. 주요 결과는 다음과 같다. - 도입 시점: 컨텍스트‑전용 AUC≈0.78 > 텍스트‑전용 AUC≈0.66. - 최신 텍스트: 텍스트‑전용 AUC≈0.80 > 컨텍스트‑전용 AUC≈0.73. - 결합 모델: AUC≈0.84, 로그 스코어와 Brier 스코어 모두 최저값을 기록, 즉 가장 신뢰성 높은 확률 예측을 제공. **8. 전역 민감도 분석** PRCC(Partial Rank Correlation Coefficient)와 부트스트랩(1 000회)으로 변수별 영향력을 추정했다. 상위 변수는 다음과 같다. 1) 후원자 당 비율 (positive) 2) 위원회 선임 연수 (positive) 3) 법안 길이(문자 수) (positive) 4) 주제 카테고리(특정 분야) 5) 텍스트 모델 사후 확률(p_text) (strong positive) 또한, p_text와 후원자 당 비율 사이에 양의 상호작용이 존재해, 텍스트가 강하게 긍정적일 경우 당 비율이 낮아도 제정 가능성이 크게 상승한다는 점을 확인했다. **9. 논의 및 시사점** - 초기 단계(법안 도입 시)에는 정치·제도적 요인이 텍스트보다 예측력을 갖는다. 따라서 입법 초기 지원 전략은 후원자·당적 확보에 집중하는 것이 효율적이다. - 법안이 수정·보완되는 과정에서 텍스트가 크게 변하면, 최신 텍스트가 강력한 신호가 된다. 이는 정책 입안자와 로비스트가 텍스트 수정 전략을 통해 제정 가능성을 높일 수 있음을 시사한다. - 텍스트 + 컨텍스트 결합 모델이 일관적으로 최고 성능을 보이는 이유는 두 정보가 서로 보완적인 특성을 가지기 때문이다. - 전역 민감도 분석을 통해 정책 입안자는 “어떤 변수”가 제정에 가장 큰 영향을 미치는지 정량적으로 파악할 수 있어, 입법 과정의 투명성과 효율성을 높이는 데 활용 가능하다. **10. 결론** 본 연구는 워드벡터 기반 문장 점수와 다양한 메타데이터를 결합한 앙상블 모델이 법안 제정 확률을 높은 정확도로 예측함을 입증했다. 텍스트와 컨텍스트 각각의 역할을 시점별로 구분하고, 전역 민감도 분석을 통해 주요 예측 변수를 해석함으로써, 입법 과정에 대한 실증적 이해와 정책 지원 도구로서의 활용 가능성을 동시에 제공한다. 앞으로는 더 최신의 딥러닝 언어 모델(BERT 등)과 실시간 입법 데이터 스트리밍을 결합해 예측 성능을 더욱 향상시키는 연구가 기대된다.

법안 통과 예측과 텍스트 분석을 위한 워드벡터 앙상블 모델

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기