확률 미적분으로 배우는 데이터 분석 레시피
초록
본 논문은 확률론적 추론의 기본 규칙을 정리하고, 이를 데이터 분석 과정—특히 가능도(likelihood), 주변 가능도(marginalized likelihood), 사후 확률(posterior), 사후 예측(posterior predictive)—에 적용하는 방법을 단계별로 제시한다. 차원 분석을 활용해 잘못된 확률식 작성을 방지하는 실용적인 팁도 제공한다.
상세 분석
이 글은 확률 분포 함수의 결합과 변형에 관한 수학적 규칙을 체계적으로 정리한다. 먼저 베이즈 정리와 전조건부 확률의 정의를 통해 “조건부 확률 = 결합 확률 / 주변 확률”이라는 기본 식을 도출하고, 이를 확률 밀도 함수(pdf)와 확률 질량 함수(pmf)에 적용한다. 저자는 확률 함수가 차원을 갖는다는 점을 강조한다. 예를 들어, 연속 변수 x에 대한 pdf p(x)는 단위가 1/단위(x)이며, 이는 적분 ∫p(x)dx=1이 차원적으로 일관되게 성립하도록 만든다. 차원 분석을 통해 “p(x|θ)·p(θ)”와 같이 곱셈이 허용되는 경우와 “p(x)·p(y)”처럼 독립 변수에 대해 무분별히 곱하면 차원 불일치가 발생하는 경우를 구분한다.
다음으로 가능도 함수 L(θ|D)=p(D|θ)의 정의를 살펴보며, 데이터 D가 독립적으로 관측된 경우 L은 각 관측치의 조건부 확률의 곱으로 표현된다. 여기서 “가능도는 확률이 아니다”라는 중요한 교훈을 차원 관점에서 설명한다. 가능도는 θ에 대한 함수이지만, θ 자체에 대한 확률 분포가 없으므로 차원은 1이다. 따라서 가능도를 정규화하려면 사전분포 p(θ)와 결합해 사후분포 p(θ|D)=L(θ|D)p(θ)/p(D)를 만든다.
주변 가능도는 고차원 파라미터 공간을 통합해 얻는 과정으로, 저자는 “∫L(θ,φ|D)p(φ)dφ” 형태의 적분이 차원적으로 일관되게 유지되려면 φ에 대한 사전분포가 반드시 포함되어야 함을 강조한다. 이는 모델 비교와 증거(evidence) 계산에 필수적이다.
사후 예측은 “p(ỹ|D)=∫p(ỹ|θ)p(θ|D)dθ” 형태로, 새로운 관측값 ỹ에 대한 예측 분포를 구한다. 여기서 p(ỹ|θ)와 p(θ|D)의 차원은 각각 1/단위(ỹ)와 1, 따라서 적분 결과는 올바른 차원을 가진다.
마지막으로 저자는 실전 데이터 분석에서 흔히 발생하는 실수—예를 들어, 사전분포를 무시하고 가능도만으로 파라미터를 추정하거나, 차원 불일치가 있는 식을 그대로 사용—를 차원 분석을 통해 진단하고 교정하는 방법을 제시한다. 전체적으로 논문은 확률 계산의 형식적 규칙을 직관적인 차원 개념과 연결시켜, 초보자도 오류 없이 베이즈 추론을 구현할 수 있도록 돕는다.
댓글 및 학술 토론
Loading comments...
의견 남기기