Prior: Dirichlet Distribution
디리슐레 분포 (Dirichlet dist.)는 다항분포 (Multinomial dist.)의 확률을 모델링하는 분포로, 베타분포의 확장판이다. 베타분포가 이항분포의 사전분포로 쓰여 켤레 관계를 형성하는 것처럼 multivariate 버전으로 디리슐레 분포가 다항분포의 사전분포로 쓰인다.
또한, 디리슐레 분포의 무한대 확장판 "디리슐레 과정"은 클러스터 개수를 조정하는 사전분포로 쓰인다. 이는 다음 포스트에서 설명할 것이다.
디리슐레 분포의 정의는 다음과 같다.
Definition
G1,G2,…,Gk+1개의 독립인 확률변수가 각각 αi와 β=1의 모수를 가진 감마분포를 따른다 하자. (i=1,…,k). 즉,
G1G2GkGk+1∼Gam(α1,1)∼Gam(α2,1)⋮∼Gam(αk,1)∼Gam(αk+1,1)
이때, θi=G1+G2+…+Gk+1Gi, θk+1=∑i=1k+1Gi 라 정의하면, 다음의 성질을 만족한다.
- θi=∑i=1k+1GiGi=θk+1Gi, i=1,…,k, θk+1=∑i=1k+1Gi
- (θ1,θ2,…,θk)∼Dirichlet(α1,α2,…,αk,αk+1), θk+1∼Gam(∑i=1k+1αi,1)
여기서 주의할 점은, k개의 확률 θi (i=1,…,k)을 모델링하는 데 필요한 모수는 α1,…,αk+1로 k+1개라는 점이다.
이에 대한 θ=(θ1,…,θk)의 결합 p.d.f.는 다음과 같다:
p(θ1…,θk∣α1,…,αk,αk+1)p(θ∣α)=Γ(α1)⋯Γ(αk)Γ(αk+1)Γ(α1+…+αk+αk+1)θ1α1−1⋯θkαk−1(1−i=1∑kθi)αk+1−1=∏i=1k+1Γ(αi)Γ(∑i=1k+1αi)i=1∏kθiαi−1∝i=1∏kθiαi−1
cf. 베타분포는 감마분포를 따르는 확률변수 2개로 구성된다. 즉, G1, G2가 각각 G1∼Gam(α1,1), G2∼Gam(α2,1)를 따른다 할 때, θ=X1+X2X1∼Beta(α1,α2)이다.
Likelihood: Multinomial Distribution
다항분포도 디리슐레분포와 마찬가지로, 이항분포의 multivariate 버전이다. 즉, 2개의 선택지 대신 k개의 선택지가 있을 때, 각각 선택지가 θi의 확률로 뽑힌다. 명확한 정의는 다음과 같다.
Definition
확률 벡터 X=(X1,…,Xk)가 모수 n과 θ=(θ1,…,θk)를 가진 다항분포일 때, 다음의 p.d.f를 가진다:
f(x∣n,θ)=(x1,…,xkn)θ1x1⋯θkxk=(x1,…,xkn)i=1∏kθixi
- ∑jpj=1
Conjugacy: Dirichlet & Multinomial Distribution
디리슐레 분포(Dirichlet distribution)는 다항분포 (Multinomial distribution)의 확률 θi를 모델링하는데 쓰이는 사전분포이다. 여기서 Conjugacy가 성립한다. 그렇다면 여기서 conjugacy를 어떻게 해석해야 할까? 사전분포가 디리슐레 분포이고, 가능도가 다항분포이면 사후분포도 다시 디리슐레 분포를 따를 때, (즉, 사전분포와 사후분포의 형태가 같을 때) “켤레성”(conjugacy)을 띤다고 말한다.
Posterior: Dirichlet Distribution
사후분포 (posterior)는 베이즈 정리에 따라 사전분포 (prior)와 가능도 (likelihood)의 곱에 비례한다. 여기서의 사전분포와 가능도는 앞에서 정의한 것과 같이
- 사전분포: k개의 선택지에 대한 확률 θi의 분포인 디리슐레 분포
p(θ∣α)=i=1∏kθiαi−1
- 가능도: k개의 선택지 중 i번째 선택지를 뽑는 횟수 Xi의 분포인 다항 분포
p(X∣θ)=i=1∏kθixi
이다. 따라서 사후분포를 도출하면,
PosteriorP(θ∣X,α)∝Likelihood⋅Prior∝p(X∣θ)⋅p(θ∣α)∝i=1∏kθiαi+xi−1∼Dirichlet(α1+x1,⋯,αk+xk)
의 결과를 도출할 수 있다.