Metrics
임성빈님의 Wasserstein GAN 수학 이해하기 를 참고하여 정리하였습니다.
Metric?
Distance라고도 불리며, 다음 성질들을 만족한다.
- $d(x,y) \geq 0$ (non-negativity)
- $d(x, y) = 0 \iff x = y$ (identity of indiscernibles)
- $d(x,y) = d(y,x)$ (symmetry)
- $d(x,y) \leq d(x,z) + d(z,y)$ (triangle inequality)
Some (pre)metrics
Notations
$\mathcal{X}$ : compact metric set = closed(경계가 존재) & bounded(경계를 포함).
$\Sigma$ : Borel subset of $\mathcal{X}$ = 측정가능한 (확률분포 $\mathbb{P}$ 가 계산될 수 있는) subset.
$\mathcal{X}$ 에서 정의된 확률밀도함수 $P(x) = \frac{d\mathbb{P}}{d\mu}$ 가 존재하기 위해서는 확률분포 $\mathbb{P}$가 reference measure $\mu$ 에 대해 절대연속이어야 한다.
- 절대연속(absolute continuous): $\mu(A)=0 \implies \mathbb{P}(A)=0$
- 그러한 $P$가 존재할 때 $\mathbb{P}(A) = \int_A P(x):d\mu(x)$ 라 쓸 수 있다.
Total Variation
- 모든 $A \in \Sigma$ 에 대해 두 확률측도(probability measure) $\mathbb{P_r, P_g}$의 A에서의 측정값 $P_r( A), P_g(A)$ 의 차이의 minimum upper bound.
KL Divergence
- Note: symmetry, triangle inequality를 만족하지 않아 metric은 아니다.
- TV보다 강하다. $\mathrm{KL}(\mathbb{P_r}||P_g) \rightarrow 0$ or $\mathrm{KL}(\mathbb{P_g}||P_r) \rightarrow 0 \implies \delta(\mathbb{P_r, P_g}) \rightarrow 0$
JS Divergence
- TV와 동치이다. $\mathrm{JS(\mathbb{P_r||P_g})} \rightarrow 0 \iff \delta(\mathbb{P_r, P_g}) \rightarrow 0$
Wasserstein Distance
- $\Pi(\mathbb{P_r,P_g})$가 모든 joint distribution $\gamma(x,y)$의 집합이고, 이들의 marginal distribution이 $\mathbb{P_r, P_g}$ 일 때, 그러한 $\gamma$ 에서 측정된 distance의 기댓값의 maximum lower bound.
Leave a comment