
임성빈님의 Wasserstein GAN 수학 이해하기 를 참고하여 정리하였습니다.


Distance라고도 불리며, 다음 성질들을 만족한다.

  1. $d(x,y) \geq 0​$ (non-negativity)
  2. $d(x, y) = 0 \iff x = y$ (identity of indiscernibles)
  3. $d(x,y) = d(y,x)$ (symmetry)
  4. $d(x,y) \leq d(x,z) + d(z,y)$ (triangle inequality)

Some (pre)metrics


$\mathcal{X}$ : compact metric set = closed(경계가 존재) & bounded(경계를 포함).

$\Sigma$ : Borel subset of $\mathcal{X}$ = 측정가능한 (확률분포 $\mathbb{P}​$ 가 계산될 수 있는) subset.

$\mathcal{X}$ 에서 정의된 확률밀도함수 $P(x) = \frac{d\mathbb{P}}{d\mu}$ 가 존재하기 위해서는 확률분포 $\mathbb{P}$가 reference measure $\mu​$ 에 대해 절대연속이어야 한다.

  • 절대연속(absolute continuous): $\mu(A)=0 \implies \mathbb{P}(A)=0​$
  • 그러한 $P​$가 존재할 때 $\mathbb{P}(A) = \int_A P(x):d\mu(x)​$ 라 쓸 수 있다.

Total Variation

  • 모든 $A \in \Sigma​$ 에 대해 두 확률측도(probability measure) $\mathbb{P_r, P_g}​$의 A에서의 측정값 $P_r( A), P_g(A)​$ 의 차이의 minimum upper bound.

KL Divergence

  • Note: symmetry, triangle inequality를 만족하지 않아 metric은 아니다.
  • TV보다 강하다.   $\mathrm{KL}(\mathbb{P_r}||P_g) \rightarrow 0$ or $\mathrm{KL}(\mathbb{P_g}||P_r) \rightarrow 0 \implies \delta(\mathbb{P_r, P_g}) \rightarrow 0$

JS Divergence

  • TV와 동치이다.   $\mathrm{JS(\mathbb{P_r||P_g})} \rightarrow 0 \iff \delta(\mathbb{P_r, P_g}) \rightarrow 0​$

Wasserstein Distance

  • $\Pi(\mathbb{P_r,P_g})​$가 모든 joint distribution $\gamma(x,y)​$의 집합이고, 이들의 marginal distribution이 $\mathbb{P_r, P_g}​$ 일 때, 그러한 $\gamma​$ 에서 측정된 distance의 기댓값의 maximum lower bound.



Leave a comment