数学基础-散度

KL 散度

KL 散度的定义

相对熵(relative entropy),又被称为Kullback-Leibler散度(Kullback-Leibler divergence)或信息散度(information divergence),是两个概率分布(probability distribution)间差异的非对称性度量。

设 $P(x), Q(x)$ 是随机变量 $X$ 上的两个概率分布,则在离散和连续随机变量的情形下,相对熵的定义分别为:

KL散度的性质

KL 散度拥有以下两个性质:

  • 非负性
  • 非对称性

非负性的证明过程如下:

KL 散度的计算案例

这里给出一个对相对熵进行计算的具体例子。假如一个字符发射器,随机发出0和1两种字符,真实发出概率分布为A,但实际不知道A的具体分布。通过观察,得到概率分布B与C,各个分布的具体情况如下:

那么有:

JS 散度

$F$-散度

无论是 KL 散度还是 JS 散度,都是散度的一种定义,我们可以提出更通用的散度函数,任意满足以下两个条件的函数,都可以用来形成某种散度

  • $f$ 是一个凸函数
  • $f(1)=0$

这样的散度称为 $F$-散度,其表达式为:

不难发现,如果 $f(X)=X \log X$,那就是 KL散度,如果$f(X)=-\log X$,那就是reverse KL 散度,一些例子如下:

散度(Divergence) 对应的 $f(X)$
KL 散度 $X\log X$
reverse KL 散度 $-\log X$
Hellinger 距离 $(\sqrt{X}-1)^{2}, 2(1-\sqrt{X})$
Total variation distance $\frac{1}{2}$
$\mathcal{X}^{2}$-distance $(t-1)^{2}, t^{2}-1$
$\alpha$-divergence 太复杂了,先不写了
Thanks for rewarding