KL 散度
KL 散度的定义
相对熵(relative entropy),又被称为Kullback-Leibler散度(Kullback-Leibler divergence)或信息散度(information divergence),是两个概率分布(probability distribution)间差异的非对称性度量。
设 $P(x), Q(x)$ 是随机变量 $X$ 上的两个概率分布,则在离散和连续随机变量的情形下,相对熵的定义分别为:
KL散度的性质
KL 散度拥有以下两个性质:
- 非负性
- 非对称性
非负性的证明过程如下:
KL 散度的计算案例
这里给出一个对相对熵进行计算的具体例子。假如一个字符发射器,随机发出0和1两种字符,真实发出概率分布为A,但实际不知道A的具体分布。通过观察,得到概率分布B与C,各个分布的具体情况如下:
那么有:
JS 散度
$F$-散度
无论是 KL 散度还是 JS 散度,都是散度的一种定义,我们可以提出更通用的散度函数,任意满足以下两个条件的函数,都可以用来形成某种散度
- $f$ 是一个凸函数
- $f(1)=0$
这样的散度称为 $F$-散度,其表达式为:
不难发现,如果 $f(X)=X \log X$,那就是 KL散度,如果$f(X)=-\log X$,那就是reverse KL 散度,一些例子如下:
散度(Divergence) | 对应的 $f(X)$ |
---|---|
KL 散度 | $X\log X$ |
reverse KL 散度 | $-\log X$ |
Hellinger 距离 | $(\sqrt{X}-1)^{2}, 2(1-\sqrt{X})$ |
Total variation distance | $\frac{1}{2}$ |
$\mathcal{X}^{2}$-distance | $(t-1)^{2}, t^{2}-1$ |
$\alpha$-divergence | 太复杂了,先不写了 |