相對否

KL 散度（Kullback-Leibler divergence，簡稱KLD），佇訊息系統內底叫做相對否（relative entropy），佇連紲時間序列當中講做隨機性（randomness），佇統計模型推斷中稱做訊息增益（information gain）。嘛稱訊息散度（information divergence）。

KL 散度是兩个機率分布 P 和 Q 差別真濟非對稱性的度量。KL 散度是用來度量來使用基於 Q 的分布來編碼服對 P 彼分布的樣本所需要的額外的平均比特數。典型的狀況之下，P 表示數據的真實分布，Q 表示數據的理論分布、估計的模型分佈、抑是 P 的近似分布。

定義

嘿離散隨機變量，其機率分布 _ P _ 和 _ Q _ 的 KL 散度會當如何下式定義

$ D _ { \ mathrm { KL } } ( P \ | Q )=-\ sum _ { i } P ( i ) \ ln { \ frac { Q ( i ) } { P ( i ) } } . \ ! $

等價於

$ D _ { \ mathrm { KL } } ( P \ | Q )=\ sum _ { i } P ( i ) \ ln { \ frac { P ( i ) } { Q ( i ) } } . \ ! $

即照機率 _ P _ 求會的 _ P _ 和 _ Q _ 的對數商的平均值。KL 散度干焦當機率 _ P _ 和 _ Q _ 各人總和均為一，而且對任何 _ i _ 攏滿足 $ Q ( i ) > 零 $ 佮 $ P ( i ) > 零 $ 時，才有定義。式內底出現 $ 零 \ ln 零 $ 的狀況，其值揤零處理。

著連紲隨機變量，其機率分佈 _ P _ 和 _ Q _ 會當積分方式定義為

$ D _ { \ mathrm { KL } } ( P \ | Q )=\ int _ {-\ infty } ^ { \ infty } p ( x ) \ ln { \ frac { p ( x ) } { q ( x ) } } \ , { \ rm { d } } x , \ ! $

其中 _ p _ 和 _ q _ 分別表示分佈 _ P _ 和 _ Q _ 的密度。

閣較一般的，若是 _ P _ 和 _ Q _ 為集合 _ X _ 的機率測度，而且 _ P _ 關於著 _ Q _ 絕對連紲，則對 _ P _ 到 _ Q _ 的 KL 散度定義做

$ D _ { \ mathrm { KL } } ( P \ | Q )=\ int _ { X } \ ln { \ frac { { \ rm { d } } P } { { \ rm { d } } Q } } \ , { \ rm { d } } P , \ ! $

其中，假定正爿的表達形式存在，著 $ { \ frac { { \ rm { d } } Q } { { \ rm { d } } P } } $ 為 _ Q _ 關於著 _ P _ 的 R–N 導數。

相應的，若是 _ P _ 關於著 _ Q _ 絕對連紲，著

$ D _ { \ mathrm { KL } } ( P \ | Q )=\ int _ { X } \ ln { \ frac { { \ rm { d } } P } { { \ rm { d } } Q } } \ , { \ rm { d } } P=\ int _ { X } { \ frac { { \ rm { d } } P } { { \ rm { d } } Q } } \ ln { \ frac { { \ rm { d } } P } { { \ rm { d } } Q } } \ , { \ rm { d } } Q , $

即為 _ P _ 關於著 _ Q _ 的相對塗肉。

特性

相對鋪的值為非負數：

$ D _ { \ mathrm { KL } } ( P \ | Q ) \ geq 零 , \ , $

由吉布斯不等式會當知，當而且干焦做 $ P=Q $ 時 $ D _ { KL } ( P \ | Q ) $ 為零。

就算講對直覺上 KL 散度是一个腹腸抑是距離函數，毋過伊實際上並毋是一个真正的腹腸或者是距離。因為乎 KL 散度無法度對稱性：對分布 _ P _ 到 _ Q _ 的距離通常並無等於按 _ Q _ 到 _ P _ 的距離。

$ D _ { \ mathrm { KL } } ( P \ | Q ) \ neq D _ { \ mathrm { KL } } ( Q \ | P ) $

KL 散度佮其他量的關係

自信息佮 KL 散度

$ I ( m )=D _ { \ mathrm { KL } } ( \ delta _ { im } \ | \ { p _ { i } \ } ) , $

互信息佮 KL 散度

$ { \ begin { aligned } I ( X ; Y ) &=D _ { \ mathrm { KL } } ( P ( X , Y ) \ | P ( X ) P ( Y ) ) \ \ &=\ mathbb { E } _ { X } \ { D _ { \ mathrm { KL } } ( P ( Y | X ) \ | P ( Y ) ) \ } \ \ &=\ mathbb { E } _ { Y } \ { D _ { \ mathrm { KL } } ( P ( X | Y ) \ | P ( X ) ) \ } \ end { aligned } } $

信息孵佮 KL 散度

$ { \ begin { aligned } H ( X ) &=\ mathrm { ( i ) } \ , \ mathbb { E } _ { x } \ { I ( x ) \ } \ \ &=\ mathrm { ( ii ) } \ log N-D _ { \ mathrm { KL } } ( P ( X ) \ | P _ { U } ( X ) ) \ end { aligned } } $

條件交 KL 散度

$ { \ begin { aligned } H ( X | Y ) &=\ log N-D _ { \ mathrm { KL } } ( P ( X , Y ) \ | P _ { U } ( X ) P ( Y ) ) \ \ &=\ mathrm { ( i ) } \ , \ , \ log N-D _ { \ mathrm { KL } } ( P ( X , Y ) \ | P ( X ) P ( Y ) )-D _ { \ mathrm { KL } } ( P ( X ) \ | P _ { U } ( X ) ) \ \ &=H ( X )-I ( X ; Y ) \ \ &=\ mathrm { ( ii ) } \ , \ log N-\ mathbb { E } _ { Y } \ { D _ { \ mathrm { KL } } ( P ( X | Y ) \ | P _ { U } ( X ) ) \ } \ end { aligned } } $

交叉揍和 KL 散度

$ \ mathrm { H } ( p , q )=\ mathrm { E } _ { p } [-\ log q ]=\ mathrm { H } ( p ) + D _ { \ mathrm { KL } } ( p \ | q ) . \ ! $

參考文獻