相對否
KL 散度(Kullback-Leibler divergence,簡稱KLD), 佇訊息系統內底叫做相對否(relative entropy), 佇連紲時間序列當中講做隨機性(randomness), 佇統計模型推斷中稱做訊息增益(information gain)。 嘛稱訊息散度(information divergence)。
KL 散度是兩个機率分布 P 和 Q 差別真濟非對稱性的度量。KL 散度是用來度量來使用基於 Q 的分布來編碼服對 P 彼分布的樣本所需要的額外的平均比特數。典型的狀況之下,P 表示數據的真實分布,Q 表示數據的理論分布、估計的模型分佈、抑是 P 的近似分布。
定義
嘿離散隨機變量,其機率分布 _ P _ 和 _ Q _ 的 KL 散度會當如何下式定義
- $ D _ { \ mathrm { KL } } ( P \ | Q )=-\ sum _ { i } P ( i ) \ ln { \ frac { Q ( i ) } { P ( i ) } } . \ ! $
等價於
- $ D _ { \ mathrm { KL } } ( P \ | Q )=\ sum _ { i } P ( i ) \ ln { \ frac { P ( i ) } { Q ( i ) } } . \ ! $
即照機率 _ P _ 求會的 _ P _ 和 _ Q _ 的對數商的平均值。KL 散度干焦當機率 _ P _ 和 _ Q _ 各人總和均為一,而且對任何 _ i _ 攏滿足 $ Q ( i ) > 零 $ 佮 $ P ( i ) > 零 $ 時,才有定義。式內底出現 $ 零 \ ln 零 $ 的狀況,其值揤零處理。
著連紲隨機變量,其機率分佈 _ P _ 和 _ Q _ 會當積分方式定義為
- $ D _ { \ mathrm { KL } } ( P \ | Q )=\ int _ {-\ infty } ^ { \ infty } p ( x ) \ ln { \ frac { p ( x ) } { q ( x ) } } \ , { \ rm { d } } x , \ ! $
其中 _ p _ 和 _ q _ 分別表示分佈 _ P _ 和 _ Q _ 的密度。
閣較一般的,若是 _ P _ 和 _ Q _ 為集合 _ X _ 的機率測度,而且 _ P _ 關於著 _ Q _ 絕對連紲,則對 _ P _ 到 _ Q _ 的 KL 散度定義做
- $ D _ { \ mathrm { KL } } ( P \ | Q )=\ int _ { X } \ ln { \ frac { { \ rm { d } } P } { { \ rm { d } } Q } } \ , { \ rm { d } } P , \ ! $
其中,假定正爿的表達形式存在,著 $ { \ frac { { \ rm { d } } Q } { { \ rm { d } } P } } $ 為 _ Q _ 關於著 _ P _ 的 R–N 導數。
相應的,若是 _ P _ 關於著 _ Q _ 絕對連紲,著
- $ D _ { \ mathrm { KL } } ( P \ | Q )=\ int _ { X } \ ln { \ frac { { \ rm { d } } P } { { \ rm { d } } Q } } \ , { \ rm { d } } P=\ int _ { X } { \ frac { { \ rm { d } } P } { { \ rm { d } } Q } } \ ln { \ frac { { \ rm { d } } P } { { \ rm { d } } Q } } \ , { \ rm { d } } Q , $
即為 _ P _ 關於著 _ Q _ 的相對塗肉。
特性
相對鋪的值為非負數:
- $ D _ { \ mathrm { KL } } ( P \ | Q ) \ geq 零 , \ , $
由吉布斯不等式會當知,當而且干焦做 $ P=Q $ 時 $ D _ { KL } ( P \ | Q ) $ 為零。
就算講對直覺上 KL 散度是一个腹腸抑是距離函數,毋過伊實際上並毋是一个真正的腹腸或者是距離。因為乎 KL 散度無法度對稱性:對分布 _ P _ 到 _ Q _ 的距離通常並無等於按 _ Q _ 到 _ P _ 的距離。
- $ D _ { \ mathrm { KL } } ( P \ | Q ) \ neq D _ { \ mathrm { KL } } ( Q \ | P ) $
KL 散度佮其他量的關係
自信息佮 KL 散度
- $ I ( m )=D _ { \ mathrm { KL } } ( \ delta _ { im } \ | \ { p _ { i } \ } ) , $
互信息佮 KL 散度
- $ { \ begin { aligned } I ( X ; Y ) &=D _ { \ mathrm { KL } } ( P ( X , Y ) \ | P ( X ) P ( Y ) ) \ \ &=\ mathbb { E } _ { X } \ { D _ { \ mathrm { KL } } ( P ( Y | X ) \ | P ( Y ) ) \ } \ \ &=\ mathbb { E } _ { Y } \ { D _ { \ mathrm { KL } } ( P ( X | Y ) \ | P ( X ) ) \ } \ end { aligned } } $
信息孵佮 KL 散度
- $ { \ begin { aligned } H ( X ) &=\ mathrm { ( i ) } \ , \ mathbb { E } _ { x } \ { I ( x ) \ } \ \ &=\ mathrm { ( ii ) } \ log N-D _ { \ mathrm { KL } } ( P ( X ) \ | P _ { U } ( X ) ) \ end { aligned } } $
條件交 KL 散度
- $ { \ begin { aligned } H ( X | Y ) &=\ log N-D _ { \ mathrm { KL } } ( P ( X , Y ) \ | P _ { U } ( X ) P ( Y ) ) \ \ &=\ mathrm { ( i ) } \ , \ , \ log N-D _ { \ mathrm { KL } } ( P ( X , Y ) \ | P ( X ) P ( Y ) )-D _ { \ mathrm { KL } } ( P ( X ) \ | P _ { U } ( X ) ) \ \ &=H ( X )-I ( X ; Y ) \ \ &=\ mathrm { ( ii ) } \ , \ log N-\ mathbb { E } _ { Y } \ { D _ { \ mathrm { KL } } ( P ( X | Y ) \ | P _ { U } ( X ) ) \ } \ end { aligned } } $
交叉揍和 KL 散度
- $ \ mathrm { H } ( p , q )=\ mathrm { E } _ { p } [-\ log q ]=\ mathrm { H } ( p ) + D _ { \ mathrm { KL } } ( p \ | q ) . \ ! $