跳至內容

LogSumExp

出自Taiwan Tongues 台語維基
於 2025年8月22日 (五) 20:33 由 TaiwanTonguesApiRobot留言 | 貢獻 所做的修訂 (從 JSON 檔案批量匯入)

(差異) ←上個修訂 | 已批准修訂 (差異) | 最新修訂 (差異) | 下個修訂→ (差異)

LogSumExp(LSE,嘛稱RealSoftMax或者是多變數softplus)函式是一个平滑上大值—— 一个對極值函式的金滑近來若像,主要用佇機器學習演算法內底。其定義做參數的指數的佮的對數:


$ \ mathrm { LSE } ( x _ { 一 } , \ dots , x _ { n } )=\ log \ left ( \ exp ( x _ { 一 } ) + \ cdots + \ exp ( x _ { n } ) \ right ) . $

性質

LogSumExp 函式的定義域為 $ \ mathbb { R } ^ { n } $(實數空間), 把域是 $ \ mathbb { R } $(實數線)。 伊是對極值函式 $ \ max _ { i } x _ { i } $ 的近似,同時有如下的界限:


$ \ max { \ { x _ { 一 } , \ dots , x _ { n } \ } } \ leq \ mathrm { LSE } ( x _ { 一 } , \ dots , x _ { n } ) \ leq \ max { \ { x _ { 一 } , \ dots , x _ { n } \ } } + \ log ( n ) . $

頭一个無等式佇咧 $ n=一 $ 以外的狀況是嚴格成立的,第二个不等式干焦佇所有元素相等時取等號。 ( 證明:令 $ m=\ max _ { i } x _ { i } $,著 $ \ exp ( m ) \ leq \ sum _ { i=一 } ^ { n } \ exp ( x _ { i } ) \ leq n \ exp ( m ) $。將無等式取對數即可。)

另外咧,咱會當共不等式縮囥予較絚的界限。考慮函式 $ { \ frac { 一 } { t } } \ mathrm { LSE } ( tx ) $。然後,


$ \ max { \ { x _ { 一 } , \ dots , x _ { n } \ } } < { \ frac { 一 } { t } } \ mathrm { LSE } ( tx ) \ leq \ max { \ { x _ { 一 } , \ dots , x _ { n } \ } } + { \ frac { \ log ( n ) } { t } } $

( 證明:將上式 $ x _ { i } $ 用 $ t > 零 $ 的 $ tx _ { i } $ 替換,得著


$ \ max { \ { tx _ { 一 } , \ dots , tx _ { n } \ } } < \ mathrm { LSE } ( tx _ { 一 } , \ dots , tx _ { n } ) \ leq \ max { \ { tx _ { 一 } , \ dots , tx _ { n } \ } } + \ log ( n ) $

因為 $ t > 零 $,


$ t \ max { \ { x _ { 一 } , \ dots , x _ { n } \ } } < \ mathrm { LSE } ( tx _ { 一 } , \ dots , tx _ { n } ) \ leq t \ max { \ { x _ { 一 } , \ dots , x _ { n } \ } } + \ log ( n ) $

最後咧,同除 $ t $ 得著結果。)

此外,若是阮共坐一个負數,會當得著一个佮 $ \ min $ 有關係的不等式:


$ \ min { \ { x _ { 一 } , \ dots , x _ { n } \ } }-{ \ frac { \ log ( n ) } { t } } \ leq { \ frac { 一 } {-t } } \ mathrm { LSE } (-tx ) < \ min { \ { x _ { 一 } , \ dots , x _ { n } \ } } . $

LogSumExp 函式是凸函式,所以佇定義域頂懸嚴格遞增。(但並毋是所在攏是嚴格凸的。)

令 $ \ mathbf { x }=( x _ { 一 } , \ dots , x _ { n } ) $,偏導數為:


$ { \ frac { \ partial } { \ partial x _ { i } } } { \ mathrm { LSE } ( \ mathbf { x } ) }={ \ frac { \ exp x _ { i } } { \ sum _ { j } \ exp { x _ { j } } } } , $

顯明 LogSumExp 的梯度是 softmax 函式。

LogSumExp 的噗共擔是負負。

著數體中的 log-sum-exp 計算技巧

做通常的算講術計算講佇咧對尺度頂頭來進行的時陣,定定會遇著 LSE 函式,比如講對數機率。

類似於線性尺度中的乘法運算變成對數尺度中的簡單加法,線性尺度中的加法運算變做對數尺度中的 LSE:


$ \ mathrm { LSE } ( \ log ( x _ { 一 } ) , . . . , \ log ( x _ { n } ) )=\ log ( x _ { 一 } + \ dots + x _ { n } ) $

使用對數體計算的一個常見目的是使用有限精度浮點數直接表示(線頂性域內底)足細的抑是足大的數字的時陣提懸精度並免溢个問題 .

不幸的是,佇一寡情況下直接使用 LSE 猶原會致使上溢 / 發生問題,著愛改用以下等效公式按呢(尤其是當中「上大」近來若值的準確性無夠時)。 所以,IT + + 等足濟數學庫攏提供矣 LSE 的預設常式,閣佇內底使用這个公式。


$ \ mathrm { LSE } ( x _ { 一 } , \ dots , x _ { n } )=x ^ { * } + \ log \ left ( \ exp ( x _ { 一 }-x ^ { * } ) + \ cdots + \ exp ( x _ { n }-x ^ { * } ) \ right ) $

其中 $ x ^ { * }=\ max { \ { x _ { 一 } , \ dots , x _ { n } \ } } $

一个嚴格凸的 log-sum-exp 型函式

LSE 是凸的,但毋是嚴格凸的。咱會當通過增加一項為零的額外參數來定義一个嚴格凸的 log-sum-exp 型函式:


$ \ mathrm { LSE } _ { 零 } ^ { + } ( x _ { 一 } , . . . , x _ { n } )=\ mathrm { LSE } ( 零 , x _ { 一 } , . . . , x _ { n } ) $

This function is a proper Bregman generator ( strictly convex and differentiable ) . It is encountered in machine learning , for example , as the cumulant of the multinomial / binomial family .

佇熱帶分析中,這是對數半環的佮。

參見

  • 著數平均
  • Log semiring
  • 平滑上大值的
  • Softmax 函式

參考資料