長短期記持

長短期記持（英語：Long Short-Term Memory，LSTM）是一種時間循環神經網路（RNN），論文第一擺發表佇一九九七年。因為特殊的設計結構，LSTM 適合佇咧處理佮預測的時間序列內底隔佮延遲非常長的重要事件。

LSTM 的表現通常比時間循環神經網路佮隱馬爾科夫模型（HMM）閣較好，比如講用佇無分段連紲手寫辨識頂懸。二空空九年，用 LSTM 構建的人工神經網路模型贏過 ICDAR 手寫辨識比賽冠軍。LSTM 閣普遍用著自主語音辨識，二空一三年運用 TIMIT 自然演講資料庫達成百分之十七堵七錯誤率的紀錄。成做非線性模型，LSTM 會當做複雜的非線性單元用佇構造閣較大型的深度神經網路。

歷史

一九九七年，Sepp Hochreiter 佮于爾根・施密德胡伯提出 LSTM。版本包括著 cells , input 以及 output gates。

二空一四年，Kyunghyun Cho et al . 發明了門控循環單元（GRU）。

二空一六年，谷歌用 LSTM 進行谷歌翻譯。蘋果公司、微軟佮亞馬遴公司嘛用 LSTM 生產品，比如講：iPhone、Amazon Alexa、等。中國公司嘛當咧用 LSTM。

結構

LSTM 是一種含有 LSTM 區塊（blocks）抑是其他的一種類神經網路，文獻抑是其他資料中 LSTM 區塊可能予人描述做智慧型網路單元，因為伊會當記憶無定時間長度的數值，區內底有一个 gate 會當決定 input 敢是重要會當予人記牢咧敢是會當予人輸出 output。

正圖下跤是四个 S 函數單元，上倒爿函數依照情形可能成做區塊的 input，正爿三个會經過 gate 決定 input 敢會當傳入去區塊，倒爿第二个為 input gate，若遮產出近來若無去，共遮的擋咧，袂入來後一層。倒爿第三个是 forget gate，做這產生值近來若無去，將區塊內底記牢咧的值放袂記。第四个也就是上正爿的 input 為 output gate，伊會當決定佇區塊記持的 input 敢有法度輸出講。

LSTM 足濟版本，其中一个重要的版本是 GRU（Gated Recurrent Unit），根據谷歌的測試表明，LSTM 中上重要的是 Forget gate，其次是 Input gate，上次是 Output gate。

四角勢

$ $ { \ begin { aligned } f _ { t } &=\ sigma _ { g } ( W _ { f } x _ { t } + U _ { f } h _ { t 影一 } + b _ { f } ) \ \ i _ { t } &=\ sigma _ { g } ( W _ { i } x _ { t } + U _ { i } h _ { t 影一 } + b _ { i } ) \ \ o _ { t } &=\ sigma _ { g } ( W _ { o } x _ { t } + U _ { o } h _ { t 影一 } + b _ { o } ) \ \ c _ { t } &=f _ { t } \ circ c _ { t 影一 } + i _ { t } \ circ \ sigma _ { c } ( W _ { c } x _ { t } + U _ { c } h _ { t 影一 } + b _ { c } ) \ \ h _ { t } &=o _ { t } \ circ \ sigma _ { h } ( c _ { t } ) \ end { aligned } } $ $

變數

$ x _ { t } \ in \ mathbb { R } ^ { d } $ : LSTM 的 input（輸入）
$ f _ { t } \ in \ mathbb { R } ^ { h } $ : forget gate（袂記得活門）
$ i _ { t } \ in \ mathbb { R } ^ { h } $ : input gate（輸入活門）
$ o _ { t } \ in \ mathbb { R } ^ { h } $ : output gate（輸出活門）
$ h _ { t } \ in \ mathbb { R } ^ { h } $ : hidden state（隱藏狀態）
$ c _ { t } \ in \ mathbb { R } ^ { h } $ : cell state（單元狀態）
$ W \ in \ mathbb { R } ^ { h \ times d } $、$ U \ in \ mathbb { R } ^ { h \ times h } $、$ b \ in \ mathbb { R } ^ { h } $ : 訓練內底的矩陣，佇網路學習計算元值

訓練方法

為著上小化訓練的精差，梯度降落來（Gradient descent）如：應用時序性倒傳遞演算法，通用來依據錯誤修改逐改的權重。梯度下降法佇循環神經網路（RNN）中主要的問題初次佇一九九一年發現，就是誤差梯度綴著事件間的時間長度成指數般的消失。會使𫞼矣 LSTM 區域的時陣，精差嘛攏烏有去算，對 output 影響回 input 階段的每一个 gate，一直到這个數值予過濾掉。因此正常的倒循環類神經是一个有效訓練 LSTM 區塊記予牢長時間數值的方法。

Backpropagation through time、BPTT

應用

機器控制
時間序列
語音辨識
音樂
自然語言處理
手寫辨識
生物
飛行機處理
自動駕駛汽車
自平衡滑行車
電腦遊戲
動畫
即時天氣預報（ConvLSTM）

參見

人工神經網路
深度學習
前額葉皮質基底節工作的記持（PBWM）
循環神經網路（RNN）
時間序列
Seq 二 seq

完整閱讀

理解 LSTM 網路，作者 Christopher Olah，更新佇二空一五年八月。
http : / / people . idsia . ch / ~ juergen / rnn . html
https : / / www . youtube . com / watch ? v=cTqVhcrilrE & list=WL & index=五十一

參考