檢視長短期記持的原始碼

'''長短期記持'''（英語：Long Short-Term Memory，LSTM）是一種時間循環神經網路（RNN）， 論文第一擺發表佇一九九七年。因為特殊的設計結構，LSTM 適合佇咧處理佮預測的時間序列內底隔佮延遲非常長的重要事件。

LSTM 的表現通常比時間循環神經網路佮隱馬爾科夫模型（HMM）閣較好，比如講用佇無分段連紲手寫辨識頂懸。二空空九年，用 LSTM 構建的人工神經網路模型贏過 ICDAR 手寫辨識比賽冠軍。LSTM 閣普遍用著自主語音辨識，二空一三年運用 TIMIT 自然演講資料庫達成百分之十七堵七錯誤率的紀錄。成做非線性模型，LSTM 會當做複雜的非線性單元用佇構造閣較大型的深度神經網路。

==歷史==

一九九七年，Sepp Hochreiter 佮于爾根 ・ 施密德胡伯提出 LSTM。版本包括著 cells , input 以及 output gates。

二空一四年，Kyunghyun Cho et al . 發明了門控循環單元（GRU）。

二空一六年，谷歌用 LSTM 進行谷歌翻譯。蘋果公司、微軟佮亞馬遴公司嘛用 LSTM 生產品，比如講：iPhone、Amazon Alexa、等。中國公司嘛當咧用 LSTM。

==結構==

LSTM 是一種含有 LSTM 區塊（blocks）抑是其他的一種類神經網路，文獻抑是其他資料中 LSTM 區塊可能予人描述做智慧型網路單元，因為伊會當記憶無定時間長度的數值，區內底有一个 gate 會當決定 input 敢是重要會當予人記牢咧敢是會當予人輸出 output。

正圖下跤是四个 S 函數單元，上倒爿函數依照情形可能成做區塊的 input，正爿三个會經過 gate 決定 input 敢會當傳入去區塊，倒爿第二个為 input gate，若遮產出近來若無去，共遮的擋咧，袂入來後一層。倒爿第三个是 forget gate，做這產生值近來若無去，將區塊內底記牢咧的值放袂記。第四个也就是上正爿的 input 為 output gate，伊會當決定佇區塊記持的 input 敢有法度輸出講。

LSTM 足濟版本，其中一个重要的版本是 GRU（Gated Recurrent Unit）， 根據谷歌的測試表明，LSTM 中上重要的是 Forget gate，其次是 Input gate，上次是 Output gate。

==四角勢==

$ $
{ \ begin { aligned } f _ { t } &=\ sigma _ { g } ( W _ { f } x _ { t } + U _ { f } h _ { t 影一 } + b _ { f } ) \ \ i _ { t } &=\ sigma _ { g } ( W _ { i } x _ { t } + U _ { i } h _ { t 影一 } + b _ { i } ) \ \ o _ { t } &=\ sigma _ { g } ( W _ { o } x _ { t } + U _ { o } h _ { t 影一 } + b _ { o } ) \ \ c _ { t } &=f _ { t } \ circ c _ { t 影一 } + i _ { t } \ circ \ sigma _ { c } ( W _ { c } x _ { t } + U _ { c } h _ { t 影一 } + b _ { c } ) \ \ h _ { t } &=o _ { t } \ circ \ sigma _ { h } ( c _ { t } ) \ end { aligned } }
$ $

===變數===

* $ x _ { t } \ in \ mathbb { R } ^ { d } $ : LSTM 的 input（輸入）
* $ f _ { t } \ in \ mathbb { R } ^ { h } $ : forget gate（袂記得活門）
* $ i _ { t } \ in \ mathbb { R } ^ { h } $ : input gate（輸入活門）
* $ o _ { t } \ in \ mathbb { R } ^ { h } $ : output gate（輸出活門）
* $ h _ { t } \ in \ mathbb { R } ^ { h } $ : hidden state（隱藏狀態）
* $ c _ { t } \ in \ mathbb { R } ^ { h } $ : cell state（單元狀態）
* $ W \ in \ mathbb { R } ^ { h \ times d } $、$ U \ in \ mathbb { R } ^ { h \ times h } $、$ b \ in \ mathbb { R } ^ { h } $ : 訓練內底的矩陣，佇網路學習計算元值



==訓練方法==

為著上小化訓練的精差，梯度降落來（Gradient descent）如：應用時序性倒傳遞演算法，通用來依據錯誤修改逐改的權重。梯度下降法佇循環神經網路（RNN）中主要的問題初次佇一九九一年發現，就是誤差梯度綴著事件間的時間長度成指數般的消失。會使𫞼矣 LSTM 區域的時陣，精差嘛攏烏有去算，對 output 影響回 input 階段的每一个 gate，一直到這个數值予過濾掉。因此正常的倒循環類神經是一个有效訓練 LSTM 區塊記予牢長時間數值的方法。

Backpropagation through time、BPTT

==應用==

* 機器控制
* 時間序列
* 語音辨識
* 音樂
* 自然語言處理
* 手寫辨識
* 生物
* 飛行機處理
* 自動駕駛汽車
* 自平衡滑行車
* 電腦遊戲
* 動畫
* 即時天氣預報（ConvLSTM）

==參見==

* 人工神經網路
* 深度學習
* 前額葉皮質基底節工作的記持（PBWM）
* 循環神經網路（RNN）
* 時間序列
* Seq 二 seq

==完整閱讀==

* 理解 LSTM 網路，作者 Christopher Olah，更新佇二空一五年八月。
* http : / / people . idsia . ch / ~ juergen / rnn . html
* https : / / www . youtube . com / watch ? v=cTqVhcrilrE & list=WL & index=五十一

==參考==

[[分類: 待校正]]