大話循環(huán)神經網絡RNN、LSTM、GRU

2024/12/20 作者：全棧O-Jay

6643

加入交流群

掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

CNN主要處理圖像信息，主要應用于計算機視覺領域。

RNN（recurrent neural network）主要就是處理序列數據（自然語言處理、語音識別、視頻分類、文本情感分析、翻譯），核心就是它能保持過去的記憶。但RNN有著梯度消失問題，專家之后接著改進為LSTM和GRU結構。下面將用通俗的語言分別詳細介紹。

在這里插入圖片描述

對機器學習或深度學習不太熟的童鞋可以先康康這幾篇哦：

《無廢話的機器學習筆記》、《一文極速理解深度學習》、《一文總結經典卷積神經網絡CNN模型》

RNN（Recurrent Neural Network）

RNN中的處理單元，中間綠色就是過去處理的結果，左邊第一幅圖就是正常的DNN，不會保存過去的結果，右邊的圖都有一個特點，輸出的結果（藍色）不僅取決于當前的輸入，還取決于過去的輸入！不同的單元能賦予RNN不同的能力，如多對一就能對一串文本進行分類，輸出離散值，比如根據你的言語判斷你今天高不高興。

在這里插入圖片描述

RNN中保存著過去的信息，輸出取決于現在與過去。如果大伙學過數電，這就是狀態(tài)機！這玩意跟觸發(fā)器很像。

在這里插入圖片描述

有個很重要的點：

這個權重fw沿時間維度是一致的，權值共享。就像CNN中一個卷積核在卷積過程中參數一致。所以CNN是沿著空間維度權值共享；RNN是沿著時間維度權值共享。

在這里插入圖片描述

具體來說有三個權重，過去與現在各一個權重，加起來再來一個權重。 它們都沿著時間維度權值共享。不然每個時間都不一樣權重，參數量會很恐怖。

在這里插入圖片描述

整體的計算圖（多對多）：

每次的輸出y可以與標簽值構建損失函數，這樣就跟之前DNN訓練模型思想一樣，訓練3套權重使損失函數不斷下降至滿意。

在這里插入圖片描述

反向傳播要沿時間反向傳回去（backpropagation through time，BPTT）

Forward through entire sequence to compute loss, then backward through entire sequence to compute gradient.

在這里插入圖片描述

這樣會有問題，就是一下子把全部序列弄進來求梯度，運算量非常大。實際我們會將大序列分成等長的小序列，分別處理：

在這里插入圖片描述

不同隱含層中不同的值負責的是語料庫中不同的特征，所以隱含狀態(tài)的個數越多，模型就越能捕獲文本的底層特征。

下面來看一個例子：字符級語言模型（由上文預測下文）：

我想輸入hell，然后模型預測我會輸出o；或者我輸入h，模型輸出e，我再輸入e，模型輸出l…

首先對h,e,l,o進行獨熱編碼，然后構建模型進行訓練。

在這里插入圖片描述

在這里插入圖片描述

輸入莎士比亞的劇本，讓模型自己生成劇本，訓練過程：

在這里插入圖片描述

輸入latex文本，讓模型自己生成內容，公式寫得有模有樣的，就不知道對不對：

在這里插入圖片描述

當然輸入代碼，模型也會輸出代碼。所以現在火熱的Chatgpt的本質就是RNN。

對于圖像描述，專家會先用CNN對圖像進行特征抽?。?a class="article-link" target="_blank" href="/baike/522651.html">編碼器），然后將特征再輸入RNN進行圖像描述（解碼器）。

在這里插入圖片描述

還可以結合注意力機制（Image captioning with attention）：

在這里插入圖片描述

普通堆疊的RNN一旦隱含層變多變深，反向傳播時就很容易出現梯度消失/爆炸。

子豪兄總結得非常好，以最簡單的三層網絡來看，對于輸出的O3可以列出損失函數L3，對L3進行求偏導，分別對輸出權重w0，輸入權重wx，過去權重ws進行求導。我們發(fā)現對w0求偏導會很輕松。

但是，由于鏈式法則（chain rule），對輸入權重wx和過去權重ws求偏導就會很痛苦。在表達式里，對于越是前面層的鏈式求導，乘積項越多，所以很容易梯度消失/爆炸，梯度消失占大多數。

在這里插入圖片描述

LSTM（Long Short-Term Memory）

長短時記憶神經網絡（LSTM） 應運而生！

LSTM既有長期記憶也有短期記憶，包括遺忘門、輸入門、輸出門、長期記憶單元。右圖紅色函數是sigmoid，藍色函數是tanh。

在這里插入圖片描述

C是長期記憶，h是短期記憶。

所以當前輸出ht是由短期記憶產生的。

在這里插入圖片描述

我們看到長期記憶那條線是貫通的，且只有乘加操作。

在這里插入圖片描述

LSTM算法詳解：

下面幾個圖完美解釋了：

在這里插入圖片描述

所以總共有四個權重：Wf、Wi、Wc、Wo，當然還有它們對應的偏置項。

整體過程可以概括為：遺忘、更新、輸出。（更新包括先選擇保留信息，再更新最新記憶。）

原論文中的圖也非常形象：

在這里插入圖片描述

在這里插入圖片描述

現在反向傳播求偏導就舒服了

在這里插入圖片描述

在這里插入圖片描述

GRU（Gated Recurrent Unit）

GRU也能很好解決梯度消失問題，結構簡單一點，主要就是重置門和更新門。

在這里插入圖片描述

在這里插入圖片描述

GRU與LSTM對比：

參數數量：GRU的參數數量相對LSTM來說更少，因為它將LSTM中的輸入門、遺忘門和輸出門合并為了一個門控單元，從而減少了模型參數的數量。
LSTM中有三個門控單元：輸入門、遺忘門和輸出門。每個門控單元都有自己的權重矩陣和偏置向量。這些門控單元負責控制歷史信息的流入和流出。
GRU中只有兩個門控單元：更新門和重置門。它們共享一個權重矩陣和一個偏置向量。更新門控制當前輸入和上一時刻的輸出對當前時刻的輸出的影響，而重置門則控制上一時刻的輸出對當前時刻的影響。
計算速度：由于參數數量更少，GRU的計算速度相對LSTM更快。
長序列建模：在處理長序列數據時，LSTM更加優(yōu)秀。由于LSTM中引入了一個長期記憶單元（Cell State），使得它可以更好地處理長序列中的梯度消失和梯度爆炸問題。

GRU適用于：

處理簡單序列數據，如語言模型和文本生成等任務。
處理序列數據時需要快速訓練和推斷的任務，如實時語音識別、語音合成等。
對計算資源有限的場景，如嵌入式設備、移動設備等。

LSTM適用于：

處理復雜序列數據，如長文本分類、機器翻譯、語音識別等任務。
處理需要長時依賴關系的序列數據，如長文本、長語音等。
對準確度要求較高的場景，如股票預測、醫(yī)學診斷等。

公式總結：

在這里插入圖片描述

原創(chuàng)聲明：本文為全棧O-Jay原創(chuàng)內容，未經書面授權，不得以任何方式加以使用。轉載合作

人工客服
（售后/吐槽/合作/交友）

相關推薦

國產芯上運行TinyMaxi輕量級的神經網絡推理庫-米爾基于芯馳D9國產商顯板
方案米爾電子
194
2024/07/05
基于PYNQ SOC平臺——快速入門神經網絡的建模與硬件加速
課程黃宇杰
5964
2024/11/05
STM32F103如何實現多分類神經網絡？使用MPU6050分辨風扇工作狀態(tài)！
文章實在太懶于是不想取名
1898
03/31 12:10
基于BP神經網絡的PID控制參數優(yōu)化詳解
文章算法小狂人
2489
03/24 13:30
先進汽車GPU的高速和高效開發(fā)將加速智能駕駛的更廣泛普及
文章與非網編輯
733
02/21 10:26
斑馬技術Zebra Aurora?機器視覺軟件系列引入全新深度學習工具
文章與非網編輯
1369
01/02 08:17
Xilinx Zynq系列FPGA實現神經網絡中相關資源評估
文章 FPGA技術江湖
4754
2024/12/17

登錄即可解鎖

海量技術文章
設計資源下載
產業(yè)鏈客戶資源
寫文章/發(fā)需求

創(chuàng)作中心去發(fā)布

TA的熱門作品

感谢您访问我们的网站，您可能还对以下资源感兴趣：

上萬網友分享亚洲精品熟女国产心得

香蕉视频青青久久久葫芦娃成版人APP合集 19MACBOOKPRO 饥渴老熟妇乱子伦视频