Tổng quan
Kiến trúc của một mạng RNN truyền thống cuội nguồn Các mạng neural hồi quy, còn được biến hóa mang lại như thể RNNs, là 1 lớp của mạng neural được cho phép cổng output được sử dụng nhỏng nguồn vào trong những lúc bao gồm những trạng thái ẩn. thường thì là như sau:


Ưu điểm | Hạn chế |
• Khả năng cập nhật nguồn vào cùng với bất cứ độ dài nào • Kích cỡ quy mô ko tăng theo kích thước đầu vào • Quá trình tính toán thù thực hiện những công bố cũ • Trọng số được share nhìn trong suốt thời gian | • Tính toán thù lờ đờ • Khó để truy cập các công bố từ một khoảng tầm thời hạn dài trước đó • Không thể xem xét bất cứ đầu vào sau này như thế nào đến trạng thái hiện nay tại |
Ứng dụng của RNNs Các quy mô RNN hầu hết được thực hiện vào nghành up load ngôn từ thoải mái và tự nhiên với ghi thừa nhận ngôn ngữ. Các ứng dụng khác được tổng kết vào bảng bên dưới đây:
Các loại RNN | Hình minc hoạ | Ví dụ |
Một-Một$T_x=T_y=1$ | ![]() | Mạng neural truyền thống |
Một-nhiều$T_x=1, T_y>1$ | ![]() | Sinc nhạc |
Nhiều-một$T_x>1, T_y=1$ | ![]() | Phân một số loại ý kiến |
Nhiều-nhiều$T_x=T_y$ | ![]() | Ghi thừa nhận thực thể tên |
Nhiều-nhiều$T_x eq T_y$ | ![]() | Dịch máy |
Hàm mất mát Trong trường thích hợp của mạng neural hồi quy, hàm mất mát $mathcalL$ của toàn bộ công việc thời gian được định nghĩa dựa vào mất non sinh sống các thời gian như sau:
Lan truyền ngược theo thời gian Lan truyền ngược được dứt ngơi nghỉ từng một thời điểm ví dụ. Ở bước $T$, đạo hàm của hàm mất mát $mathcalL$ cùng với ma trận trọng số $W$ được trình diễn nlỗi sau:
Xử lí phụ thuộc lâu năm hạn
Các hàm kích hoạt hay được dùng Các hàm kích hoạt hay sử dụng trong số modules RNN được biểu đạt nhỏng sau:
Sigmoid | Tanh | RELU |
$displaystyle g(z)=frac11+e^-z$ | $displaystyle g(z)=frace^z-e^-ze^z+e^-z$ | $displaystyle g(z)=max(0,z)$ |
![]() | ![]() | ![]() |
Vanishing/exploding gradient Hiện tượng vanishing và exploding gradient thường gặp gỡ trong ngữ chình ảnh của RNNs. Lí Chính bởi sao bọn chúng thường xảy ra kia là khó để sở hữu được sự nhờ vào lâu năm vày multiplicative gradient hoàn toàn có thể tăng/bớt theo hàm nón khớp ứng với số lượng các tầng.Quý khách hàng đã xem: Recurrent neural network là gì
Gradient clipping Là một kĩ thuật được áp dụng nhằm giải quyết và xử lý sự việc exploding gradient xảy ra khi tiến hành lan truyền ngược. Bằng việc số lượng giới hạn quý giá lớn số 1 mang lại gradient, hiện tượng này sẽ được điều hành và kiểm soát vào thực tế.
Bạn đang xem: Recurrent neural network là gì

Các một số loại cổng Để xử lý sự việc vanishing gradient, các cổng cụ thể được áp dụng vào một vài nhiều loại RNNs với thường sẽ có mục đích ví dụ. Chúng thường được kí hiệu là $Gamma$ cùng bằng với:
Với $W, U, b$ là các thông số của một cổng với $sigma$ là hàm sigmoid. Các nhiều loại chính được tổng kết sống bảng dưới đây:
Loại cổng | Vai trò | Được thực hiện trong |
Cổng cập nhật $Gamma_u$ | Dữ liệu cũ đề nghị bao gồm khoảng đặc biệt ra làm sao làm việc hiện tại tại? | GRU, LSTM |
Cổng relevance $Gamma_r$ | Bỏ qua báo cáo phía trước? | GRU, LSTM |
Cổng quên $Gamma_f$ | Xoá ô hay là không xoá? | LSTM |
Cổng ra $Gamma_o$ | Biểu thị một ô tại mức độ bao nhiêu? | LSTM |
GRU/LSTM Gated Recurrent Unit (GRU) cùng Các đơn vị chức năng bộ nhớ lưu trữ dài-thời gian ngắn (LSTM) đối phó với vấn đề vanishing gradient Lúc gặp gỡ đề nghị bằng mạng RNNs truyền thống lịch sử, với LSTM là việc tổng thể của GRU. Phía bên dưới là bảng tổng kết những phương thơm trình đặc trưng của mỗi con kiến trúc:
Đặc tính | Gated Recurrent Unit (GRU) | Sở ghi nhớ dài-thời gian ngắn (LSTM) |
$ ildec^$ | $ extrmtanh(W_c+b_c)$ | $ extrmtanh(W_c+b_c)$ |
$c^$ | $Gamma_ustar ildec^+(1-Gamma_u)star c^$ | $Gamma_ustar ildec^+Gamma_fstar c^$ |
$a^$ | $c^$ | $Gamma_ostar c^$ |
Các prúc thuộc | ![]() | ![]() |
Chú ý: kí hiệu ⋆ chỉ phnghiền nhân từng phần tử cùng nhau giữa hai vectors.
Các biến hóa thể của RNNs Bảng sau đây tổng kết những phong cách xây dựng thường được thực hiện khác của RNN:
Học tự đại diện
Trong phần này, bọn họ kí hiệu $V$ là tập từ bỏ vựng cùng $|V|$ là form size của chính nó.
Giải đam mê cùng những kí hiệu
Các kỹ năng màn biểu diễn Có nhị phương pháp bao gồm nhằm trình diễn từ được tổng kết ở bảng bên dưới:
Biểu diễn 1-hot | Word embedding |
![]() | ![]() |
• Lưu ý $o_w$ • Tiếp cận Naive, không tồn tại biết tin chung | • Lưu ý $e_w$ • Xem xét độ tương đương của các từ |
Embedding matrix Cho một từ bỏ $w$, embedding matrix $E$ là 1 trong những ma trận tham chiếu thể hiện 1-hot $o_w$ của nó với embedding $e_w$ của chính nó như sau:
Chụ ý: học embedding matrix rất có thể hoàn thành bằng phương pháp thực hiện các quy mô target/context likelihood.
Word embeddings
Word2vec Word2vec là 1 framework tập trung vào bài toán học tập word embeddings bằng phương pháp ước chừng kĩ năng nhưng một tự cho trước được phủ quanh vị các tự khác. Các mô hình phổ biến bao hàm skip-gram, negative sampling cùng CBOW.

Skip-gram Mô hình skip-gram word2vec là một task học tập bao gồm đo lường, nó học những word embeddings bằng phương pháp review kĩ năng của bất kể target word $t$ mang lại trước nào xẩy ra cùng với context word $c$. Bằng bài toán kí hiệu $ heta_t$ là tđắm say số kèm theo với $t$, xác suất $P(t|c)$ được xem như sau:
Chú ý: Cộng tổng toàn bộ các từ vựng vào chủng loại số của phần softmax khiến cho mô hình này tốn các ngân sách tính toán. CBOW là 1 trong quy mô word2vec khác áp dụng các tự xung quanh để tham dự đân oán một từ đến trước.
Negative sầu sampling Nó là 1 tập của những bộ phân các loại nhị phân áp dụng logistic regressions với kim chỉ nam là Review khả năng mà lại một ngữ chình ảnh mang lại trước và những target words mang lại trước rất có thể xuất hiện thêm đồng thời, cùng với những mô hình đang rất được huấn luyện và giảng dạy trên những tập của $k$ negative sầu examples và 1 positive sầu example. Cho trước context word $c$ cùng target word $t$, dự đân oán được biểu đạt bởi:
Chú ý: thủ tục này tốn không nhiều chi phí tính tân oán hơn mô hình skip-gram.
GloVe Mô hình GloVe, viết tắt của global vectors for word representation, nó là một kĩ thuật word embedding thực hiện ma trận đồng xuất hiện $X$ cùng với từng $X_i,j$ là số lần nhưng từ đích (target) $i$ lộ diện tại ngữ chình ảnh $j$. Cost function $J$ của chính nó như sau:
$f$ là hàm trong các với $X_i,j=0Longrightarrow f(X_i,j)=0$. Với tính đối xứng cơ mà $e$ với $ heta$ đã đạt được trong mô hình này, word embedding ở đầu cuối $e_w^( extrmfinal)$ được định nghĩa như sau:
So sánh những từ
Độ tương đồng cosine Độ tương đồng cosine giữa những từ $w_1$ với $w_2$ được trình diễn nhỏng sau:
$t$-SNE $t$-SNE (t-distributed Stochastic Neighbor Embedding) là một kĩ thuật nhằm giảm xuống số chiều của không gian embedding. Trong thực tiễn, nó thường được áp dụng để trực quan lại hoá những word vectors vào không gian 2D (2D).
Xem thêm: Sửa Lỗi Preparing Automatic Repair Windows 10 Tin Học Vera Star Computer
Mô hình ngôn ngữ
Tổng quan Một quy mô ngữ điệu vẫn dự đoán thù tỷ lệ của một câu $P(y)$.
Mô hình $n$-gram Mô hình này là giải pháp tiếp cận naive cùng với mục đích định lượng phần trăm mà một thể hiện xuất hiện vào văn uống phiên bản bằng cách đếm mốc giới hạn lộ diện của nó vào tập tài liệu đào tạo.
Độ hỗn tạp Các quy mô ngôn ngữ thường được Đánh Giá dựa vào độ đo hỗ tạp, cũng rất được biết đến là PP, rất có thể được gọi như là nghịch hòn đảo Phần Trăm của tập tài liệu được chuẩn chỉnh hoá vị số lượng những trường đoản cú $T$. Độ hỗn tạp càng phải chăng thì sẽ càng xuất sắc và được có mang nhỏng sau:
Chụ ý: PPhường thường xuyên được áp dụng vào $t$-SNE.
Dịch máy
Tổng quan lại Một mô hình dịch máy tương tự với mô hình ngôn từ quanh đó nó tất cả một mạng encoder được đặt vùng phía đằng trước. Vì lí vị này, đôi khi nó còn được nghe biết là quy mô ngôn từ gồm điều kiện. Mục tiêu là kiếm tìm một câu vnạp năng lượng $y$ nhỏng sau:
Tìm tìm Beam Nó là một lời giải tìm tìm heuristic được áp dụng vào dịch lắp thêm cùng ghi dìm tiếng nói của một dân tộc nhằm tra cứu câu văn uống $y$ đúng tốt nhất tương ứng với đầu vào $x$.
• Bước 1: Tìm top B những trường đoản cú y • Bước 2: Tính Phần Trăm có điều kiện y|x,y,...,y • Cách 3: Giữ top B các tổng hợp x,y,...,y
Chụ ý: nếu độ rộng của beam được tùy chỉnh cấu hình là một, thì nó tương tự cùng với tìm tìm tsay đắm lam naive sầu.
Độ rộng Beam Độ rộng beam $B$ là 1 trong tđê mê số của giải mã tìm kiếm tìm beam. Các cực hiếm phệ của $B$ tạo nên hiệu quả giỏi hơn tuy vậy với tính năng tốt rộng cùng lượng bộ nhớ lưu trữ sử dụng đang tăng.
Chuẩn hoá độ nhiều năm Đến cải thiện tính định hình, beam tìm kiếm thường xuyên được vận dụng mục tiêu chuẩn hoá sau, thường xuyên được Điện thoại tư vấn là mục tiêu chuẩn hoá log-likelihood, được tư tưởng như sau:
Phân tích lỗi Lúc đạt được một bạn dạng dịch tồi $widehaty$, chúng ta có thể từ bỏ hỏi rằng tại sao họ không tồn tại được một hiệu quả dịch giỏi $y^*$ bởi vấn đề tiến hành câu hỏi phân tích lỗi nlỗi sau:
Trường hợp | $P(y^*|x)>P(widehaty|x)$ | $P(y^*|x)leqslant P(widehaty|x)$ |
Ngulặng nhân sâu xa | Lỗi Beam search | lỗi RNN |
Biện pháp xung khắc phục | Tăng beam width | • Thử phong cách thiết kế khác • Chính quy • Lấy các tài liệu hơn |
Điểm Bleu Bilingual evaluation understudy (bleu) score định lượng mức độ giỏi của dịch lắp thêm bằng cách tính một độ tương đồng dựa vào dự đoán $n$-gram. Nó được có mang nhỏng sau:
Chú ý: một mức pphân tử nthêm có thể được áp dụng với những dự đoán thù dịch nđính để tránh việc làm cho phóng đại quý hiếm bleu score.
Chú ý
Attention model Mô hình này chất nhận được một RNN tập trung vào các phần ví dụ của đầu vào được coi như xét là đặc trưng, nó giúp nâng cấp tính năng của mô hình hiệu quả vào thực tế. Bằng việc kí hiệu $alpha^$ là mức độ để ý mà lại Áp sạc ra $y^$ đề xuất gồm đối với hàm kích hoạt $a^$ với $c^$ là ngữ cảnh ở thời khắc $t$, chúng ta có:
Attention weight Sự chăm chú nhưng mà đầu ra $y^$ cần tất cả cùng với hàm kích hoạt $a^$ cùng với $lpha^$ được xem nlỗi sau: