Tim Hieu Ve Deep Learning

ĐI HC QUC GIA THÀNH PH H CHÍ MINH TRƯNG ĐI HC CÔNG NGH THÔNG TIN KHOA CÔNG NGH PHN MM

Đ ÁN CHUYÊN NGÀNH CÔNG NGH PHN MM

Tìm hiu v Deep Learning và xây dng mô hình minh ha

GING VIÊN HƯNG DN: PGS. TS. Vũ Thanh Nguyên SINH VIÊN THC HIN:

Phm Hu Danh - 14520134 Phm Văn Sĩ - 14520763

12, 2017

LI CÁM ƠN Trong sut thi gian thc hin đ án, chúng tôi đã nhn đưc rt nhiu s giúp đ t các thy cô ca trưng Đi hc Công ngh thông tin, đc bit là thy Vũ Thanh Nguyên – ngưi đã trc tip ging dy và hưng dn chúng tôi thc hin đ án này. Trong quá trình thc hin, chúng tôi đã tham kho da trên các bài tng hp trong Ting Anh ca Wang ca Wang et al. [2017 [2017]] và và Epelbaum Epelbaum [ [2017 2017]], chúng chúng tôi xin gi li cám ơn chân thành đn nhng đóng góp ca các tác gi. Mc dù chúng tôi đã c gng rt nhiu nhưng chc chn không th tránh khi nhng sai sót. Chúng Chúng tôi rt mong nhn đưc s đóng góp t quý thy cô cũng như các bn đã đc bài báo cáo này.

LI CÁM ƠN Trong sut thi gian thc hin đ án, chúng tôi đã nhn đưc rt nhiu s giúp đ t các thy cô ca trưng Đi hc Công ngh thông tin, đc bit là thy Vũ Thanh Nguyên – ngưi đã trc tip ging dy và hưng dn chúng tôi thc hin đ án này. Trong quá trình thc hin, chúng tôi đã tham kho da trên các bài tng hp trong Ting Anh ca Wang ca Wang et al. [2017 [2017]] và và Epelbaum Epelbaum [ [2017 2017]], chúng chúng tôi xin gi li cám ơn chân thành đn nhng đóng góp ca các tác gi. Mc dù chúng tôi đã c gng rt nhiu nhưng chc chn không th tránh khi nhng sai sót. Chúng Chúng tôi rt mong nhn đưc s đóng góp t quý thy cô cũng như các bn đã đc bài báo cáo này.

TÓM TT Deep learning là mt hưng tip cn ca lĩnh vc trí tu nhân to (Artificial Intelligence - AI) đang đưc bàn lun sôi ni. Deep learning đã ci thin mt cách đáng k các phương pháp hin đi nht ca nhiu vn đ trong AI như phát hin đi tưng, nhn din ging nói, dch máy (machine translation) [ translation) [LeCun LeCun et al., 2015 2015].]. Bài báo cáo này gii thiu các mô hình tiên tin ph bin gm Feedforward Neural Network, Ne twork, Convolutional Convolutional Neural Network và và Recurrent Neural Network. Thay vì ch áp dng Deep Learning vi mt s thư vin có sn, chúng tôi mong mun thc s hiu nó là gì. Chúng tôi tp trung vào nhng ý tưng ban đu đ hình thành, s phát trin ca chúng cho đn hin ti và đánh giá các mô hình.

Mc lc Mc lc

iii

Danh sách hình v

vii

Gii thiu

x

1 Feedforward Neural Networks 1.1 Gii thiu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2 Kin trúc FNN . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3 Các kí hiu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.4 Cân bng trng s . . . . . . . . . . . . . . . . . . . . . . . . . . 1.5 Hàm kích hot . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.5.1 Hàm sigmoid . . . . . . . . . . . . . . . . . . . . . . . . . 1.5.2 Hàm tanh . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.5.3 Hàm ReLU . . . . . . . . . . . . . . . . . . . . . . . . . . 1.5.4 Hàm leaky-ReLU . . . . . . . . . . . . . . . . . . . . . . . 1.5.5 Hàm ELU . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.6 Các layer ca FNN . . . . . . . . . . . . . . . . . . . . . . . . . . 1.6.1 Input layer . . . . . . . . . . . . . . . . . . . . . . . . . . 1.6.2 Fully connected layer . . . . . . . . . . . . . . . . . . . . . 1.6.3 Output layer . . . . . . . . . . . . . . . . . . . . . . . . . 1.7 Loss function . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.8 Các k thut Regularization . . . . . . . . . . . . . . . . . . . . . 1.8.1 L2 regularization . . . . . . . . . . . . . . . . . . . . . . . 1.8.2 L1 regularization . . . . . . . . . . . . . . . . . . . . . . .

1 1 1 2 3 4 4 5 5 6 7 8 8 9 9 10 11 11 12

iii

MC LC 1.8.3 Clipping . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.8.4 Dropout . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.8.5 Batch Normalization . . . . . . . . . . . . . . . . . . . . . 1.9 Backpropagation . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.9.1 Backpropagate thông qua Batch Normalization . . . . . . 1.9.2 Cp nht error . . . . . . . . . . . . . . . . . . . . . . . . 1.9.3 Cp nht trng s . . . . . . . . . . . . . . . . . . . . . . 1.9.4 Cp nht Coefficient . . . . . . . . . . . . . . . . . . . . . 1.10 D liu nào s dng cho gradient descent? . . . . . . . . . . . . . 1.10.1 Full-batch . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.10.2 Stochastic Gradient Descent (SGD) . . . . . . . . . . . . . 1.10.3 Mini-batch . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.11 Nhng k thut Gradient optimization . . . . . . . . . . . . . . . 1.11.1 Momentum . . . . . . . . . . . . . . . . . . . . . . . . . . 1.11.2 Nesterov accelerated gradient . . . . . . . . . . . . . . . . 1.11.3 Adagrad . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.11.4 RMSprop . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.11.5 Adadelta . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.11.6 Adam . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.12 Khi to trng s . . . . . . . . . . . . . . . . . . . . . . . . . . .

13 13 13 15 16 16 17 18 18 18 18 19 19 19 20 20 21 21 22 22

2 Convolutional Neural Networks 24 2.1 Gii thiu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 2.2 Kin trúc CNN . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 2.3 Tính đc thù ca CNN . . . . . . . . . . . . . . . . . . . . . . . . 25 2.3.1 Feature map . . . . . . . . . . . . . . . . . . . . . . . . . . 25 2.3.2 Input layer . . . . . . . . . . . . . . . . . . . . . . . . . . 25 2.3.3 Padding . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 2.3.4 Convolution . . . . . . . . . . . . . . . . . . . . . . . . . . 26 2.3.5 Pooling . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 2.3.6 Towards fully connected layers . . . . . . . . . . . . . . . . 29 2.3.7 Fully connected layers . . . . . . . . . . . . . . . . . . . . 30 2.3.8 Output connected layer . . . . . . . . . . . . . . . . . . . . 31

iv

MC LC 2.4 Các điu chnh vi Batch Normalization . . . . . . . . . . . . . . 2.5 Các kin trúc CNN . . . . . . . . . . . . . . . . . . . . . . . . . . 2.5.1 Realistic architectures . . . . . . . . . . . . . . . . . . . . 2.5.2 LeNet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.5.3 AlexNet . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.5.4 VGG . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.5.5 GoogleNet . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.5.6 ResNet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.6 Backpropagation . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.6.1 Backpropagate trong Batch Normalization . . . . . . . . . 2.6.2 Cp nht Error . . . . . . . . . . . . . . . . . . . . . . . . 2.6.2.1 Backpropagate t output đn fc . . . . . . . . . . 2.6.2.2 Backpropagate t fc đn fc . . . . . . . . . . . . 2.6.2.3 Backpropagate t fc đn pool . . . . . . . . . . . 2.6.2.4 Backpropagate t pool đn conv . . . . . . . . . 2.6.2.5 Backpropagate t conv đn conv . . . . . . . . . 2.6.2.6 Backpropagate t conv đn pool . . . . . . . . . 2.6.3 Cp nht trng s . . . . . . . . . . . . . . . . . . . . . . 2.6.3.1 Cp nht trng s t fc đn fc . . . . . . . . . . . 2.6.3.2 Cp nht trng s t fc đn pool . . . . . . . . . 2.6.3.3 Cp nht trng s t conv đn conv . . . . . . . 2.6.3.4 Cp nht trng s t conv đn pool và conv đn input . . . . . . . . . . . . . . . . . . . . . . . . 2.6.4 Cp nht Coefficient . . . . . . . . . . . . . . . . . . . . . 2.6.4.1 Cp nht Coefficient t fc đn fc . . . . . . . . . 2.6.4.2 Cp nht Coefficient t fc đn pool và conv đn pool . . . . . . . . . . . . . . . . . . . . . . . . . 2.6.4.3 Cp nht Coefficient t conv đn conv . . . . . .

31 32 33 34 34 35 35 36 37 37 37 37 38 38 39 39 40 40 40 41 41

3 Recurrent Neural Networks 3.1 Gii thiu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2 Kin trúc RNN-LSTM . . . . . . . . . . . . . . . . . . . . . . . . 3.2.1 Hưng Forward trong RNN-LSTM . . . . . . . . . . . . .

45 45 45 45

v

42 42 42 43 43

MC LC 3.2.2 Hưng backward trong RNN-LSTM . . . . . . . . . . . . . 3.3 Extreme Layers và loss function . . . . . . . . . . . . . . . . . . . 3.3.1 Input layer . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3.2 Output layer . . . . . . . . . . . . . . . . . . . . . . . . . 3.3.3 Loss function . . . . . . . . . . . . . . . . . . . . . . . . . 3.4 Các đc trưng ca RNN . . . . . . . . . . . . . . . . . . . . . . . 3.4.1 Cu trúc RNN . . . . . . . . . . . . . . . . . . . . . . . . 3.4.2 Forward pass trong RNN . . . . . . . . . . . . . . . . . . . 3.4.3 Backpropagation trong RNN . . . . . . . . . . . . . . . . . 3.4.4 Cp nht trng s và coefficient trong RNN . . . . . . . . 3.5 Đc trưng ca LSTM . . . . . . . . . . . . . . . . . . . . . . . . . 3.5.1 Cu trúc LSTM . . . . . . . . . . . . . . . . . . . . . . . . 3.5.2 Hưng forward trong LSTM . . . . . . . . . . . . . . . . . 3.5.3 Batch normalization . . . . . . . . . . . . . . . . . . . . . 3.5.4 Backpropagation trong LSTM . . . . . . . . . . . . . . . . 3.5.5 Cp nht trng s và coefficient trong LSTM . . . . . . .

4 Xây dng mô hình minh ha 4.1 Gii thiu . . . . . . . . . . . . . . 4.2 Mã ngun . . . . . . . . . . . . . . 4.3 D liu . . . . . . . . . . . . . . . . 4.4 Xây dng mô hình . . . . . . . . . 4.5 Hun luyn mô hình . . . . . . . . 4.6 Kt qu . . . . . . . . . . . . . . .

...... . ...... . .... ... .... ... ... .. .. ..... ..

..... ..... ..... ..... ... .... ... ... .... ... .. .. .. ... . .... ......

47 47 47 48 48 48 48 50 50 51 52 52 53 55 56 57

58 58 58 59 59 61 62

5 Kt lun và hưng phát trin

63

Trích dn

64

vi

Danh sách hình v 1.1 Neural Network vi N + 1 layers (N − 1 hidden layers). Shallow architectures thưng ch có mt hidden layer. Deep learning có mt s hidden layer, thưng cha cùng s lưng hidden neuron. . . . . 2 1.2 Quá trình weight averaging. . . . . . . . . . . . . . . . . . . . . . 3 1.3 Hàm sigmoid và đo hàm ca nó. . . . . . . . . . . . . . . . . . . 4 1.4 Hàm tanh và đo hàm ca nó. . . . . . . . . . . . . . . . . . . . . 5 1.5 Hàm RELU và đo hàm ca nó. . . . . . . . . . . . . . . . . . . . 6 1.6 Hàm leaky-RELU và đo hàm ca nó. . . . . . . . . . . . . . . . 7 1.7 Hàm ELU và đo hàm ca nó. . . . . . . . . . . . . . . . . . . . . 8 1.8 Neural network trong hình 1.1 vi dropout cho c các hidden layer và input. Thông thưng, mt t l khác nhau (thp hơn) dùng cho vic tc các nơ-ron ca input và các hidden layers. . . . . . . . . . 14 2.1 Mt kin trúc CNN (đây là LeNet): các convolution operation đưc theo sau là pooling operation, cho đn khi kích thưc feature map gim còn mt. Fully connected layers sau đó đưc kt ni. . . . . 2.2 Input layer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3 Padding ca feature map. Nhng s không đưc thêm vào là nhng tile màu đ, kích thưc padding này là P = 1. . . . . . . . . . . . 2.4 Convolution operation . . . . . . . . . . . . . . . . . . . . . . . . 2.5 The pooling operation . . . . . . . . . . . . . . . . . . . . . . . . 2.6 Fully connected operation đ ly chiu rng và chiu cao 1. . . . . 2.7 Fully connected operation, ging như FNN operations. . . . . . . 2.8 Sơ đ đi din ca các layer khác nhau . . . . . . . . . . . . . . .

vii

25 26 27 27 29 30 31 33

DANH SÁCH HÌNH V 2.9 Realistic Fully connected operation và Realistic Convolution operation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.10 The LeNet CNN . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.11 The AlexNet CNN . . . . . . . . . . . . . . . . . . . . . . . . . . 2.12 The VGG CNN . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.13 The GoogleNet CNN . . . . . . . . . . . . . . . . . . . . . . . . . 2.14 Kin trúc Bottleneck Residual. Sơ đ trên lí thuyt bên trái, thc t  bên phi. Nó cn mt 1 × 1 conv vi stride 1 và padding 0, sau đó mt VGG conv chun và 1 × 1 conv. . . . . . . . . . . . . 2.15 The ResNet CNN . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.16 Backpropagate t output đn fc. . . . . . . . . . . . . . . . . . . . 2.17 Backpropagate t fc đn fc. . . . . . . . . . . . . . . . . . . . . . 2.18 Backpropagate t fc đn pool. . . . . . . . . . . . . . . . . . . . . 2.19 Backpropagate t pool đn conv. . . . . . . . . . . . . . . . . . . 2.20 Backpropagate t conv đn conv. . . . . . . . . . . . . . . . . . . 2.21 Backpropagate t conv đn pool. . . . . . . . . . . . . . . . . . . 2.22 Cp nht trng s gia hai fc layer . . . . . . . . . . . . . . . . . 2.23 Cp nht trng s gia fc layer và pool layer. . . . . . . . . . . . 2.24 Cp nht trng s gia hai conv layer. . . . . . . . . . . . . . . . 2.25 Cp nht trng s t conv đn pool cũng ging như t conv đn input. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.26 Cp nht Coefficient gia hai fc layer. . . . . . . . . . . . . . . . 2.27 Cp nht Coefficient t fc đn pool cũng ging như t conv đn pool. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.28 Cp nht Coefficient gia hai conv layer. . . . . . . . . . . . . . . 3.1 Kin trúc RNN, vi d liu đưc lan truyn theo c "không gian" và "thi gian". Trong ví d, chiu thi gian có kích thưc là 8, không gian có kích thc là 4. . . . . . . . . . . . . . . . . . . . . . 3.2 Hưng backward trong kin trúc. Do đó không th tính toán gradient ca mt layer mà không tính toán nhng cái mà nó đã đi qua. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3 Các chi tit ca RNN hidden unit . . . . . . . . . . . . . . . . . .

viii

33 34 34 35 35 36 36 38 38 39 39 40 40 41 41 41 42 42 43 43

46 47 49

DANH SÁCH HÌNH V 3.4 Cách hidden unit RNN tương tác vi nhau. . . . . . . . . . . . . . 49 3.5 Chi tit LSTM hidden unit . . . . . . . . . . . . . . . . . . . . . . 53 3.6 Cách các LSTM hidden unit tương tác vi nhau . . . . . . . . . . 54 4.1 Minh ha d liu ca CIFAR-10. . . . . . . . . . . . . . . . . . . 4.2 Mô hình CNN đơn gin ca chúng tôi. . . . . . . . . . . . . . . .

ix

59 60

Gii thiu Bn cht kin trúc nhiu lp cho phép deep learning kh năng gii quyt nhiu vn đ AI phc tp hơn [Bengio et al., 2009]. Vì vy, các nhà nghiên cu đang m rng ng dng deep learning ti các lĩnh vc và vn đ mi, ví d: Osako et al. [2015] s dng recurrent neural network đ denoise các tính hiu thoi; Gupta et al. [2015] đ khám phá các pattern phân cm ca các biu hin gen; Gatys et al. [2015] s dng mt mô hình nơ-ron đ to ra các hình nh vi các kiu khác nhau; Wang et al. [2016] dùng deep learning đ phân tích tâm lý t nhiu phương thc đng thi; vv. Đây là giai đon chng kin s bùng n ca lĩnh vc nghiên cu deep learning. Đ tham gia và thúc đy quá trình nghiên cu deep learning, chúng ta cn phi hiu rõ các kin trúc ca các mô hình và ti sao chúng tn ti. Chúng tôi tp trung vào ba loi mô hình deep learning ph bin theo mt trình t t đơn gin đn phc tp thông qua các chương. Chương 1 bt đu vi loi mô hình đu tiên đưc gii thiu trong lch s: mô hình feedforward neural network, đây là bưc phát trin t thut toán perceptron nguyên bn Rosenblatt [1958]. Các mô hình feedforward network có cu trúc xp chng các lp perceptron lên trên nhng lp khác, như non-linear regression. Trong chương 2, chúng tôi gii thiu convolutional neural network, đc bit dùng đ x lí d liu hình nh. Chúng tôi gii thiu v nhng kin th toán như convolution, pooling, v.v. Cũng như cho thy s thay đi ca các kin trúc khi đưc gii thiu  chương 1. Nhiu kin trúc neural network đưc gii thiu kèm theo ph lc ca chúng.

x

Chương 3 s gii thiu recurrent neural network, kin trúc thích hp đ x lí các d liu có cu trúc temporal–như thi gian và văn bn. Nhng đim mi và nhng sa đi s đưc mô t chi tit trong văn bn chính, và các ph lc cung cp các công thc phc tp nht ca loi kin trúc mng này.  chương 4, chúng tôi xây dng mt mô hình minh ha thuc loi Convolutional Neural Network (đưc gii thiu trong chương 2), áp dng các k thut, phương pháp trong bài báo cáo đ thc hành các kin thc đã tìm hiu.

xi

Chương 1 Feedforward Neural Networks 1.1 Gii thiu Trong phn này, chúng tôi xem xét loi neural network đu tiên đã đưc phát trin trong lch s: Feedforward Neural Network (FNN). Mng này không da vào bt kì cu trúc d liu đu vào nào. Nó là mt công c machine learning rt mnh, đc bit là khi đưc s dng vi các k thut regularization. Nhng k thut mà chúng tôi s trình bày, cho phép gii quyt các vn đ hun luyn khi x lý các d liu có cu trúc "sâu": neural network vi mt s lưng đáng k các hidden state và các hidden layer, nhng th đã đưc chng minh là rt khó đ hun luyn (các vn đ vanishing gradient và overfitting).

1.2 Kin trúc FNN Mt FNN đưc to thành bi mt input layer, mt (shallow network) hoc nhiu hơn (deep network) các hidden và mt output layer. Mi layer ca network (tr output) đưc kt ni vi mt layer phía sau. Kt ni này là trung tâm ca cu trúc FNN và có hai tính năng chính  dng đơn gin nht: cân bng trng s và kích hot. Chúng tôi s trình bày các tính năng này trong các phn sau.

1

Hình 1.1: Neural Network vi N + 1 layers (N − 1 hidden layers). Shallow architectures thưng ch có mt hidden layer. Deep learning có mt s hidden layer, thưng cha cùng s lưng hidden neuron.

1.3 Các kí hiu Trong nhng phn sau, chúng tôi s s dng

• N s lưng layer (không tính input) trong mt Neural Network. • T s lưng example trong d d liu hun luyn. • T s lưng example trong mt mini-batch (xem phn 1.7). • t ∈ 0, T − 1 instance trong mini-batch. • ν ∈ 0, N  s lưng layer ca FNN. • F s lưng nơ-ron ca layer th ν . • X = h vi f ∈ 0, F − 1 các bin đu vào. • y vi f ∈ [0, F − 1] các bin đu ra (đ d đoán). train mb

mb

ν

(t) f

(t) f

(0)(t)

0

f

N

2

Hình 1.2: Quá trình weight averaging. (t) f

• yˆ •Θ

vi f ∈ [0, F N − 1] đu ra ca network.

vi f ∈ [0, F ν − 1], f trng s (weights matrix) 

(ν )f



f

∈ [0, F − 1] và ν ∈ [0, N − 1] các ma trn ν +1

1.4 Cân bng trng s Mt trong hai component chính ca FNN là quá trình cân bng trng s, ưc lưng đ cân bng các output layer phía trưc vi nhng ma trn trng s đ đi đn layer k tip. Minh ha trên Hình 1.2. Quá trình cân bng trng s dưi dng công thc: F ν −1+

(t)(ν )

af

=



Θ(f ) h(f )( ) , ν f 

t ν 

(1.1)

f  =0

vi ν ∈ 0, N − 1, t ∈ 0, T mb − 1 và f ∈ 0, F ν +1 −1.   đây đ bao gm hoc không bao gm bias. Trong thc t, vì chúng ta s s dng batch-normalization, chúng ta có th b qua nó mt cách an toàn ( = 0 trong mi trưng hp).

3

Hình 1.3: Hàm sigmoid và đo hàm ca nó.

1.5 Hàm kích hot Hidden neuron ca mi layer đưc đnh nghĩa như sau (t)(ν +1)

hf

 

= g a(f )(

t ν )

,

(1.2)

vi ν ∈ 0, N − 2, f ∈ 0, F ν +1 − 1 và t ∈ 0, T mb − 1.  đây g làm mt hàm kích hot – thành phn chính th hai ca FNN – d đoán d liu đu ra mt cách không tuyn tính. Trong thc t, g thưng là mt trong nhng hàm đưc mô t trong nhng phn dưi đây.

1.5.1 Hàm sigmoid Hàm sigmoid nhn giá tr trong đon

[0, 1] vi

g (x) = σ (x) =

công thc:

1 1 + e

.

(1.3)

− σ(x)) .

(1.4)

x

−

Đo hàm ca nó là: 

σ (x) = σ (x) (1

Hàm activation này không đưc dùng nhiu trong ngày nay (tr RNN-LSTM network mà chúng tôi s trình bày trong chương 3).

4

Hình 1.4: Hàm tanh và đo hàm ca nó.

1.5.2 Hàm tanh Hàm tanh nhn giá tr trong đon [0, 1] vi công thc: 1 e g (x) = tanh(x) = 1 + e

−

2x

−

2x

−

.

(1.5)

Đo hàm ca nó là 

tanh (x) = 1

2

− tanh (x) .

(1.6)

Hàm kích hot này không đưc ph bin do cách chúng ta s dng hàm kích hot, s đưc trình trong phn k. Nó chưa tng đưc s dng cho ti khi đưc dùng trong công thc chun hóa (standard formulation) ca mô hình RNN-LSTM (chương 3).

1.5.3 Hàm ReLU Hàm ReLU – Rectified Linear Unit (hàm đơn v tuyn tính hiu chnh) – nhn giá tr trong đon [0, +∞] vi công thc: g(x) = ReLU(x) =

5

 

≥0

x

x

0

x < 0

.

(1.7)

Hình 1.5: Hàm RELU và đo hàm ca nó. Đo hàm ca nó là: 

ReLU (x) =

 

1 x

≥0

.

0 x < 0

(1.8)

Hàm kích hot này đưc s dng rng rãi nht hin nay. Hai bin th ph bin hơn ca nó cũng có th đưc tìm thy: leaky-ReLU và ELO - Exponential Linear Unit (hàm đơn v tuyn tính mũ). Chúng đã đưc gii thiu bi vì hàm kích hot ReLU có xu hưng b đi mt s t bào thn kinh n: khi t bào đã đưc tt (giá tr bng 0), nó không bao gi có th đưc bt lên ln na.

1.5.4 Hàm leaky-ReLU The leaky-ReLU nhn giá tr trong đon [−∞, +∞] và là mt sa đi nh ca ReLU cho phép các hidden neuron nhn giá tr khác không vi bt kì giá tr x. Công thc ca nó là g(x) = leaky-ReLU(x) =

6

 

x

x

≥0

0.01 x x < 0

.

(1.9)

Hình 1.6: Hàm leaky-RELU và đo hàm ca nó. Đo hàm ca nó là leaky-ReLU (x) = 

 

1

x

≥0

.

0.01 x < 0

(1.10)

Mt bin th ca leaky-ReLU cũng có th đưc tìm thy: Parametric-ReLU, trong đó 0, 01 trong đnh nghĩa ca leaky-ReLU đưc thay th bi mt h s α, có th đưc tính bng cách backpropagation.

g(x) = Parametric

− ReLU(x) =

Đo hàm ca nó là Parametric



− ReLU (x) =

1.5.5 Hàm ELU

 

 

x

x

≥0

.

α x x < 0

1

x

≥0

α

x < 0

.

(1.11)

(1.12)

Hàm ELU – Exponential Linear Unit (hàm đơn v tuyn tính mũ) – function nhn các giá tr trong đon [−1, +∞] và nó đưc ly cm hng t leaky-ReLU:

7

Hình 1.7: Hàm ELU và đo hàm ca nó. giá tr khác 0 cho tt c x. g (x) = ELU(x) =

Đo hàm ca nó 

ELU (x) =

 

 

x e

1 x

e

x

x

−1 x

≥0

.

x < 0

≥0

.

x < 0

(1.13)

(1.14)

1.6 Các layer ca FNN Nhưng đưc minh ha trong hình 1.1, mt FNN thông thưng s bao gm mt vài layer c th. Chúng tôi s gii thích chúng tng cái mt.

1.6.1 Input layer Input layer là mt trong hai nơi mà các d liu đi vào. Trong chương này, chúng tôi xem xét các d liu có kích thưc F 0 , kí hiu X f (t ,) vi t ∈ 0, T mb − 1 (kích thưc ca mini-batch, khi chúng tôi s nói v k thut gradient descent), 1

Đ hun luyn FNN, chúng tôi cùng tính toán qua trình forward và backward cho T mb sample ca d liu hun luyn, vi T mb T train. Trông các phn sau, s có t 0, T mb 1. 1



∈

8

−

và f ∈ vào:

0, F 0

− 1. Mt bưc x lí thông thưng đ trung tâm hóa d liu đu (t)

(t)

˜ = X X f f

−µ

,

f

(1.15)

vi µf =

T train−1

1



T train

(t)

X f .

(1.16)

t=0

Điu này tương ng vic tính trung bình cho mi loi d liu trong tp hun luyn. Theo các ký hiu, chúng ta hãy nh li rng (t)

(t)(0)

X f = h f

.

(1.17)

1.6.2 Fully connected layer The fully connected operation thc cht ch là hot đng kt ni gia vic cn bng trng s và quá trình kích hot. C th, ∀ν ∈ 0, N − 1 F ν −1

(t)(ν )

af

=



(ν )f (t)(ν )

Θf hf 



.

(1.18)

f =0 

và ∀ν ∈ 0, N − 2 (t)(ν +1)

hf

  (t)(ν )

= g af

.

(1.19)

vi các trưng hp mà ν = N − 1, hàm kích hot s thay th hàm output.

1.6.3 Output layer Đu ra ca FNN (t)(N )

hf

(t)(N −1)

= o (af

9

) ,

(1.20)

vi o đưc gi làm hàm output. Trong các trưng hp Euclidean loss function, hàm output ch là nhn dng. Các các bài toán phân loi, o là hàm softmax. (t)(N −1)



(t)(N −1)

o af



=

eaf F N −1



(1.21)

(t)(N −1)

a

e

f 

f  =0

1.7 Loss function

Loss function đánh giá li ca FNN khi nó ưc tính d liu đưc d đoán (Nơi th hai mà d liu đu vào xut hin). Vi mt bài toán regression, đây là mt hàm mean square error (MSE) đơn gin. J (Θ) =

T mb−1 F N −1

1

 

(t)

yf

2T mb

t=0

(t)(N )

−h

f

f =0

2



,

(1.22)

trong khi vi các bài toán phân loi, loss function đưc gi là hàm cross-entropy J (Θ) =

T mb−1 F N −1

1

− T

mb

 t=0

(t)(N )

f

δ y(t) ln hf

,

(1.23)

f =0

và vi mt bài toán regression chuyn thành mt bài toán phân loi, gi C là s lưng ca mc (đ phân loi) dn đn J (Θ) =

1

− T

mb

T mb−1 F N −1 C −1

  t=0

f =0 c=0

(t)(N )

δ c(t) ln hf c yf

.

(1.24)

 mi bưc hun luyn, chúng tôi kí hiu sau đ hin th rõ ràng hơn. T mb −1

J (Θ) =

 t=0

10

J mb(Θ) .

(1.25)

1.8 Các k thut Regularization Mt trong nhng khó khăn chính khi x lí các kin trúc deep learning là làm cho hun luyn deep neural network môt cách hiu qu. Đ đt đưc đu đó, nhiu k thut regularization đưc phát minh. Chúng tôi s đánh giá chung trong phn này.

1.8.1 L2 regularization L2 regularization là môt k thut regularization thông dng. Nó ưc tính đ thêm regularizing term vào loss function theo cách sau N −1

J L2 (Θ) = λ L2

2 Θ(ν ) L2

 

N −1 F ν +1 −1 F ν −1

= λ L2

ν =0

2

    

(ν )f

Θf

ν =0

f =0

.

(1.26)

f  =0

K thut regularization hu như luôn đưc s dng, nhưng không phi đưc dùng riêng l. Giá tr thông thưng ca λL2 nm trong khong 10 4 − 10 2 . K thut L2 regularization này có cách din gii theo Bayes: nó là suy lun Bayes vi phân phi chun ca trng s. Tht vy, vi ν đã cho, quá trình cân bng trng s như sau −

F ν −1

(t)(ν )

af

=



(ν )f (t)(ν )

Θf hf 



−

+  ,

(1.27)

f  =0

vi  là noise term ca trung bình 0 và phương sai σ 2 . Do đó phân phi chun sau đây cho tt c các giá tr ca t và f :

   

F ν −1

(t)(i)

N af

(ν )f (t)(ν )

Θf hf 

f  =0



, σ2



.

Gi s tt c các trng s có mt phân phi chun có dng

11

(1.28)

   vi (ν )f

N Θf



λL21 −

cùng tham s λL2, chúng ta có biu thc sau T mb−1 F ν +1 −1

      √

P =

F ν −1

(t)(ν )

N af

t=0

f =0

T mb−1 F ν +1 −1

=

t=0

f =0

   

F ν −1

(ν )f (t)(ν )

Θf hf 



,σ

f  =0 a

1

−

2πσ 2

e

2

             (ν )f

N Θf



λL21 −

f  =0

(t)(ν ) f



−

F i −1 (ν )f (t)(ν ) 2 Θ h  f  =0 f  f 2 σ 2

F ν −1

λL2 e 2π

f  =0

(ν )f 2 λL2 Θ  f

−

.

2

(1.29)

Ly log ca nó và b qua các constant term, ta có L

∝ T

T mb−1 F ν +1 −1

1

mbσ

2

  t=0

F ν −1

(t)(ν )

af

f =0

 −

(ν )f (t)(ν )

Θf hf 



f  =0



2

F ν +1 −1 F ν −1

+ λL2

2

   Θ(f )

ν f 

f =0

,

f  =0

(1.30)

và term cui cùng chính xác là L2 regulator cho mt giá tr nu cho trưc (xem công thc (1.26).

1.8.2 L1 regularization L1 regularization thay th norm trong k thut L2 regularization N −1 F ν +1 −1 F ν −1

N −1

J L1 (Θ) = λ L1

   Θ

(ν )

L1

= λ L1

ν =0

     (ν )f

Θf



ν =0

f =0

.

(1.31)

f =0 

Nó cũng thưng đưc s dng như L2 regularization, nhưng không dùng theo cách riêng l. giá tr thông thưng ca λL1 trong khong 10 4 − 10 2 . L1 regularization vi suy lun Bayes vi phân phi chun Laplacian. −

   (ν )f

F Θf



0, λL11 = −

12

λL1

2

e

 



(ν )f 

λL1 Θ

−

−

f 



.

(1.32)

1.8.3 Clipping Clipping ngăn nga L2 norm ca các trng s vưt quá threshold C . C th vi vic cp nht trng s, nu L2 norm ca chúng vưt quá C , nó tr v C if Θ(ν )

 

L2

−→ Θ

> C

(ν )f f 

= Θ(f )

ν f 

× Θ C  (ν )

.

(1.33)

L2

K thut regularization này tránh vn đ exploding gradient, và nó đưc dùng ch yu trong RNN-LSTM network. Giá tr thông thưng ca C trong khong 100 − 101 . Bây gi chúng ta hãy chuyn sang các k thut regularization hiu qu nht cho mt FNN: dropout và Batch-normalization.

1.8.4 Dropout Là mt th tc đơn gin cho phép thc hin backpropagation tt hơn cho các bài toán phân loi: dropout tính toán đ làm gim các hidden units (trong mt s trưng hp, ngay c mt s bin đu vào) cho mi example hun luyn. Vic tính toán này đưc thc hin thông qua: vi ν ∈ 1, N − 1 (ν )

(ν )

  (ν )

hf = m f g af

(1.34)

vi m(f i) theo mt phân phi Bernoulli p, thông thưng p = 51 cho input layer và p = 21 cho nhng cái khác. Dropout [Srivastava et al., 2014] đưc xem là k thut regularization thành công nht cho ti khi Batch Normalization xut hin.

1.8.5 Batch Normalization Batch normalizationIoffe & Szegedy [2015] tính toán đ kt hp chun hóa minibatch cho tng loi d liu, ngay c input layer. Trong bài báo ban đu, các tác gi lp lun rng bưc này nên đưc thc hin sau các convolutional layer, nhưng trên thc t nó đã đưc chng minh là hiu qu hơn sau bưc không tuyn tính.

13

Hình 1.8: Neural network trong hình 1.1 vi dropout cho c các hidden layer và input. Thông thưng, mt t l khác nhau (thp hơn) dùng cho vic tc các nơ-ron ca input và các hidden layers.  đây, chúng tôi xem xét trưng hp ∀ν ∈ 0, N − 2 (t)(ν +1)

˜ (t)(ν )

hf

=

hf

− hˆ

(ν ) f

   (ν )

σ ˆf

2

,

(1.35)

+ 

vi ˆ (ν )

hf = 2

  (ν )

σ ˆf

=

1 T mb

1 T mb

T mb−1

(t)(ν +1)

 

hf

(1.36)

t=0

T mb−1

(t)(ν +1)

hf

t=0

−

ˆ (ν ) h f

2



.

(1.37)

Đ đm bo rng transform có th đi din cho identity transform, chúng ta thêm hai tham s b sung (γ f , β f ) vào mô hình.

14

(t)(ν )

yf

(ν ) ˜ (t)(ν ) (ν ) (ν ) (t)(ν ) ˜(ν ) . = γ f h + β f = γ˜f hf + β f f

(1.38)

H s β f (ν ) thúc đy chúng ta thoát khi xu hưng thiên v, vì nó đưc bao gm trong batchnorm. Trong quá trình hun luyn, ta phi tính tóa giá tr trung bình và phương sai, phc v cho vic đánh giá cross-validation và tp d liu kim tra (gi e là s các vòng lp – iterations/epochs)

      (t)(ν )

E

Var

 

(t)(ν +1)

hf

(t)(ν +1)

hf

 

e+1

=

+ ˆh(f ) ν

eE hf

e

e + 1

(t)(ν )

e+1

=

(ν )

eVar hf

e

,

+ σ ˆf

e + 1

(1.39)

2

(1.40)

và trong quá trình kim tra E

    (t)(ν )

hf

=

E

(t)(ν )

hf

,

Var

  (t)(ν )

hf

=

T mb T mb

−1

Var

  (t)(ν )

hf

.

(1.41)

vì vy (t)(ν )

(t)(ν )

yf

(ν )

= γ f

hf

(t)(ν )

− E [h

f

   (t)(ν )

V ar hf

]

(ν )

+ β f .

(1.42)

+ 

Trong thc t, có th đưc loi b dropout mà không mt đ chính xác khi s dng batch normalization.

1.9 Backpropagation Backpropagation LeCun et al. [1998] là k thut cơ bn đ gim loss function error t đó d đoán chính xác cái chúng ta cn. ging như cái tên, Nó đi ngưc li FNN vi cái error đưc xut ra và cp nht li trng s. Trong thc t, phi tính toán mt lot các gradient term, và đây là mt vic tính toán t nht. Tuy

15

nhiên, nu đưc thc hin đúng, đây là công vic hu ích và quan trng nht trong FNN. Do đó chúng tôi mô t s chi tit làm th nào đ tính toán mi trng s (và Batistorm coefficients) gradients.

1.9.1 Backpropagate thông qua Batch Normalization Backpropagation gii thiu mt gradient mi 

(t )(ν )



(tt )(ν )

f

δ f J f 

∂y f



=

(t)(ν +1)

∂h f

.

(1.43)

vi 

(tt )(ν )

J f

= γ˜f ( ) ν



t ν ˜ (t)(ν ) 1 + ˜h(f )( ) h f 



δ tt

−

T mb



.

(1.44)

1.9.2 Cp nht error Đ backpropagate giá tr loss error thông qua FNN, chúng ta cn tính toán error rate (t)(ν )

δ f

=

∂ (t)(ν )

∂a f

J (Θ) ,

(1.45)

vi ∀ν ∈ 0, N − 2 T mb−1 F ν +1 −1

(t)(ν )

δ f

= g



   (t)(ν )

t =0

giá tr δ f (t)(N

1)

−

f 

tt )(ν ) (t )(ν +1) δ f 

Θ(f +1) J f ( ν

af

,

(1.46)

f  =0

ph thuc vào loss function đã dùng. Vi MSE loss function (t)(N −1)

δ f

=

1 T mb



(t)(N )

hf

16

−y

(t)

f



,

(1.47)

và vi cross entropy loss function (t)(N −1)

1

=

δ f



(t)(N )

hf

T mb

f δ y(t)

−



.

(1.48)

(1.49)

Hp nht ký hiu ca các chương 1, 2 và 3, chúng tôi gi (t)(ν +1)

= g

Hf f





  (t)(ν )

af



(ν +1)f

Θf

,

vì vy quy lut cp nht cho error rate là

F ν +1 −1

T mb−1

(t)(ν )

δ f

=





(tt )(ν )

J f

(t)(ν +1) (t)(ν +1)



t =0

δ f

Hf f





.

(1.50)

f  =0

1.9.3 Cp nht trng s Thông qua vic tính toán error rate, đo hàm ca error rate đơn gin. Chúng ta có ∀ν ∈ 1, N − 1 Θ(ν )f

∆f



=

1 T mb



T mb−1 F ν +1 −1

F ν

 t=0





f =0 f =0

(ν )f

∂ Θf



(ν )f

∂ Θf

(t)(ν −1) (t)(ν )

yf

δ f





T mb −1

=



(t)(ν ) (t)(ν −1)

δ f

yf



.

t=0



(1.51)

và T mb−1

Θ(0)f

∆f



=

 t=0

17

(t)(0) (t)(0)

δ f

hf



.

(1.52)

1.9.4 Cp nht Coefficient Quy lut cp nht Batchnorm coefficient ccó th tính thông qua error rate. T mb−1 F ν +1 −1 γ ν ∆f ( )

=

 t=0

β (ν ) ∆f

=

 t=0

(t)(ν +1)



δ f



(i)

∂γ f

f  =0

T mb−1 F ν +1 −1

T mb−1 F ν +1 −1

(t)(ν +1)

∂a f

f =0

t=0

(t)(ν +1)



(i)

∂β f

δ f



=

 t=0

ν f ˜ (t)(i) (t)(ν +1) Θ(f +1) h δ f , f 



f  =0

T mb−1 F ν +1 −1

(t)(ν +1)

∂a f



=



(1.53) 

(ν +1)f

Θf

(t)(ν +1)

δ f



,

(1.54)

f =0 

1.10 D liu nào s dng cho gradient descent? T đu chúng ta đã kí hiu T mb d liu mu mà chúng ta s hun luyn mô hình. Th tc này đưc lp li vi thi gian dài (mi ln đưc gi là epoch). Tn ti ba cách đ ly mu t các d liu: Full-batch, Stochastic và Mini-batch gradient descent. Chúng tôi nêu rõ các điu khon này trong các phn sau. Chúng tôi nêu rõ các vn đ này trong các phn sau.

1.10.1 Full-batch Full-batch ly toàn b d liu  mi epoch, vì vy loss function là T train−1

J (Θ) =



J train (Θ) .

(1.55)

t=0

S la chn này có li th là n đnh v s lưng, nhưng nó rt tn kém thi gian tính toán nên nó him khi đưc s dng.

1.10.2 Stochastic Gradient Descent (SGD) SGD tính toán đ ly mt phn mu ca d liu trong mi epoch J (Θ) = J SGD(Θ) .

18

(1.56)

S la chn này dn đn vic tính toán nhanh hơn, nhưng vì vy không n đnh v s lưng. S la chn chun nht cho đn nay là Mini-batch gradient descent.

1.10.3 Mini-batch Mini-batch gradient descent là mt s tha hip gia s n đnh và hiu qu thi gian, là đim gia ca Full-batch và Stochastic gradient descent: 1  T mb  T train. Vì T mb −1

J (Θ) =



J mb(Θ) .

(1.57)

t=0

Tt c các tính toán trong báo cáo này đu s dng k thut gradient descent.

1.11 Nhng k thut Gradient optimization Khi mà các gradient cho backpropagation đưc tính toán, câu hi là làm th nào đ thêm chúng vào các trng s đã tn ti. Đơn gin nht là dùng (ν )f

Θf



(ν )f

= Θf



− η∆

Θ(i)f f 

.

(1.58)

vi η là mt tham s ngu nhiên đưc to bi cross-validation. Nó cũng có th đưc tính da vào epoch. Khi s dng Mini-batch gradient descent, s la chn cp nht này cho các trng s có th b kt  các đim local mininum. Mt s phương pháp đã đưc phát minh đ ngăn nga nguy cơ này. Chúng tôi s xem xét chúng trong các phn tip theo.

1.11.1 Momentum Momentum Qian [1999] đưa ra mt vec-tơ mi v e và s dng đ lưu các cp nht  nhng epoch trưc. Gi e là s epoch và b đi các ch s f, f , ν gradients đ gim bt ký hiu, chúng ta có 

ve = γ ve

1 + η ∆

−

19

Θ

,

(1.59)

và nhng trng s  mi epoch e s đưc cp nht như sau Θe = Θe γ là

1

−

−v

e

.

(1.60)

tham s mi, thưng là 0 .9 nhưng có th thay đi bi cross-validation.

1.11.2 Nesterov accelerated gradient Nesterov accelerated gradient Nesterov [1983] là mt s điu chnh nh ca k thut momentum cho phép gradients thoát các đim local minimum. ve = γ ve

1 + η ∆

−

Θ−γv e

1

−

,

(1.61)

và sau đó Θe = Θe

1

−

−v

e

.

(1.62)

Ti hin nay, tham s η kim soát magnitude vic cp nht luôn đưc thit lp toàn cc. Nó s tt hơn nu có mt s kim soát tt, đ trng s khác nhau có th đưc cp nht vi magnitudes khác nhau.

1.11.3 Adagrad Adagrad Duchi et al. [2011] cho phép tinh chnh các gradients khác nhau bng vic có learning rate riêng bit η. Cho mi giá tr ca f, f , i 

e−1

  ∆Θ e

ve =



2

,

(1.63)

e =0

quy lut cp nht như sau Θe = Θe

1

−

− √ v η +  ∆ e

Θ e

.

(1.64)

Li th ca Adagrad là learning rate η đưc thit lp mt ln và cho tt c (thưng là 10 2 ) và không cn chnh qua cross validation na, vì nó t điu chnh −

20

riêng bit cho tng trng s thông qua ve term.  dùng đ tránh các trưng hp chia cho 0, và nó thưng là 10 8 . −

1.11.4 RMSprop RMSprop là mt k thut điu chnh learning rate có tính thích nghi, nó chưa tng đưc công b, và đưc đ xut bi Geoff Hinton trong bài ging trên Coursera. Vì Adagrad thêm vào gradient t epoch đu tiên, các trng s b buc phi gim đơn điu. Điu này có th đưc gii quyt thông qua k thut Adadelta: ve = γ ve

1 + (1

−

− γ )∆

Θ e

,

(1.65)

vi γ là mt tham s mi, thưng là 0.9. Công thc Adadelta theo Adagrad như sau Θe = Θe

1

−

− √ v η +  ∆ e

η đưc

thit lp mt ln và cho tt c (thưng là

Θ

.

e

10

3

−

(1.66)

).

1.11.5 Adadelta Adadelta Zeiler [2012] là mt phn m rng ca RMSprop, vi mc đích b tham s η. Đ làm đưc điu đó, mt vec-tơ mi đưc gii thiu me = γ me 1 + (1 −

− γ )

 √ √

me 1 +  Θ ∆e ve +  −



2

,

(1.67)

và quy lut cp nht mi như sau Θe = Θe

1

−

√ m +  − √ v +  ∆ e−1 e

Θ e

.

(1.68)

Learning rate đã đưc tính hoàn toàn t quy tc, nhưng phương thc đ làm là ad hoc (thc hin ch vi mt mc đích c th). K thut ti ưu hóa tip theo và cui cùng đưc trình bày có v t nhiên hơn và là s la chn mc đnh đi vi mt s thut toán deep learning.

21

1.11.6 Adam Adam Kingma & Ba [2014] track c gradient và bình phương ca nó thông qua hai vec-tơ đc lp me = β 1 me

1 + (1

−

−

β 1 )∆Θ e ,

ve = β 2 ve + (1

−

β 2 ) ∆Θ e

2

 

,

(1.69)

vi β 1 và β 2 thưng là 0.9 và 0.999. Nhưng sc mnh và tính chc chn ca Adam nm  vic nó làm cho toàn b quá trình hc tp ph thuc yu t vào precise. Đ tránh nhng vn đ v s trong các bưc đu tiên, các vector này đưc thay đi t l m ˆ e =

me , 1 β 1e

vˆe =

−

ve . 1 β 2e

−

(1.70)

trưc khi vào các quy tc cp nht Θe = Θe

1

−

− √ vˆη +  mˆ

e

.

(1.71)

e

Đây là k thut ti ưu hoá đưc s dng trong bài báo cáo này, cùng vi đ gim learning rate ηe = e

α0

−

ηe

1

−

,

(1.72)

α0 đưc xác đnh bi cross-validation, và η 0 thưng bt đu trong khong 10

10

2

−

.

3

−

−

1.12 Khi to trng s Nu không có bt kỳ s điu chnh nào, hun luyn mt neural network là mt nhim v khó khăn do tinh chnh các điu kin ban đu ca trng s. Đây là mt trong nhng lý do ti sao neural network đã tri qua nhiu thi kỳ. T khi có dropout và Batch normalization, vn đ này ít đưc phát biu hơn, nhưng không nên khi to trng s theo kiu đi xng (tt c là zero) và cũng không nên khi

22

to chúng quá ln. Mt heuristic tt là

   

(ν )f

Θf

init

=

6 F ν + F ν +1

23

× N (0, 1) .

(1.73)

Chương 2 Convolutional Neural Networks 2.1 Gii thiu Trong chương này chúng ta s xem xét mt loi neural network có l là ph bin nht: Mng thn kinh xon (Convolutional Neural Network - CNN). CNN đc bit thích hp đ phân loi hình nh, có th là ch s hoc th loi đng vt, xe, v.v. Chúng tôi s gii thiu các đim mi liên quan đn CNN khi so sánh vi FNN. Theo đó là nhng khi xây dng cơ bn ca CNN: convolution và pooling. Ngoài ra chúng tôi s nói đn nhng thay đi phi chú ý khi áp dng các k thut regularization đưc gii thiu trong phn FNN. Cui cùng, chúng tôi s trình bày các kin trúc CNN ph bin nht: t LeNet đn ResNet.

2.2 Kin trúc CNN Mt CNN đưc hình thành bi mt s operation convolution và pooling, thưng là theo sau bi mt hoc nhiu fully connected layer (tương t như các layer FNN truyn thng). Chúng tôi s ch rõ các đim mi đưc gii thiu trong phn tip theo.

24

Hình 2.1: Mt kin trúc CNN (đây là LeNet): các convolution operation đưc theo sau là pooling operation, cho đn khi kích thưc feature map gim còn mt. Fully connected layers sau đó đưc kt ni.

2.3 Tính đc thù ca CNN 2.3.1 Feature map Trong mi layer ca CNN, d liu không còn đưc gn nhãn bi mt index như trong FNN. Chúng ta nên xem index trong FNN tương đương vi nhãn mt tm nh trong môt layer ca CNN. Nhãn này là mt feature map. Trong mi feature map f ∈ 0, F ν − 1 ca layer th ν , hình nh đưc đc trưng bi hai ch s b sung tương ng là chiu cao height k ∈ T ν − 1 và chiu rng j ∈ N ν − 1. Mt b f , j, k đc trưng cho mt pixel duy nht ca mt feature map. Bây gi chúng ta hãy xem xét các lp khác nhau ca CNN.

2.3.2 Input layer Chúng ta xét đu vi vi F 0 kênh. Vi mt nh thông thưng, kênh này tương ng vi kênh màu RGB (F 0 = 3). Mi nh trong mi kênh s có kích thưc N 0 × T 0 (rng × cao). Input s đưc kí hiu X f(tj) k , vi t ∈ 0, T mb − 1 (kích thưc ca Mini-batch, xem chương 1), j ∈ 0, N 0 − 1 và k ∈ 0, T 0 − 1.Mt cách x lý đu vào tiêu chun là tp trung d liu theo mt trong hai th tc sau (t)

(t)

˜ X f j k = X i j k

−µ

f

(t)

(t)

˜ X f j k = X i j k

,

25

−µ

f jk

(2.1)

Hình 2.2: Input layer vi µf =

µf j k =

T train−1 N 0 −1 T 0 −1

1 T train T 0 N 0

1 T train

t=0

T train −1



  (t)

X f j k .

j

(t)

X f j k ,

(2.2)

k

(2.3)

t=0

Điu này tương ng vi vic tính trung bình mi pixel trên tp hun luyn hoc trung bình trên mi pixel. Th tc này không nên đưc áp dng cho các bài toán regression. Đ kt lun, con s 2.2 cho thy lp đu vào trông như th nào.

2.3.3 Padding Khi chúng ta x lí, đ thun tin chúng ta "pad" các feature maps đ bo v chiu rng và chiu cao ca hình nh khi đi qua các hidden layer. Padding tăng thêm 0 quanh hình nh ban đu. Vi mt padding có kích thưc P , chúng tôi thêm P zeros vào đu mi hàng và ct ca mt feature map nht đnh. Điu này đưc minh ha trong hình 2.3

2.3.4 Convolution Convolution operation đưc đt tên cho CNN vì đây là khi chính ca loi neural network này. Nó nhn mt feature map vào mt input hidden layer vi mt ma trn trng s đ to ra mt feature map đu ra. Các trng s này là các tensor 4

26

Hình 2.3: Padding ca feature map. Nhng s không đưc thêm vào là nhng tile màu đ, kích thưc padding này là P = 1.

Hình 2.4: Convolution operation chiu, mt chiu (F ) là s lưng feature map ca convolutional input layer, mt chiu (F p) là s lưng feature map ca convolutional output layer. Hai cái khác là chiu rng và chiu cao ca receptive field. Receptive field cho phép convolute mt tp con thay vì c nh. Nó nhm mc đích tìm kim các mu tương t trong hình nh đu vào, không quan tâm vic mu  đâu (translational invariance). Chiu rng và chiu cao nh đu ra cũng đưc xác đnh bi stride: đơn gin là s pixel theo đó mt slide theo chiu dc và/hoc hưng ngang trưc khi áp dng li convolution operation. Vì R C là kích thưc ca convolutional receptive field (pooling operation cũng có receptive field và stride) và S C là convolutional stride. Chiu rng và chiu cao ca hình đu ra có th đưc tính theo chiu rng đu vào N và chiu cao đu

27

vào T N p =

N + 2 P S C

− R

C

+ 1 ,

T p =

T + 2P RC + 1 . S C

−

(2.4)

Thông thưng mt padding s bo v chiu rng và chiu cao ca hình nh đu vào N = N p = T = T p, nên S C = 1 và P =

− 1 .

RC

2

(2.5)

Vi layer n cho trưc, convolution operation có công thc (tương t quá trình cân bng trng s ca FNN) F ν −1 RC −1 RC −1

(t)(ν )

af l m =



f  =0 j =0

(o)f

(t)(ν )

Θf j k hf S C l+ j S C m+k , 



(2.6)

k=0

vi o đc trưng cho convolution th o + 1 trong network. ν kí hiu hidden layer th ν ca network (thuc đon 0, N − 1), và f ∈ 0, F ν +1 − 1, l ∈ 0, N ν +1 − 1 và m ∈ 0, T ν +1 − 1. Như vy S C l + j ∈ 0, N ν − 1 và S C l + j ∈ 0, T ν − 1. Và khi s dng các hidden unit thông qua activation function ReLU (xem chương 1). Ta có (t)(ν +1) hf l+P m+P

 

) = g a(f )( lm t ν

.

(2.7)

2.3.5 Pooling Pooling operation, ngày càng ít đưc s dng trong các CNN tiên tin, v cơ bn là mt hot đng gim kích thưc. Nó tính trung bình hoc ly ti đa sub-image – đc trưng bi pooling receptive field RP và stride S P – ca input feature map F đ có đưc output feature map F p = F vi chiu rng N p < N và chiu cao T p < T . Lưu ý: giá tr padding ca input hidden layer không đưc tính trong pooling operation (bi vì nhng ch s +P trong cách công thc sau)

28

Hình 2.5: The pooling operation Công thc average pooling procedure ca pooling operation th ν RP −1

(t)(ν )

af l m =



(t)(ν )

(2.8)

(t)(ν )

(2.9)

hf S P l+ j +P S P m+k+P ,

j,k=0

Công thc max pooling (t)(ν )

RP −1

af l m = max hf S P l+ j +P S P m+k+P . j,k=0

Vì ν kí hiu hidden layer th ν ca network (thuc đon 0, N − 1), và f ∈ 0, F ν +1 − 1, l ∈ 0, N ν +1 − 1 và m ∈ 0, T ν +1 − 1. Do đó S P l + j ∈ 0, N ν − 1 và S P l + j ∈ 0, T ν − 1. Max pooling thưng đưc s dng rng rãi, và do đó chúng tôi s dùng nó trong tt c các sau. Kí hiu các ch s j (t)( p) , k(t)( p) mà ti đó l, m đt maximum ca feature map f thuc batch sample th t có th đt đưc, chúng ta có flm

(t)(ν +1)

(t)(ν )

hf l+P m+P = a f l m = h

(t)(ν ) (t)(p)

(t)(p)

f S P l+ jfl m +P S P m+kflm +P

.

flm

(2.10)

2.3.6 Towards fully connected layers  vài đim ca CNN, convolutional receptive field bng vi chiu rng và chiu cao ca nh. Trong trưng hp này, convolution operation tr thành mt loi quá trình cân bng trng s (như trong FNN).

29

Hình 2.6: Fully connected operation đ ly chiu rng và chiu cao 1. Quá trình cân bng trng s dùng F ν −1 N −1 T −1

(t)(ν )

af

=

 

Θ(f )lm h(f )(l+P) m+P , o f

t ν





(2.11)

f  =0 l=0 m=0

và đưc theo sau bi hàm kích hot (t)(ν +1)

hf

  (t)(ν )

= g af

,

(2.12)

2.3.7 Fully connected layers Sau nhng operation phía trưc, phn còn li ca network là mt FNN. Quá trình cân bng trng s dùng F ν −1

(t)(ν )

af

=



Θ(f ) h(f )( ) , o f 

t ν 

(2.13)

f  =0

và thưng đưc theo sau bi hàm kích hot (t)(ν +1)

hf

  (t)(ν )

= g af

30

,

(2.14)

Hình 2.7: Fully connected operation, ging như FNN operations.

2.3.8 Output connected layer Cui cùng, đu ra đưc tính bng mt FNN F N −1

(t)(N −1)

af

=



(o)f (t)(N −1)

Θf hf 



(t)(N )

,

hf

f =0 



(t)(N −1)

= o af



,

(2.15)

và trong FNN, o có th là L2 hoc cross-entropy loss function (xem chương 1).

2.4 Các điu chnh vi Batch Normalization Trong CNN, Batch normalization đưc thay đi theo cách sau (bi vì, trái vi mt FNN, không phi tt c hidden layers cn đưc Batch normalize. Thc t hot đng này không đưc thc hin trên đu ra ca các pooling layers. Chúng tôi s dùng tên khác là ν và n các hidden layer thông thưng và batch normalized hidden layer)

31

(t)(ν )

˜ (t)(n)

hf l m =

hf l m

− hˆ

(n) f

   (n)

σ ˆf

2

,

(2.16)

+ 

vi ˆ (n)

hf = 2

  (n)

σ ˆf

=

T mb−1 N n −1 T n −1

1

(t)(ν )

T mbN n T n

    

hf l m

t=0

l=0

m=0

T mb−1 N n −1 T n −1

1 T mbN n T n

ˆ (n)

(t)(ν )

−h

hf l m

t=0

l=0

(2.17)

f

m=0

2



Vic chuyn đi có th đưc thc hin nh hai tham s b sung

.

(2.18)

(γ f , β f )

(t)(n) (n) ˜ (t)(n) (n) yf l m = γ f h f l m + β f .

(2.19)

Đi vi vic đánh giá ca cross-validation và tp kim tra (gi e là s ln lp – epochs), chúng ta có th tính

              và trong lúc kim th là and . (t)(ν )

E

(t)(ν )

hf l m

e+1

=

eE hf l m

+ ˆhf

(n)

e

e + 1

(t)(ν )

Var

(t)(ν )

hf l m E

e+1

(t)(ν )

hf l m

=

iVar hf l m

(n)

e

+ σ ˆf

e + 1

T mb Var T mb−1

,

(2.20)

2

(2.21)

(t)(ν )

hf l m

2.5 Các kin trúc CNN Chúng tôi s gii thiu các kin trúc CNN chun đã đưc gii thiu trong 20 năm qua, t cái cũ nht cho đn cái mi nht vào cui năm 2015. Đ biu din d dàng, chúng tôi s áp dng sơ đ biu din dưi đây cho các lp khác nhau.

32

I n = p , u t

C = o , n v

P = o , o l

F = u l l

Hình 2.8: Sơ đ đi din ca các layer khác nhau

2.5.1 Realistic architectures Trong realistic architectures, mi fully connected layer (tr cái cui cùng liên kt vi output) đưc theo sau bi mt hàm kích hot RELU (or cái khác) và sau đó là môt bưc batch normalization (hai bưc x lí này có th đo ngưc). Chúng tôi s áp dng các mô t đơn gin hóa  bên phi. Cùng nhng đ cp ca Gu et al. [2015] v nhng tip b gn đây ca CNN, bây gi chúng tôi bt đu vi CNN đu tiên đưc s dng bi cng đng deep learning.

,

Hình 2.9: Realistic Fully connected operation và Realistic Convolution operation

33

I n p u t

C o n v

P o o l

C o n v

P o o l

F u l l

O u t p u t

Hình 2.10: The LeNet CNN I n p u t

C o n v

P o o l

C o n v

P o o l

C o n v

C o n v

C o n v

P o o l

F u l l

F u l l

F u l l

O u t p u t

Hình 2.11: The AlexNet CNN

2.5.2 LeNet LeNet network Lecun et al. [1998] bao gm mt input, theo đó là hai layer convpool và mt fully-connected layer trưc mt layer output cui cùng. It can be seen in figure 2.1 Khi x lí nh ( 224 × 224), mô hình này dùng mt kích thưc ln cho các receptive field và các stride. Điu này có hai nhưc đim. Đu tiên, s hoc tham s trong mt ma trn trng s cho trưc t l thun vi kích thưc ca receptive field, do đó dn đn s lưng ln các tham s. Network có th d b overfit. Th hai, stride rng và receptive field rng có nghĩa là phân tích ít tinh t v cu trúc ca hình nh. Tt c các trin khai CNN tip theo nhm mc đích gii quyt mt trong hai vn đ này.

2.5.3 AlexNet AlexNet Krizhevsky et al. [2012] không thy bưc nhy vt trong lý thuyt CNN, nhưng do các b vi x lý tt hơn đã có th dùng nhiu các hidden layer hơn. Network này vn đưc s dng ph bin, mc dù ít hơn k t khi VGG network xut hin.

34

I n p u t

C o n v

C o n v

P o o l

C o n v

C o n v

P o o l

C o n v

C o n v

C o n v

P o o l

C o n v

C o n v

C o n v

P o o l

C o n v

C o n v

C o n v

P o o l

F u l l

F u l l

F u l l

O u t p u t

Hình 2.12: The VGG CNN I n p u t

C o n v

P o o l

C o n v

C o n v

P o o l

I n c e p

I n c e p

P o o l

I n c e p

I n c e p

I n c e p

I n c e p

I n c e p

P o o l

I n c e p

I n c e p

P o o l

F u l l

O u t p u t

Hình 2.13: The GoogleNet CNN

2.5.4 VGG VGG network Simonyan & Zisserman [2014] thông qua mt tiêu chun đơn gin: ch cn các padding 2×2 ca stride 2 và convolutions 3×3 vi stride 1 và padding 1, đ gi chiu rng và chiu cao ca hình nh thông qua các convolution operation. Network này là mt trong nhng network tiêu chun trong hu ht các deep learning package v CNN. Mc dù nó không còn là network tiên tin nht, nhưng mt s đi mi v thit k đã xy ra k t khi nó đưc to ra.

2.5.5 GoogleNet GoogleNet Szegedy et al. [2015] gii thiu mt loi "layer" mi (trên thc t là s kt hp các layer đã tn ti): inception layer (đưc đ cp đn b phim ca Christopher Nolan). Thay vì đưa tt c vào t mt layer đn layer k tip bng mt operation đơn gin như pool, conv hoc fully-connected (fc), h dùng mt kt qu trung bình ca chúng. Ý tưng kt hp kt qu ca mt vài conv-pool operation đ đi đn hidden layer k tip đã bt đu đưc s dng. Mô hình tip theo s dng rt đơn gin và đã tr thành mô hình tiên tin nht: ResNet.

35

Output

Output

+

+ BN 3

Conv 1

Relu 3 Conv 3

Conv 3

=

BN 2

Res

Relu 2 Conv 2

Conv 1

=

Res

BN 1 Relu 1 Conv 1

Input

Input

Hình 2.14: Kin trúc Bottleneck Residual. Sơ đ trên lí thuyt bên trái, thc t  bên phi. Nó cn mt 1 × 1 conv vi stride 1 và padding 0, sau đó mt VGG conv chun và 1 × 1 conv. I n p u t

C o n v

P o o l

P o o l

O u t p u t

Hình 2.15: The ResNet CNN

2.5.6 ResNet ResNet He et al. [2015] ly ý tưng đơn gin ca VGG đ luôn s dng cùng kích c cho các convolution operation (Tr cái đu tiên). Nó cũng tính đn thc t thc nghim: fully connected layer không thc s cn thit đ hot đng tt. (thưng cha hu ht các thông s kích thưc). Loi b chúng dn đn gim s lưng các thông s ca CNN. Ngoài ra, pooling operation cũng ít ph bin hơn và có xu hưng đưc thay th bng các convolution operation. Điu này đưa đn block xây dng cơ bn ResNet, Residual module trong hình 2.14. ResNet CNN đã có các kt qu tiên tin nht trên các b d liu hun luyn ph bin (CIFAR, MNIST ...).

36

2.6 Backpropagation Trong FNN, cn phi tính hai loi backpropagation: t output đn fully connected (fc) lp và t fc đn fc. Nhưng trông CNN, có 4 loi propagations mi cn tính: fc đn pool, pool đn conv, conv đn conv và conv đn pool. Chúng tôi s xem xét mt FNN vi mt input layer có nhãn 0 , N-1 hidden layers có nhãn i và mt output layer có nhãn N (N + 1 layer trong network).

2.6.1 Backpropagate trong Batch Normalization Ging như trong FNN, backpropagation gii thiu mt gradient mi 

(t )(n)

f

∂y f



(tt )(n)

l  m (t)(ν ) ∂h f l m 

δ f J f ll mm = 





.

(2.22)

Vi các pool layer và conv layer 

(tt )(n)

(n)

J f ll mm = γ ˜f 





(t )(n) ˜ (t)(n) 1 + ˜h h 







m δ tt δ ll δ m

−

f l  m

f lm

T mbN n T n



,

(2.23)

và vi các fc layer 

(tt )(n)

J f



= γ˜f ( ) δ tt n

(t )(n) ˜ (t)(n) 1 + ˜hf hf 



−

T mb



.

(2.24)

2.6.2 Cp nht Error Chúng ta s xét error rate riêng cho CNN ∂

(t)(ν )

δ f l(+P )m(+P ) =

(t)(i)

∂a f l m

J (Θ) ,

2.6.2.1 Backpropagate t output đn fc Quá trình backpropagate t output đn fc đưc minh ha theo Hình 2.16

37

(2.25)

O u t p u t

F u l l

Hình 2.16: Backpropagate t output đn fc. F u l l

F u l l

Hình 2.17: Backpropagate t fc đn fc. Ta có L2 loss function (t)(N −1)

δ f

=

1 T mb



(t)(N )



(t)(N )

hf

−y

(t)

f



,

(2.26)



,

(2.27)

và cross-entropy là (t)(N −1)

δ f

=

1 T mb

hf

−

f δ y(t)

2.6.2.2 Backpropagate t fc đn fc Quá trình backpropagate t fc đn fc đưc minh ha theo Hình 2.17 Tương t FNN, ta có: T mb −1 F ν +1 −1

(t)(ν )

δ f

= g



   (t)(ν )

af

t =0

o f 

tt )(n) (t)(ν +1) δ f 

Θ(f ) J f (

,

f  =0

2.6.2.3 Backpropagate t fc đn pool Quá trình backpropagate t fc đn pool đưc minh ha theo Hình 2.18 Vi error rate là

38

(2.28)

P o o l

F u l l

Hình 2.18: Backpropagate t fc đn pool. C o n v

P o o l

Hình 2.19: Backpropagate t pool đn conv.

F ν +1 −1

(t)(ν )

δ f lm =





(o)f

(t)(ν +1)

Θf l m δ f



,

(2.29)

f  =0

2.6.2.4 Backpropagate t pool đn conv Quá trình backpropagate t pool đn conv đưc minh ha theo Hình 2.19 Xét pooling layer th p, error rate là:

(t)(ν ) δ f l+P m+P

= g



T mb−1 N ν +1 −1 T ν +1 −1

    (t)(ν )

af l m

t =0

l =0



(t )(ν +1)

δ f l m 



m =0



(tt )(n)

× J

(t )(p) +P fl  m

f S P l + j

(t )(p) +P f l m

S P m +k

l+P m+P

.

2.6.2.5 Backpropagate t conv đn conv Backpropagate t conv đn conv đưc minh hot trong hình 2.20

39

(2.30)

C o n v

C o n v

Hình 2.20: Backpropagate t conv đn conv. P o o l

C o n v

Hình 2.21: Backpropagate t conv đn pool. Error rate là: (t)(ν ) δ f l+P m+P

= g



T mb−1 F ν +1 −1 N ν +1 −1 T ν +1 −1 RC −1 RC −1

      (t)(ν )

af l m

t =0

×Θ



(o)f

f  =0

l =0

m =0

j =0

 



k=0



(tt )(n)

f j k J f S C l + j S C m +k l+P m+P 



(t )(ν +1)

δ f l +P m +P



(2.31)

2.6.2.6 Backpropagate t conv đn pool Backpropagate t conv đn pool đưc minh hot trong hình 2.21 Error rate là F ν +1 −1 RC −1 RC −1

(t)(ν )

δ f lm =

 

f  =0

j =0

(o)f

(t)(ν +1) j +P m+SP S

Θf j k δ f l+P 

−

C

k=0

k

−

C

+P

.

(2.32)

2.6.3 Cp nht trng s Chúng ta s quan tâm đn các trng s gia layer fc đn fc, fc đn pool, conv đn conv, conv đn pool và conv đn input.

2.6.3.1 Cp nht trng s t fc đn fc Đi vi các tương tác hai layer như trong hình 2.22.

40

F u l l

F u l l

Hình 2.22: Cp nht trng s gia hai fc layer P o o l

F u l l

Hình 2.23: Cp nht trng s gia fc layer và pool layer. Ta có công thc cp nht trng s T mb−1

Θ(o)f

∆f



=



(t)(n) (t)(ν )

yf



δ f

(2.33)

t=0

2.6.3.2 Cp nht trng s t fc đn pool Đi vi các tương tác hai layer như trong hình 2.23. Ta có công thc cp nht trng s T mb−1

Θ(o)f

∆f jk = 



(t)(ν )

(t)(ν )

hf j +P k+P δ f 

t=0

2.6.3.3 Cp nht trng s t conv đn conv Đi vi các tương tác hai layer như trong hình 2.24. C o n v

C o n v

Hình 2.24: Cp nht trng s gia hai conv layer.

41

(2.34)

P o o l

I n p u t

C o n v

C o n v

Hình 2.25: Cp nht trng s t conv đn pool cũng ging như t conv đn input. F u l l

F u l l

Hình 2.26: Cp nht Coefficient gia hai fc layer. Ta có công thc cp nht trng s Θ(o)f

∆f jk = 

T mb−1 T ν +1 −1 N ν +1 −1

  t=0

l=0

(t)(n) (t)(ν ) l+ j m +k δ f l+P m+P

yf



(2.35)

m=0

2.6.3.4 Cp nht trng s t conv đn pool và conv đn input Đi vi các tương tác hai layer như trong hình 2.25. Ta có công thc cp nht trng s T mb−1 T ν +1 −1 N ν +1 −1

Θ(o)f

∆f jk = 

  t=0

l=0

(t)(ν ) (t)(ν ) l+ j m +k δ f l+P m+P

hf



(2.36)

m=0

2.6.4 Cp nht Coefficient Đi vi vic cp nht Coefficient, ta quan tâm đn các trng s gia fc đn fc, fc đn pool, conv đn pool và conv đn conv.

2.6.4.1 Cp nht Coefficient t fc đn fc Vi hai layer như trong hình 2.26 Chúng ta có

42

P o o l

F u l l

P o o l

C o n v

Hình 2.27: Cp nht Coefficient t fc đn pool cũng ging như t conv đn pool. C o n v

C o n v

Hình 2.28: Cp nht Coefficient gia hai conv layer.

γ (n) ∆f

T mb−1 F ν +1 −1

=

  t=0

=

t=0

˜ h f

(t)(n) (t)(ν )

δ f



,

f  =0

T mb−1 F ν +1 −1 β n ∆f ( )



(o)f

Θf

o f 

Θ(f ) δ f ( )( ) , t ν 

(2.37)

f =0 

2.6.4.2 Cp nht Coefficient t fc đn pool và conv đn pool Vi hai layer như trong hình 2.27 T mb−1 N ν +1 −1 T ν +1 −1 γ n ∆f ( )

=

    t=0

l=0

m=0

˜ h

(t)(n)

(t)(ν )

(t)(p)

f S P l+ jf lm +P S P m+kfl m +P

T mb−1 N ν +1 −1 T ν +1 −1 β (n) ∆f

=

t=0

l=0

(t)(p)

(t)(ν )

δ f lm ,

m=0

2.6.4.3 Cp nht Coefficient t conv đn conv Vi hai layer như trong hình 2.28

43

δ f lm ,

(2.38)

Ta có γ (n) ∆f

T mb−1 F ν +1 −1 N ν +1 −1 T ν +1 −1 RC −1 RC −1

=

          t=0

f  =0

l=0

m=0

j =0

=

t=0

f =0 

l=0

m=0

j =0

44





k=0

T mb−1 F ν +1 −1 N ν +1 −1 T ν +1 −1 RC −1 RC −1 β n ∆f ( )

(o)f ˜ (t)(n) (t)(ν ) Θf jk h f l+ j m +k δ f l+P m+P ,

k=0

o f 

Θ(f jk) δ f ( )(l+)P m+P . t ν 

(2.39)

Chương 3 Recurrent Neural Networks 3.1 Gii thiu Trong chương này, chúng tôi s gii thiu kin trúc Neural Network th ba: Recurrent Neural Networks Graves [2011]. Ngưc li vi CNN, loi network này gii thiu mt kin trúc thc s mi: thay vì ch forward theo hưng "không gian", d liu cũng đưc forward trong mt hưng mi – hưng ph thuc thi gian. Chúng tôi s gii thiu mô hình đu tiên ca kin trúc Recurrent Neural Network (RNN), cũng như mô hình đang ph bin hin ti: Long Short Term Memory (LSTM).

3.2 Kin trúc RNN-LSTM 3.2.1 Hưng Forward trong RNN-LSTM Trong hình 3.1, chúng ta trình bày kin trúc RNN theo cách sơ đ. Đim mi ca loi neural network này là chúng ta đang c gng d đoán mt chui thi gian đưc mã hóa trong kin trúc ca mng. RNN ln đu tiên đưc gii thiu đ d đoán các t tip theo trong mt câu (bài toán phân loi), do đó tp trung vào trình t thi gian trong vic d đoán. Nhưng loi kin trúc neural network này cũng có th đưc áp dng cho các bài toán regression, như s bin đi giá c phiu, hoc d báo nhit đ. Khác vi các neural network mà chúng

45

Hình 3.1: Kin trúc RNN, vi d liu đưc lan truyn theo c "không gian" và "thi gian". Trong ví d, chiu thi gian có kích thưc là 8, không gian có kích thc là 4. tôi đã gii thiu, chúng tôi đnh nghĩa (kí hiu ν trong các chương trưc đó ch s lp theo hưng không gian) (t)(ν )

=

(t)(ν +1)

=

af hf

  Weight Averaging   Activation function (t)(ν )

hf

(t)(ν )

af

,

,

(3.1)

Bây gi chúng ta có các hidden layer đưc index bi c hai ch s "không gian" và "thi gian" (vi T là kích thưc network theo hưng mi này) và trit lý chung ca RNN là (a thưng đt trưng bi c cho trng thái ca cell, kí hiu này giúp ta d hiu khi nói v LSTM network) (t)(ντ )

cf

(t)(ντ )

hf

= =

 Weight Averaging

(t)(ντ −1)

hf

, hf

  Activation function 46

(t)(ντ )

cf

(t)(ν −1τ )

,



,

(3.2)

Hình 3.2: Hưng backward trong kin trúc. Do đó không th tính toán gradient ca mt layer mà không tính toán nhng cái mà nó đã đi qua.

3.2.2 Hưng backward trong RNN-LSTM Hưng backward trong RNN-LSTM phi tuân theo mt th t thi gian nht đnh, như minh ha trong hình 3.2. Bây gi chúng ta hãy xem chi tit v cách implementation ca RNN và mô hình tiên tin hơn ca nó, Long Short Term Memory (LSTM).

3.3 Extreme Layers và loss function Nhng phn sau ca RTS-LSTM network đã có nhng thay đi, chúng ta hãy xem xét chúng.

3.3.1 Input layer Trong RNN-LSTM, the input layer đưc đnh nghĩa như sau (t)(0τ +1)

hf

˜ h f

(t)(0τ )



˜ (t)(0τ )

= hf

(t)(N −1τ )

, hf

là h(f t)(0τ ) vi ct ln đu tiên đưc g b.

47



.

(3.3)

3.3.2 Output layer Output layer trong RNN-LSTM F N −1 −1

(t)(N τ )

hf

= o



Θf f h(f )(

t N −1τ )



f  =0



,

(3.4)

vi output function o ging như FNN và CNN cho c identity function (bài toán regression) hay cross-entropy function (bài toán nhn dng).

3.3.3 Loss function Loss function cho bài toán regression J (Θ) =

T mb−1 T −1 F N −1

1 2T mb



(t)(N τ )

hf

t=0

τ =0 f =0

2



.

(3.5)

 

.

(3.6)

−y

(t)(τ )

f

và cho bài toán phân loi J (Θ) =

1

− T

mb

T mb−1 T −1 C −1

  t=0

τ =0 c=0

δ c(t)(τ ) yc

(t)(N τ )

ln hf

3.4 Các đc trưng ca RNN 3.4.1 Cu trúc RNN RNN là mt cu trúc rt đơn gin s dng cu trúc thi gian ca d liu đ d đoán. Hãy xem chi tit lp hidden layer trong hình 3.1  hình 3.3, đây chính là mt mô hình Recurrent Neural Network đơn gin. Và cách mà output ca hidden layer đưc trình bày trong hình 3.3 đi vào các hidden unit khác  hình 3.4 Chúng tôi s mô t toán nhng gì đưc th hin trong hình 3.3 và 3.4.

48

Hình 3.3: Các chi tit ca RNN hidden unit

Hình 3.4: Cách hidden unit RNN tương tác vi nhau.

49

3.4.2 Forward pass trong RNN Trong RNN, Các quy lut cp nht cho ln đu là (spatial layer  bên trái cùng trong hình 3.1) F ν −1 −1

(t)(ντ )

hf

= tanh



ν (ν )f (t)(ν −1τ ) hf  

Θf

f  =0



,

(3.7)

và cho các ln khác F ν −1 −1

(t)(ντ )

hf

= tanh



F ν −1 ν (ν )f (t)(ν −1τ ) hf  

Θf

τ (ν )f (t)(ντ −1) hf  



+

f =0

Θf

f =0







.

(3.8)

3.4.3 Backpropagation trong RNN Trit lý backpropagation s không thay đi: tìm các cp nht error rate, t đó suy lun đn cp nht trng s. Nhưng vi các hidden layer, δ bây gi có hai phn là spatial component và temporal component. Do đó ta phi tính (t)(ντ )

δ f

=

δ (t)(ν +1τ )

δhf

J (Θ) ,

(3.9)

(3.10)

đ suy lun f ∆Θindex = f 

δ δ ∆Θindex f

f

J (Θ) ,



vi index có th không tn ti (trng s ca ouput layer), ν (ν ) (trng s gia hai spatially connected layer) or τ (ν ) (trng s gia hai temporally connected layers). D dàng tính đưc MSE loss function (ging như cách ca chương 1 cho FNN) (t)(N −1τ )

δ f

=

1 T mb



(t)(N τ )

hf

50

−y

(t)(τ )

f



,

(3.11)

và cho cross entropy loss function (t)(N −1)

=

δ f

1 T mb

Gi (t)(ντ )

T f

và 

(t )(ντ )a

Hf f





=1

(t)(N τ )

−

hf

f δ y(t)(τ )

  − (t)(ντ )

hf

t )(ν +1τ )

= T f (



2



a ν +1)f 

(3.12)

,

Θf (

.

(3.13)

,

(3.14)

chúng ta có (nu τ + 1 tn li) T mb

(t)(ν −1τ )

δ f

=

 t =0

1 

(tt )(ντ )

J f

F ν +1− −1

 =0



(t )(ν −τ +)b (t )(ν −τ +)

Hf f



δ f





.

f  =0

vi b0 = ν và b1 = τ .

3.4.4 Cp nht trng s và coefficient trong RNN Đ hoàn tt thut toán backpropagation, chúng ta có

51

(3.15)

ν (ν −)f ∆f 

T −1 T mb−1

=

(t)(ντ ) (t)(ν −1τ ) (t)(ν −1τ )

       δ f

T f

τ =0

hf



,

(3.16)

,

(3.17)

t=0

T −1 T mb−1

τ ν f ∆f ( )

=

(t)(ντ ) (t)(ν −1τ ) (t)(ντ −1)

τ =1

=

β ντ )

=

1



(t )(ν −τ +)b (t )(ν −τ +)

δ f



=0





,

(3.19)

f  =0

1

F ν +1− −1

˜ (t)(ντ )

hf

t=0

(3.18)

F ν +1− −1

Hf f

T mb−1

=

,

t=0

t=0

γ (ντ ) ∆f

δ f



T mb−1

∆f (



(t)(N −1τ ) (t)(N −1τ )

hf

τ =0

hf

t=0

T −1 T mb−1

∆f f 

δ f

T f

=0



(t )(ν −τ +)b (t )(ν −τ +)

Hf f



δ f





.

(3.20)

f  =0

3.5 Đc trưng ca LSTM Mc dù RNN trên lý thuyt có th h nhng dependency dài, nhưng trên thc t chúng tht bi khi làm th và có xu hưng tr trên thiên v (biased toward) vi nhng đu vào gn nht trong chui Bengio et al. [1994]. Mng b nh dài hn-ngn hn (Long Short-term Memory Networks - LSTMs) đã đưc thit đ khc phc vn đ này bng cách kt hp mt cell b nh và đã đưc chng minh là nm bt đưc các dependency trong mt khong dài.

3.5.1 Cu trúc LSTM Trong mt Long Short Term Memory Neural Network Gers et al. [2000], trng thái ca mt unit nht đnh không đưc xác đnh trc tip bi các hàng xóm bên trái và phía dưi. Thay vào đó, trng thái ca cell đưc cp nht mi hidden unit, và output ca unit này là mt probe ca trng thái cell. Công thc này có v như khó hiu lúc đu, nhưng trit lí ca nó tương t như cách tip cn ResNet  chương 1: thay vì c gng đ input phù hp vi mt function phc tp, chúng ta c gng lp các bin th nh ca input, do đó cho phép gradient đi qua mt cách mưt mà hơn trong network. Trong mt LSTM network, nhiu gate đưc

52

h(

ν τ

c(

ν τ

)

h(

ν τ

−1)

)

h(

ν τ

)

h(

ν τ

)

c(

ν τ

−1)

+

×

f ( h(

ν τ

+

Θf τ (ν )

ν τ

σ

)

σ

×

(ν τ )

i

h

(ν τ −1)

Θiτ (ν )

h

(ν τ −1)

Θ

+

g

ν τ

−1)

o(

ν τ

−1 τ )

ν

h(

−1 τ )

ν

Θgν (ν )

h(

−1 τ )

ν

h(

)

h(

)

×

+

h(

)

ν τ

Θoτ (ν )

Θiν (ν )

h(

ν τ

)

+

Θf ν (ν )

)

tanh

tanh

gτ ( ν )

h(

ν τ

(ν τ )

σ

h(

)

ν τ

Θoν (ν )

h(

−1 τ )

ν

Hình 3.5: Chi tit LSTM hidden unit gii thiu : input gate i(f t)(ντ ) xác đnh nu chúng cho phép thông tin mi gf (t)(ντ ) đi vào cell state. The output gate o (f t)(ντ ) xác đnh vic thit lp hay không output hidden value bng 0 , hoc là probe ca trng thái cell hin ti. Cui cùng, forget state f f (t)(ντ ) xác đnh vic có quên hay không trng thái cũ ca cell. Tt c các khái nim này đưc minh ha trên hình 3.5. Sơ đ này s đưc gii thích chi tit trong phn tip theo. Trong mt LSTM, các hidden unit khác nhau tương tác theo cách sau trong hình 3.6

3.5.2 Hưng forward trong LSTM Xem tt c các giá tr ca τ − 1 là 0 khi các gate: input, forget và output

53

τ = 0,

chúng ta có công thc sau cho

h(

ν τ

c(

ν τ

)

h(

ν τ

ν τ

−1)

σ

+

Θgτ (ν)

σ

ν τ

)

c(

×

i(

)

+

−1)

Θiτ (ν)

(ν τ −1)

Θgτ (ν)

ν τ

h(

ν τ

)

ν τ

h(

)

+

× ν τ

ν τ

h(

−1)

f ( h(

)

h(

ν τ

−1)

ν τ

)

tanh

o(

ν τ

h(

−1 τ )

ν

h(

h

Θgν (ν)

−1 τ )

ν

h(

)

×

−1 τ )

ν

(ν τ )

h(

+ Θ

h(

ν τ

)

+

iν (ν )

)

tanh

Θoτ (ν)

Θf ν (ν)

h(

ν τ

g(

σ h

)

ν τ

)

Θoν (ν)

h(

−1 τ )

ν

Hình 3.6: Cách các LSTM hidden unit tương tác vi nhau

F ν −1 −1

(t)(ντ )

if

= σ

  

F ν −1 i (ν )f (t)(ν −1τ ) hf  

Θf ν

+

f  =0

f f

= σ

F ν −1 f (ν )f (t)(ν −1τ ) Θf ν hf 

+

f  =0

of

= σ

F ν −1 o ν f t ν − τ Θf ν ( ) h(f )( 1 )

+

f =0

Θf τ ( o



ν )f (t)(ντ −1) hf 

f =0



  

f (ν )f (t)(ντ −1) hf  

Θf τ

f  =0

F ν −1 −1

(t)(ντ )

i (ν )f (t)(ντ −1) hf  

Θf τ

f  =0

F ν −1 −1

(t)(ντ )

   

,

(3.21)

,

(3.22)

.

(3.23)

Hàm sigmoid chính là lý do ti sao các hàm i, f , o đưc gi là gate: chúng nhn giá tr t 0 đn 1, do đó cho phép hoc ngăng không cho thông tin đi đn bưc k tip. Nhng cp nht trng thái ca cell đưc thc hin theo cách sau F ν −1 −1

(t)(ντ )

gf

= tanh



F ν −1 g (ν )f (t)(ν −1τ ) hf  

Θf ν

+

f  =0

(t)(ντ )

cf

= f f ( )(

t ντ ) (t)(ντ −1) cf



g (ν )f (t)(ντ −1) hf  

Θf τ

f  =0

+ i(f )(

t ντ ) (t)(ντ ) gf

54

,



,

(3.24) (3.25)

và như đưc gii thiu, cp nht hidden state ch là mt probe ca trng thái cell hin ti (t)(ντ )

hf

 

(t)(ντ )

(t)(ντ )

= o f tanh cf

.

(3.26)

3.5.3 Batch normalization Trong batchnorm, các quy lut cp nht cho gate đưc thay đi như sau F ν −1 −1

(t)(ντ )

if

= σ

   

F ν −1

Θf ν (

ν −)f (t)(ν −1τ ) yf 

i



+

f  =0

f f

= σ

+

= σ

F ν −1

o ν − f t ν − τ Θf ν ( ) yf ( )( 1 )

+

f  =0

(t)(ντ )

gf

= tanh

Θf τ ( o

ν )f (t)(ντ −1) yf 

−



f  =0

F ν −1 −1

  

,

(3.27)

,

(3.28)

,

(3.29)

f (−ν )f (t)(ντ −1) yf  

Θf τ

f  =0

F ν −1 −1

of

ν )f (t)(ντ −1) yf 

−



F ν −1

f (ν −)f (t)(ν −1τ ) Θf ν yf 

f  =0

(t)(ντ )

i

f  =0

F ν −1 −1

(t)(ντ )

Θf τ (

   

F ν −1

g (ν −)f (t)(ν −1τ ) yf  

Θf ν

f  =0

+

g (−ν )f (t)(ντ −1) yf  

Θf τ

f  =0



(3.30)

,

vi (t)(ντ )

yf

(ντ ) ˜ (t)(ντ ) (ντ ) = γ f h + β f , f

(3.31)

và (t)(ντ )

˜ (t)(ντ )

hf

=

hf

− hˆ

(ντ )

(3.32)

f

   (ντ )

σf

2

+ 

và ˆ (ντ )

hf

=

1 T mb

T mb−1

 t=0

(t)(ντ )

hf

,

2

  (ντ )

σf

=

55

1 T mb

T mb−1



(t)(ντ )

hf

t=0

−

ˆ (ντ ) h f



2

.

(3.33)

Điu quan trng là phi tính tng cho trung bình và phương sai, điu này phc v cho vic đánh giá ca cross-validation và tp kim tra (gi e là s vòng lp – iterations/epochs)

              và đưc s dng  cui là và . (t)(ντ )

(t)(ντ )

hf

E

e+1

eE hf

=

+ ˆh(f

ντ )

e

(t)(ντ )

(t)(ντ )

Var

hf

e+1

eVar hf

=

(3.34)

2

(3.35)

e + 1

(t)(ντ )

T mb Var T mb−1

hf

E

(ντ )

+ σ ˆf

e

,

e + 1

(t)(ντ )

hf

3.5.4 Backpropagation trong LSTM labelsec:appendbackproplstm Backpropagation trong LSTM có cu trúc tương t RNN, c th là (t)(N −1τ )

δ f

=

1 T mb

and T mb

(t)(ν −1τ )

δ f

=



(tt )(ντ )

J f

hf

 =0

t =0

(t)(N τ )

−y

(t)(τ )

f



,

(3.36)

F ν +1− −1

1







(t )(ν −τ +)b (t )(ν −τ +)

δ f

Hf f







.

(3.37)

f  =0

Nhng thay đi là hình thc ca H, đưc xác đnh bi (t)(ντ )

= h f

(t)(ντ )

= o f

(t)(ντ )

= o f

(t)(ντ )

= o (f )(

Of If F f

Gf

(t)(ντ )

(t)(ντ ) (t)(ντ )

t ντ )

− − − −

   −    −     −   

(t)(ντ )

1

of

1

tanh2 cf

1 1

,

(t)(ντ )

gf

tanh2 cf

(t)(ντ )

cf

tanh2 c(f )(

if

t ντ )

và

56

(t)(ντ ) (t)(ντ )

if

(t)(ντ −1) (t)(ντ )

(t)(ντ )

f f

1

(t)(ντ )

1

if

1

(t)(ντ )

gf

,

(t)(ντ )

f f 2

,

,

(3.38)

(t)(ντ )a

H f f



o (ν +1)f 

= Θf a



ν +1)f 

+ Θf a ( g

(t)(ν +1τ )

Of

(t)(ν +1τ )

Gf



f (ν +1)f 

+ Θf a

(t)(ν +1τ )

F f



ν +1)f  (t)(ν +1τ ) If 

+ Θf a ( i

.

(3.39)

3.5.5 Cp nht trng s và coefficient trong LSTM ging như cho RNN, (nhưng vi H đưc đnh nghĩa  mc ??), vi ν = 1 ta có

ρ (ν )f ∆f ν

T −1 T mb−1

=

 τ =0

(ντ )(t) (ντ )(t) (ν −1τ )(t)

ρf

δ f

hf

,



(3.40)

t=0

(3.41)

nu ngưc li T −1 T mb −1 ρ ν f ∆f ν ( )

=

 τ =0

(ντ )(t) (ντ )(t) (ν −1τ )(t)

ρf

δ f

yf



,

ρ (ν )f ∆f τ 

(3.42)

δ f

yf



,

(3.44)

t=0

1

F ν +1− −1

(t)(ν −τ +)b (t)(ν −τ +)

δ f

Hf f



T mb −1

=

,

(3.43)

(ντ )(t) (ντ )(t) (ντ −1)(t)

ρf

t=0

γ (ντ ) ∆f



     τ =1

=

yf

T −1 T mb −1

=

δ f

t=0

T mb −1 β ντ ∆f ( )

(ντ )(t) (ντ )(t) (ν −1τ )(t)

ρf

=0



,

(3.45)

f  =0

1

F ν +1− −1

˜ (t)(ντ )

hf

t=0

=0

(t)(ν −τ +)b (t)(ν −τ +)

Hf f



δ f



.

f  =0

(3.46)

và T −1 T mb −1

∆f f 

=

 τ =0

(t)(N −1τ ) (t)(N −1τ )

yf



t=0

57

δ f

.

(3.47)

Chương 4 Xây dng mô hình minh ha 4.1 Gii thiu  chương này, chúng tôi s mô t li quá trình thc hin cũng như đánh giá kt qu các thí nghim khi thc hin phân loi nh vi mt b d liu ph bin. Chúng tôi hun luyn mt mô hình đơn gin thuc loi convolutional neural network và áp dng các kin thc đã tìm hiu: convolutional, max pooling, droput và fully connected layers.

4.2 Mã ngun Mã ngun đưc chia s ti https://github.com/danhph/friendly-cnn . Môi trưng lp trình s dng Anaconda vi Python 3.x và Tensorflow. Vic cài đt d dàng vi 4 bưc: 1. Ti phn mm Anaconda ti đa ch https://anaconda.org/anaconda/python. 2. Chy câu lnh cài đt môi trưng trong thư mc cha mã ngun: conda env create -f setup_env.yml

3. Kích hot môi trưng lp trình: source activate friendly-cnn

58

Hình 4.1: Minh ha d liu ca CIFAR-10.

4.3 D liu Chúng tôi s dng b d liu CIFAR-10 Krizhevsky et al. bao gm 60000 bc nh màu có kích thưc 32x32 vi phân nhóm 10 và có 6000 nh mi nhóm. B d liu đưc chia làm 50000 nh đ hun luyn và 10000 nh đ th nghim. B d liu đưc chia thành năm batch hun luyn và mt batch th nghim, mi đi có 10000 hình nh. Các batch th nghim cha chính xác 1000 hình nh đưc la chn ngu nhiên t mi lp. Các batch hun luyn cha các hình nh còn li theo th t ngu nhiên, nhưng mt s batch hun luyn có th cha nhiu hình nh ca lp này hơn lp khác. Mi batch cha các nhãn và nh thuc các nhóm sau: airplane, automobile, bird, cat, deer, dog, frog, horse, ship và truck như mô t trong hình 4.1.

4.4 Xây dng mô hình Đu tiên, chúng tôi xây dng các conv-maxpool layer (kt hp Convolution và Max Pooling Layer) vi hàm kích hot ReLU. Bên cnh đó, chúng tôi cũng xây dng các Fully-Connected Layer. Tt c chúng đu đưc t xây dng li da trên

59

I n p u t

C o n v

P o o l

C o n v

P o o l

C o n v

P o o l

F u l l

F u l l

O u t p u t

Hình 4.2: Mô hình CNN đơn gin ca chúng tôi. các TensorFlow package. def conv2d_maxpool(x_tensor, conv_num_outputs, conv_ksize, conv_strides, pool_ksize, pool_strides): """ Apply convolution then max pooling to x_tensor :param x_tensor: TensorFlow Tensor :param conv_num_outputs: Num of outputs for the convolutional layer :param conv_ksize: kernal size 2-D Tuple for the convolutional layer :param conv_strides: Stride 2-D Tuple for convolution :param pool_ksize: kernal size 2-D Tuple for pool :param pool_strides: Stride 2-D Tuple for pool : return: A tensor that represents convolution and max pooling of x_tensor """ pool_ksize = [1, *pool_ksize, 1] pool_strides = [1, *pool_strides, 1] conv_strides = [1, *conv_strides, 1] conv_weights = tf.Variable(tf.random_normal([*conv_ksize, x_tensor.shape[3].value, conv_num_outputs], stddev=0.05)) conv_bias = tf.Variable(tf.zeros(conv_num_outputs)) x = tf.nn.conv2d(x_tensor, conv_weights, strides=conv_strides, padding=’SAME’) x = tf.nn.bias_add(x, conv_bias) x = tf.nn.relu(x) x = tf.nn.max_pool(x, pool_ksize, pool_strides, padding=’SAME’) return x

60

def fully_conn(x_tensor, fully_conn(x_tensor, num_outputs): num_outputs): """ Apply App ly a ful fully ly con conne necte cted d lay layer er to x_ x_ten tenso sor r usi using ng wei weigh ght t and bi bias as : x_t x_tens ensor: or: A 2-D ten tensor sor wh where ere the first dim dimens ension ion is ba batch tch siz size. e. : num num_ou _outpu tputs: ts: The number number of out output put tha that t the new ten tensor sor should should be. : ret return urn: : A 22-D D ten tensor sor whe where re the se secon cond d dim dimen ensio sion n is num num_ou _outp tputs uts. . """ weights = tf.Variable(tf.rand tf.Variable(tf.random_normal( om_normal((x_tensor (x_tensor.shape[1]. .shape[1].value, value, num_outputs), num_outputs), stddev=0.05)) stddev=0.05)) bias = tf.Variable(tf.zero tf.Variable(tf.zeros(num_outp s(num_outputs)) uts)) x = tf.add(t tf.add(tf.ma f.matmul tmul(x_t (x_tenso ensor, r, weights) weights), , bias) bias) x = tf.nn.re tf.nn.relu(x lu(x) ) return x

K tip chúng tôi xây dng mô hình vi ba conv2d_maxpool layer, theo sau bi 2 fully_conn fully_conn layer kt hp 2 dropout layer. layer.

4.5 4.5 Hun Hun luy luyn mô hình hình Sau khi th các b tham s (epochs, (ep ochs, keep_probabi keep_probabilit lity) y) khác nhau. Mô hình cui ca chúng tôi s dng epochs là 50 và keep_probability là 0 .6. Trong mi ln hun luyn, chúng tôi hun luyn mô hình trên mt batch đơn ca CIFAR-10 đ tit kim thi gian. Sau khi đt đưc đ chính xác cao tt hơn, chúng tôi tip túc hun luyn mô hình trên toàn b d liu. Chúng tôi s dng loss function là hàm softmax cross entropy và đánh giá mô hình da trên t l phn trăm d đoán chính xác nhãn ca nh.

61

4.6 Kt qu Vi kt qu kim th, mô hình ca chúng tôi cho đ chính xác là 68.32%. Đây không phi là mt kt qu thp đi vi mt mô hình CNN đơn gin. Và còn rt nhiu k thut khác mà chúng tôi chưa áp dng.

62

Chương 5 Kt lun và hưng phát trin Bài báo cáo này tng kt li nhng tìm hiu ca chúng tôi v k thut Deep Learning. Chúng tôi đã trình bày li kin trúc ca ba loi neutral network ph bin nht, cũng các công thc toán hc dùng đ hun luyn các mô hình này mt cách cn thn. Vi nhng kin thc này, chúng tôi đã hiu thêm v cách mt mô hình neutral network đưc thit k cũng như cách nó hot đng. Bên canh đó, chúng tôi cũng đã xây dng mt mô hình đơn gin thông qua các kin thc đã tìm hiu. Deep Learning là mt lĩnh vc phát trin rt nhanh và các mô hình hin ti s li thi trong tương lai gn. Tuy nhiên nhng cách tip cn đã đưc chúng tôi gii thiu vn s giúp ích cho vic hiu nhng nguyên lí phía sau các mô hình tiên tin sau này. Báo cáo này là mt bài tng hp kin thc vi mong mun giúp các đc gi d dàng tip cn vi lĩnh vc Deep Learning. Tuy đã n lc rt nhiu nhưng không th thiu sót, nht là nhng sai sót liên quan đn vn đ dch các thut ng gia Ting Anh và Ting Vit. Chúng tôi s tip tc b sung và cp nht các kin thc mi trong lĩnh vc cũng như chnh sa các li dch ca thut ng cho bài báo cáo này trong tương lai.

63

Trích dn Bengio, Y., Simard, P. & Frasconi, P. (1994).

Learning long-term depen-

dencies with gradient descent is difficult. IEEE transactions on neural networks , 5 , 157–166. 52 Bengio, Y. et al. (2009).

Learning deep architectures for ai. Foundations and trends  in Machine Learning , 2 , 1–127. x R

Duchi, J., Hazan, E. & Singer, Y. (2011). Adaptive subgradient methods for

online learning and stochastic optimization. J. Mach. Learn. Res., 12 , 2121– 2159. 20 Epelbaum, T. (2017).

Deep learning: Technical introduction. ArXiv e-prints . i

Gatys, L.A., Ecker, A.S. & Bethge, M. (2015).

A neural algorithm of

artistic style. arXiv preprint arXiv:1508.06576 . x Gers, F.A., Schmidhuber, J.A. & Cummins, F.A. (2000).

Learning to forget: Continual prediction with lstm. Neural Comput., 12, 2451–2471. 52

Graves, A. (2011). Supervised Sequence Labelling with Recurrent Neural Net-

works .

45

Gu, J., Wang, Z., Kuen, J., Ma, L., Shahroudy, A., Shuai, B., Liu, T., Wang, X. & Wang, G. (2015).

Recent advances in convolutional neural networks. CoRR, abs/1512.07108. 33 Gupta, A., Wang, H. & Ganapathiraju, M. (2015).

Learning structure in gene expression data using deep architectures, with an application to gene clus-

64

TRÍCH DN tering. In Bioinformatics and Biomedicine (BIBM), 2015 IEEE International Conference on , 1328–1335, IEEE. x He, K., Zhang, X., Ren, S. & Sun, J. (2015).

Deep residual learning for

image recognition. 7. 36 Ioffe, S. & Szegedy, C. (2015).

Batch normalization: Accelerating deep network training by reducing internal covariate shift. 13

Kingma, D. & Ba, J. (2014). Adam: A

method for stochastic optimization. 22

Krizhevsky, A., Nair, V. & Hinton, G. (????).

Cifar-10 (canadian institute

for advanced research), 2009a. URL http://www. cs. toronto. edu/kriz/cifar. html . 59 Krizhevsky, A., Sutskever, I. & Hinton, G.E. (2012).

Imagenet classification with deep convolutional neural networks. In F. Pereira, C.J.C. Burges, L. Bottou & K.Q. Weinberger, eds., Advances in Neural Information Processing Systems 25 , 1097–1105, Curran Associates, Inc. 34

Lecun, Y., Bottou, L., Bengio, Y. & Haffner, P. (1998). Gradient-based

learning applied to document recognition. In Proceedings of the IEEE , 2278– 2324. 34 ¨ LeCun, Y., Bottou, L., Orr, G.B. & M uller, K.R. (1998).

Effiicient

backprop. In Neural Networks: Tricks of the Trade, This Book is an Outgrowth of a 1996 NIPS Workshop , 9–50, Springer-Verlag, London, UK, UK. 15 LeCun, Y., Bengio, Y. & Hinton, G. (2015).

Deep learning. Nature , 521,

436–444. ii Nesterov, Y. (1983). A method for unconstrained convex minimization problem

with the rate of convergence o (1/k2). In Doklady an SSSR , vol. 269, 543–547. 20 Osako, K., Singh, R. & Raj, B. (2015).

Complex recurrent neural networks

for denoising speech signals. In Applications of Signal Processing to Audio and Acoustics (WASPAA), 2015 IEEE Workshop on , 1–5, IEEE. x

65

Tim Hieu Ve Deep Learning

Recommend Documents