Book

Vũ Hu Tip

Machine Learning cơ bn First Edition Edition

March 2, 2017

Contents

1 Gi Gii i th thi iu u . . . .. . . . .. . . .. . . .. . . . .. . . .. . . .. . . . .. . . .. . . .. . . .. . . . .. . . .. . . .. .

1

1.1 Mc đích đích vit Blog Blog . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1.2 Tha Tham m kho kho thêm thêm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 2 Phâ Phân n nhóm nhóm các thu thut t toán toán Machin Machinee Learnin Learningg . . . . . . . . . . . . . . . . . . . . . . . . . . .

4

2.1 Phân nhóm nhóm da trên trên phương phương thc hc . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 2.2 Phân nhóm nhóm da trên trên chc chc năng năng . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 2.3 Tài liu tham tham kho . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 3 Li Line near ar Re Regr gres essi sion on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

3.1 Gi Giii thi thiuu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 3.2 Phân tích tích toán hc hc . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 3.3 Ví d trên trên Pytho Pythonn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 3.4 Th Thoo lun lun . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 3.5 Tài liu tham tham kho . kho . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 4 KK-me means ans Cl Clus uste teri ring ng . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

4.1 Gi Giii thi thiuu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 4.2 Phân tích tích toán hc . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 4.3 Ví d trên trên Pytho Pythonn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

Contents

1 Gi Gii i th thi iu u . . . .. . . . .. . . .. . . .. . . . .. . . .. . . .. . . . .. . . .. . . .. . . .. . . . .. . . .. . . .. .

1

1.1 Mc đích đích vit Blog Blog . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1.2 Tha Tham m kho kho thêm thêm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 2 Phâ Phân n nhóm nhóm các thu thut t toán toán Machin Machinee Learnin Learningg . . . . . . . . . . . . . . . . . . . . . . . . . . .

4

2.1 Phân nhóm nhóm da trên trên phương phương thc hc . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 2.2 Phân nhóm nhóm da trên trên chc chc năng năng . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 2.3 Tài liu tham tham kho . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 3 Li Line near ar Re Regr gres essi sion on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

3.1 Gi Giii thi thiuu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 3.2 Phân tích tích toán hc hc . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 3.3 Ví d trên trên Pytho Pythonn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 3.4 Th Thoo lun lun . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 3.5 Tài liu tham tham kho . kho . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 4 KK-me means ans Cl Clus uste teri ring ng . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

4.1 Gi Giii thi thiuu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 4.2 Phân tích tích toán hc . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 4.3 Ví d trên trên Pytho Pythonn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

VI

Contents

4.4 Th Thoo lun lun . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 4.5 Tài liu tham tham kho . kho . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 Index . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

1 Gii thiu

Nhng năm gn đây, AI - Artificial Intelligence (Trí Tu Nhân To), và c th hơn là Machine Learning (Hc Máy hoc Máy Hc - Vi nhng t chuyên ngành, tôi s dùng song song c ting Anh và ting Vit, tuy nhiên s ưu tiên ting Anh vì thun tin hơn trong vic tra cu ) ni lên như mt bng chng ca cuc cách mng công nghip ln th tư (1 - đng cơ hơi nưc, 2 - năng lưng đin, 3 - công ngh thông tin). Trí Tu Nhân To đang len li vào mi lĩnh vc trong đi sng mà có th chúng ta không nhn ra. Xe t hành ca Google và Tesla, h thng t tag khuôn mt trong nh ca Facebook, tr lý o Siri ca Apple, h thng gi ý sn phm ca Amazon, h thng gi ý phim ca Netflix, máy chơi c vây AlphaGo ca Google DeepMind, ..., ch là mt vài trong vô vàn nhng ng dng ca AI/Machine Learning. (Xem thêm Jarvis - tr lý thông minh cho căn nhà ca Mark Zuckerberg.) Machine Learning là mt tp con ca AI. Theo đnh nghĩa ca Wikipedia, Machine learning is the subfield of computer science that "gives computers the ability to learn without being explicitly programmed" . Nói đơn gin, Machine Learning là mt lĩnh vc nh ca Khoa Hc

Máy Tính, nó có kh năng t hc hi da trên d liu đưa vào mà không cn phi đưc lp trình c th. Bn Nguyn Xuân Khánh ti đi hc Maryland đang vit mt cun sách v Machine Learning bng ting Vit khá thú v, các bn có th tham kho bài Machine Learning là gì?.

Nhng năm gn đây, khi mà kh năng tính toán ca các máy tính đưc nâng lên mt tm cao mi và lưng d liu khng l đưc thu thp bi các hãng công ngh ln, Machine Learning đã tin thêm mt bưc tin dài và mt lĩnh vc mi đưc ra đi gi là Deep Learning (Hc Sâu). Deep Learning đã giúp máy tính thc thi nhng vic tưng chng như không th vào 10 năm trưc: phân loi c ngàn vt th khác nhau trong các bc nh, t to chú thích cho nh, bt chưc ging nói và ch vit ca con ngưi, giao tip vi con ngưi, hay thm chí c sáng tác văn hay âm nhc (Xem thêm 8 Inspirational Applications of Deep Learning). Mi quan h gia Artificial Intelligence, Machine Learning, và Deep Learning đưc cho trong Hình 1.1.

2

1 Gii thiu

Fig. 1.1: Mi quan h gia AI, Machine Learning và Deep Learning. Ngun: What’s the Difference Between Artificial Intelligence, Machine Learning, and Deep Learning?

1.1 Mc đích vit Blog Nhu cu v nhân lc ngành Machine Learning (Deep Learning) đang ngày mt cao, kéo theo đó nhu cu hc Machine Learning trên th gii và  Vit Nam ngày mt ln. Cá nhân tôi cũng mun h thng li kin thc ca mình v lĩnh vc này đ chun b cho tương lai (đây là mt trong nhng mc tiêu ca tôi trong năm 2017). Tôi s c gng đi t nhng thut toán cơ bn nht ca Machine Learning kèm theo các ví d và mã ngun trong mi bài vit. Tôi s vit 1-2 tun 1 bài (vic vit các công thc toán và code trên blog thc s tn nhiu thi gian hơn tôi tng nghĩ). Đng thơi, tôi cũng mong mun nhn đưc phn hi ca bn đc đ qua nhng tho lun, tôi và các bn có th nm bt đưc các thut toán này. Khi chun b các bài vit, tôi s gi đnh rng bn đc có mt chút kin thc v Đi S Tuyn Tính (Linear Algebra), Xác Suât Thng Kê (Probability and Statistics) và có kinh nghim v lp trình Python. Nu bn chưa có nhiu kinh nghim v các lĩnh vc này, đng quá lo lng vì mi bài s ch s dng mt vài k thut cơ bn. Hãy đ li câu hi ca bn  phn Comment bên dưi mi bài, tôi s tho lun thêm vi các bn. Trong bài tip theo ca blog này, tôi s gii thiu v các nhóm thut toán Machine learning cơ bn. Mi các bn theo dõi.

1.2 Tham kho thêm

3

1.2 Tham kho thêm 1.2.1 Các khóa hc Ting Anh

1. Machine Learning vi thy Andrew Ng trên Coursera (Khóa hc ni ting nht v Machine Learning ) 2. Deep Learning by Google trên Udacity (Khóa hc nâng cao hơn v Deep Learning vi Tensorflow ) 3. Machine Learning mastery ( Các thut toán Machine Learning cơ bn ) Ting Vit Lưu ý: Các khóa hc này tôi chưa tng tham gia, ch đưa ra đ các bn tham kho.

1. Machine Learning 1/2017 2. Nhp môn Machine Learning, Tech Master- Cao Thanh Hà POSTECH () 1.2.2 Các trang Machine Learning ting Vit khác

1. Machine Learning trong X Lý Ngôn Ng T Nhiên - Nhóm Đông Du Nht Bn 2. Machine Learning cho ngưi mi bt đu - Ông Xuân Hng JAIST . 3. Machine Learning book for Vietnamese - Nguyn Xuân Khánh University of Maryland

2 Phân nhóm các thut toán Machine Learning

Có hai cách ph bin phân nhóm các thut toán Machine learning. Mt là da trên phương thc hc (learning style), hai là da trên chc năng (function) (ca mi thut toán).

2.1 Phân nhóm da trên phương thc hc Theo phương thc hc, các thut toán Machine Learning thưng đưc chia làm 4 nhóm: Supervise learning, Unsupervised learning, Semi-supervised lerning và Reinforcement learning. Có mt s cách phân nhóm không có Semi-supervised learning hoc Reinforcement learning.

2.1.1 Supervised Learning (Hc có giám sát)

Supervised learning là thut toán d đoán đu ra (outcome) ca mt d liu mi (new input) da trên các cp ( input, outcome ) đã bit t trưc. Cp d liu này còn đưc gi là ( data. label ), tc (d liu, nhãn ). Supervised learning là nhóm ph bin nht trong các thut toán Machine Learning. Mt cách toán hc, Supervised learning là khi chúng ra có mt tp hp bin đu vào X = {x , x , . . . , xN } và mt tp hp nhãn tương ng Y = {y , y , . . . , yN }, trong đó xi , yi là các vector. Các cp d liu bit trưc (xi, yi ) ∈ X × Y đưc gi là tp training data (d liu hun luyn). T tp traing data này, chúng ta cn to ra mt hàm s ánh x mi phn t t tp X sang mt phn t (xp x) tương ng ca tp Y : 1

2

1

2

yi ≈ f (xi ), ∀i = 1, 2, . . . , N

Mc đích là xp x hàm s f tht tt đ khi có mt d liu x mi, chúng ta có th tính đưc nhãn tương ng ca nó y = f (x). Ví d 1: trong nhn dng ch vit tay (Hình 2.1), ta có nh ca hàng nghìn ví d ca mi

ch s đưc vit bi nhiu ngưi khác nhau. Chúng ta đưa các bc nh này vào trong mt

2.1 Phân nhóm da trên phương thc hc

5

thut toán và ch cho nó bit mi bc nh tương ng vi ch s nào. Sau khi thut toán to ra (sau khi hc ) mt mô hình, tc mt hàm s mà đu vào là mt bc nh và đu ra là mt ch s, khi nhn đưc mt bc nh mi mà mô hình chưa nhìn thy bao gi , nó s d đoán bc nh đó cha ch s nào.

Fig. 2.1: MNIST: b cơ s d liu ca ch s vit tay. (Ngun: Simple Neural Network implementation in Ruby) Ví d này khá ging vi cách hc ca con ngưi khi còn nh. Ta đưa bng ch cái cho mt đa tr và ch cho chúng đây là ch A, đây là ch B. Sau mt vài ln đưc dy thì tr có th nhn bit đưc đâu là ch A, đâu là ch B trong mt cun sách mà chúng chưa nhìn thy bao gi. Ví d 2: Thut toán dò các khuôn mt trong mt bc nh đã đưc phát trin t rt lâu.

Thi gian đu, facebook s dng thut toán này đ ch ra các khuôn mt trong mt bc nh và yêu cu ngưi dùng tag friends - tc gán nhãn cho mi khuôn mt. S lưng cp d liu (khuôn mt, tên ngưi ) càng ln, đ chính xác  nhng ln t đng tag tip theo s càng ln. Ví d 3: Bn thân thut toán dò tìm các khuôn mt trong 1 bc nh cũng là mt thut toán Supervised learning vi training data (d liu hc) là hàng ngàn cp (nh, mt ngưi ) và (nh, không phi mt ngưi ) đưc đưa vào. Chú ý là d liu này ch phân bit mt ngưi và không phi mt ngưòi mà không phân bit khuôn mt ca nhng ngưi khác nhau.

Thut toán supervised learning còn đưc tip tc chia nh ra thành hai loi chính: Classification (Phân loi)

Mt bài toán đưc gi là classification nu các label ca input data đưc chia thành mt s hu hn nhóm. Ví d: Gmail xác đnh xem mt email có phi là spam hay không; các hãng tín dng xác đnh xem mt khách hàng có kh năng thanh toán n hay không. Ba ví d phía trên đưc chia vào loi này.

6

2 Phân nhóm các thut toán Machine Learning

Regression (Hi quy)

(ting Vit dch là Hi quy , tôi không thích cách dch này vì bn thân không hiu nó nghĩa là gì) Nu label không đưc chia thành các nhóm mà là mt giá tr thc c th. Ví d: mt căn nhà rng x m , có y phòng ng và cách trung tâm thành ph z km s có giá là bao nhiêu? 2

Gn đây Microsoft có mt ng dng d đoán gii tính và tui da trên khuôn mt. Phn d đoán gii tính có th coi là thut toán Classification , phn d đoán tui có th coi là thut toán Regression. Chú ý rng phn d đoán tui cũng có th coi là Classification nu ta coi tui là mt s nguyên dương không ln hơn 150, chúng ta s có 150 class (lp) khác nhau.

2.1.2 Unsupervised Learning (Hc không giám sát)

Trong thut toán này, chúng ta không bit đưc outcome hay nhãn mà ch có d liu đu vào. Thut toán unsupervised learning s da vào cu trúc ca d liu đ thc hin mt công vic nào đó, ví d như phân nhóm (clustering) hoc gim s chiu ca d liu (dimention reduction) đ thun tin trong vic lưu tr và tính toán. Mt cách toán hc, Unsupervised learning là khi chúng ta ch có d liu vào X mà không bit nhãn Y tương ng. Nhng thut toán loi này đưc gi là Unsupervised learning vì không ging như Supervised learning, chúng ta không bit câu tr li chính xác cho mi d liu đu vào. Ging như khi ta hc, không có thy cô giáo nào ch cho ta bit đó là ch A hay ch B. Cm không giám sát đưc đt tên theo nghĩa này. Các bài toán Unsupervised learning đưc tip tc chia nh thành hai loi: Clustering (phân nhóm)

Mt bài toán phân nhóm toàn b d liu X thành các nhóm nh da trên s liên quan gia các d liu trong mi nhóm. Ví d: phân nhóm khách hàng da trên hành vi mua hàng. Điu này cũng ging như vic ta đưa cho mt đa tr rt nhiu mnh ghép vi các hình thù và màu sc khác nhau, ví d tam giác, vuông, tròn vi màu xanh và đ, sau đó yêu cu tr phân chúng thành tng nhóm. Mc dù không cho tr bit mnh nào tương ng vi hình nào hoc màu nào, nhiu kh năng chúng vn có th phân loi các mnh ghép theo màu hoc hình dng.

2.1 Phân nhóm da trên phương thc hc

7

Association

Là bài toán khi chúng ta mun khám phá ra mt quy lut da trên nhiu d liu cho trưc. Ví d: nhng khách hàng nam mua qun áo thưng có xu hưng mua thêm đng h hoc tht lưng; nhng khán gi xem phim Spider Man thưng có xu hưng xem thêm phim Bat Man, da vào đó to ra mt h thng gi ý khách hàng (Recommendation System), thúc đy nhu cu mua sm. 2.1.3 Semi-Supervised Learning (Hc bán giám sát)

Các bài toán khi chúng ta có mt lưng ln d liu X nhưng ch mt phn trong chúng đưc gán nhãn đưc gi là Semi-Supervised Learning. Nhng bài toán thuc nhóm này nm gia hai nhóm đưc nêu bên trên. Mt ví d đin hình ca nhóm này là ch có mt phn nh hoc văn bn đưc gán nhãn (ví d bc nh v ngưi, đng vt hoc các văn bn khoa hc, chính tr) và phn ln các bc nh/văn bn khác chưa đưc gán nhãn đưc thu thp t internet. Thc t cho thy rt nhiu các bài toàn Machine Learning thuc vào nhóm này vì vic thu thp d liu có nhãn tn rt nhiu thi gian và có chi phí cao. Rt nhiu loi d liu thm chí cn phi có chuyên gia mi gán nhãn đưc (nh y hc chng hn). Ngưc li, d liu chưa có nhãn có th đưc thu thp vi chi phí thp t internet. 2.1.4 Reinforcement Learning (Hc Cng C)

Reinforcement learning là các bài toán giúp cho mt h thng t đng xác đnh hành vi da trên hoàn cnh đ đt đưc li ích cao nht (maximizing the performance). Hin ti, Reinforcement learning ch yu đưc áp dng vào Lý Thuyt Trò Chơi (Game Theory), các thut toán cn xác đnh nưóc đi tip theo đ đt đưc đim s cao nht. Ví d 1: AlphaGo (Hình 2.2) gn đây ni ting vi vic chơi c vây thng c con ngưi.

C vây đưc xem là có đ phc tp cc kỳ cao vi tng s nưc đi là xp x 10 , so vi c vua là 10 và tng s nguyên t trong toàn vũ tr là khong 10 !! Vì vy, thut toán phi chn ra 1 nưc đi ti ưu trong s hàng nhiu t t la chn, và tt nhiên, không th áp dng thut toán tương t như IBM Deep Blue) (IBM Deep Blue đã thng con ngưi trong môn c vua 20 năm trưc). V cơ bn, AlphaGo bao gm các thut toán thuc c Supervised learning và Reinforcement learning. Trong phn Supervised learning, d liu t các ván c do con ngưi chơi vi nhau đưc đưa vào đ hun luyn. Tuy nhiên, mc đích cui cùng ca AlphaGo không phi là chơi như con ngưi mà phi thm chí thng c con ngưi. Vì vy, sau khi hc xong các ván c ca con ngưi, AlphaGo t chơi vi chính nó vi hàng triu ván chơi đ tìm ra các nưc đi mi ti ưu hơn. Thut toán trong phn t chơi này đưc xp vào loi Reinforcement learning. (Xem thêm ti Google DeepMind’s AlphaGo: How it works). 761

120

80

8


Fig. 2.2: AlphaGo chơi c vây vi Lee Sedol. AlphaGo là mt ví d ca Reinforcement learning (Ngun AlphaGo AI Defeats Sedol Again, With ’Near Perfect Game’) Ví d 2: Hun luyn cho máy tính chơi game Mario. Đây là mt chương trình thú v dy

máy tính chơi game Mario. Game này đơn gin hơn c vây vì ti mt thi đim, ngưi chơi ch phi bm mt s lưng nh các nút (di chuyn, nhy, bn đn) hoc không cn bm nút nào. Đng thi, phn ng ca máy cũng đơn gin hơn và lp li  mi ln chơi (ti thi đim c th s xut hin mt chưng ngi vt c đnh  mt v trí c đnh). Đu vào ca thut toán là sơ đ ca màn hình ti thi đim hin ti, nhim v ca thut toán là vi đu vào đó, t hp phím nào nên đưc bm. Vic hun luyn này đưc da trên đim s cho vic di chuyn đưc bao xa trong thi gian bao lâu trong game, càng xa và càng nhanh thì đưc đim thưng càng cao (đim thưng này không phi là đim ca trò chơi mà là đim do chính ngưi lp trình to ra). Thông qua hun luyn, thut toán s tìm ra mt cách ti ưu đ ti đa s đim trên, qua đó đt đưc mc đích cui cùng là cu công chúa.

2.2 Phân nhóm da trên chc năng Có mt cách phân nhóm th hai da trên chc năng ca các thut toán. Trong phn này, tôi xin ch lit kê các thut toán. Thông tin c th s đưc trình bày trong các bài vit khác ti blog này. Trong quá trình vit, tôi có th s thêm bt mt s thut toán. 2.2.1 Regression Algorithms

1. Linear Regression 2. Logistic Regression 3. Stepwise Regression

2.2 Phân nhóm da trên chc năng

2.2.2 Classification Algorithms

1. Linear Classifier 2. Support Vector Machine (SVM) 3. Kernel SVM 4. Sparse Represntation-based classification (SRC) 2.2.3 Instance-based Algorithms

1. k-Nearest Neighbor (kNN) 2. Learnin Vector Quantization (LVQ) 2.2.4 Regularization Algorithms

1. Ridge Regression 2. Least Absolute Shringkage and Selection Operator (LASSO) 3. Least-Angle Regression (LARS) 2.2.5 Bayesian Algorithms

1. Naive Bayes 2. Gausian Naive Bayes 2.2.6 Clustering Algorithms

1. k-Means clustering 2. k-Medians 3. Expectation Maximisation (EM)

9

10


2.2.7 Artificial Neural Network Algorithms

1. Perceptron 2. Softmax Regression 3. Multi-layer Perceptron 4. Back-Propagation 2.2.8 Dimensionality Reduction Algorithms

1. Principal Component Analysis (PCA) 2. Linear Discriminant Analysis (LDA) 2.2.9 Ensemble Algorithms

1. Boosting 2. AdaBoost 3. Random Forest Và còn rt nhiu các thut toán khác.

2.3 Tài liu tham kho 1. A Tour of Machine Learning Algorithms 2. Đim qua các thut toán Machine Learning hin đi

3 Linear Regression

Trong bài này, tôi s gii thiu mt trong nhng thut toán cơ bn nht (và đơn gin nht) ca Machine Learning. Đây là mt thut toán Supervised learning có tên Linear Regression (Hi Quy Tuyn Tính). Bài toán này đôi khi đưc gi là Linear Fitting (trong thng kê) hoc Linear Least Square .

3.1 Gii thiu Quay li ví d đơn gin đưc nêu trong bài trưc: mt căn nhà rng x m , có x phòng ng và cách trung tâm thành ph x km có giá là bao nhiêu. Gi s chúng ta đã có s liu thng kê t 1000 căn nhà trong thành ph đó, liu rng khi có mt căn nhà mi vi các thông s v din tích, s phòng ng và khong cách ti trung tâm, chúng ta có th d đoán đưc giá ca căn nhà đó không? Nu có thì hàm d đoán y = f (x) s có dng như th nào.  đây x = [x , x , x ] là mt vector hàng cha thông tin input , y là mt s vô hưng (scalar) biu din output (tc giá ca căn nhà trong ví d này). 2

1

2

3

1

2

3

Lưu ý v ký hiu toán hc: trong các bài vit ca tôi, các s vô hưng đưc biu din bi các ch cái vit  dng không in đm, có th vit hoa, ví d x1 , N , y , k . Các vector đưc biu din bng các ch cái thưng in đm, ví d y, x1. Các ma trn đưc biu din bi các ch vit hoa in đm, ví d X, Y , W.

Mt cách đơn gin nht, chúng ta có th thy rng: i) din tích nhà càng ln thì giá nhà càng cao; ii) s lưng phòng ng càng ln thì giá nhà càng cao; iii) càng xa trung tâm thì giá nhà càng gim. Mt hàm s đơn gin nht có th mô t mi quan h gia giá nhà và 3 đi lưng đu vào là: y ≈ yˆ = f (x) = w 1x1 + w2 x2 + w3 x3 + w0

(3.1)

trong đó, w , w , w , w là các hng s, w còn đưc gi là bias. Mi quan h y ≈ f (x) bên trên là mt mi quan h tuyn tính (linear). Bài toán chúng ta đang làm là mt bài toán thuc loi regression. Bài toán đi tìm các h s ti ưu w , w , w , w chính vì vy đưc gi là bài toán Linear Regression. 1

1

2

3

0

2

3

0

0

12

3 Linear Regression

Chú ý 1: y là giá tr thc ca outcome (da trên s liu thng kê chúng ta có trong tp training data ), trong khi yˆ là giá tr mà mô hình Linear Regression d đoán đưc. Nhìn

chung, y và yˆ là hai giá tr khác nhau do có sai s mô hình, tuy nhiên, chúng ta mong mun rng s khác nhau này rt nh. Chú ý 2: Linear hay tuyn tính hiu mt cách đơn gin là thng, phng . Trong không gian hai chiu, mt hàm s đưc gi là tuyn tính nu đ th ca nó có dng mt đưng thng . Trong không gian ba chiu, mt hàm s đưc goi là tuyn tính nu đ th ca nó có dng mt mt phng . Trong không gian nhiu hơn 3 chiu, khái nim mt phng không còn phù hp na, thay vào đó, mt khái nim khác ra đi đưc gi là siêu mt phng (hyperplane ).

Các hàm s tuyn tính là các hàm đơn gin nht, vì chúng thun tin trong vic hình dung và tính toán. Chúng ta s đưc thy trong các bài vit sau, tuyn tính rt quan trng và hu ích trong các bài toán Machine Learning. Kinh nghim cá nhân tôi cho thy, trưc khi hiu đưc các thut toán phi tuyn (non-linear, không phng), chúng ta cn nm vng các k thut cho các mô hình tuyn tính .

3.2 Phân tích toán hc 3.2.1 Dng ca Linear Regression

Trong phương trình (1) phía trên, nu chúng ta đt w = [w , w , w , w ]T = là vector (ct) h s cn phi ti ưu và x¯ = [1, x , x , x ] (đc là x bar trong ting Anh) là vector (hàng) d liu đu vào m rng . S 1  đu đưc thêm vào đ phép tính đơn gin hơn và thun tin cho vic tính toán. Khi đó, phương trình (1) có th đưc vit li dưi dng: 0

1

2

1

2

3

3

¯w = yˆ y ≈ x

Chú ý rng x¯ là mt vector hàng. (Xem thêm v ký hiu vector hàng và ct ti đây ) 3.2.2 Sai s d đoán

Chúng ta mong mun rng s sai khác e gia giá tr thc y và giá tr d đoán yˆ (đc là y hat trong ting Anh) là nh nht. Nói cách khác, chúng ta mun giá tr sau đây càng nh càng tt: 1 2 1 1 ¯w)2 e = (y − ˆ y )2 = (y − x 2 2 2

trong đó h s (li ) là đ thun tin cho vic tính toán (khi tính đo hàm thì s s b trit tiêu). Chúng ta cn e vì e = y − ˆy có th là mt s âm, vic nói e nh nht s không đúng vì khi e = −∞ là rt nh nhưng s sai lch là rt ln. Bn đc có th t đt câu hi: ti sao không dùng tr tuyt đi e mà li dùng bình phương e  đây? Câu tr li s có  phn sau. 1

1

2

2

2

2

3.2 Phân tích toán hc

13

3.2.3 Hàm mt mát

Điu tương t xy ra vi tt c các cp (input, outcome) (xi , yi ), i = 1, 2, . . . , N , vi N là s lưng d liu quan sát đưc. Điu chúng ta mun, tng sai s là nh nht, tương đương vi vic tìm w đ hàm s sau đt giá tr nh nht: 1 ¯i w)2 (yi − x L(w) = 2 i=1 N

(3.2)

Hàm s L(w) đưc gi là hàm mt mát (loss function) ca bài toán Linear Regression. Chúng ta luôn mong mun rng s mt mát (sai s) là nh nht, điu đó đng nghĩa vi vic tìm vector h s w sao cho giá tr ca hàm mt mát này càng nh càng tt. Giá tr ca w làm cho hàm mt mát đt giá tr nh nht đưc gi là đim ti ưu (optimal point), ký hiu: w∗ = arg min L(w) w

Trưc khi đi tìm li gii, chúng ta đơn gin hóa phép toán trong phương trình hàm mt mát (3.2). Đt y = [y ; y ; . . . ; yN ] là mt vector ct cha tt c các output ca training data ; ¯ = [x X ¯ ;x ¯ ;...;x ¯N ] là ma trn d liu đu vào (m rng) mà mi hàng ca nó là mt đim d liu. Khi đó hàm s mt mát L (w) đưc vit dưi dng ma trn đơn gin hơn: 1

1

2

2

1 1 ¯ 2 ¯i w)2 = y − Xw (yi − x L(w) = 2 2 i=1 2 N

(3.3)

vi z là Euclidean norm (chun Euclid, hay khong cách Euclid), nói cách khác z là tng ca bình phương mi phn t ca vector z. Ti đây, ta đã có mt dng đơn gin ca hàm mt mát đưc vit như phương trình (3.3). 2 2

2

3.2.4 Nghim cho bài toán Linear Regression Cách ph bin nht đ tìm nghim cho mt bài toán ti ưu (chúng ta đã bit t khi hc cp 3) là gii phương trình đo hàm (gradient) bng 0! Tt nhiên đó là

khi vic tính đo hàm và vic gii phương trình đo hàm bng 0 không quá phc tp. Tht may mn, vi các mô hình tuyn tính, hai vic này là kh thi. Đo hàm theo w ca hàm mt mát là: ∂ L(w) ¯ T (Xw ¯ − y) =X ∂ w

14

3 Linear Regression

Các bn có th tham kho bng đo hàm theo vector hoc ma trn ca mt hàm s trong mc D.2 ca tài liu này. Đn đây tôi xin quay li câu hi  phn Sai s d đoán phía trên v vic ti sao không dùng tr tuyt đi mà li dùng bình phương. Câu tr li là hàm bình phương có đo hàm ti mi nơi, trong khi hàm tr tuyt đi thì không (đo hàm không xác đnh ti 0).

Phương trình đo hàm bng 0 tương đương vi: ¯ T Xw ¯ =X ¯ T y  b X

(3.4)

¯ T y  b nghĩa là đt X ¯ T y bng b ). (ký hiu X ¯ T X ¯ kh nghch (non-singular hay inversable) thì phương trình Nu ma trn vuông A  X (4) có nghim duy nht: w = A− b. 1

Vy nu ma trn A không kh nghch (có đnh thc bng 0) thì sao? Nu các bn vn nh các kin thc v h phương trình tuyn tính, trong trưng hp này thì hoc phương trinh (3.4) vô nghim, hoc là nó có vô s nghim. Khi đó, chúng ta s dng khái nim gi nghch đo A† (đc là A dagger trong ting Anh). (Gi nghch đo (pseudo inverse) là trưng hp tng quát ca nghch đo khi ma trn không kh nghch hoc thm chí không vuông. Trong khuôn kh bài vit này, tôi xin phép đưc lưc b phn này, nu các bn thc s quan tâm, tôi s vit mt bài khác ch nói v gi nghch đo. Xem thêm: Least Squares, Pseudo-Inverses, PCA & SVD .)

Vi khái nim gi nghch đo, đim ti ưu ca bài toán Linear Regression có dng: ¯ T X ¯ )† X ¯ T y w = A† b = (X

(3.5)

3.3 Ví d trên Python 3.3.1 Bài toán

Trong phn này, tôi s chn mt ví d đơn gin v vic gii bài toán Linear Regression trong Python. Tôi cũng s so sánh nghim ca bài toán khi gii theo phương trình (3.5) và nghim tìm đưc khi dùng thư vin scikit-learn ca Python. (Đây là thư vin Machine Learning đưc s dng rng rãi trong Python ). Trong ví d này, d liu đu vào ch có 1 giá tr (1 chiu) đ thun tin cho vic minh ho trong mt phng. Chúng ta có 1 bng d liu v chiu cao và cân nng ca 15 ngưi như trong Bng 3.1. Bài toán đt ra là: liu có th d đoán cân nng ca mt ngưi da vào chiu cao ca h không? (Trên thc t, tt nhiên là không, vì cân nng còn ph thuc vào nhiu yu t khác na, th tích chng hn ). Vì blog này nói v các thut toán Machine Learning đơn gin nên tôi s gi s rng chúng ta có th d đoán đưc.

3.3 Ví d trên Python

15

Table 3.1: Bng d liu v chiu cao và cân nng ca 15 ngưi Chiu cao (cm) Cân nng (kg) Chiu cao (cm) Cân nng (kg) 147 150 153 155 158 160 163 165

49 50 51 52 54 56 58 59

168 170 173 175 178 180 183

60 72 63 64 66 67 68

Chúng ta có th thy là cân nng s t l thun vi chiu cao (càng cao càng nng), nên có th s dng Linear Regression model cho vic d đoán này. Đ kim tra đ chính xác ca model tìm đưc, chúng ta s gi li ct 155 và 160 cm đ kim th, các ct còn li đưc s dng đ hun luyn (train) model. 3.3.2 Hin th d liu trên đ th

Trưc tiên, chúng ta cn có hai thư vin numpy cho đi s tuyn tính và matplotlib cho vic v hình. # To support both python 2 and python 3 2 from __future__ import division, print_function, unicode_literals 3 import numpy as np 4 import matplotlib.pyplot as plt 1

Tip theo, chúng ta khai báo và biu din d liu trên mt đ th. # height (cm) 2 X = np.array([[147, 150, 153, 158, 163, 165, 168, 170, 173, 175, 178, 180, 183]]).T 3 # weight (kg) 4 y = np.array([[ 49, 50, 51, 54, 58, 59, 60, 62, 63, 64, 66, 67, 68]]).T 5 # Visualize data 6 plt.plot(X, y, ’ro’) 7 plt.axis([140, 190, 45, 75]) 8 plt.xlabel(’Height (cm)’) 9 plt.ylabel(’Weight (kg)’) 10 plt.show() 1

T đ th trong Hình 3.1 ta thy rng d liu đưc sp xp gn như theo 1 đưng thng, vy mô hình Linear Regression nhiu kh năng s cho kt qu tt: (cân nng) = w_1*(chiu cao) + w_0

16

3 Linear Regression

Fig. 3.1: Phân b ca d liu trong ví d có dng đưng thng 3.3.3 Nghim theo công thc

Tip theo, chúng ta s tính toán các h s w_1 và w_0 da vào công thc (5). Chú ý: gi nghch đo ca mt ma trn A trong Python s đưc tính bng numpy.linalg.pinv(A), pinv là t vit tt ca pseudo inverse . # Building Xbar 2 one = np.ones((X.shape[0], 1)) 3 Xbar = np.concatenate((one, X), axis = 1) 1

4

# Calculating weights of the fitting line A = np.dot(Xbar.T, Xbar) 7 b = np.dot(Xbar.T, y) 8 w = np.dot(np.linalg.pinv(A), b) 9 print(’ w = ’, w) 10 # Preparing the fitting line 11 w_0 = w[0][0] 12 w_1 = w[1][0] 13 x0 = np.linspace(145, 185, 2) 14 y0 = w_0 + w_1*x0 5 6

15

# Drawing the fitting line plt.plot(X.T, y.T, ’ro’) # data 18 plt.plot(x0, y0) # the fitting line 19 plt.axis([140, 190, 45, 75]) 20 plt.xlabel(’Height (cm)’) 21 plt.ylabel(’Weight (kg)’) 22 plt.show() 16 17

1 2

w = [[-33.73541021] [ 0.55920496]]

T đ th bên trên ta thy rng các đim d liu màu đ nm khá gn đưng thng d đoán màu xanh. Vy mô hình Linear Regression hot đng tt vi tp d liu training . Bây gi,


17

Fig. 3.2: Minh ha nghim ca ví d chúng ta s dng mô hình này đ d đoán cân nng ca hai ngưi có chiu cao 155 và 160 cm mà chúng ta đã không dùng khi tính toán nghim. 1 2

y1 = w_1*155 + w_0 y2 = w_1*160 + w_0

3 4 5

print( ’Predict weight of person 155 cm: %.2f (kg), real number: 52 (kg)’ print( ’Predict weight of person 160 cm: %.2f (kg), real number: 56 (kg)’

%(y1) ) %(y2) )

Predict weight of person 155 cm: 52.94 (kg), real number: 52 (kg) 2 Predict weight of person 160 cm: 55.74 (kg), real number: 56 (kg) 1

Chúng ta thy rng kt qu d đoán khá gn vi s liu thc t. 3.3.4 Nghim theo thư vin scikit-learn

Tip theo, chúng ta s s dng thư vin scikit-learn ca Python đ tìm nghim. 1

from sklearn import datasets, linear_model

2

# fit the model by Linear Regression regr = linear_model.LinearRegression(fit_intercept=False) # fit_intercept = False for calculating the bias 5 regr.fit(Xbar, y) 3 4

6

# Compare two results 8 print( ’Solution found by scikit-learn 9 print( ’Solution found by (5): ’, w.T) 7

1 2

: ’, regr.coef_ )

Solution found by scikit-learn : [[ -33.73541021 0.55920496]] Solution found by (5): [[ -33.73541021 0.55920496 ]]

18

3 Linear Regression

Chúng ta thy rng hai kt qu thu đưc như nhau! ( Nghĩa là tôi đã không mc li nào trong cách tìm nghim  phn trên ) Source code Jupyter Notebook cho bài này.

3.4 Tho lun 3.4.1 Các bài toán có th gii bng Linear Regression

Hàm s y ≈ f (x) = wT x là mt hàm tuyn tính theo c w và x. Trên thc t, Linear Regression có th áp dng cho các mô hình ch cn tuyn tính theo w. Ví d: y ≈ w 1 x1 + w2 x2 + w3 x21 + w4 sin(x2 ) + w5 x1 x2 + w0

là mt hàm tuyn tính theo w và vì vy cũng có th đưc gii bng Linear Regression. Vi mi d liu đu vào x = [x ; x ], chúng ta tính toán d liu mi x˜ = [x , x , x , sin(x ), x x ] (đc là x tilde trong ting Anh) ri áp dng Linear Regression vi d liu mi này. 1

2

1

2

2 1

2

1

2

Xem thêm ví d v Quadratic Regression (Hi Quy Bc Hai).

Fig. 3.3: Quadratic Regression (Ngun: Quadratic Regression)

3.4.2 Hn ch ca Linear Regression

Hn ch đu tiên ca Linear Regression là nó rt nhy cm vi nhiu (sensitive to noise). Trong ví d v mi quan h gia chiu cao và cân nng bên trên, nu có ch mt cp d liu nhiu (150 cm, 90kg) thì kt qu s sai khác đi rt nhiu (Xem Hình 3.4).

3.5 Tài liu tham kho

19

Fig. 3.4: Linear Regression rt nhy cm vi nhiu Vì vy, trưc khi thc hin Linear Regression, các nhiu ( outlier ) cn phi đưc loi b. Bưc này đưc gi là tin x lý (pre-processing). Hn ch th hai ca Linear Regression là nó không biu din đưc các mô hình phc tp. Mc dù trong phn trên, chúng ta thy rng phương pháp này có th đưc áp dng nu quan h gia outcome và input không nht thit phi là tuyn tính, nhưng mi quan h này vn đơn gin nhiu so vi các mô hình thc t. Hơn na, chúng ta s t hi: làm th nào đ xác đnh đưc các hàm x , sin(x ), x x như  trên?! 2 1

2

1

2

3.4.3 Các phương pháp ti ưu

Linear Regression là mt mô hình đơn gin, li gii cho phương trình đo hàm bng 0 cũng khá đơn gin. Trong hu ht các trưng hp, chúng ta không th gii đưc phương trình đo hàm bng 0.

Nhưng có mt điu chúng ta nên nh, còn tính đưc đo hàm là còn có cơ hi .

3.5 Tài liu tham kho 1. Linear Regression - Wikipedia 2. Simple Linear Regression Tutorial for Machine Learning 3. Least Squares, Pseudo-Inverses, PCA & SVD

4 K-means Clustering

4.1 Gii thiu Trong bài trưc, chúng ta đã làm quen vi thut toán Linear Regression - là thut toán đơn gin nht trong Supervised learning. Bài này tôi s gii thiu mt trong nhng thut toán cơ bn nht trong Unsupervised learning - thut toán K-means clustering (phân cm K-means). Trong thut toán K-means clustering, chúng ta không bit nhãn (label) ca tng đim d liu. Mc đích là làm th nào đ phân d liu thành các cm (cluster) khác nhau sao cho d liu trong cùng mt cm có tính cht ging nhau . Ví d: Mt công ty mun to ra nhng chính sách ưu đãi cho nhng nhóm khách hàng khác

nhau da trên s tương tác gia mi khách hàng vi công ty đó (s năm là khách hàng; s tin khách hàng đã chi tr cho công ty; đ tui; gii tính; thành ph; ngh nghip; ...). Gi s công ty đó có rt nhiu d liu ca rt nhiu khách hàng nhưng chưa có cách nào chia toàn b khách hàng đó thành mt s nhóm/cm khác nhau. Nu mt ngưi bit Machine Learning đưc đt câu hi này, phương pháp đu tiên anh (ch) ta nghĩ đn s là K-means Clustering. Vì nó là mt trong nhng thut toán đu tiên mà anh y tìm đưc trong các cun sách, khóa hc v Machine Learning. Và tôi cũng chc rng anh y đã đc blog Machine Learning cơ bn. Sau khi đã phân ra đưc tng nhóm, nhân viên công ty đó có th la chn ra mt vài khách hàng trong mi nhóm đ quyt đnh xem mi nhóm tương ng vi nhóm khách hàng nào. Phn vic cui cùng này cn s can thip ca con ngưi, nhưng lưng công vic đã đưc rút gn đi rt nhiu. Ý tưng đơn gin nht v cluster (cm) là tp hp các đim  gn nhau trong mt không gian nào đó (không gian này có th có rt nhiu chiu trong trưng hp thông tin v mt đim d liu là rt ln). Hình bên dưi là mt ví d v 3 cm d liu (t gi rôi s vit gn là cluster ). Gi s mi cluster có mt đim đi din ( center ) màu vàng. Và nhng đim xung quanh mi center thuc vào cùng nhóm vi center đó. Mt cách đơn gin nht, xét mt đim bt kỳ, ta xét xem đim đó gn vi center nào nht thì nó thuc v cùng nhóm vi center đó.


21

Ti đây, chúng ta có mt bài toán thú v: Trên mt vùng bin hình vuông ln có ba đo hình vuông, tam giác, và tròn màu vàng như hình trên. Mt đim trên bin đưc gi là thuc lãnh hi ca mt đo nu nó nm gn đo này hơn so vi hai đo kia . Hãy xác đnh ranh gii lãnh hi ca các đo.

Hình dưi đây là mt hình minh ha cho vic phân chia lãnh hi nu có 5 đo khác nhau đưc biu din bng các hình tròn màu đen: Chúng ta thy rng đưng phân đnh gia các lãnh hi là các đưng thng (chính xác hơn thì chúng là các đưng trung trc ca các cp đim gn nhau). Vì vy, lãnh hi ca mt đo s là mt hình đa giác. Cách phân chia này trong toán hc đưc gi là Voronoi Diagram. Trong không gian ba chiu, ly ví d là các hành tinh, thì (tm gi là) lãnh không ca mi hành tinh s là mt đa din. Trong không gian nhiu chiu hơn, chúng ta s có nhng th (mà tôi gi là) siêu đa din (hyperpolygon). Quay li vi bài toán phân nhóm và c th là thut toán K-means clustering, chúng ta cn mt chút phân tích toán hc trưc khi đi ti phn tóm tt thut toán  phn dưi. Nu bn không mun đc quá nhiu v toán, bn có th b qua phn này. ( Tt nht là đng b qua, bn s tic đy ).

4.2 Phân tích toán hc Mc đích cui cùng ca thut toán phân nhóm này là: t d liu đu vào và s lưng nhóm chúng ta mun tìm, hãy ch ra center ca mi nhóm và phân các đim d liu vào các nhóm tương ng. Gi s thêm rng mi đim d liu ch thuc vào đúng mt nhóm. 4.2.1 Mt s ký hiu toán hc

Gi s có N đim d liu là X = [x , x , . . . , xN ] ∈ Rd×N và K < N là s cluster chúng ta mun phân chia. Chúng ta cn tìm các center m , m , . . . , mK ∈ Rd× và label ca mi đim d liu. 1

2

1

1

2

Lưu ý v ký hiu toán hc: trong các bài vit ca tôi, các s vô hưng đưc biu din bi các ch cái vit  dng không in đm, có th vit hoa, ví d x1 , N , y , k . Các vector đưc biu din bng các ch cái thưng in đm, ví d m, x1 . Các ma trn đưc biu din bi các ch vit hoa in đm, ví d X, M, Y. Lưu ý này đã đưc nêu  bài Linear Regression. Tôi xin đưc không nhc li trong các bài tip theo.

22


Vi mi đim d liu xi đt yi = [yi , yi , . . . , yiK ] là label vector ca nó, trong đó nu xi = k . Điu này có nghĩa là có đúng mt đưc phân vào cluster k thì yik = 1 và yij = 0, ∀ j  phn t ca vector yi là bng 1 (tương ng vi cluster ca xi ), các phn t còn li bng 0. Ví d: nu mt đim d liu có label vector là [1, 0, 0, . . . , 0] thì nó thuc vào cluster 1, là [0 , 1, 0, . . . , 0] thì nó thuc vào cluster 2, . . . . Cách mã hóa label ca d liu như th này đưc goi là biu din one-hot . Chúng ta s thy cách biu din one-hot này rt ph bin trong Machine Learning  các bài tip theo. 1

1

Ràng buc ca yi có th vit dưi dng toán hc như sau: K 

yik ∈ 0 , 1,

yik = 1

(1)

(4.1)

k=1

4.2.2 Hàm mt mát và bài toán ti ưu

Nu ta coi center mk là center (hoc representative) ca mi cluster và ưc lưng tt c các đim đưc phân vào cluster này bi mk , thì mt đim d liu xi đưc phân vào cluster k s b sai s là ( xi − mk ). Chúng ta mong mun sai s này có tr tuyt đi nh nht nên (ging như trong bài Linear Regression) ta s tìm cách đ đi lưng sau đây đt giá tr nh nht:

xi − mk 22

Hơn na, vì xi đưc phân vào cluster k nên trên s đưc vit li là:

= k . yik = 1, yij = 0, ∀ j 

2 2

yik xi − mk  =

K 

(4.2)

Khi đó, biu thc bên

yij xi − m j 22

(4.3)


(4.4)

j =1

(Hy vng ch này không quá khó hiu ) Sai s cho toàn b d liu s là: L(Y, M) =

N  K  i=1 j =1

Trong đó Y = [y ; y ; . . . ; yN ], M = [m , m , . . . mK ] ln lưt là các ma trn đưc to bi label vector ca mi đim d liu và center ca mi cluster. Hàm s mt mát trong bài toán K-means clustering ca chúng ta là hàm L(Y, M) vi ràng buc như đưc nêu trong phương trình (1). 1

2

1

2

Tóm li, chúng ta cn ti ưu bài toán sau: Y , M = arg min Y,M

N K   i=1 j =1


(2)

(4.5)


subject to:

yij ∈ 0 , 1 ∀i, j ;

K 

yij = 1 ∀i

23

(4.6)

j =1

(subject to nghĩa là tha mãn điu kin ). Nhc li khái nim arg min: Chúng ta bit ký hiu min là giá tr nh nht ca hàm s , arg min chính là giá tr ca bin s đ hàm s đó đt giá tr nh nht đó . Nu f (x) =

x2 − 2x +1 = (x − 1)2 thì giá tr nh nht ca hàm s này bng 0, đt đưc khi x = 1. Trong ví d này min x f (x) = 0 và arg minx f (x) = 1. Thêm ví d khác, nu x 1 = 0, x2 = 10, x3 = 5 thì ta nói arg mini xi = 1 vì 1 là ch s đ xi đt giá tr nh nht (bng 0 ). Bin s vit bên

dưi min là bin s cúng ta cn ti ưu. Trong các bài toán ti ưu, ta thưng quan tâm ti arg min hơn là min . 4.2.3 Thut toán ti ưu hàm mt mát

Bài toán (2) là mt bài toán khó tìm đim ti ưu vì nó có thêm các điu kin ràng buc. Bài toán này thuc loi mix-integer programming (điu kin bin là s nguyên) - là loi rt khó tìm nghim ti ưu toàn cc (global optimal point, tc nghim làm cho hàm mt mát đt giá tr nh nht có th). Tuy nhiên, trong mt s trưng hp chúng ta vn có th tìm đưc phương pháp đ tìm đưc nghim gn đúng hoc đim cc tiu. (Nu chúng ta vn nh chương trình toán ôn thi đi hc thì đim cc tiu chưa chc đã phi là đim làm cho hàm s đt giá tr nh nht ).

Mt cách đơn gin đ gii bài toán (2) là xen k gii Y và M khi bin còn li đưc c đnh. Đây là mt thut toán lp, cũng là k thut ph bin khi gii bài toán ti ưu. Chúng ta s lt lưt gii quyt hai bài toán sau đây: C đnh M, tìm Y Gi s đã tìm đưc các centers, hãy tìm các label vector đ hàm mt mát đt giá tr nh nht. Điu này tương đương vi vic tìm cluster cho mi đim d liu.

Khi các centers là c đnh, bài toán tìm label vector cho toàn b d liu có th đưc chia nh thành bài toán tìm label vector cho tng đim d liu xi như sau: yi = arg min yi

subject to:

K 


(3)

(4.7)

j =1

yij ∈ 0 , 1 ∀ j ;

K  j =1

yij = 1

(4.8)

24


Vì ch có mt phn t ca label vector dưi dng đơn gin hơn:

yi bng 1 nên

bài toán (3) có th tip tc đưc vit

j = arg min xi − m j 22 j

(4.9)

Vì xi − m j  chính là bình phương khong cách tính t đim xi ti center m j , ta có th kt lun rng mi đim xi thuc vào cluster có center gn nó nht ! T đó ta có th d dàng suy ra label vector ca tng đim d liu. 2 2

C đnh Y, tìm M Gi s đã tìm đưc cluster cho tng đim, hãy tìm center mi cho mi cluster đ hàm mt mát đt giá tr nh nht.

Mt khi chúng ta đã xác đnh đưc label vector cho tng đim d liu, bài toán tìm center cho mi cluster đưc rút gn thành: m j = arg min mj

N 

yij xi − m j 22 .

(4.10)

i=1

Ti đây, ta có th tìm nghim bng phương pháp gii đo hàm bng 0, vì hàm cn ti ưu là mt hàm liên tc và có đo hàm xác đnh ti mi đim. Và quan trng hơn, hàm này là hàm convex (li) theo m j nên chúng ta s tìm đưc giá tr nh nht và đim ti ưu tương ng. Sau này nu có dp, tôi s nói thêm v ti ưu li (convex optimization) - mt mng cc kỳ quan trng trong toán ti ưu .

Đt l(m j ) là hàm bên trong du arg min, ta có đo hàm:

 ∂l(m j ) yij (m j − xi ) =2 ∂ m j N

(4.11)

i=1

Gii phương trình đo hàm bng 0 ta có: m j

N  i=1

yij =

N 

yij xi

(4.12)

i=1

N yij xi ⇒ m j = i N =1

i=1 yij

(4.13)

Nu đ ý mt chút, chúng ta s thy rng mu s chính là phép đm s lưng các đim d liu trong cluster j ( Bn có nhn ra không? ). Còn t s chính là tng các đim d liu trong


25

cluster j . (Nu bn đc vn nh điu kin ràng buc ca các yij thì s có th nhanh chóng nhìn ra điu này ). Hay nói mt cách đơn gin hơn nhiu: cluster j .

m j là

trung bình cng ca các đim trong

Tên gi K-means clustering cũng xut phát t đây. 4.2.4 Tóm tt thut toán

Ti đây tôi xin đưc tóm tt li thut toán (đc bit quan trng vi các bn b qua phn toán hc bên trên ) như sau: Đu vào: D liu X và s lưng cluster cn tìm K . Đu ra: Các center M và label vector cho tng đim d liu Y.

1. Chn K đim bt kỳ làm các center ban đu. 2. Phân mi đim d liu vào cluster có center gn nó nht. 3. Nu vic gán d liu vào tng cluster  bưc 2 không thay đi so vi vòng lp trưc nó thì ta dng thut toán. 4. Cp nht center cho tng cluster bng cách ly trung bình cng ca tt các các đim d liu đã đưc gán vào cluster đó sau bưc 2. 5. Quay li bưc 2. Chúng ta có th đm bo rng thut toán s dng li sau mt s hu hn vòng lp. Tht vy, vì hàm mt mát là mt s dương và sau mi bưc 2 hoc 3, giá tr ca hàm mt mát b gim đi. Theo kin thc v dãy s trong chương trình cp 3: nu mt dãy s gim và b chn dưi thì nó hi t! Hơn na, s lưng cách phân nhóm cho toàn b d liu là hu hn nên đn mt lúc nào đó, hàm mt mát s không th thay đi, và chúng ta có th dng thut toán ti đây. Chúng ta s có mt vài tho lun v thut toán này, v nhng hn ch và mt s phương pháp khc phc. Nhưng trưc ht, hãy xem nó th hin như th nào trong mt ví d c th dưi đây.

4.3 Ví d trên Python 4.3.1 Gii thiu bài toán

Đ kim tra mc đ hiu qu ca mt thut toán, chúng ta s làm mt ví d đơn gin (thưng đưc gi là toy example ). Trưc ht, chúng ta chn center cho tng cluster và to d liu cho tng cluster bng cách ly mu theo phân phi chun có kỳ vng là center ca cluster đó và ma trn hip phương sai (covariance matrix) là ma trn đơn v.

26


Trưc tiên, chúng ta cn khai báo các thư vin cn dùng. Chúng ta cn numpy và matplotlib như trong bài Linear Regression cho vic tính toán ma trn và hin th d liu. Chúng ta cũng cn thêm thư vin scipy.spatial.distance đ tính khong cách gia các cp đim trong hai tp hp mt cách hiu qu. import numpy as np 2 import matplotlib.pyplot as plt 3 from scipy.spatial.distance import cdist 4 np.random.seed(11) 1

Tip theo, ta to d liu bng cách ly các đim theo phân phi chun có kỳ vng ti các đim có ta đ (2, 2), (8, 3) và (3, 6), ma trn hip phương sai ging nhau và là ma trn đơn v. Mi cluster có 500 đim. ( Chú ý rng mi đim d liu là mt hàng ca ma trn d liu. means = [[2, 2], [8, 3], [3, 6]] cov = [[1, 0], [0, 1]] 3 N = 500 4 X0 = np.random.multivariate_normal(means[0], cov, N) 5 X1 = np.random.multivariate_normal(means[1], cov, N) 6 X2 = np.random.multivariate_normal(means[2], cov, N) 1 2

7 8 9

X = np.concatenate((X0, X1, X2), axis = 0) K = 3

10 11

original_label = np.asarray([0]*N + [1]*N + [2]*N).T

4.3.2 Hin th d liu trên đ th

Chúng ta cn mt hàm kmeans_display đ hin th d liu. Sau đó hin th d liu theo nhãn ban đu. 1 2 3 4 5

def kmeans_display(X, label): K = np.amax(label) + 1 X0 = X[label == 0, :] X1 = X[label == 1, :] X2 = X[label == 2, :]

6

plt.plot(X0[:, 0], X0[:, 1], ’b^’, markersize = 4, alpha = .8) plt.plot(X1[:, 0], X1[:, 1], ’go’, markersize = 4, alpha = .8) plt.plot(X2[:, 0], X2[:, 1], ’rs’, markersize = 4, alpha = .8)

7 8 9 10 11 12 13

plt.axis(’equal’) plt.plot() plt.show()

14 15

kmeans_display(X, original_label)

Trong đ th trên, mi cluster tương ng vi mt màu. Có th nhn thy rng có mt vài đim màu đ b ln sang phn cluster màu xanh.


27

4.3.3 Các hàm s cn thit cho K-means clustering

Vit các hàm: 1. kmeans_init_centers đ khi to các centers ban đu. 2. kmeans_asign_labels đ gán nhán mi cho các đim khi bit các centers. 3. kmeans_update_centers đ cp nht các centers mi da trên d liu va đưc gán nhãn. 4. has_converged đ kim tra điu kin dng ca thut toán. 1 2 3

def kmeans_init_centers(X, k): # randomly pick k rows of X as initial centers return X[np.random.choice(X.shape[0], k, replace=False)]

4 5 6 7 8 9

def kmeans_assign_labels(X, centers): # calculate pairwise distances btw data and centers D = cdist(X, centers) # return index of the closest center return np.argmin(D, axis = 1)

10 11 12 13 14 15 16 17 18

def kmeans_update_centers(X, labels, K): centers = np.zeros((K, X.shape[1])) for k in range(K): # collect all points assigned to the k-th cluster Xk = X[labels == k, :] # take average centers[k,:] = np.mean(Xk, axis = 0) return centers

19 20 21 22 23

def has_converged(centers, new_centers): # return True if two sets of centers are the same return (set([tuple(a) for a in centers]) == set([tuple(a) for a in new_centers]))

Phn chính ca K-means clustering: 1 2 3 4 5 6 7 8 9 10 11 12

def kmeans(X, K): centers = [kmeans_init_centers(X, K)] labels = [] it = 0 while True: labels.append(kmeans_assign_labels(X, centers[-1])) new_centers = kmeans_update_centers(X, labels[-1], K) if has_converged(centers[-1], new_centers): break centers.append(new_centers) it += 1 return (centers, labels, it)

Áp dng thut toán va vit vào d liu ban đu, hin th kt qu cui cùng. (centers, labels, it) = kmeans(X, K) 2 print ’Centers found by our algorithm:’ 3 print centers[-1] 1

4 5

kmeans_display(X, labels[-1])

28


Centers found by our algorithm: [[ 1.97563391 2.01568065] [ 8.03643517 3.02468432] [ 2.99084705 6.04196062]] T kt qu này chúng ta thy rng thut toán K-means clustering làm vic khá thành công, các centers tìm đưc khá gn vi kỳ vng ban đu. Các đim thuc cùng mt cluster hu như đưc phân vào cùng mt cluster (tr mt s dim màu đ ban đu đã b phân nhm vào cluster màu xanh da tri, nhưng t l là nh và có th chp nhn đưc). Dưi đây là hình nh đng minh ha thut toán qua tng vòng lp, chúng ta thy rng thut toán trên hi t rt nhanh, ch cn 6 vòng lp đ có đưc kt qu cui cùng:

Các bn có th xem thêm các trang web minh ha thut toán K-means cluster ti: 1. Visualizing K-Means Clustering 2. Visualizing K-Means Clustering - Standford 4.3.4 Kt qu tìm đưc bng thư vin scikit-learn

Đ kim tra thêm, chúng ta hãy so sánh kt qu trên vi kt qu thu đưc bng cách s dng thư vin scikit−learn. from sklearn.cluster import KMeans kmeans = KMeans(n_clusters=3, random_state=0).fit(X) 3 print ’Centers found by scikit-learn:’ 4 print kmeans.cluster_centers_ 5 pred_label = kmeans.predict(X) 6 kmeans_display(X, pred_label) 1 2

Centers found by scikit-learn: [[ 8.0410628 3.02094748] [ 2.99357611 6.03605255] [ 1.97634981 2.01123694]] Tht may mn (cho tôi ), hai thut toán cho cùng mt đáp s! Vi cách th nht, tôi mong mun các bn hiu rõ đưc thut toán K-means clustering làm vic như th nào. Vi cách th hai, tôi hy vng các bn bit áp dng thư vin sn có như th nào.

4.4 Tho lun 4.4.1 Hn ch

Có mt vài hn ch ca thut toán K-means clustering:

4.4 Tho lun

29

Chúng ta cn bit s lưng cluster cn clustering

Đ ý thy rng trong thut toán nêu trên, chúng ta cn bit đi lưng K là s lưng clusters. Trong thc t, nhiu trưng hp chúng ta không xác đnh đưc giá tr này. Có mt s phương pháp giúp xác đnh s lưng clusters, tôi s dành thi gian nói v chúng sau nu có dp. Bn đc có th tham kho Elbow method - Determining the number of clusters in a data set. Nghim cui cùng ph thuc vào các centers đưc khi to ban đu

Tùy vào các center ban đu mà thut toán có th có tc đ hi t rt chm, ví d: hoc thm chí cho chúng ta nghim không chính xác (ch là local minimum - đim cc tiu - mà không phi giá tr nh nht): Có mt vài cách khc phc đó là: •

Chy K-means clustering nhiu ln vi các center ban đu khác nhau ri chn cách có hàm mt mát cui cùng đt giá tr nh nht.

•

K-means++ -Improve initialization algorithm - wiki.

•

Bn nào mun tìm hiu sâu hơn có th xem bài báo khoa hc Cluster center initialization algorithm for K-means clustering.

Các cluster cn có só lưng đim gn bng nhau

Dưi đây là mt ví d vi 3 cluster vi 20, 50, và 1000 đim. Kt qu cui cùng không chính xác. Các cluster cn có dng hình tròn

Tc các cluster tuân theo phân phi chun và ma trn hip phương sai là ma trn đưng chéo có các đim trên đưng chéo ging nhau. Dưi đây là 1 ví d khi 1 cluster có dng hình dt. Khi mt cluster nm phía trong 1 cluster khác

Đây là ví d kinh đin v vic K-means clustering không th phân cm d liu. Mt cách t nhiên, chúng ta s phân ra thành 4 cm: mt trái, mt phi, ming, xunh quanh mt. Nhưng vì mt và ming nm trong khuôn mt nên K-means clustering không thc hin đưc:

30


Mc dù có nhng hn ch, K-means clustering vn cc kỳ quan trng trong Machine Learning và là nn tng cho nhiu thut toán phc tp khác sau này. Chúng ta cn bt đu t nhng th đơn gin. Simple is best!

4.5 Tài liu tham kho 1. Clustering documents using k-means 2. Voronoi Diagram - Wikipedia 3. Cluster center initialization algorithm for K-means clustering 4. Visualizing K-Means Clustering 5. Visualizing K-Means Clustering - Standford

Book

Recommend Documents