Search
Home
Saved
496 views
0
Upload
Sign In
Join
RELATED TITLES
0
XLNNTN Uploaded by Nguyễn Quốc Minh
Books
Audiobooks
Magazines
Save
Embed
Share
Print
Download
News
Documents
Sheet Music
BaiThuHoachXuLyNgonNguTuNhien_Duo Báo cáo XLNNTN NLP - Text 1 Categorization
1
of 15
Search document
ĐẠI HỌC BÁCH KHOA HÀ NỘI Viện Công Nghệ Thông Tin và Truyền Thông
BÁO CÁO BÀI TẬP LỚ N XỬ LÝ NGÔN NGỮ TỰ NHIÊN Đề tài: Phân lớp văn bản - phân loại website Nhóm sinh viên th ự c hiện : Đinh Quang Huy – title 20081124 Sign up to vote on this useful ữuUseful Nguyễ Nguyễn Hữ H Hạ Hạnh Not – 20080903 Nguyễn Nguyễn Đức Đức Yên – 20083244
Home
Saved
Books
Audiobooks
Magazines
News
Documents
Sheet Music
Upload
Sign In
Join
Search
Home
Saved
0
496 views
Upload
Sign In
RELATED TITLES
0
XLNNTN Uploaded by Nguyễn Quốc Minh
Books
Audiobooks
Magazines
Save
Embed
Share
Print
Download
News
Documents
Sheet Music
Join
BaiThuHoachXuLyNgonNguTuNhien_Duo Báo cáo XLNNTN NLP - Text 1 Categorization
1
of 15
Search document
Mục lục
I. Tổng quan.................................................................................................
1. Bài toán phân lớp văn bản ...........................................................................
2. Ứ ng dụng .....................................................................................................
II. Phương pháp giải quyết bài toán ................................................
1. Phương pháp Naïve Bayes .......................................................................... 1.1.
Định lý Bayes ........................................................................................
1.2. Phân loại Naïve Bayes ..........................................................................
1.3. Phân loại Naïve Bayes – Giải thuật ......................................................
1.4. Phân loại văn bản bằng phương pháp Naïve Bayes ............................. You're Reading a Preview
2. Áp dụng vào bài toán phân lớ p trang web................................................. Unlock full access with a free trial.
III. Chương trình Demo ......................................................................... Download With Free Trial
1. Giao diện chương trình................................................................................
2. Cấu trúc mã nguồn các lớ p chính của chương trình....................................
IV. Kết luận .................................................................................................. Sign up to vote on this title V. Tài liệu tham khảo ............................................................................... Useful Not useful
Home
Saved
Books
Audiobooks
Magazines
News
Documents
Sheet Music
Upload
Sign In
Join
Search
Home
Saved
0
496 views
Upload
Sign In
RELATED TITLES
0
XLNNTN Uploaded by Nguyễn Quốc Minh
Books
Audiobooks
Magazines
Save
Embed
Share
Print
News
Documents
Sheet Music
I.
BaiThuHoachXuLyNgonNguTuNhien_Duo Báo cáo XLNNTN NLP - Text 1 Categorization
1
Download
Join
of 15
Search document
Tổng quan
1. Bài toán phân l ớp văn bản
Phân lớp văn bản đượ c coi là quá trình phân loại một văn bản bất kì vào hay nhiều lớp cho trướ c. Quá trình này gồm hai bướ c. Ở bướ c thứ nhất, m hình phân lớp (classfication model) đượ c xây dựng dựa trên tri thức kinh ngh Ở đây, tri thức kinh nghiệm chính là một tập dữ liệu huấn luyện (training data đượ c cung cấp bởi con ngườ i bao gồm một tập văn bản và phân lớp tương ứ chúng. Bướ c này còn gọi là bướ c xây dựng huấn luyện (training process) hay lượ ng mô hình phân lớ p. Ở bướ c thứ hai, mô hình phân lớ p xây dựng ở bước sẽ đượ c sử dụng để phân lớ p cho những văn bản (chưa đượ c phân loại) trong tư lai. Bước đầu tiên được xem như là việc học có giám sát mà chúng ta có th dụng rất nhiều các kĩ thuật học máy đã có như: Naïve Bayes, k láng giềng gầ Tree),… (kNN), cây quyết định (Decision tiêu của bài toán phân lớ p là n You're ReadingMục a Preview xây dựng mô hình có khả năngUnlock gánfullnhãn cho một văn bản bất kì với độ chính access with a free trial. cao nhất có thể.
2. Ứ ng dụng
Download With Free Trial
Ứ ng dụng lớ n nhất của bài toán phân lớ p văn bản là áp dụng vào bài toán p loại hay lọc nội dung. Trong bài toán lọc nội dung: một văn bản đượ c phân vote on this vào nhóm: có ích hoặc không có ích. Sau đó lấySign tất up cảtonhững văntitle bản thuộc n Useful Not useful có ích, nhóm còn lại bị loại bỏ. Các ứng dụngcụ thể như: lọc thư rác, lọc t web phản động,… Một ứng dụng khác của bài toán phân lớ p là xây dựng b
Home
Saved
Books
Audiobooks
Magazines
News
Documents
Sheet Music
Upload
Sign In
Join
Search
Home
Saved
0
496 views
Upload
Sign In
RELATED TITLES
0
XLNNTN Uploaded by Nguyễn Quốc Minh
Books
Audiobooks
Magazines
Save
Embed
Share
Print
News
Documents
Sheet Music
BaiThuHoachXuLyNgonNguTuNhien_Duo Báo cáo XLNNTN NLP - Text 1 Categorization
1
Download
Join
of 15
Search document
chúng em chọn đề tài “Phân lớp văn bản – phân loại trang web” để có thể cứu và phát triển ứng dụng này.
II. Phương pháp giải quyết bài toán
Như đã đề cập ở phần I, hiện nay đã có khá nhiều kĩ thuật học máy đượ dụng để giải quyết bài toán phân lớp, điển hình là các phương pháp Naïve Ba cây quyết định, Entropy cực đại,… Trong các phương pháp đó, chúng em c phương pháp phân lớ p Naïve Bayes.
1. Phương pháp Naïve Bayes
- Là phương pháp học phân lớ p có giám sát - Dựa trên mô hình (hàm) xác suất - Việc phân loại dựa trên các giá trị xác suất của các khả năng xảy ra của các thiết You're Reading a Preview - Là một phương pháp thườngUnlock đượ c access sử dụng full with atrong free trial.các bài toán phân lớp văn - Dựa trên định lý Bayes Download With Free Trial
1.1.
Đị nh lý Bayes
Sign up to vote on this title
Trong đó:
Useful
Not useful
Home
Saved
Books
Audiobooks
Magazines
News
Documents
Sheet Music
Upload
Sign In
Join
Search
Home
Saved
0
496 views
Upload
Sign In
RELATED TITLES
0
XLNNTN Uploaded by Nguyễn Quốc Minh
Books
Audiobooks
Magazines
Save
Embed
Share
Print
Download
News
Documents
Sheet Music
Join
BaiThuHoachXuLyNgonNguTuNhien_Duo Báo cáo XLNNTN NLP - Text 1 Categorization
1
of 15
Search document
Ví dụ ta có tập dữ liệu như sau:
-
You're Reading a Preview Trong ví dụ trên, giả sử rằng: Unlockmà full access withtính a freeOutlook trial. T ậ p d ữ liệu D: là tập các ngày thuộc có giá trị Sunny và th tính Wind có giá trị Strong. Download With Free Trial Giả thiế t (phân lớ p) h: một người có chơi tennis. Xác suất trướ c P(h): xác suất 1 người chơi tennis (không phụ thuộc vào thuộc tính Outlook và Wind ). Xác su ất trướ c P(D): xác suất của một ngày có Outlook tính nhận g Signthuộc up to vote on this title Sunny và thuộc tính Wind nhận giá trị Strong. Useful Not useful P(D|h): xác suất của một ngày có thuộc tính Outlook nhận giá trị Sunn
Home
Saved
Books
Audiobooks
Magazines
News
Documents
Sheet Music
Upload
Sign In
Join
Search
Home
Saved
0
496 views
Upload
Sign In
Join
RELATED TITLES
0
XLNNTN Uploaded by Nguyễn Quốc Minh
Books
Audiobooks
Magazines
Save
Embed
Share
Print
Download
News
Documents
Sheet Music
BaiThuHoachXuLyNgonNguTuNhien_Duo Báo cáo XLNNTN NLP - Text 1 Categorization
1
of 15
Search document
1.2. Phân loại Naïve Bayes
- Biểu diễn bài toán phân loại: o Một tập học D_train, trong đó mỗi ví dụ học x đượ c biểu diễn là một vec chiều: (x1, x2,…, xn) o Một tập xác định các nhãn lớ p: C = {c1, c2,…, cm} o Vớ i một ví dụ mớ i z thì cần xác định xem z sẽ đượ c phân vào lớ p nào? - Mục tiêu: xác định phân lớ p phù hợ p nhất vớ i z.
You're Reading a Preview
Vì xác suất P(z1, z2,…, zn) là như nhau đối vớ i các lớ p nên ta cần tìm: Unlock full access with a free trial.
Download With Free Trial
Trong phương pháp phân loại Naïve Bayes, các thuộc tính là độc lập có điề đối vớ i các lớ p. Vậy: Sign up to vote on this title
Useful
Not useful
Home
Saved
Books
Audiobooks
Magazines
News
Documents
Sheet Music
Upload
Sign In
Join
Search
Home
Saved
0
496 views
Upload
Sign In
RELATED TITLES
0
XLNNTN Uploaded by Nguyễn Quốc Minh
Books
Audiobooks
Magazines
Save
Embed
Share
Print
Download
News
Documents
Sheet Music
Join
BaiThuHoachXuLyNgonNguTuNhien_Duo Báo cáo XLNNTN NLP - Text 1 Categorization
1
of 15
Search document
1.3. Phân loại Naïve Bayes – Giải thuậ t
- Giai đoạn học: ta sử dụng 1 tập học. Đối vớ i mỗi phân lớ p có thể C: o Tính xác suất trướ c P(ci) o Đối vớ i mỗi giá trị thuộc tính x j, tính xác suất xảy ra của giá trị thuộc tín vớ i một phân lớ p ci: P(x j | ci) - Giai đoạn phân lớp, đối vớ i mỗi 1 ví dụ mớ i: o Đối vớ i mỗi phân lớ p C, tính giá trị likehood :
o
Xác định phân lớ p của z là có thể nhất:
You're Reading a Preview Unlock full access with a free trial.
1.4. Phân loại văn bả n bằng phương pháp Naïve Bayes
văn bản:With Free Trial - Biểu diễn bài toán phân loạiDownload o Tập học D_train, trong đó mỗi ví dụ học là một biểu diễn văn bản đã gắ một nhãn lớ p: D = {(d k, ci)} o Một tập các nhãn lớp xác định: C = {ci} Sign up to vote on this title - Giai đoạn học: Useful Not useful o Từ tập các văn bản trong D_train, ta trích ra tập các từ khóa T = {t j}. G i D_c ( D_train) là tập các văn bản trong D_train có nhãn lớ p là c
Home
Saved
Books
Audiobooks
Magazines
News
Documents
Sheet Music
Upload
Sign In
Join
Search
Home
Saved
0
496 views
Upload
Sign In
Join
RELATED TITLES
0
XLNNTN Uploaded by Nguyễn Quốc Minh
Books
Audiobooks
Magazines
Save
Embed
Share
Print
Download
News
Documents
Sheet Music
BaiThuHoachXuLyNgonNguTuNhien_Duo Báo cáo XLNNTN NLP - Text 1 Categorization
1
of 15
Search document
Trong đó: n(d k, t j) là số lần xuất hiện của từ khóa t j trong văn bản dk
- Giai đoạn phân lớp cho 1 văn bản mớ i d: o Từ văn bản d, trích ra tập T_d gồm các từ khóa được định nghĩa trong t (T_d T) o Giả sử rằng, xác suất xuất hiện của từ khóa t j đối vớ i lớ p ci là độc lập đố vị trí của từ khóa đó trong văn bản.
o
Đối vớ i mỗi phân lớ p ci, ta tính giá trị likehood của văn bản d đối vớ i l You're Reading a Preview Unlock full access with a free trial.
o
Download With Free Trial
Văn bản d sẽ đượ c phân vào lớ p c* có giá trị likehood lớ n nhất:
Sign up to vote on this title
Useful
Not useful
Home
Saved
Books
Audiobooks
Magazines
News
Documents
Sheet Music
Upload
Sign In
Join
Search
Home
Saved
0
496 views
Upload
Sign In
RELATED TITLES
0
XLNNTN Uploaded by Nguyễn Quốc Minh
Books
Audiobooks
Magazines
Save
Embed
Share
Print
Download
News
Documents
Sheet Music
Join
BaiThuHoachXuLyNgonNguTuNhien_Duo Báo cáo XLNNTN NLP - Text 1 Categorization
1
of 15
Search document
2. Áp dụng vào bài toán phân l ớ p trang web Mô hình giải quyết bài toán của chúng em như sau:
Mô hình quy trình giải quyết bài toán
Trong đó: -
You're Reading a Preview Unlock full access with a free trial.
T ậ p d ữ liệu huấ n luyện D_train:
trong khuôn khổ BTL, do thờ i gian có chúng em chọn tập dữ liệu huấn luyện D_train là phần nội dung của các bài Download With Free Trial trên trang vnexpress.net (bỏ qua bướ c xử lý lấy phần nội dung này từ 1 t web) và gán nhãn (lớ p) cho chúng. - Tách t ừ: trong bướ c này, chúng em có include chương trình vnTagger c Sign up to vote ontrình this title giả Lê Hồng Phương – ĐHQG Hà Nội vào trong chương của mình đ Useful Not useful lý tách từ trong các văn bản thuộc tập dữ liệu huấn luyện D_train. - Loại bỏ Stop-Word : bản chất của các ngôn ngữ tự nhiên là luôn có các t
Home
Saved
Books
Audiobooks
Magazines
News
Documents
Sheet Music
Upload
Sign In
Join
Search
Home
Saved
0
496 views
Upload
Sign In
Join
RELATED TITLES
0
XLNNTN Uploaded by Nguyễn Quốc Minh
Books
Audiobooks
Magazines
Save
Embed
Share
Print
BaiThuHoachXuLyNgonNguTuNhien_Duo Báo cáo XLNNTN NLP - Text 1 Categorization
1
Download
News
Documents
Sheet Music
và không những thì bả lại do dẫu bậy mà huống nữa
of 15
Còn không chỉ Nên Giá Song dẫu cho có điều Ngay
Search document
hay mà hễ vì du chẳng lẽ hơn nữa cũng
hoặc còn tuy bở i mặc d u làm như huống hồ chính
Không nếu Nhưng tại Dù thế mà huống gì cả
Bảng danh sách các stop-word
- T ậ p các t ừ khóa: là tập các từ đượ c tách sau khi loại bỏ stop-word . - Đưa vào CSDL: là bước đưa các từ khóa ở trên vào CSDL.
5 bướ c ở trên là 5 bướ c tiền xử lý đượ c thực hiện trướ c. Mỗi khi chạy chư trình thì chương trình sẽ khôngYou're phảiReading thực hiện lại các bước đó nữa. Sau khi có a Preview dữ liệu huấn luyện D_train vàUnlock tập các từ khóa T, chúng ta tiến hành áp dụng full access with a free trial. thuật phân lớp văn bản bằng phương pháp Naïve Bayes đối với 1 văn bản m Download WithraFree vào để xác định lớp cho văn bản đó và đưa kếtTrial luận.
Sau khi quan sát và nghiên cứu các trang tin, chúng em đưa ra danh sách p lớ p tin tức như sau:
STT 1
Tên Kinh tế
Nhãn nss
Sign up to vote on this title
Useful
MôNott ảuseful
Các nội dung liên quan đến thị trườ ng,
Home
Saved
Books
Audiobooks
Magazines
News
Documents
Sheet Music
Upload
Sign In
Join
Search
Home
Saved
496 views
0
Upload
Sign In
RELATED TITLES
0
XLNNTN Uploaded by Nguyễn Quốc Minh
Books
Audiobooks
Magazines
Save
Embed
Share
Print
News
Documents
Sheet Music
BaiThuHoachXuLyNgonNguTuNhien_Duo Báo cáo XLNNTN NLP - Text 1 Categorization
1
Download
Join
of 15
Search document
5
Chính trị, xã hội
plt
Các nội dung liên quan đến tình hình c trị, xã hội,…
6
Khoa học
sci
Các nội dung liên quan đến khoa học.
7
Thể thao
spt
Các nội dung liên quan đến thể thao.
8
Công nhệ
tec
Các nội dung liên quan đến công ngh
Bảng các lớ p tin tứ c
You're Reading a Preview Unlock full access with a free trial.
Download With Free Trial
Sign up to vote on this title
Useful
Not useful
Home
Saved
Books
Audiobooks
Magazines
News
Documents
Sheet Music
Upload
Sign In
Join
Search
Home
Saved
0
496 views
Upload
Sign In
RELATED TITLES
0
XLNNTN Uploaded by Nguyễn Quốc Minh
Books
Audiobooks
Magazines
Save
Embed
Share
Print
Download
News
Documents
Sheet Music
Join
BaiThuHoachXuLyNgonNguTuNhien_Duo Báo cáo XLNNTN NLP - Text 1 Categorization
1
of 15
Search document
III. Chương trình Demo
Chúng em xây dựng chương trình phân loại website dựa trên công n web-based. Sau đây là giao diện và cấu trúc mã nguồn chính của chương trình:
1. Giao diện chương trình
You're Reading a Preview Unlock full access with a free trial.
Download With Free Trial Giao di ện trang chủ
Sign up to vote on this title
Useful
Not useful
Home
Saved
Books
Audiobooks
Magazines
News
Documents
Sheet Music
Upload
Sign In
Join
Search
Home
Saved
496 views
0
Upload
Sign In
RELATED TITLES
0
XLNNTN Uploaded by Nguyễn Quốc Minh
Books
Audiobooks
Magazines
Save
Embed
Share
Print
Download
News
Documents
Sheet Music
Join
BaiThuHoachXuLyNgonNguTuNhien_Duo Báo cáo XLNNTN NLP - Text 1 Categorization
1
of 15
Search document
Giao di ện hi ể n thị k ế t quả
You're Reading a Preview Unlock full access with a free trial.
Download With Free Trial
Sign up to vote on this title
Useful
Not useful
Home
Saved
Books
Audiobooks
Magazines
News
Documents
Sheet Music
Upload
Sign In
Join
Search
Home
Saved
0
496 views
Upload
Sign In
RELATED TITLES
0
XLNNTN Uploaded by Nguyễn Quốc Minh
Books
Audiobooks
Magazines
Save
Embed
Share
Print
Download
News
Documents
Sheet Music
Join
BaiThuHoachXuLyNgonNguTuNhien_Duo Báo cáo XLNNTN NLP - Text 1 Categorization
1
of 15
Search document
2. Cấu trúc mã ngu ồn các lớ p chính c ủa chương trình
You're Reading a Preview Unlock full access with a free trial.
Download With Free Trial
Sign up to vote on this title
Useful
Not useful
Home
Saved
Books
Audiobooks
Magazines
News
Documents
Sheet Music
Upload
Sign In
Join
Search
Home
Saved
0
496 views
Upload
Sign In
RELATED TITLES
0
XLNNTN Uploaded by Nguyễn Quốc Minh
Books
Audiobooks
Magazines
Save
Embed
Share
Print
News
Documents
Sheet Music
BaiThuHoachXuLyNgonNguTuNhien_Duo Báo cáo XLNNTN NLP - Text 1 Categorization
1
Download
Join
of 15
Search document
Kết luận
Độ chính xác của chương trình phụ thuộc nhiều vào số lượ ng của tập d huấn luyện D_train và chương trình tách từ. Do thờ i gian có hạn nên chúng em mớ i thử nghiệm chương trình trên 1 tập D_train nhỏ và thực hiện luôn đối vớ nội dung chính của 1 trang web mà bỏ qua bướ c xử lý để lấy phần nội dung đó địa chỉ trang web.
Trong thờ i gian tớ i, chúng em sẽ cố gắng phát triển để hoàn thiện chư trình của mình hơn. Chúng em rất mong nhận đượ c sự góp ý của cô. Em cảm ơn!
IV. Tài liệu tham khảo [1]
Bài giảng môn Trí tuệ nhân tạo – TS. You're Reading aNguyễn Preview Nhật Quang, Viện CNTT& ĐHBK Hà Nội. Unlock full access with a free trial.
[2]
Bài giản môn Xử lý ngôn ngữ With tự nhiên – TS. Lê Thanh Hương, V Download Free Trial CNTT&TT ĐHBK Hà Nội.
[3]
Chương trình vnTagger version 4.0 – tác giả Lê Hồng Phương, ĐHKHT ĐHQG Hà Nội. Sign up to vote on this title
[4]
Website: http://vi.wikipedia.org Và mộ ố trang web tham khảo khác.
Useful
Not useful
Home
Saved
Books
Audiobooks
Magazines
News
Documents
Sheet Music
Upload
Sign In
Join