Penambangan Teks
Makalah Individu Mata Kuliah Penambangan Data dan Intelijen Bisnis Semester Genap 2010/2011
Ivan Razela Lanin NPM: 0906593750
Program Studi Magister Teknologi Informasi Fakultas Ilmu Komputer Universitas Indonesia Mei 2011
Daftar isi
Daftar gambar Daftar isi......................................... isi................................................................ .............................................. .............................................. .............................................2 ......................2 Daftar gambar.......................................... gambar................................................................. .............................................. .............................................. ....................................2 .............2 1. Pendahuluan.............................. ..................................................... .............................................. .............................................. .................................. ........................ .............1 2. Pemrosesan bahasa alami........................ ............................................... .............................................. ........................................................ ................................. 1 3. Penamba Penambangan ngan teks........ ................ ................ ................ ................ ................ ................ ................. ................. ................ ................ ................ ............ ........ ......... ......... .... 3 4. Proses penambangan teks..................... ............................................ .............................................. .............................................. .................................... ............. 4 5. Alat penambangan teks.................... ........................................... ............................................... ..................................................... ....................................... .......... 7 6. Bidang penerapan penambangan teks....................... .............................................. ....................................................... ...................................... ...... 8 7. Penerapan penambangan teks te ks bahasa Indonesia...................... ............................................. ...................................... ....................... ........ 9 Daftar pustaka.................................... pustaka........................................................... .............................................. ............................................................. ...................................... ...ii Indeks................................... Indeks.......................................................... .............................................. .............................................. ......................................................iii ...............................iii Gambar 1. Diagram konteks proses penambangan data.......................................................... data.............................................................4 ...4 Gambar 2. Ringkasan artikel otomatis pada Bataviase..............................................................9 Bataviase..............................................................9 Gambar 3. Beranda SITTI...................................... SITTI............................................................. .............................................. ........................................... ....................10 10 Gambar 4. Laman beranda Gresnews yang menunjukkan tren topik berita............................11
Penambangan Teks
1
1. Pendahuluan Penambanga Penambangan n teks ( text berkembang dari kebutuhan kebutuhan untuk memproses memproses data tak text mining mining ) berkembang terstru terstruktu kturr (unstruct dalam bentuk bentuk teks. teks. Penamb Penambang angan an teks teks dituru diturunka nkan n dari dari unstructured ured data) dalam penambangan data (data mining ) dan karenanya banyak memiliki kesamaan metode dalam pener penerapa apanny nnya. a. Penamb Penambang angan an teks teks juga juga memili memiliki ki keterg ketergant antung ungan an erat dengan dengan bidang bidang pemro pemroses sesan an bahasa bahasa alami alami (natural NLP) karen karenaa masu masuka kan n yang yang natural language language processi processing ng , NLP) diolahnya adalah teks dalam bentuk bahasa alami. Makala Makalah h ini membah membahas as sediki sedikitt dasar dasar NLP yang yang terkait terkait,, dilanj dilanjutk utkan an dengan dengan penjab penjabaran aran konsep konsep,, proses proses,, dan perang perangkat kat lunak lunak untuk untuk penamb penambang angan an teks. teks. Makalah Makalah ditutu ditutup p dengan dengan pemba pembahas hasan an penerap penerapan an penamb penambang angan an teks teks dalam dalam bebera beberapa pa bidang bidang umum umum serta serta contoh contoh penerapan untuk bahasa Indonesia. Makalah ini diharapkan dapat menjadi dasar untuk memahami penambangan teks dan potensi pemanfaatannya.
2. Pemros mrose esan ba bahasa ala alami mi Pemrosesan bahasa alami (NLP) adalah penerapan ilmu komputer, khususnya kecerdasan bua buata tan n
(artific dan artificial ial intellig intelligence ence ), dan
ling lingui uist stik ik,,
khus khusus usny nyaa
ling lingui uist stik ik komp komput utas asio iona nall
(computational linguistics ), untuk mengkaji interaksi antara komputer dengan bahasa (alami) manusi manusia. a. NLP berupa berupaya ya memeca memecahka hkan n masala masalah h untuk untuk memaha memahami mi bahasa bahasa alami alami manusi manusia, a, dengan segala aturan gramatika dan semantiknya, dan mengubah bahasa tersebut menjadi representasi formal yang dapat diproses oleh komputer. Dalam penerapannya, tujuan NLP untuk memahami bahasa manusia ini memiliki banyak tantangan, yang antara lain adalah sebagai berikut: 1. Pena Penand ndaa aan n kela kelass kata kata ( part-of-speech tagging ). ). Sulit untuk menandai kelas kata (kata benda, kata kerja, kata sifat, dsb.) suatu kata dalam teks karena pengelasan kata sangat bergantung kepada konteks penggunaannya. 2. Segmentas tasi teks (text segmentation Penentuan uan segmen segmentas tasii sulit sulit dilaku dilakukan kan pada pada segmentation ). Penent bahas bahasaa tulis tulis yang yang tidak tidak memili memiliki ki pembat pembatas as kata kata spesif spesifik ik (mis. (mis. bahasa bahasa Mandar Mandarin, in, Jepang Jepang,, dan Thaila Thailand) nd) serta serta pada pada bahasa bahasa lisan lisan yang yang kadang kadang membau membaurka rkan n bunyi bunyi antarkata.
Penambangan Teks
2
3. Disa Disamb mbig igua uasi si mak makna na kat kataa (word sense disambiguation ). Banyak kata memiliki lebih dari satu makna, baik dalam bentuk homonim (makna berbeda dan tidak terkait, mis. “bisa” dalam makna “dapat” dan “racun”) maupun polisemi (makna berbeda, namun terkait, mis. “ragu” dalam makna “bimbang” dan “sangsi”). Pembedaan makna hanya dapat dilakukan dengan melihat konteks penggunaan. 4. Ambiguitas sintaksis ( syntact Suatu u baha bahasa sa memi memili liki ki berb berbag agai ai syntactic ic ambiguit ambiguityy). Suat kemung kemungkin kinan an strukt struktur ur kalima kalimat. t. Pemili Pemilihan han strukt struktur ur yang yang paling paling tepat tepat biasan biasanya ya membutuhkan gabungan informasi semantik dan kontekstual. 5. Masu Masuka kan n yang yang tak sempu sempurn rnaa atau tak tak teratu teraturr ( imperfect or irregular input ). Aksen dala dalam m baha bahasa sa lisa lisan n sert sertaa kesa kesala laha han n ejaan ejaan dan dan gram gramat atika ikall dala dalam m baha bahasa sa tuli tuliss menyulitkan pemrosesan bahasa alami. 6. Pertuturan ( speech Strukt ktur ur kali kalima matt saja saja kada kadang ng tida tidak k dapa dapatt deng dengan an tepa tepatt speech act ). Stru mengga menggamba mbarka rkan n maksud maksud penutu penuturr atau atau penuli penulis. s. Kadang Kadang gaya gaya bahasa bahasa dan kontek kontekss menentukan maksud yang diinginkan. Di luar dari kesulitan-kesulitan tersebut, NLP telah berhasil diterapkan untuk berbagai tugas yang semula hanya dapat dilakukan oleh manusia. Beberapa bidang populer dalam penerapan NLP adalah sebagai berikut: 1. Peme Pemero role leha han n info inform rmas asii (information ). Pencari Pencarian an dokume dokumen n yang yang relevan relevan,, information retrieval retrieval ). pencarian informasi spesifik di dalam dokumen, serta pembuatan metadata. 2. Penj Penjaw awab aban an pert pertan anya yaan an (question answering ). ). Secara otomatis menjawab pertanyaan yang diajukan dengan bahasa alami dengan jawaban dalam bahasa alami pula. 3. Pera Perang ngku kuma man n otom otomat atis is ( automatic summarization ). Pembuatan versi singkat berisi butir-butir penting dari suatu dokumen dengan menggunakan program komputer. 4. Pene Penerj rjem emah ahan an mes mesin in (machine translation ). Penerjemahan otomatis dari suatu bahasa alami ke bahasa lain. 5. Peng Pengen enal alan an wica wicara ra ( speech Pengubahan bahasa lisan menjadi menjadi masukan masukan speech recognition recognition ). Pengubahan yang dikenali oleh mesin, misalnya pada pendiktean bahasa lisan kepada komputer untuk untuk mengha menghasil silkan kan bahasa bahasa tulis tulis atau pelaks pelaksana anaan an suatu suatu perint perintah ah oleh oleh komput komputer er berdasarkan bahasa lisan dari manusia. 6. Sin Sintesi tesiss wica wicara ra ( speech synthesis). Pengubahan bahasa tulis menjadi bahasa lisan, kebalikan dari pengenalan wicara.
Penambangan Teks
3
7. Peng Pengen enala alan n karak karakte terr opti optiss (optical character recognition recognition ). Pengubahan tulisan tangan atau teks tercetak (biasanya melalui pemindai) menjadi dokumen yang dapat dikenali oleh mesin. 8. Anal Analis isis is sen sentime timen n ( sentiment analysis). Ekstraksi informasi dari sumber data teks untuk untuk mendet mendeteks eksii pandan pandangan gan posit positif if atau atau negatif negatif terhada terhadap p suatu suatu objek. objek. Biasan Biasanya ya diterap diterapkan kan untuk untuk mengid mengident entifik ifikasi asi tren opini opini publik publik terhad terhadap ap suatu suatu produk produk atau perusahaan.
3. Penambangan teks Penambanga Penambangan n teks adalah proses proses semiotomati semiotomatiss untuk mengekstraks mengekstraksii pola (informasi dan pengetahuan yang berguna) dari sejumlah besar sumber data tak terstruktur. Penambangan teks memiliki tujuan dan menggunakan proses yang sama dengan penambangan data, namun memiliki masukan yang berbeda. Masukan untuk penambangan teks adalah data yang tidak (atau kurang) terstruktur, seperti dokumen Word, PDF, kutipan teks, dll., sedangkan masukan untuk penambangan data adalah data yang terstruktur. Penambangan teks dapat dianggap sebagai proses dua tahap yang diawali dengan penerapan struktur terhadap sumber data teks dan dilanjutkan dengan ekstraksi informasi dan pengetahuan yang relevan dari data teks terstruktur ini dengan menggunakan teknik dan a lat yang sama dengan penambangan data. Area penerapan penambangan teks yang paling populer adalah: 1. Ekst Ekstra raks ksii infor informa masi si (information Identifikasii frasa kunci dan keterkaitan keterkaitan information extraction extraction ): Identifikas di dalam teks dengan melihat urutan tertentu melalui pencocokan pola. 2. Pelacakan topik (topic tracking ): ): Penent Penentuan uan dokume dokumen n lain lain yang yang menarik menarik seoran seorang g pengguna berdasarkan profil dan dokumen yang dilihat pengguna tersebut. 3. Perangkuman
( summarization ):
Pembuatan
rangkuman
dokumen
untuk
mengefisienkan proses membaca. 4. Kate Katego gori rissasi asi (categorization ): Penentuan Penentuan tema utama suatu teks dan pengelompoka pengelompokan n teks berdasarkan tema tersebut ke dalam kategori yang telah ditentukan. 5. Penggugusan ( clustering ): ): Pengelompokan dokumen yang serupa tanpa penentuan kategori sebelumnya (berbeda dengan kategorisasi di atas).
Penambangan Teks
4
6. Penaut autan konsep ( concept linking ): ): Penautan Penautan dokumen dokumen terkait dengan dengan identifikas identifikasii konsep konsep yang yang dimili dimiliki ki bersam bersamaa sehing sehingga ga memban membantu tu penggu pengguna na untuk untuk menemu menemukan kan informasi yang mungkin tidak akan ditemukan dengan hanya menggunakan metode pencarian tradisional. 7. Penj Penjaw awab aban an perta pertany nyaa aan n (question answering ): ): Pemberian jawaban terbaik terhadap suatu pertanyaan dengan pencocokan pola berdasarkan pengetahuan.
4. Pros oses es pena enamban bangan te teks Penambangan teks memerlukan model proses standar berdasarkan praktik terbaik seperti model CRISP-DM (Cross-Industry Standard Process for Data Mining) untuk penambangan data. Delen & Crossland (2008) telah mengusulkan suatu diagram konteks untuk proses penam penamban bangan gan teks teks sepert sepertii pada pada Gambar Gambar 1. Diagra Diagram m tersebu tersebutt mengga menggamba mbarkan rkan masuka masukan n (panah dari arah kiri), keluaran (panah ke arah kanan), batasan (panah dari arah atas), serta mekanisme (panah dari arah bawah) untuk proses penambangan data. Tujuan utama dari penambangan data adalah memproses data tak terstruktur (teks) untuk memperoleh pola yang bermakna dan dapat ditindaklanjuti untuk pengambilan keputusan yang lebih baik.
Gambar 1. Diagram konteks proses penambangan data
Turban et.al. (2011) membagi proses penambangan data menjadi tiga urutan proses utama sebagai berikut: 1. Pembuatan korpus. Proses ini mengumpulkan semua dokumen yang terkait dengan topik kajian, termasuk transkripsi rekaman suara. Semua dokumen ini selanjutnya
Penambangan Teks
5
diubah menjadi satu bentuk yang seragam (mis. berkas teks ASCII) untuk diproses oleh komputer. 2. Pembuatan daftar istilah . Proses ini bertujuan untuk membuat daftar istilah dan frekuensi frekuensi kemunculann kemunculannya ya dalam bentuk bentuk matriks matriks istilah-dok istilah-dokumen umen (term-document
matrix , TDM). Beberapa hal yang harus diperhatikan dalam pembuatan daftar istilah ini adalah sebagai berikut: a. Kata hen hentian ( stop stop words) seperti partikel “yang” atau “dan” yang ada pada semua dokumen dan tidak memiliki daya pembeda dan harus dikecualikan dari daftar. b. b. Kamu Kamuss atau atau isti istilah lah cak cakup upan an (include terms ) berupa daftar istilah yang disusun lebih dulu untuk disertakan dalam daftar. c. Sino Sinoni nim m yang yang dipe diperl rlak akuk ukan an seba sebaga gaii satu satu isti istila lah h (mis (mis.. “dis “distr trib ibus usi” i” dan dan “penyebaran”); d. Isti Istila lah h khus khusus us sepe sepert rtii kata kata maje majemu muk k (mis (mis.. “man “manaje ajeme men n risi risiko ko”, ”, “rek “rekay ayas asaa perangkat lunak”) yang diperlakukan sebagai satu kesatuan; e. Pemangkalan ( stemming yaitu pemoto pemotonga ngan n kata kata untuk untuk menemu menemukan kan kata kata stemming ) yaitu dasarnya agar dapat mengelompokkan bentukan yang berasal dari kata dasar yang yang sama sama (mis. (mis. “bertem “bertemu”, u”, “menem “menemuka ukan”, n”, “penem “penemu”, u”, dan “pertem “pertemuan uan”” diperlakukan sama karena sama-sama berasal dari kata dasar “temu”). Daftar istilah yang diperoleh perlu diolah lebih lanjut dengan menentukan dua hal sebagai berikut: a. Pemilihan Pemilihan representa representasi si indeks. indeks. Frekuens Frekuensii kemunculan kemunculan istilah istilah sering sering kali kali harus dinormalis dinormalisasikan asikan untuk mendapatka mendapatkan n TDM yang lebih konsisten. konsisten. Metodemetode yang sering dipakai untuk normalisasi TDM antara lain adalah (1) frekuensi logaritmik, (2) frekuensi biner, dan (3) frekuensi dokumen inversi. b. Pengurangan Pengurangan dimens dimensii matriks. matriks. Jumlah istilah istilah yang yang ditemukan ditemukan sering sering kali harus harus dikurangi agar memudahkan pengelolaan. Metode pengurangan yang dapat dilakukan antara lain adalah (1) pemilihan istilah yang kontekstual oleh pakar, (2) penghapusan istilah dengan kemunculan yang sangat sedikit pada sangat sedi sediki kitt doku dokume men, n, dan dan (3) (3) peng pengub ubah ahan an matr matrik ikss deng dengan an meng menggu guna naka kan n dekomposisi nilai tunggal ( singular value decomposition, SVD).
Penambangan Teks
6
3. Ekstraksi pengetahuan yang telah telah diolah diolah dengan dengan baik baik selanj selanjutn utnya ya dapat dapat pengetahuan. TDM yang diekstraksi, kadang dengan tambahan data terstruktur lain, untuk mendapatkan pola pada masalah yang dikaji. dikaji. Beberapa Beberapa kategori kategori metode metode ekstraksi ekstraksi utama adalah sebagai berikut: a. Klasifikasi . Metode ini bertujuan untuk mengelompokkan suatu teks ke dalam kategori yang telah dibuat. Contoh penerapan metode ini antara lain adalah pengi penginde ndeksa ksan n teks, teks, pemfil pemfiltera teran n spam, spam, katego kategoris risasi asi hierar hierarkis kis laman laman web, web, pem pembu buat atan an meta metada data, ta, dete deteks ksii genr genre, e, dll. dll. Dua Dua pend pendek ekat atan an utam utamaa dala dalam m klasifikasi klasifikasi teks adalah rekayasa pengetahuan pengetahuan (knowledge engineering engineering ) dan pem pembe belaj lajar aran an mesi mesin n (machine ) . Meto Metode de rekay rekayas asaa peng pengeta etahu huan an machine learning learning ). menggunakan pengetahuan pakar tentang pengetahuan yang dimasukkan ke dalam sistem baik secara deklaratif maupun dalam bentuk prosedur aturan klasifikasi. Metode pembelajaran mesin memanfaatkan proses induktif untuk membuat penggolong ( classifier ) yang belajar dari himpunan contoh yang ada. Peningkatan pesat jumlah dokumen dan kesulitan untuk mendapatkan pakar membuat metode pembelajaran mesin semakin menjadi metode pilihan untuk klasifikasi. b. Penggugusan. Metode ini bertujuan untuk mengelompokkan kumpulan objek ke dalam kelompok–disebut gugus ( cluster )–yang )–yang bermakna tanpa supervisi dan pengetahuan pengetahuan sebelumnya. sebelumnya. Contoh utama penerapan penerapan metode ini adalah dalam perbaikan hasil penelusuran web, misalnya oleh Google, dengan asumsi dasa dasarr bahw bahwaa doku dokume men n yang yang relev relevan an cende cenderu rung ng untu untuk k lebi lebih h memi memili liki ki kemiripan antara satu dengan yang lainnya. Dua metode penggugusan paling populer adalah penggugusan sebar/kumpul ( scatter/gather scatter/gather ) dan kueri-khusus (query-specific ). c. Asosiasi . Metode ini bertujuan untuk mengidentifikasi hubungan antarkonsep yang yang diny dinyat atak akan an deng dengan an dua dua ukur ukuran an dasa dasar: r: keya keyaki kina nan n ( confidence ) dan dukungan ( support ). ). Contoh penerapannya antara lain terhadap teks literatur web untuk mengidentifikasi keterkaitan antara wilayah penyebaran, spesies yang terinfeksi, dan tindakan yang dilakukan pada kasus flu burung. d. Analisis tren . Metod Metodee ini ini bert bertuj ujua uan n untu untuk k meng mengid iden enti tifik fikas asii perb perbed edaa aan n kecenderungan beberapa subkoleksi dari satu koleksi teks yang sama. Contoh
Penambangan Teks
7
penambangan teks yang pernah dilakukan dilakukan dengan metode ini adalah iden identi tifi fikas kasii evol evolus usii topi topik k sist sistem em info inform rmas asii yang yang diba dibaha hass dala dalam m jurn jurnal al akademis pada berbagai waktu.
5. Alat pe penambangan te teks Berikut ini beberapa perangkat lunak komersial dan bebas yang dapat digunakan sebagai alat untuk melakukan penambangan teks.
A.
Komersial
Berikut ini daftar beberapa perangkat lunak komersial untuk penambangan teks. 1. ClearFores rest http://www.clearforest.com/solutions.html 2. IBM Intellige Intelligent nt Miner Data Data Mining Mining Suite Suite (bagian dari dari IBM InfoSph InfoSphere ere Warehouse) Warehouse) http://www.ibm.com/infosphere/warehouse/ 3. Mega Megapu pute terr Tex TextA tAna naly lyst st http://www.megaputer.com/textanalyst.php 4. SAS SAS Tex Textt Anal Analyt ytic icss http://www.sas.com/text-analytics/ 5. SPSS SPSS Text Text Mining Mining for Clemen Clementin tinee http://www.spss.com/text_mining_for_clementine/ 6. Stat Statis isti tica ca Text Text Mine Miner r http://www.statsoft.com/products/statistica-text-miner/ http://www.statsoft.com/products/statistica-text-miner/ 7. Vant Vantag ageP ePoi oin nt http://www.thevantagepoint.com/ 8. WordStat http://www.provalisresearch.com/wordstat/wordstat.html
B.
Bebas
Berikut ini daftar beberapa perangkat lunak bebas untuk penambangan teks. Beberapa di antaranya juga merupakan perangkat lunak sumber terbuka. 1. GATE (General (General Archite Architecture cture for Text Engineerin Engineering) g) http://gate.ac.uk/ 2. LingPipe http://alias-i.com/lingpipe/ 3. LPU LPU (ta (tadi diny nyaa S-E S-EM) M) http://www.cs.uic.edu/~liub/LPU/LPU-download.html 4. RapidMiner http://www.rapidminer.com/ er http://www.rapidminer.com/ 5. UIMA http://uima.apache.org/
Penambangan Teks
C.
8
Daring
Berikut beberapa alat daring yang dapat digunakan untuk penerapan spesifik penambangan teks. 1. Ranks.nl http://www.ranks.nl/ 2. Wordle http://www.wordle.net/
6. Bida Bidang ng pene penera rapa pan n pena penamb mban anga gan n teks teks Penambangan data telah diaplikasikan dalam beberapa bidang seperti dijabarkan berikut ini. 1. Pemasaran . Penambangan teks terhadap transkripsi percakapan pusat panggilan ( call ), tulisan blog, ulasan produk oleh situs independen, dan diskusi pada forum center ), diskusi daring telah digunakan untuk menganalisis persepsi dan sentimen konsumen terhad terhadap ap produk produk atau produs produsen. en. Inform Informasi asi ini dapat dapat dipaka dipakaii untuk untuk mening meningkat katkan kan kepuasan dan nilai produk bagi pelanggan. 2. Keamanan . Penambangan teks telah digunakan antara lain sebagai sumber intelijen dalam Perang Dingin (Echelon oleh Amerika Serikat, Australia, Inggris, Kanada, dan Selandia Baru), pelacakan kejahatan terorganisasi lintas negara (OASIS oleh Europol, Uni Eropa), serta pemantauan keamanan gabungan oleh FBI, CIA, dan Departemen Keam Keaman anan an AS. AS. Sela Selain in itu, itu, pena penamb mban anga gan n teks teks tela telah h dipa dipaka kaii untu untuk k mend mendet etek eksi si kebohongan terhadap pernyataan tertulis, sebagai alternatif dari metode poligraf yang hanya dapat diterapkan untuk pernyataan lisan. 3. Biomedis . Penambangan teks berpotensi untuk memproses literatur dalam bidang ini secara otomatis karena (1) jumlah publikasi meningkat pesat, (2) literatur bidang medis lebih terstandardisasi dan teratur, dan (3) terminologi yang digunakan relatif konstan dengan ontologi yang cukup baku. 4. Akademis . Penamb Penambang angan an teks teks telah telah dimanf dimanfaatk aatkan an oleh oleh berbag berbagai ai penerb penerbit it jurnal jurnal akademis dan lembaga pendidikan untuk memproses basis data artikel besar yang memerlukan pengindeksan untuk membantu para pencari informasi. Prakarsa yang telah telah dilaku dilakukan kan pada pada bidang bidang ini antara antara lain lain adalah adalah Open Open Text Text Mining Mining Interfa Interface ce (Nature), Journal Publishing Document Type Definition (National Institute of Health),
Penambangan Teks
9
National Centre for Text Mining (University of Manchester and Liverpool), serta BioText (University of California, Barkeley).
7. Penerapan penambangan teks bahasa Indonesia Berikut Berikut adalah beberapa contoh penerapan penerapan penambangan penambangan data untuk bahasa bahasa Indonesia Indonesia yang dapat ditemukan di Internet.
A.
Bata Batavi vias ase: e: Per Peran angk gkum um ber berit ita a otom otomat atis is
Bataviase > adalah situs yang membuat ringkasan atau rangkuman berita secara otomatis. Bataviase menerapkan perangkuman otomatis dari penambangan teks untuk membuat ringkasan berita dari berbagai surat kabar di Indonesia. Selain itu, Bataviase juga menerapkan kategorisasi berdasarkan 19 kategori yang telah ditentukan serta pelacakan topik dalam bentuk artikel terkait.
Gambar 2. Ringkasan artikel otomatis pada Bataviase
Penambangan Teks
B.
10
SITT SITTI: I: Plat Platfo form rm ikla iklan n kon konte teks kstu tual al
SITTI > adalah layanan platform iklan kontekstual yang menampilkan iklan sesuai dengan dengan target yang diinginkan diinginkan pemasang iklan. SITTI SITTI memanfaatkan memanfaatkan ekstraksi informasi untuk mencari kata kunci yang terkait dengan suatu laman web dan pelacakan topik untuk menampilkan iklan yang sesuai dengan pengunjung laman tersebut. 1 Platform lain yang memanfaatkan teknologi yang mirip dengan SITTI adalah Google AdWords.
Gambar 3. Beranda SITTI
C.
Gres Gresne news ws:: Labo Labora rato tori rium um pena penamb mban anga gan n teks teks
Gresnews > adalah situs yang mengorganisas mengorganisasikan ikan dan menganalisi menganalisiss informasi dari beberapa situs berita berbahasa Indonesia dan menyajikannya dalam berbagai dimensi. Gresnews dapat dianggap sebagai laboratorium penambangan data karena berupaya menggunakan semua penerapan dan metode penambangan teks seperti ekstraksi informasi, pelacakan topik, kategorisasi, penggugusan, dan penautan konsep. Gresnews juga tampaknya
1
http://www.sitti.co.id/tentang-sitti.html
Penambangan Teks
11
sedang sedang mengem mengemban bangka gkan n analis analisis is sentim sentimen en dan pengen pengenala alan n entita entitass bernam bernamaa yang yang juga juga merupakan bagian dari penerapan NLP. 2
Gambar 4. Laman beranda Gresnews yang menunjukkan tren topik berita
2
http://www.gresnews.com/about
Penambangan Teks
ii
Daftar pustaka Berry, M.W., & Kogan, J. (2010). Text Mining: Application and Theory . Chichester: John Wiley & Sons, Ltd. Feldman, R., & Sanger, J. (2007). The Text Mining Handbook: Advanced Approaches in
Analyzing Unstructured Data. New York: Cambridge University Press. Gresnews. About Gresnews. http://www.gresnews.com/about http://www.gresnews.com/about.. Diambil pada 29 Mei 2011. SITTI. Tentang SITTI . http://www.sitti.co.id/tentang-sitti.html http://www.sitti.co.id/tentang-sitti.html.. Diambil pada 29 Mei 2011. Turban, E., et.al. (2011). Decision Support and Business Intelligence Systems 9 th Edition . New Jersey: Pearson Education, Inc.
Penambangan Teks
iii
Indeks ambiguitas sintaksis (syntactic ambiguity) ...............................................................2 analisis sentimen (sentiment analysis)......3 analisis tren (trend analysis)......................6 analysis)......................6 asosiasi (association).................................6 CRISP-DM (Cross-Industry Standard
pelacakan topik (topic tracking)................3 pemangkalan (stemming)..........................5 pembelajaran mesin (machine learning)...6 pemerolehan informasi (information retrieval)................................................2 pemrosesan bahasa alami (natural
Process for Data Mining)......................4
language processing, NLP)...................1
data tak terstruktur (unstructured data).....1
penambangan data (data mining)..............1
dekomposisi nilai tunggal (singular value
penambangan teks (text mining)...............1
decomposition, SVD)............................5 disambiguasi makna kata (word sense disambiguation).....................................2 dukungan (support)...................................6 ekstraksi informasi (information extraction).............................................3
penandaan kelas kata (part-of-speech tagging).................................................1 penautan konsep (concept linking)...........4 penerjemahan mesin (machine translation) ...............................................................2 pengenalan karakter optis (optical
gugus (cluster)........................ (cluster)...........................................6 ...................6
character recognition)...........................3
kata hentian (stop words)..........................5
pengenalan wicara (speech recognition)...2
kategorisasi (categorization).....................3
penggolong (classifier)..................... (classifier )..............................6 .........6
keyakinan (confidence).............................6
penggugusan (clustering)..........................3
klasifikasi (classification).........................6
penjawaban pertanyaan (question
korpus........................................................4 kueri-khusus (query-specific)...................6 matriks istilah-dokumen (term-document matrix, TDM)........................................ TDM)........................................5 5 NLP → pemrosesan bahasa alami............1
answering).........................................2, answering).........................................2, 4 perangkuman (summarization).............2, 3 pertuturan (speech act)..............................2 rekayasa pengetahuan (knowledge engineering)..........................................6 sebar/kumpul (scatter/gather)....................6
Penambangan Teks
iv
segmentasi teks (text segmentation).........1
SVD → dekomposisi nilai tunggal...........5
sintesis wicara (speech synthesis).............2
TDM → matriks istilah dokumen.............5