PROPOSAL TUGAS AKHIR INFORMATION RETRIEVEL RANCANG BANGUN FITUR DEKTEKSI KEMIRIPAN PADA SISTEM REVIEW PROPOSAL PENELITIAN DENGAN VECTOR SPACE MODEL
Diajukan untuk memenuhi syarat mata kuliah Information Retrievel
Disusun oleh : HANJAR SETYOWATI
NIM. A11.2016.09796 A11.2016.09796
YUNITA ENGGAR S.
NIM. A11.2016.10030 A11.2016.10030
A11.4716
FAKULTAS ILMU KOMPUTER UNIVERSITAS DIAN NUSWANTORO SEMARANG 2017
DAFTAR ISI
DAFTAR ISI ................................................... ........................................................................... .............................................. ................................ .......... ii BAB I ............................................ ................................................................... ............................................ ............................................ .............................. ....... 1 PENDAHULUAN......................... PENDAHULUAN................................................ ............................................. ............................................ ............................. ....... 1 1.1
Latar Belakang....................................... Belakang............................................................ ............................................ .............................. ....... 1
1.2
Rumusan Masalah ............................................ ................................................................... ........................................ ................. 2
1.3
Batasan Masalah Penelitian ......................................... ............................................................... ............................. ....... 2
1.4
Tujuan Penelitian ........................... ................................................. ............................................. ..................................... .............. 2
1.5
Manfaat Penelitian ......................... ............................................... ............................................. ..................................... .............. 3
BAB II ................................................... ......................................................................... ............................................ ............................................ ...................... 4 LANDASAN TEORI .................................................. ........................................................................ ............................................ ...................... 4 2.1
Tinjauan Studi .......................................... ................................................................. ............................................. ......................... ... 4
2.2
Tinjauan Pustaka .......................................... ................................................................ ............................................ ...................... 9
2.3
Kerangka Pemikiran ................................................... ........................................................................... ............................ .... 11
BAB III.............................................. III.................................................................... ............................................ ............................................. ......................... 13 METODE PENELITIAN ............................. ................................................... ............................................. ................................... ............ 13 3.1
Instrumen Penelitian ..................................... ........................................................... .......................................... .................... 13
3.1.1
Kebutuhan Perangkat Lunak (Software) ................................. ......................................... ........ 13
3.1.2
Kebutuhan Perangkat Lunak (Software) ................................. ......................................... ........ 13
3.2
Prosedur Pengambilan dan Pengumpulan Data ...................................... ...................................... 13
3.3
Teknik Analisis Data ........................................ ............................................................. ...................................... ................. 14
3.4
Model/Metode yang Diusulkan ..................................................... .............................................................. ......... 14
ii
BAB I PENDAHULUAN
1.1 Latar Belakang
Penelitian merupakan serangkain kegiatan yang memiliki tujuan untuk memperoleh informasi atau data yang akan dibutuhkan untuk membandingkan antara data yang dihasilkan dengan fakta yang terjadi di masyarakat, memecahkan masalah yang terjadi dan memberikan solusi yang tepat untuk menyelesaikan masalah tersebut. Dengan penelitian dihasilkan inovasi bersifat ilmiah yang berguna untuk perkembangan ilmu pengetahuan dan teknologi manusia. Mengingat pentingnya kebutuhan manusia akan kegiatan penelitian tersebut maka banyak instansi di bidang riset dan pendidikan yang berlomba-lomba untuk memberikan hibah/bantuan berupa pendanaan guna meningkatkan kinerja seorang peneliti
dalam
menghasilkan
keluaran
yang
berkualitas,
seperti
jurnal
internasional bereputasi. Terlebih lagi Indonesia masih tertinggal dalam peringkat publikasi oleh negara tentangga di ASEAN seperti Singapura, Thailand, dan Malaysia yang berbanding terbalik dengan jumlah dosen Indonesia jauh di atas negara tersebut. Bagian terpenting dari proses pendanaan kegiatan penelitian adalah tahap seleksi proposal dimana hal tersebut akan menentukan kegiatan penelitian mana yang akhirnya akan didanai dan dimonitoring hasilnya, serta diharapkan mampu menghasilkan keluaran yang berkualitas dan bermanfaat. Di sisi lain, kegiatan penelitian yang telah dilakukan begitu beragam dengan jumlah tidak sedikit. Dengan semakin bertambahnya kegiatan penelitian yang telah dilakukan tiap tahunnya dengan topik beragam maka hal tersebut menimbulkan permasalahan perulangan topik yang diajukan dan hasil yang dijanjikan. Hal tersebut akan berakhir dengan ketidakefisiensian pendanaan yang diberikan apabila pengajuan proposal kegiatan penelitian tersebut disetujui dikarenakan kurangnya informasi reviewer akan rekam jejak penelitian sebelumnya.
1
2
Solusi yang diusulkan adalah menerapkan information retrievel untuk merancang dan membangun fitur deteksi mengenai tingkat kemiripan proposal. Information retrievel merupakan cara pencarian materi dalam bentuk dokumen dari sesuatu yang tidak terstruktur untuk memenuhi kebutuhan informasi dari dalam koleksi besar atau disimpan dalam komputer. Penelitian ini hendak mengimplementasikan teknik information retrievel dengan metode Vector Space Model (VSM). Dengan metode VSM, dokumen akan mengalami proses pembobotan berdasarkan tingkat kemiripan term dan akan menghasilkan dokumen dengan tingkat frekuensi kemiripan tertentu sehingga mendukung proses seleksi proposal penelitian dan meningkatkan efisiensi pendanaan yang dilakukan instansi terkait. 1.2 Rumusan Masalah
Berdasarkan uraian latar belakang, penulis dapat merumuskan masalah sebaga berikut : 1.
Bagaimana cara melakukan deteksi kemiripan dokumen proposal dengan dokumen penelitian lain menggunakan metode Vector Space Model ?
2.
Bagaimana mengimplementasikan solusi pada sistem Review Proposal ?
1.3 Batasan Masalah Penelitian
Penulis membangun fitur pada sistem dengan beberapa batasan masalah, seperti diantaranya : 1.
Peneliti menggunakan data abstrak penelitian sejumlah 20 dokumen.
2.
Fitur deteksi
kemiripan bekerja untuk proposal penelitian dengan abstrak
menggunakan format bahasa Indonesia. 1.4 Tujuan Penelitian
Tujuan dari pembuatan fitur deteksi kemiripan sistem review proposal penelitian ini adalah untuk menghasilkan fitur deteksi kemiripan proposal penelitian dengan kegiatan penelitian yang dilakukan sebelumnya sehingga reviewer dapat melakukan pertimbangan terhadap proposal yang disetujui dan proses seleksi dapat berjalan secara efektif.
3
1.5 Manfaat Penelitian
Manfaat dari adanya penelitian ini, antara lain : 1. Bagi penulis a) Sebagai wadah dalam penerapan ilmu yang telah diperoleh selama proses perkuliahan b) Sebagai bekal untuk menempuh dunia kerja 2. Bagi Instansi terkait a) Terciptanya fitur deteksi kemiripan sistem review proposal penelitian yang dapat digunakan untuk meng-optimalkan proses seleksi proposal penelitian. b) Efisiensi hibah berupa pendanaan untuk kegiatan penelitian. c) Meningkatkan hasil dari kegiatan penelitian seiring beragamnya kegiatan penelitian yang didanai.
BAB II LANDASAN TEORI
2.1 Tinjauan Studi
Dalam melakukan penelitian ini, penulis menggunakan beberapa hasil penelitian yang mempunyai keterkaitan objek atau metode yang bisa digunakan sebagai acuan perbandingan untuk mendapatkan hasil yang lebih efisien dan tepat. Jurnal-jurnal di bawah ini membantu peneliti untuk menentukan langkah yang diambil ketika sedang melakukan penelitian serta memberikan informasi yang penting agar dapat menerapkan metode yang diujikan. Penulis mengambil referensi dari jurnal yang berkaitan dengan Vector Space Model . Tabel 2.1 No
Judul
State of the art
Tahun
Metode
Hasil
Vector Space Model (VSM) mengidentifikasi bagian informasi Information Retrieval System Using 1
Vector Space Model for Document Summarization
2014
Pengindeksan
yang paling
dokumen berbasis
penting dari
Vector Space
dokumen
Model (VSM)
tersebut,
dengan Document
menghilangkan
Frequency (DF)
informasi yang
dan Term
tidak relevan dan
Frequency (TF)
meminimalkan rincian untuk menghasilkan dokumen yang ringkas.
4
5
No
Judul
Tahun
Metode
Hasil
VSM memberikan hasil summary yang lebih baik berdasarkan konteks kalimat dibandingkan dengan metode summary lainnya. Metode trigram lebih sesuai untuk pendeteksian
Plagiarism Detection on Electronic Text 2
based Assignments using Vector Space Model
2014
Membandingkan
plagiarisme
unigram, bigram,
dalam dokumen
dan trigram dari
teks dengan
Vector Space
menggunakan
Model (VSM)
ukuran kesamaan
dengan
kosinus. Selain
pengukuran
itu, ukuran
kosinus dan teknik
kesamaan
pencocokan urutan
kosinus
tri-gram dengan
menunjukkan
pengukuran
hasil yang sedikit
Jaccard.
lebih tinggi daripada Jaccard dan oleh karena itu ukuran kesamaan
6
kosinus lebih disukai daripada pendekatan lainnya. Hasil pencarian dokumen menggunakan VSM tanpa pembobotan tfidf bergantung kepada panjang dokumen. Semakin pendek suatu dokumen yang relevan
Implementasi
maka akan
Vector Space 3
Model Untuk Pencarian Dokumen
2015
Vector Space
ditampilkan pada
Model (VSM).
urutan teratas. Secara umum pencarian dokumen mengunakan VSM tf-idf lebih relevan jika dibandingkan dengan menggunakan VSM tanpa pembobotan tfidf.
7
IRS yang dibangun
4
Rancang
memiliki
Bangun
keunggulan
Information
mampu
Retrieval
Information
melakukan
System (IRS)
Retrieval System
pencarian
Bahasa Jawa
(IRS) dengan
dokumen teks
Vector Space
bahasa jawa
Palintangan
ModelVector
ngoko dan hasil
Penjebar
Space Model
pencarian yang
Semangad
(VSM).
akurat (precision
Ngoko pada
2015
dengan Metode
= 0,84), serta
Vector Space
dilengkapi
Model (VSM)
dengan bobot dan letak dokumen pada database. sistem mampu
5
Rancang
melakukan
Bangun Sistem
proses
Pengajuan
Information
preprosesing
Tugas Akhir
Retrieval System
(tokenisasi,
Pada STMIK
(IRS) dengan
filtering, dan
Vector Space
stemming)
Indonesia
ModelVector
dengan waktu
Dengan Vector
Space Model
komputasi 18
Space Model
(VSM).
detik. Sistem
STIKOM
2016
Information
mampu
Retrieval
melakukan pencarian
8
dokumen dan menampilkan hasil pencarian dokumen dalam waktu komputasi rata-rata 2 detik, memiliki ratarata recall 0,04 dan rata-rata precision 0,84. Sistem dilengkapi dengan bobot tiap dokumen dan letakknya yang akan memudahkan user dalam pencarian dokumen teks bahasa Indonesia..
9
2.2 Tinjauan Pustaka 2.2.1. Penelitian
Pengertian Penelitian adalah suatu cara ilmiah untuk mendapatkan data dengan tujuan dan kegunaan tertentu. Cara ilmiah berarti kegiatan penelitian itu didasarkan pada ciri-ciri keilmuan, yaitu rasional, empiris dan sistematis. Rasional berarti kegiatan penelitian itu dilakukan dengan cara-cara yang masuk akal, sehingga terjangkau oleh penalaran manusia. Empiris berarti caracara dilakukan itu dapat diamati oleh indera manusia, sehingga orang lain dapat mengamati dan mengetahui cara-cara yang digunakan. ( Bedakan cara yang tidak ilmiah,
misalnya
mencara
data
jatuhnya
pesawat
terbang
melalui
paranormal ). Sistematis artinya proses yang digunakan dalam penelitian tersebut menggunakan langkah-langkah tertentu yang bersifat logis. Data yang diperoleh melalui penelitian itu mempunyai kriteria tertentu yaitu valid. Valid menunjukkan ketepatan antara data yang sesungguhnya terjadi pada obyek dengan data yang dapat dikumpulkan oleh peneliti. Untuk mendapatkan data yang valid dalam penelitian sering sulit dilakukan. Oleh karena itu, maka validitas hasil penelitian dapat diuji melalui rehabilitas dan obyektivitas data yang terkumpul. Pada umumnya kalau data tersebut reliabel dan obyektif, maka hasil penelitiannya
akan
valid.
Data
yang
valid
pasti
reliabel
dan
obyektif. Realibilitas menunjukkan derajad konsisten atau keajean data dalam interval waktu tertentu. Obyektifitas berkaitan dengan kesepakatan antara banyak orang. Jika ada beberapa kelompok peneliti memberikan data yang berbeda-beda maka data penelitian tersebut tidak obyektif, sehingga tidak valid. Melalui penelitian, manusia dapat menggunakan hasilnya. Secara umum data yang telah diperoleh dari penelitian dapat digunakan untuk memahami, memecahkan dan mengantisipasi masalah. Memahami berarti memperjelas suatu masalah atau informasi yang tidak diketahui dan selanjutnya menjadi
10
mengerti, memecahkan berarti meminimalkan atau menghilangkan masalah, dan mengantisipasi berarti mengupayakan agar masalah tidak terjadi. Secara umum tujuan penelitian ada tiga macam yaitu bersifat penemuan, pembuktian dan pengembangan. 1.
Penemuan Tujuan penelitian yang pertama yaitu bersifat penemuan. Penemuan berarti bahwa data yang diperoleh dari penelitian tersebut merupakan data yang betul-betul baru, yang sebelumnya belum pernah diketahui.
2.
Pembuktian Tujuan penelitian yang kedua ialah pembuktian. Pembuktian berarti bahwa data yang diperoleh tersebut digunakan untuk membuktikan adanya keraguan terhadap informasi atau pengetahuan tertentu.
3.
Pengembangan Tujuan penelitian yang terakhir adalah pengembangan. Pengembangan berarti bahwa untuk memperdalam dan mengembangkan pengetahuan yang telah ada.
2.2.2. Vector Space Model
Vector Space Model (VSM) mempresentasikan setiap dokumen yang terdapat dalam database dan query ke dalam vektor multidimensi. Dimensi dari vektor berkorespondensi dengan jumlah setiap term dalam database dan kumpulan term tersebut membentuk suatu ruang vektor. Pada VSM setiap term, , di dalam dokumen maupun query, , diberikan suatu bobot (weight ) yang bernilai real . Dokumen dan query diekspresikan sebagai vector -dimensi dan diasumsikan terdapat dokumen di dalam database, yaitu Contoh dari VSM dengan tiga dimensi untuk dua dokumen dan , satu query Q, dan tiga term , , dapat dilihat pada gambar 2.1.
11
Gambar 2.1
Underected Graph
Selain itu pada VSM, database dari semua dokumen direpresentasikan oleh matriks termdocument (atau matriks term-frequency). Dimana setiap sel pada matriks berkorespondensi dengan bobot yang diberikan dari suatu term dalam dokumen yang ditentukan. Nilai nol berarti bahwa term tidak terdapat dalam dokumen. Inverse Document Frequency (IDF). IDF didefinisikan sebagai
Dimana merupakan frekuensi dari atau sama dengan jumlah dokumen yang mengandung dan adalah total dokumen di dalam database. Log digunakan untuk memperkecil pengaruh relative untuk . Bobot dihitung menggunakan ukuran tf-idf (term frequency-inversed document frequency) didefinisikan sebagai
2.3 Kerangka Pemikiran Masalah
Semakin bertambahnya kegiatan penelitian yang telah dilakukan tiap tahunnya dengan topik beragam maka hal tersebut menimbulkan permasalahan perulangan topik yang diajukan dan hasil yang dijanjikan. Hal tersebut akan berakhir dengan ketidakefisiensian pendanaan yang diberikan apabila pengajuan proposal kegiatan
12
penelitian tersebut disetujuan dikarenakan kurangnya informasi reviewer akan rekam jejak penelitian sebelumnya. Tujuan
Tujuan dari penelitian ini adalah mendeteksi kemiripan proposal penelitian dengan kegiatan penelitian yang dilakukan sebelumnya sehingga reviewer dapat melakukan pertimbangan terhadap proposal yang disetujui dan proses seleksi dapat berjalan secara efektif. Eksperimen Data
1. Abstrak laporan
Metode
Vector Space Model (VSM)
Tool
PHP
akhir penelitian 2. Abstrak proposal penelitian Pengujian
Hasil
Penelitian ini menghasilkan pembobotan dokumen berdasarkan tingkat kemiripan tertinggi
Hasil pembobotan akan ditampilkan pada saat proses review proposal penelitian berupa link ke akses dokumen terakait Manfaat
Terciptanya fitur deteksi kemiripan sistem review proposal penelitian yang dapat digunakan untuk meng-optimalkan proses seleksi proposal penelitian.
Efisiensi hibah berupa pendanaan untuk kegiatan penelitian.
Meningkatkan hasil dari kegiatan penelitian seiring beragamnya kegiatan penelitian yang didanai.
BAB III METODE PENELITIAN
3.1
Instrumen Penelitian
Beberapa komponen yang dibutuhkan untuk melakukan penelitian ini sebagai berikut : 3.1.1 Kebutuhan Perangkat Lunak (Software)
Perangkat lunak yang digunakan untuk membangun sistem ini antara lain : 1.
Sistem Operasi : Windows 7
2.
Server Web menggunakan XAMPP Version 5.5.19
3. Netbeans sebagai teks editor 4.
PHP MyAdmin Version 4.2.11 sebagai Database Manager
5.
Browser : Google Chrome dan Mozila Firefox
6.
Adobe Photshop CS6 untuk editing gambar
3.1.2 Kebutuhan Perangkat Lunak (Software)
Perangkat keras yang digunakan untuk membangun sistem ini antara lain : a. Processor Core i3 b. RAM 2 GB 3.2
Prosedur Pengambilan dan Pengumpulan Data
Dalam penelitian penulis menggunakan beberapa metode penelitian untuk mendapatkan data-data yang diperlukan. Beberapa metode yang digunakan sebagai berikut : a) Observasi Observasi merupakan metode pengumpulan data yang dilakukan dengan cara pengamaan langsung terhadap data-data yang berkaitan dengan penilitian.
13
b) Wawancara Wawancara merupakan metode pengumpulan data yang hampir sama dengan metode observasi hanya saja dilakukan dengan cara Tanya jawab langsung kepada narasumber berkaitan dengan data-data yang diperlukan pada penelitian. c) Studi Pustaka Studi pustaka merupakan metode pengumpulan data dengan mencari referensi dari buku-buku dan media internet yang berkaitan dengan data-data yang diperlukan pada penelitian. 3.3
Teknik Analisis Data
Setelah proses pengumpulan data, tahapan selanjutnya yaitu proses analisa data. Beberapa tahapan yang dilakukan untuk analisa data antara lain : 1. Memilih data sesuai dengan keperluan dari data-data mentah kemudian diolah menjadi data primer. Data primer yang didapatkan antara lain : a. Data identitas usulan b. Data abstrak proposal 2. Membuat kamus yang nanti akan digunakan pada proses pembuagan stop list . 3. Data primer yang telah didapatkan kemudian akan melalui tahap pre processing untuk mendapatkan data yang siap digunakan. 4. Data yang telah berisi kata-kata tersebut dimasukkan ke dalam database. 3.4
Model/Metode yang Diusulkan
Penelitian ini menggunakan model/metode Vector Space Model dimana untuk mengukur kemiripan antara suatu dokumen dengan suatu query dianggap sebagai vektor-vektor pada ruang n-dimensi, dimana t adalah jumlah dari seluruh term yang ada dalam leksikon. Leksikon adalah daftar semua term yang ada dalam indeks.
14
Proses utama yang terjadi pada penelitian ini terlihat pada gambar 3.1. Mulai
Dataset abstrak laporan penelitian, keyword abstrak proposal penelitian
Data abstrak latih
Data abtrak uji
Preprocessing
Preprocessing
Pengolahan dan Pembobotan kata pada masing-masing dokumen dengan metode Vector Space Model
Hasil Pembobotan dengan Metode Vector Space Model
Selesai
Gambar 3.1. Proses Utama Penelitian
Pada penelitian proses utama dibagi ke dalam 2 proses, proses yang pertama adalah proses pelatihan dan proses yang kedua merupakan proses pengujian. Penjelasan alur proses pada gambar 3.1 sebagai berikut : 1. Dataset Dataset yang digunakan dalam penelitian ini adalah data laporan akhir dan data proposal usulan yang didapatkan dari instansi x. Data yang dikumpulkan dibagi menjadi 2 yaitu : a. Data Uji Data uji merupakan data yang akan dijadikan sebagai bahan uji ketika telah menemukan rumus/hipotesa.
15
b. Data Latih Data latih merupakan data yang sudah ada dan akan digunakan untuk mencari pola/rumus untuk yang nantinya akan digunakan proses pembobotan pada data uji. 2. Tahap Preprocessing Pre-processing merupakan tahap awal untuk memproses data/dokumen ke dalam bentuk representasi lain yang nantinya data tersebut akan siap digunakan untuk proses pembobotan. Pre-precessing dibagi menjadi tahap antara lain : a) Tokenisasi Merupakan tahap pemrosesan dimana teks pada abstrak dibagi ke dalam unitunit yang disebut token yang merupakan suatu kata atau suatu angka atau juga dapat berupa tanda baca. b) Stopword Removal Merupakan proses penyaringan kata-kata dengan menghilangkan kata yang sering muncul dan dianggap tidak memiliki makna. Proses penghapusan biasanya berupa penghapusan kata seperti: dan (&) , atau(/). c) Stemming Stemming merupakan proses yang terdapat dalam sistem IR yang mentransformasi kata-kata yang terdapat dalamsuatu dokumen ke kata-kata akarnya (root word) dengan menggunakan aturan-aturan tertentu. Pada penelitian ini digunakan algoritma 3. Pembobotan Vector Space Model Vector Space Model (Vector Space Model) adalah model aljabar yang merepresentasikan kumpulan dokumen sebagai vetctor. VSM dapat diaplikasikan dalam klasifikasi dokumen, clustering dokumen, dan scoring dokumen terhadap sebuah query. Dalam VSM setiap dokumen direpresentasikan sebagai sebuah vector, dimana nilai dari setiap nilai dari vector tersebut mewakili weight sebuah term. Pada penelitian ini digunakan teknik TF-IDF dalam proses menghitung terweight .
16
a) TF TF atau term frequency adalah weighting scheme yang digunakan untuk menentukan relevansi dokumen dengan sebuah query (term). TF menentukan bobot relevansi sebuah dokumen dan term berdasa rkan frekuensi kemunculan term pada dokumen terkait. Untuk menghitung TF digunakan fungsi berikut :
Misalnya, Dokumen : “Model
ini mengembangkan faktor internal apa saja yang menjadi
pendorong, penghambat dan komitmen perusahaan untuk peduli dan menjalankan tanggung jawab fungsi sosialnya (CSR dan P KBL) ” Term
: Internal
Weight t pada d yaitu 1. b) DF DF merupakan jumlah dokumen dimana terdapat term yang bersangkutan. Konsep DF sendiri dilatarbelakangin oleh masalah pada TF, dimana semua term dianggap sama penting, sehingga term yang memiliki sedikit atau tidak memiliki
discrimination
power
dapat
mempengaruhi
akurasi
dalam
menentukan relevansi antara term dan dokumen. Ide dari DF adalah dengan mengurangi bobot TF suatu term dengan membaginya dengan frekuensi term terhadap koleksi dokumen (DF). Jadi sebuah term yang memiliki bobot TF yang besar namun dengan bobot DF yang besar pula tidak akan memiliki pengaruh yang besar dalam menentukan sebuah relevansi. Misalnya : D1 : “ Hasil
penelitian menunjukkan beberapa hal penting, menyangkut
implikasi keberadaan UU No. 6 tahun 2014 tentang Desa terhadap penyelenggaraan pemerinbtahan desa. Pertama, posisi dan peran kepala desa menguat sejalan dengan pelaksanaan UU No. 6 tahun 2014, karena melekat padanya tugas menyelenggarakan pemerintahan desa, melaksanakan pembangunan desa, pembinaan kemasyarakatan desa, dan pemberdayaan masyarakat desa ”
17
D2 : “Dalam
realitasnya pelaksanakan pembangunan desa, pembinaan
kemasyarakatan desa, dan pemberdayaan masyarakat desa merupakan bagian tak terpisahkan dari penyelenggaraan pemerintahan desa.” D3 : “Keberhasilan
diukur
kepala desa dalam penyelenggaraan pemerintahan desa
dari
kemampuannya
melaksanakan
pembangunan,
kemasyarakatan, sekaligus pemberdayaan masyarakat. ” DF(desa) = 3 c) IDF IDF adalah inverse dari DF, IDF akan melakukan proses scaling pada TF. Term yang memiliki DF yang rendah akan memiliki IDF yang tinggi. Dengan kata lain, sebuah term yang jarang ditemui pada koleksi dokumen atau bisa dikatakan sebagai term khusus akan memiliki nilai IDF yang tinggi. Untuk menghitung IDF pada sebuah term pada sebuah koleksi dokumen dapat menggunakan fungsi dibawah ini,
dimana N adalah jumlah dokumen pada koleksi. Misalnya, (contoh pada part b) N
=3
DF
=3
IDF(desa) = 0
18