. &2a 3esim2ulan 3esim2ulan ter2enting (2esan4ta3e-home (2esan4ta3e-home messages5 messages5 +ang +ang bisa &nda ambil dari 2a2er +ang &nda baca 6 7ntu3 mengatasi tantangan menganalisis data sele3si 8tur men'adi lang3ah 2re2rocessing 2enting +ang 2erlu disesuai3an dan diting3at3an untu3 da2at menangani data dimensi tinggi. /. &2a motivasi motivasi umum umum +ang melandasi 2enelitian ini 6 4Permasa 4Permasalahan lahan +ang ditemu3an 2ada mas+ara3at5 Per3embangan volume data +ang sangat besar dan 2ertumbuhan data +ang sangat ce2at dalam 3urun *a3tu relatif sing3at 4Velocit+5 serta dalam bentu3 atau format data berane3a ragam 4Variet+5 membutuh3an solusi dari 2ermasalahan 2ermasalahan tersebut sehingga sangat di2erlu3ann+a sele3si 8tur. 9. &2a motivasi motivasi 3husus 3husus 4researc 4research h ga25 +ang melandasi melandasi 2enelitian 2enelitian ini 6 4Permasalahan te3nis ( 3elemahan-3elemahan 2enelitian dan solusi +ang di2ubli3asi3an sebelumn+a5. ari bebera2a metode sele3si 8tur 4feature selection method5 +ang sering diguna3an 2ada 2enelitian sebelumn+a secara umum da2at di3elom2o33an 3e dalam dua 'enis 2ende3atan +aitu metode dengan 2ende3atan 2ende3atan multivariate dan univariat. Secara umum metode univariat memili3i 3euntungan s3alabilitas +ang 2enting teta2i mengabai3an bia+a de2endensi 8tur dan 2erforma 3iner'a 3lasi83asin+a masih rendah. Sebali3n+a te3ni3 multivariate da2at mening3at3an 3iner'a 3lasi83asi a3an teta2i sering 3ali tida3 da2at ditera23an 2ada 3asus Big data. ari 2ermasalahan tersebut ma3a da2at dila3u3an 2enelitian lebih lan'ut “Bagaimana mengoptimalkan suatu metode seleksi ftur yang memiliki perormance yang meningkat dan dapat diterapkan pada kasus Big data.” ;. &2a sa'a3ah sa'a3ah solusi-solusi +ang dita*ar3an dita*ar3an oleh 2eneliti sebelumn+a sebelumn+a untu3 mengatasi 2ermasalahan umum 2ada mas+ara3at 4lihat no./56 $enga2a solusi-solusi ini masih memili3i 3elemahan6 ari bebera2a metode sele3si 8tur 4table 5 bebera2a solusi dari masingmasing secara umum da2at di'elas3an sbb : SV$-R<= memili3i 2erformance 2erformance +ag bai3 mes3i2un untu3 3om2utasi +ang 3om2le3s terhada2 dataset dengan dimensi sangat tinggi masih ter3endala mR$R sudah di3embang3an dengan 3emam2uan untu3 mengha2us redudansi namun nR$R tida3 mam2u membuang 8tur berlebihan C!,=R&C, dan >nfo?ain memili3i em2at nilai binar+ untu3 mem2redi3si dan 3elas. )eem2at 8tur memilih 8tur •
•
•
Critical reading for literature review
•
ber3orelasi teta2i membuang em2at 8tur +ang relevan. $etode ini cu3u2 efe3tif untu3 men+ele3si 8tur +ang redundan a3an teta2i belum untu3 data dengan ribuan 8tur. $etode-metode sele3si 8tur +ang ada memili3i 3euntungan dan 3erugian *a3tu 3om2utasi belum di2erhitung3an dalam analisis sebelumn+a. Sementara untu3 2enanganan big data ini memain3an 2eranan 2enting.
1. Pada 2a2er ini a2a3ah 2ro2osed solution-n+a 6 4@i2othesis ide disain5. $enga2a solusi +ang dita*ar3an 2enulis ini di+a3ini a3urat ( mam2u memecah3an masalah umum dan masalah te3nis 4lihat no./ dan no.956 &2a3ah 2a2er ini men+ata3an adan+a 2erbai3an dari 2enelitian2enelitian sebelumn+a 6 Sebera2a a3urat3ah 6 Sebagian besar sele3si 8tur +ang ada tida3 mam2u menangani data dengan s3ala besar dan dengan 'utaan 8tur. Solusi +ang mung3in dan dita*ar3an adalah mendistribusi3an data men'alan3an sele3si 8tur 2ada setia2 2artisi dan 3emudian menggabung3an hasil. ua 2ende3atan utama untu3 distribusi data data di2artisi adalah dengan 8tur 4vertical5 atau dengan sam2el4hori#ontal5 . Bagaimana3ah cara 2enulis mengevaluasi metoden+a6 &2a3ah bu3ti e3s2erimen 2roof-of-conce2t s+stem +ang dila3u3an oleh 2enulis untu3 mendu3ung bu3ti-bu3ti 3laim-n+a 4bah*a metoden+a lebih bai3 dan lebih a3urat dari metode sebelumn+a5 6 Pen'elasan dari metode +ang diusul3an lebih bersifat des3ri2tif 2enulis lebih meniti3 berat3an 2ema2arann+a terhada2 tantangan +ang muncul dan masih menari3n+a to2ic untu3 dila3u3an 2enelitian tentang feature selection 3hususn+a 2ada 3asus big data. A. Coba &nda analisis tiga 3om2onenen ini : 2ermasalahan +ang diang3at metode +ang diusul3an dan cara mengevaluasi metode tersebut. &2a3ah ada 3elemahan dalam tiga hal ini 6 7ntu3 riset +ang memili3i im2li3asi 2ra3tis cobalah bertan+a dalam hati: a2a3ah benar 2enelitian ini bisa diim2lementasi3an misal secara real-time6 &2a3ah solusi +ang dita*ar3an feasible masu3 a3al untu3 ditera23an di luar simulasi6 Se2erti +ang sudah di'elas3an 2ada ulasan tantang metode feature slection sebelumn+a 42ada 2oint 15 bah*a sebagian besar sele3si 8tur +ang ada tida3 mam2u menangani data dengan s3ala besar dan dengan 'utaan 8tur. Solusi +ang mung3in dan dita*ar3an adalah mendistribusi3an data men'alan3an sele3si 8tur 2ada setia2 2artisi dan 3emudian menggabung3an hasil. engan memahami teori tentang sele3si 8tur sangat memung3in3an bah*a saran +ang diberi3an 2enulis sangat feasible untu3 da2at dila3u3an. . &2a3ah 3ontribusi ( 3ebaruan +ang dibahas oleh 2enulis dalam 2a2er tersebut 6 &da3ah sesuatu +ang baru dari: 2ermasalahan
Critical reading for literature review +ang diang3at metode(ide e3s2erimen ( cara evaluasi6
2erang3at
+ang
diguna3an
)ebaruan $etode bah*a metode +ang dita*ar3an dengan mela3u3an sbb : 2endistribusian data terlebih dahulu men'alan3an sele3si 8tur 2ada setia2 2artisi dan 3emudian menggabung3an hasil • • •
. &2a3ah ada saran 2engembangan dari 2enulis untu3 2enelitian ini6 )alau ada a2a sa'a3ah 2enelitian lan'utan +ang bisa dila3u3an dari 2a2er ini6
,antangan+a adalah : memung3in3an visualisasi user friendl+ dari hasil sehingga da2at mening3at3an inter2retabilit+ dan visualisasi.
Bebera2a 2ertan+aan atau hal-hal lain +ang 2erlua di2ahami antara lain : Pengu3uran 2erforma metode feature slection +ang sering diguna3an 4mis. Chi-sDuared <-Score >nformation ?ain mR$R dll5 Bagaimana metode 2embu3tian 2ada setia2 metode feature selection ,e3ni3 distribusi data $enentu3an nilai com2lexit+ Pengelom2o3an metode feature selection 3e dalam univriat atau mult+ variate •