Kamis, 05 November 2015

PENERAPAN ALGORITMA C4.5 BERBASIS PARTICLE SWAN OPTIMIZED (PSO) UNTUK PREDIKSI PENYAKIT HIPERTENSI

PENERAPAN ALGORITMA C4.5 BERBASIS PARTICLE SWAN OPTIMIZED (PSO) UNTUK PREDIKSI PENYAKIT HIPERTENSI
Hilda Amalia
Akademi Manajemen Informatika dan Komputer  Bina Sarana Informatika Jakarta
Email:Hilda.ham@bsi.ac.id

Abstrak
Data mining merupakan suatu teknik mengekplorasian data yang tersimpan dalam suatu basis data menjadi pengetahuan baru yang berharga. Dengan teknik data mining, kumpulan data-data yang dianggap tidak berguna dapat menjadi suatu informasi yang berharga. Salah satu teknik data mining yang biasa digunakan adalah algoritma C4.5.  Algoritma C4.5 merupakan salah satu dari metode data mining yaitu decision tree. Algoritma ini menghasilkan rule klasifikasi dalam bentuk pohon. Penelitian sebelumnya telah dilakukan terhadap data hipertensi dengan nilai akurasi 76,6%. Untuk itu dalam penelitian ini akan dilakukan peningkatan nilai akurasi dengan menggunakan metode optimasi Particle Swan Optimized (PSO) dari hasil penggabungan metode akurasi particle swan optimized dan algoritma c4.5 dihasilkan nilai akurasi sebesar 88,00%.



1.             PENDAHULUAN
Hipertensi merupakan suatu penyakit yang serius yang dapat mempengaruhi hidup manusia(Sheng-hui dkk, 2008). Hipertensi adalah kelainan yang sering ditemukan pada manusia yang disebabkan oleh peningkatan tekanan darah sistematik. Hasil penelitian langangan menunjukan bahwa frekuensi hipertensi adalah sekitar 10% dari penduduk Indonesia dewasa dan hal yang sama dengan negara sekitarnya (Sigalrki, 2001). Masalah utama pada penderita hipertensi adalah bahwa lebih dari 90% hipertensi termasuk gologngan esensial yaitu tidak diketahui penyebabnya dan 10% sisanya disebabkan oleh hipertensi sekunder atau hipertensi karena penyakit (Robert & Istvan, 2001). Untuk itu perlu dilakukan pengolahan data lebih lanjut mengenai data hipertensi untuk menghasilkan prediksi yang dapat digunakan untuk mengantisipasi penyakit hipertensi. Teknik yang biasa digunakan dalam mengolah atau menggali informasi dari sekumpulan data hipertensi yang ada yaitu dengan menggunakan teknik data mining.
Data mining didefinisikan sebagai proses untuk menemukan pola pada data. Proses harus otomatis atau (lebih biasanya) semi-otomatis. Pola ditemukan harus lebih bermakna karena mereka mengakibatkan beberapa keuntungan (Witten, 2011). Data mining biasanya digunakan dalam dua bentuk yaitu klasifikasi dan clustering atau pengelompokan. Dalam teknik klasifikasi dapat dilakukan dengan beberapa metode satu diantaranya yaitu metode algoritma C4.5. algoritma C4.5 adalah salah satu dari algoritma yang ada pada metode decision tree.
Penelitian sebelumnya menggunakan data hipertensi ini telah dilakukan yaitu dengan menggunakan algoritma C4.5, dari penelitian tersebut diperoleh nilai akurasi yaitu 76,6%. (Amalia & Evicienna, 2013). Dalam penelitian ini akan dilakukan analisa data hipertensi menggunakan klasifikasi data mining yakni algoritma C4.5 dengan menggunakan tiga parameter yaitu usia, berat badan dan jenis kelamin yang kemudian dioptimasikan atau ditingkatakan keakurat hasil prediksinya dengan menggunakan metode optimasi yaitu particle swam optimazed (PSO).
2.         Landasan Teori
2.1 Data Mining
Data mining adalah suatu proses ektraksi “penambangan” pengetahuan dari kumpulan banyak data(Han & Kamber, 2007). Perkembangan teknologi yang begitu pesat, menghasilkan masyarakat yang sangat membutuhkan informasi. Kebutuhan akan informasi ini dihasilkan dari kebutuhan dan keiingingan manusia untuk mendapatkan informasi yang lebih akurat. Informasi yangInformasi dan pengetahuan yang didapat dapat digunakan untuk aplikasi mulai dari pasar analisis, deteksi penipuan, dan retensi pelanggan, untuk pengendalian produksi dan ilmu pengetahuan(Han & Kamber, 2007).
Dalam data mining data disimpan secara elektronik dan diolah secara otomatis, atau setidaknya disimpan dalam komputer. Data mining adalah tentang menyelesaikan masalah dengan menganalisa data yang telah ada dalam database(Witten, 2011).
Data mining memiliki dua tujuan yaitu data mining digunakan untuk tujuan
1.      klasifikasi, seperti klasifikasi, regresi dan prediksi.
2.      Deskripsif, seperti clustering dan asosiasi(Gorunecu, 2011)
2.2 Decision Tree
Pohon keputusan atau dikenal dengan decision tree adalah struktur pohon flowchart dimana akar ada  di bagian atas dan daun di bagian bawah(Liao, 2007). Dimana node akar mengandung dataset keseluruhan dan node daun berisi beberapa kondisi atau test pada atributnya. Setiap cabang mewakili output yang dihasilkan dari test yang ada di atribut. Pohon keputusan dapat digunakan untuk mengekstrak model untuk menggambarkan kelas data atau untuk memprediksi masa depan tren data. Pohon keputusan telah diterapkan di berbagai bidang, termasuk kedokteran, bisnis, dan deteksi kesalahan. Mereka adalah dasar dari beberapa sistem induksi aturan komersial (Liao, 2007).
2.2 Algoritma C4.5
Algoritma C4.5 dan pohon keputusan (decision tree) merupakan dua mode yang tidak terpisahkan, karena untuk membangun sebuah pohon keputusan, dibutuhkan algoritma C4.5. Dari akhir tahun 1970 sampai awal 1980-an J.Ross Quinlan, melakukan pengembangan terhadap algoritma decision tree yakni ID3 (Interative Dichotomisemiser). Kemudian Quinlan juga menghadirkan algoritma C4.5, yang menjadi awal dari algoritma supervised learning yang terbaru. Di tahun 1984 sebuah kelompok statistic (L.Breiman, J. Fridman, R. Olshen dan C.Stone) mempublikasikan Classification and Regresssion Tree (CART), yang mengambarkan generasi binary decision tree[6].
Ada beberapa tahap dalam membuat sebuah pohon keputusan dengan algoritma C4.5, yaitu[8]:
1.         Menyiapkan data training. Data training biasanya diambil dari data histori yang pernah terjadi sebelumnya dan sudah dikelompokan ke dalam kelas-kelas tertentu.
2.         Menentukan akar dari pohon. Akar akan diambil dari atribut yang terpilih, dengan cara menghitung nilai gain dari masing-masing atribut, nilai gain yang paling tinggi yang akan menjadi akar pertama. Sebelum menghitung gain dari atribut, hitung dahulu nilai entropy yaitu:


            Keterangan:
            S : himpunan kasus
            A : atribut
            N : jumlah partisi S
            Pi : proporsi dari Si terhadap S   
3.         Kemudian hitung nilai gain dengan metode informasi gain:
 


           

4.         Ulangi langkah ke-2 hingga semua tupelo terpartisi.
5.         Proses partisi pohon keputusan akan berhenti saat:
            a.         Semua tupel dalam node N mendapat kelas yang sama.
            b.         Tidak ada atribut di dalam tupel yang dipartisi lagi.
            c.         Tidak ada tupel di dalam cabang yang kosong.
2.4 Particle Swarm Optimazed (PSO)
            Particle Swarm Optimized (PSO) adalah teknik optimasi berbasis populasi yang dikembangkan oleh Eberhart dan Kennedy pada tahun 1995, yang terinsipirasi oleh perilaku social kawanan burung atau ikan( Park, Lee & Choi, 2009).
Untuk menemukan solusi yang optimal masing-masing partikel bergerak kea rah posisi yang terbaik sebelumnya dan posisi terbaik secara global. Sebagai contoh, partikel ke-I dinyatakan sebagai: xi=(xi1,xi2,….xid) dalam ruang d-dimensi. Posisi terbaik sebelumnya dari partikel ke-I disimpan dan dinyatakan sebagai pbesti= (pbesti,1,pbesti,1,….pbesti,d) indeks partikel terbaik diantara semua partikel dalam kawasan group dinyatakan sebagai gbestd. Kecepatan partikel dinyatakan  sebagai: vi=(vi,1,vi,2,…..,vi,d). modifikasi kecepatan dan posisi partikel dapat dihitung menggunakan kecepatan saat ini dan jarak pbesti,gbestd seperti ditunjukan persamaan berikut:
vi,d = w * vi,d + c1 * R * (pbesti,d –xi,d) + c2 * R * (gbestd – xi,d ) 
xid=xi,d + vi, d

keterangan :
Vi, d    = Kecepatan partikel ke-I pada iterasi   ke-i
w         = Faktor bobot inersia
c1,c2    = konstanta akselerasi (learning rate)
R          = Bilangan random (0-1)
xi, d     = Posisi saat ini dari partikel ke-i pada iterasi ke-i
pbesati = Posisi terbaik sebelumnya dari partikel ke-i
gbesti   = Partikel terbaik diantara semua partikel dalam satu kelompok atau populasi
n          = Jumlah partikel dalam kelompok
d          = Dimensi
persamaan pertama menghitung kecepatan baru untuk tiap partikel (solusi pontensial) berdasarkan padam kecepatan sebelumnya(vi,m), lokasi partikel dimana nilai fitness terbaik telah dicapai (pbesti), dan populasi nilai global (gbest untuk versi global, ibest untuk versi local) atau local neighborhood pada algoritma versi local dimana fitness terbaik tercapai.
Perasamaan kedua memperbaharui posisi tiap partikel pada ruang solusi. Dau bilangan acak cid an c2 dibangkitkan sendiri. Penggunaan berat ineersia w telah memberikan performa yang meningkat pada sejumlah aplikasi. Hasil dari perhitungan partikel yaitu kecepatan partikel diantara interval [0,1] (Park, Lee & Choi, 2009).

2.3 Kerangka Pemikiran

3.   Metodelogi Penelitian.
Penelitian adalah mencari melalui proses yang metodis untuk menambahkan pengetahuan itu sendiri dan dengan yang lainnya, oleh penemuan fakta dan wawasan tidak biasa (Dawson, 2009).
Metode yang diusulkan
Ekperimen dan Pengujian Metode
Evaluasi dan Vallidasi Hasil
Pengumpulan data
Pengolahan data awal
Pada penelitian ini akan digunakan data kesehatan yaitu usia, berat badan dan jenis kelamin. Berikut adalah tahapan penelitian yang dilakukan dalam penelitian ini:


 A. Pengumpulan data
Teknik pengumpulan data ialah teknik atau cara-cara yang dapat  digunakan untuk menggunakan data (Riduwan, 2009). Data yang dikumpulkan diperoleh dari buku catatan kesehatan pasien dan jumlah sampel yang dikumpulkan sebanyak 85 sampel. Setiap keluarga mempunyai satu buku dan di dalam satu buku tersebut terdapat lebih dari satu orang yang dicatat. Di buku kesehatan tersebut terdapat data-data tentang pasien yang menderita hipertensi yaitu berupa jenis kelamin, berat badan, usia dan tekanan darah pasien.

B.  Pengolahan Awal Data
Data yang diperoleh kemudian diolah, tidak semua data digunakan, jumlah data yang berhasil dikumpulkan adalah sebanyak 85 data. Kemudian data tersebut diolah sehingga menghasilkan 60 data yang akan dianalisa lebih lanjut. Hal ini dikarenakan pada data awal yang berjumlah 85 data dilakukan teknik pengolahan awal data yaitu bertujuan untuk memperoleh data yang berkualitas. Berikut teknik yang dilakukan dalam pengolahan awal data:
1.      Data Validation: yaitu teknik menghilangkan menghapus data yang tidak lengkap(outer/noise). Dalam penelitian ini terdapat 25 data yang tidak lengkap sehingga dihapus, sehingga data yang digunakan untuk analisa adalah 60 data.
2.      Data Integration and Tranformation: yaitu teknik mengubah dan mengabungkan data sehingga diperoleh data yang valid. Dalam penelitian ini dilakukan pengubahan data dari numeric menjadi kategorikal.
Tabel diatas adalah kategori tekanan darah menurut Joint Comitte on Detection Evaluation and Treatment of High Blood Presure[11]. Dari tabel diatas maka dapat dikategorikan bahwa seseorang yang menderita hipertensi adalah dengan tekanan sistolik diatas 139 mmHg atau tekanan diastolik yang diatas 89 mmHg. Dibawah tekanan diatas maka dapat dikategorikan tidak menderita hipertensi.          
C. Metode yang diusulkan
Pada penelitian sebelumnya telah dilakukan penganalisaan data hipertensi menggunakan algoritma c4.5. Dalam penelitian ini akan dilakukan peningkatkan kinerja metode algoritma c4.5 dengan metode Particle Optimized Swarm (PSO).




                                                                                                                             




D. Ekperimen dan pengguijan Metode
Eksperimen dan Pengujian Metode Algortima C4.5
1.      Menyiapan  data training, yaitu menggunakan data pada tabel data ya
2.      Menghitung Entropy keseluruhan total kasus yang “Ya” Hipertensi dan “Tidak” Hipertensi. Dari data training diketahui jumlah data yang “Ya” Hipertensi adalah 30 dan jumlah data yang berlabel “Tidak” Hipertensi berjumlah 30 data. Data keseluruhan adalah 60. Berikut adalah perhitungan entropynya:
 



=-22/60 log(2) 22/60 –(38/60 log(2) 38/60)
=0,948078244

3.      Hitung nilai entropi dan nilai gain masing-masing atribut. Nilai gain tertinggi adalah atribut yang menjadi root dari pohon keputusan yang akan dibuat.
Berikut perhitungan entropi untuk atribut usia.
 


                                                                                                    



EPerempuan[9,25]=-9/60 log(2) 9/60 –(25/60 log(2) 25/60)
                           =0,94
Elaki-laki[13,13] =13/60 log(2) 13/60 –(13/60 log(2) 13/60)
                          = 0,96

Entropi Jenis Kelamin[35,26]=35/60 * 0,94 + 26/60 *0,96
                                            =0,96

Gain Jenis Kelamin= 0,95-  0,96
                             = -0,013

Tabel perhitungan entropi atribut dan gain
simpul
Kasus
Ya
Tidak
Entropi
Gain
Total data
60
22
38
0,95

Jenis Kelamin





Perempuan
35
9
25
0,94
-0,013
Laki-Laki
26
13
13
0,96
Umur





<=54
53
15
38
0,5
0,46
>54
7
7
0
0,36
<=41,5
30
3
27
0,155
0,38
>41,5
30
19
11
0,97
Berat Badan





<=62,5
37
6
31
0,82
0,11
>62,5
23
16
7
0,87

Dari tabel perhitungan entropi diatas diketahui gain tertinggi yaitu 0,46 oleh karena itu atribut berat badan <=54 dan > 54 merupakan root dari pohon keputusan yang dihasilkan.
4.      Ulangi langkah kedua sampai tidak bisa terpartisi, yaitu menghitung entropi dan gain untuk atribut selanjutnya untuk menentukan simpul 1.1 dan simpul 1.2, nilai dihitung berdasarkan umur >54 berikut tabel data yang yang termasuk katergori umur >54
Jenis Kelamin
Umur
berat badan
hasil
L
70
70
YA
L
70
65
YA
P
70
40
YA
L
70
72
YA
L
56
63
YA
P
62
40
YA
L
61
64
YA
Dilihat dari tabelnya untuk umur> 54 hasil yang diperoleh adalah Ya untuk semua data sehingga atribut umur >54 tidak dapat dipartisi lagi. Berikut tabel data yang termasuk pada katergori umur<=54
Jenis Kelamin
Umur
berat badan
hasil
P
35
55
TIDAK
L
46
80
YA
P
26
52
TIDAK
P
31
60
TIDAK
L
44
55
YA
L
45
70
YA
L
44
72
YA
L
42
65
YA
P
49
65
YA
P
30
55
TIDAK
P
22
52
TIDAK
P
35
54
TIDAK
P
35
60
YA
L
44
40
TIDAK
P
50
70
YA
L
42
65
YA
P
45
57
TIDAK
P
40
70
TIDAK
P
46
70
YA
P
43
52
YA
P
40
70
TIDAK
L
40
80
YA
L
52
60
TIDAK
P
25
50
TIDAK
P
35
52
TIDAK
P
28
45
TIDAK
P
26
60
TIDAK
P
45
65
TIDAK
P
41
45
TIDAK
L
23
60
TIDAK
P
28
56
TIDAK
L
52
65
TIDAK
L
40
73
TIDAK
P
32
57
TIDAK
P
44
70
YA
P
34
40
TIDAK
L
29
56
TIDAK
P
37
50
YA
L
32
57
TIDAK
L
42
60
TIDAK
L
35
61
TIDAK
P
47
56
TIDAK
P
26
55
TIDAK
L
45
72
YA
L
45
48
TIDAK
L
44
52
TIDAK
L
41
67
TIDAK
P
46
50
TIDAK
P
40
50
TIDAK
P
32
51
TIDAK
L
45
60
TIDAK
P
25
65
TIDAK
P
41
45
TIDAK
Berikut adalah pohon keputusan yang dihasilkan:




Dari pohon keputusan tersebut berikut adalah rule yang diperoleh
R1: jika umur>54 maka hasil YA hipertensi
R2: Jika umur <=54 dan umur >41,50 dan berat badan >62,5 maka hasil Ya HIpertensi
R3: jika umur>41,5 dan berat badan <=62,50 maka hasil Tidak Hipertensi
R4: jika umur<=54 dan umur <=41,5 maka hasil Tidak hipertensi.
5.      Evaluasi dan Validasi
Berikut pengujian yang dilakukan menggunakan cross validation dengan tools RapidMiner.
Metode klasifikasi bisa dievaluasi berdasarkan kriteria seperti tingkat akurasi, kecepatan, kehandalan, skabilitas dan interpretabilitas[10]. Berikut tabel confusion Matrix algortima C4.5, dari tabel diketahui  tingkat akurasi 76,6



V. Kesimpulan
Dalam penelitian ini dilakukan prediksi data hipertensi menggunakan algoritma C4.5, hasil yang, dan dari 60 kasus diketahui sebanyak 33 kasus diprediksi Tidak Hipertensi sesuai dengan data yang ada,sebanyak 9 kasus diprediksi tidak hipertensi tetapi pada data yang ada kenyataanya Ya hipertensi. Sebanyak 5 kasus diprediksi Ya hipertensi pada kenyataannya tidak hipertensi, dan sebanyak 13 kasus diprediksi tidak hipertensi pada kenyataannya yaitu sesuai dengan data yang ada.
Berikut grafik Area Under Curve (AUC) yang dihasilkan dari tools RapidMIner:
Dari grafik diatas diketahui nilai AUC yang dihasilkan adalah 0,862.
Berikut aplikasi yang dihasilkan berdasarkan rule yang  ada menggunakan aplikasi java neatbeans:

Kesimpulan
Dalam penelitian ini dilakukan prediksi pengolahan data hipertensi dengan menggunakan tiga parameter yaitu jenis, kelamin, berat badan dan umur. Data diolah menggunakan metode algortima C4.5, dari hasil running data menggunakan tools Rapidminer diketahui tingkat akurasinya yaitu 0,79% dan AUC 0,862. Dan dibuatkan aplikasi prediksi hipertensi berdasarkan rule yang ada.

DAFTAR PUSTAKA
1. Depkes. (2006). PHARMACEUTICAL CARE UNTUK PENYAKIT HIPERTENSI. Jakarta: DIREKTORAT BINA FARMASI KOMUNITAS DAN KLINIK DITJEN BINA KEFARMASIAN DAN ALAT KESEHATAN DEPARTEMEN KESEHATAN.
2. Abdullah, A. A., Zakaria, Z., & Mohammad, F. N. (2011). Design and Development of Fuzzy Expert System for Diagnosis of Hypertension. Second International Conference on Intelligent Systems, Modelling and Simulation , 978-0-7695-4336-9.
3. Witten, H. I., Eibe, F., & Hall, A. M. (2011). Data Mining Machine Learning Tools and Techiques. Burlington: Morgan Kaufmann Publisher.
4. jangle
5. Jr, McLeod Raymond. Sistem Informasi Manajemen. Edisi ketujuh. Jilid satu. PT. Penhelindo.Jakarta. 2001.
6. Han, J., & Kamber, M. (2007). Data Mining Concepts and Techniques. San Fransisco: Mofgan Kaufan Publisher.
7. Larose, D. T. (2005). Discovering Knowledge in Databases. New Jersey: John Willey & Sons Inc.
8. Kusrini, & Luthfi, E. T. (2009). Algoritma Data Mining. Yogyakarta: Andi
Publishing.
9. Riduwan. (2008). Metode dan Teknik Menyusun Tesis. Bandung: Alfabeta.
10. Vercellis, C. (2009). Business Intelligent: Data Mining and Optimization for Decision Making. Southern Gate: John Willey & Sons Inc.
11. The Joint National Committee on detection, Evaluation and
Treatment of High       Blood Pressure: The Seventh  Report of  the
Joint National Committee on Detection, Evaluation and Treatment of

High Blood Pressure;  Hypertension 2003;42:1206-52.

Tidak ada komentar:

Posting Komentar