PENERAPAN
ALGORITMA C4.5 BERBASIS PARTICLE SWAN OPTIMIZED (PSO) UNTUK PREDIKSI PENYAKIT
HIPERTENSI
Hilda Amalia
Akademi Manajemen Informatika dan
Komputer Bina Sarana Informatika Jakarta
Email:Hilda.ham@bsi.ac.id
Abstrak
Data
mining merupakan suatu teknik mengekplorasian data yang tersimpan dalam suatu
basis data menjadi pengetahuan baru yang berharga. Dengan teknik data mining, kumpulan
data-data yang dianggap tidak berguna dapat menjadi suatu informasi yang
berharga. Salah satu teknik data mining yang biasa digunakan adalah algoritma
C4.5. Algoritma C4.5 merupakan salah
satu dari metode data mining yaitu decision tree. Algoritma ini menghasilkan
rule klasifikasi dalam bentuk pohon. Penelitian sebelumnya telah dilakukan
terhadap data hipertensi dengan nilai akurasi 76,6%. Untuk itu dalam penelitian
ini akan dilakukan peningkatan nilai akurasi dengan menggunakan metode optimasi
Particle Swan Optimized (PSO) dari hasil penggabungan metode akurasi particle
swan optimized dan algoritma c4.5 dihasilkan nilai akurasi sebesar 88,00%.
1.
PENDAHULUAN
Hipertensi
merupakan suatu penyakit yang serius yang dapat mempengaruhi hidup
manusia(Sheng-hui dkk, 2008). Hipertensi adalah kelainan yang sering ditemukan
pada manusia yang disebabkan oleh peningkatan tekanan darah sistematik. Hasil
penelitian langangan menunjukan bahwa frekuensi hipertensi adalah sekitar 10%
dari penduduk Indonesia dewasa dan hal yang sama dengan negara sekitarnya
(Sigalrki, 2001). Masalah utama pada penderita hipertensi adalah bahwa lebih
dari 90% hipertensi termasuk gologngan esensial yaitu tidak diketahui
penyebabnya dan 10% sisanya disebabkan oleh hipertensi sekunder atau hipertensi
karena penyakit (Robert & Istvan, 2001). Untuk itu perlu dilakukan
pengolahan data lebih lanjut mengenai data hipertensi untuk menghasilkan
prediksi yang dapat digunakan untuk mengantisipasi penyakit hipertensi. Teknik
yang biasa digunakan dalam mengolah atau menggali informasi dari sekumpulan
data hipertensi yang ada yaitu dengan menggunakan teknik data mining.
Data
mining didefinisikan sebagai proses untuk menemukan pola pada data. Proses
harus otomatis atau (lebih biasanya) semi-otomatis. Pola ditemukan harus lebih
bermakna karena mereka mengakibatkan beberapa keuntungan (Witten, 2011). Data
mining biasanya digunakan dalam dua bentuk yaitu klasifikasi dan clustering
atau pengelompokan. Dalam teknik klasifikasi dapat dilakukan dengan beberapa
metode satu diantaranya yaitu metode algoritma C4.5. algoritma C4.5 adalah
salah satu dari algoritma yang ada pada metode decision tree.
Penelitian
sebelumnya menggunakan data hipertensi ini telah dilakukan yaitu dengan
menggunakan algoritma C4.5, dari penelitian tersebut diperoleh nilai akurasi
yaitu 76,6%. (Amalia & Evicienna, 2013). Dalam penelitian ini akan
dilakukan analisa data hipertensi menggunakan klasifikasi data mining yakni
algoritma C4.5 dengan menggunakan tiga parameter yaitu usia, berat badan dan
jenis kelamin yang kemudian dioptimasikan atau ditingkatakan keakurat hasil
prediksinya dengan menggunakan metode optimasi yaitu particle swam optimazed
(PSO).
2. Landasan Teori
2.1
Data Mining
Data
mining adalah suatu proses ektraksi “penambangan” pengetahuan dari kumpulan
banyak data(Han & Kamber, 2007). Perkembangan teknologi yang begitu pesat, menghasilkan
masyarakat yang sangat membutuhkan informasi. Kebutuhan akan informasi ini dihasilkan
dari kebutuhan dan keiingingan manusia untuk mendapatkan informasi yang lebih
akurat. Informasi yangInformasi dan pengetahuan yang didapat dapat digunakan
untuk aplikasi mulai dari pasar analisis, deteksi penipuan, dan retensi
pelanggan, untuk pengendalian produksi dan ilmu pengetahuan(Han & Kamber,
2007).
Dalam
data mining data disimpan secara elektronik dan diolah secara otomatis, atau
setidaknya disimpan dalam komputer. Data mining adalah tentang menyelesaikan
masalah dengan menganalisa data yang telah ada dalam database(Witten, 2011).
Data
mining memiliki dua tujuan yaitu data mining digunakan untuk tujuan
1. klasifikasi, seperti klasifikasi,
regresi dan prediksi.
2. Deskripsif, seperti clustering
dan asosiasi(Gorunecu, 2011)
2.2
Decision Tree
Pohon
keputusan atau dikenal dengan decision tree adalah struktur pohon flowchart
dimana akar ada di bagian atas dan daun
di bagian bawah(Liao, 2007). Dimana node akar mengandung dataset keseluruhan
dan node daun berisi beberapa kondisi atau test pada atributnya. Setiap cabang
mewakili output yang dihasilkan dari test yang ada di atribut. Pohon keputusan
dapat digunakan untuk mengekstrak model untuk menggambarkan kelas data atau untuk
memprediksi masa depan tren data. Pohon keputusan telah diterapkan di berbagai
bidang, termasuk kedokteran, bisnis, dan deteksi kesalahan. Mereka adalah dasar
dari beberapa sistem induksi aturan komersial (Liao, 2007).
2.2
Algoritma C4.5
Algoritma
C4.5 dan pohon keputusan (decision tree) merupakan dua mode yang tidak
terpisahkan, karena untuk membangun sebuah pohon keputusan, dibutuhkan
algoritma C4.5. Dari akhir tahun 1970 sampai awal 1980-an J.Ross Quinlan,
melakukan pengembangan terhadap algoritma decision tree yakni ID3 (Interative
Dichotomisemiser). Kemudian Quinlan juga menghadirkan algoritma C4.5, yang
menjadi awal dari algoritma supervised learning yang terbaru. Di tahun 1984
sebuah kelompok statistic (L.Breiman, J. Fridman, R. Olshen dan C.Stone)
mempublikasikan Classification and Regresssion Tree (CART), yang mengambarkan
generasi binary decision tree[6].
Ada
beberapa tahap dalam membuat sebuah pohon keputusan dengan algoritma C4.5,
yaitu[8]:
1. Menyiapkan data training. Data training biasanya diambil
dari data histori yang pernah terjadi sebelumnya dan sudah dikelompokan ke
dalam kelas-kelas tertentu.
Keterangan:
S
: himpunan kasus
A
: atribut
N
: jumlah partisi S
Pi
: proporsi dari Si terhadap S
3. Kemudian hitung nilai gain dengan metode informasi gain:
4. Ulangi langkah ke-2 hingga semua tupelo terpartisi.
5. Proses partisi pohon keputusan akan berhenti saat:
a. Semua tupel dalam node N mendapat kelas
yang sama.
b. Tidak ada atribut di dalam tupel yang
dipartisi lagi.
c. Tidak ada tupel di dalam cabang yang
kosong.
2.4
Particle Swarm Optimazed (PSO)
Particle Swarm Optimized (PSO)
adalah teknik optimasi berbasis populasi yang dikembangkan oleh Eberhart dan
Kennedy pada tahun 1995, yang terinsipirasi oleh perilaku social kawanan burung
atau ikan( Park, Lee & Choi, 2009).
Untuk
menemukan solusi yang optimal masing-masing partikel bergerak kea rah posisi
yang terbaik sebelumnya dan posisi terbaik secara global. Sebagai contoh,
partikel ke-I dinyatakan sebagai: xi=(xi1,xi2,….xid) dalam ruang d-dimensi.
Posisi terbaik sebelumnya dari partikel ke-I disimpan dan dinyatakan sebagai
pbesti= (pbesti,1,pbesti,1,….pbesti,d) indeks partikel terbaik diantara semua
partikel dalam kawasan group dinyatakan sebagai gbestd. Kecepatan partikel
dinyatakan sebagai:
vi=(vi,1,vi,2,…..,vi,d). modifikasi kecepatan dan posisi partikel dapat
dihitung menggunakan kecepatan saat ini dan jarak pbesti,gbestd seperti
ditunjukan persamaan berikut:
vi,d
= w * vi,d + c1 * R * (pbesti,d –xi,d) + c2 * R * (gbestd – xi,d )
xid=xi,d
+ vi, d
keterangan
:
Vi, d = Kecepatan partikel ke-I pada iterasi ke-i
w = Faktor bobot inersia
c1,c2 = konstanta akselerasi (learning rate)
R = Bilangan random (0-1)
xi, d = Posisi saat ini dari partikel ke-i pada
iterasi ke-i
pbesati = Posisi terbaik sebelumnya dari partikel ke-i
gbesti = Partikel terbaik diantara semua partikel
dalam satu kelompok atau populasi
n = Jumlah partikel dalam kelompok
d = Dimensi
persamaan
pertama menghitung kecepatan baru untuk tiap partikel (solusi pontensial)
berdasarkan padam kecepatan sebelumnya(vi,m), lokasi partikel dimana nilai
fitness terbaik telah dicapai (pbesti), dan populasi nilai global (gbest untuk
versi global, ibest untuk versi local) atau local neighborhood pada algoritma
versi local dimana fitness terbaik tercapai.
Perasamaan
kedua memperbaharui posisi tiap partikel pada ruang solusi. Dau bilangan acak
cid an c2 dibangkitkan sendiri. Penggunaan berat ineersia w telah memberikan
performa yang meningkat pada sejumlah aplikasi. Hasil dari perhitungan partikel
yaitu kecepatan partikel diantara interval [0,1] (Park, Lee & Choi, 2009).
2.3
Kerangka Pemikiran
3. Metodelogi Penelitian.
Penelitian
adalah mencari melalui proses yang metodis untuk menambahkan pengetahuan itu
sendiri dan dengan yang lainnya, oleh penemuan fakta dan wawasan tidak biasa
(Dawson, 2009).
Metode yang diusulkan
|
Ekperimen dan Pengujian Metode
|
Evaluasi dan Vallidasi Hasil
|
Pengumpulan data
|
Pengolahan data awal
|
Teknik pengumpulan data ialah
teknik atau cara-cara yang dapat digunakan
untuk menggunakan data (Riduwan, 2009). Data yang dikumpulkan diperoleh dari
buku catatan kesehatan pasien dan jumlah sampel yang dikumpulkan sebanyak 85 sampel.
Setiap keluarga mempunyai satu buku dan di dalam satu buku tersebut terdapat
lebih dari satu orang yang dicatat. Di buku kesehatan tersebut terdapat
data-data tentang pasien yang menderita hipertensi yaitu berupa jenis kelamin,
berat badan, usia dan tekanan darah pasien.
B. Pengolahan Awal Data
Data
yang diperoleh kemudian diolah, tidak semua data digunakan, jumlah data yang
berhasil dikumpulkan adalah sebanyak 85 data. Kemudian data tersebut diolah
sehingga menghasilkan 60 data yang akan dianalisa lebih lanjut. Hal ini
dikarenakan pada data awal yang berjumlah 85 data dilakukan teknik pengolahan
awal data yaitu bertujuan untuk memperoleh data yang berkualitas. Berikut teknik
yang dilakukan dalam pengolahan awal data:
1.
Data
Validation: yaitu teknik menghilangkan menghapus data yang tidak
lengkap(outer/noise). Dalam penelitian ini terdapat 25 data yang tidak lengkap
sehingga dihapus, sehingga data yang digunakan untuk analisa adalah 60 data.
2.
Data
Integration and Tranformation: yaitu teknik mengubah dan mengabungkan data
sehingga diperoleh data yang valid. Dalam penelitian ini dilakukan pengubahan
data dari numeric menjadi kategorikal.
Tabel
diatas adalah kategori tekanan darah menurut Joint Comitte on Detection
Evaluation and Treatment of High Blood Presure[11]. Dari tabel diatas maka
dapat dikategorikan bahwa seseorang yang menderita hipertensi adalah dengan
tekanan sistolik diatas 139 mmHg atau tekanan diastolik yang diatas 89 mmHg.
Dibawah tekanan diatas maka dapat dikategorikan tidak menderita hipertensi.
C.
Metode yang diusulkan
Pada
penelitian sebelumnya telah dilakukan penganalisaan data hipertensi menggunakan
algoritma c4.5. Dalam penelitian ini akan dilakukan peningkatkan kinerja metode
algoritma c4.5 dengan metode Particle
Optimized Swarm (PSO).
D. Ekperimen dan pengguijan
Metode
Eksperimen dan Pengujian Metode
Algortima C4.5
1.
Menyiapan data training, yaitu menggunakan data pada
tabel data ya
2.
Menghitung
Entropy keseluruhan total kasus yang “Ya” Hipertensi dan “Tidak” Hipertensi.
Dari data training diketahui jumlah data yang “Ya” Hipertensi adalah 30 dan
jumlah data yang berlabel “Tidak” Hipertensi berjumlah 30 data. Data
keseluruhan adalah 60. Berikut adalah perhitungan entropynya:
=-22/60 log(2) 22/60 –(38/60
log(2) 38/60)
=0,948078244
3.
Hitung nilai entropi dan nilai gain masing-masing atribut. Nilai gain tertinggi adalah atribut yang menjadi root dari pohon keputusan yang akan dibuat.
Berikut perhitungan entropi untuk
atribut usia.
EPerempuan[9,25]=-9/60 log(2)
9/60 –(25/60 log(2) 25/60)
=0,94
Elaki-laki[13,13] =13/60 log(2)
13/60 –(13/60 log(2) 13/60)
= 0,96
Entropi Jenis
Kelamin[35,26]=35/60 * 0,94 + 26/60 *0,96
=0,96
Gain Jenis Kelamin= 0,95- 0,96
= -0,013
Tabel perhitungan entropi atribut
dan gain
simpul
|
Kasus
|
Ya
|
Tidak
|
Entropi
|
Gain
|
Total data
|
60
|
22
|
38
|
0,95
|
|
Jenis Kelamin
|
|
|
|
|
|
Perempuan
|
35
|
9
|
25
|
0,94
|
-0,013
|
Laki-Laki
|
26
|
13
|
13
|
0,96
|
|
Umur
|
|
|
|
|
|
<=54
|
53
|
15
|
38
|
0,5
|
0,46
|
>54
|
7
|
7
|
0
|
0,36
|
|
<=41,5
|
30
|
3
|
27
|
0,155
|
0,38
|
>41,5
|
30
|
19
|
11
|
0,97
|
|
Berat Badan
|
|
|
|
|
|
<=62,5
|
37
|
6
|
31
|
0,82
|
0,11
|
>62,5
|
23
|
16
|
7
|
0,87
|
Dari tabel perhitungan entropi
diatas diketahui gain tertinggi yaitu 0,46 oleh karena itu atribut berat badan
<=54 dan > 54 merupakan root dari pohon keputusan yang dihasilkan.
4. Ulangi langkah kedua sampai tidak
bisa terpartisi, yaitu menghitung entropi dan gain untuk atribut selanjutnya
untuk menentukan simpul 1.1 dan simpul 1.2, nilai dihitung berdasarkan umur
>54 berikut tabel data yang yang termasuk katergori umur >54
Jenis Kelamin
|
Umur
|
berat badan
|
hasil
|
|
L
|
70
|
70
|
YA
|
|
L
|
70
|
65
|
YA
|
|
P
|
70
|
40
|
YA
|
|
L
|
70
|
72
|
YA
|
|
L
|
56
|
63
|
YA
|
|
P
|
62
|
40
|
YA
|
|
L
|
61
|
64
|
YA
|
Dilihat dari tabelnya untuk umur> 54 hasil yang
diperoleh adalah Ya untuk semua data sehingga atribut umur >54 tidak dapat
dipartisi lagi. Berikut tabel data yang termasuk pada katergori umur<=54
Jenis Kelamin
|
Umur
|
berat badan
|
hasil
|
|
P
|
35
|
55
|
TIDAK
|
|
L
|
46
|
80
|
YA
|
|
P
|
26
|
52
|
TIDAK
|
|
P
|
31
|
60
|
TIDAK
|
|
L
|
44
|
55
|
YA
|
|
L
|
45
|
70
|
YA
|
|
L
|
44
|
72
|
YA
|
|
L
|
42
|
65
|
YA
|
|
P
|
49
|
65
|
YA
|
|
P
|
30
|
55
|
TIDAK
|
|
P
|
22
|
52
|
TIDAK
|
|
P
|
35
|
54
|
TIDAK
|
|
P
|
35
|
60
|
YA
|
|
L
|
44
|
40
|
TIDAK
|
|
P
|
50
|
70
|
YA
|
|
L
|
42
|
65
|
YA
|
|
P
|
45
|
57
|
TIDAK
|
|
P
|
40
|
70
|
TIDAK
|
|
P
|
46
|
70
|
YA
|
|
P
|
43
|
52
|
YA
|
|
P
|
40
|
70
|
TIDAK
|
|
L
|
40
|
80
|
YA
|
|
L
|
52
|
60
|
TIDAK
|
|
P
|
25
|
50
|
TIDAK
|
|
P
|
35
|
52
|
TIDAK
|
|
P
|
28
|
45
|
TIDAK
|
|
P
|
26
|
60
|
TIDAK
|
|
P
|
45
|
65
|
TIDAK
|
|
P
|
41
|
45
|
TIDAK
|
|
L
|
23
|
60
|
TIDAK
|
|
P
|
28
|
56
|
TIDAK
|
|
L
|
52
|
65
|
TIDAK
|
|
L
|
40
|
73
|
TIDAK
|
|
P
|
32
|
57
|
TIDAK
|
|
P
|
44
|
70
|
YA
|
|
P
|
34
|
40
|
TIDAK
|
|
L
|
29
|
56
|
TIDAK
|
|
P
|
37
|
50
|
YA
|
|
L
|
32
|
57
|
TIDAK
|
|
L
|
42
|
60
|
TIDAK
|
|
L
|
35
|
61
|
TIDAK
|
|
P
|
47
|
56
|
TIDAK
|
|
P
|
26
|
55
|
TIDAK
|
|
L
|
45
|
72
|
YA
|
|
L
|
45
|
48
|
TIDAK
|
|
L
|
44
|
52
|
TIDAK
|
|
L
|
41
|
67
|
TIDAK
|
|
P
|
46
|
50
|
TIDAK
|
|
P
|
40
|
50
|
TIDAK
|
|
P
|
32
|
51
|
TIDAK
|
|
L
|
45
|
60
|
TIDAK
|
|
P
|
25
|
65
|
TIDAK
|
|
P
|
41
|
45
|
TIDAK
|
Berikut
adalah pohon keputusan yang dihasilkan:
Dari
pohon keputusan tersebut berikut adalah rule yang diperoleh
R1:
jika umur>54 maka hasil YA hipertensi
R2: Jika umur <=54 dan umur
>41,50 dan berat badan >62,5 maka hasil Ya HIpertensi
R3: jika umur>41,5 dan berat
badan <=62,50 maka hasil Tidak Hipertensi
R4: jika umur<=54 dan umur
<=41,5 maka hasil Tidak hipertensi.
5. Evaluasi dan Validasi
Berikut pengujian yang dilakukan
menggunakan cross validation dengan tools RapidMiner.
Metode klasifikasi bisa
dievaluasi berdasarkan kriteria seperti tingkat akurasi, kecepatan, kehandalan,
skabilitas dan interpretabilitas[10]. Berikut tabel confusion Matrix algortima
C4.5, dari tabel diketahui tingkat
akurasi 76,6
V. Kesimpulan
Dalam penelitian ini dilakukan
prediksi data hipertensi menggunakan algoritma C4.5, hasil yang, dan dari 60
kasus diketahui sebanyak 33 kasus diprediksi Tidak Hipertensi sesuai dengan
data yang ada,sebanyak 9 kasus diprediksi tidak hipertensi tetapi pada data
yang ada kenyataanya Ya hipertensi. Sebanyak 5 kasus diprediksi Ya hipertensi
pada kenyataannya tidak hipertensi, dan sebanyak 13 kasus diprediksi tidak
hipertensi pada kenyataannya yaitu sesuai dengan data yang ada.
Berikut grafik Area Under Curve
(AUC) yang dihasilkan dari tools RapidMIner:
Dari grafik diatas diketahui
nilai AUC yang dihasilkan adalah 0,862.
Berikut aplikasi yang dihasilkan
berdasarkan rule yang ada menggunakan
aplikasi java neatbeans:
Kesimpulan
Dalam penelitian ini dilakukan
prediksi pengolahan data hipertensi dengan menggunakan tiga parameter yaitu
jenis, kelamin, berat badan dan umur. Data diolah menggunakan metode algortima
C4.5, dari hasil running data menggunakan tools Rapidminer diketahui tingkat
akurasinya yaitu 0,79% dan AUC 0,862. Dan dibuatkan aplikasi prediksi
hipertensi berdasarkan rule yang ada.
DAFTAR PUSTAKA
1. Depkes. (2006). PHARMACEUTICAL
CARE UNTUK PENYAKIT HIPERTENSI. Jakarta: DIREKTORAT BINA FARMASI KOMUNITAS DAN
KLINIK DITJEN BINA KEFARMASIAN DAN ALAT KESEHATAN DEPARTEMEN KESEHATAN.
2. Abdullah, A. A., Zakaria, Z.,
& Mohammad, F. N. (2011). Design and Development of Fuzzy Expert System for
Diagnosis of Hypertension. Second International Conference on Intelligent
Systems, Modelling and Simulation , 978-0-7695-4336-9.
3. Witten, H. I., Eibe, F., &
Hall, A. M. (2011). Data Mining Machine Learning Tools and Techiques.
Burlington: Morgan Kaufmann Publisher.
4. jangle
5. Jr, McLeod Raymond. Sistem
Informasi Manajemen. Edisi ketujuh. Jilid satu. PT. Penhelindo.Jakarta. 2001.
6. Han, J., & Kamber, M. (2007). Data Mining Concepts
and Techniques. San Fransisco: Mofgan Kaufan Publisher.
7. Larose, D. T. (2005). Discovering Knowledge in
Databases. New Jersey: John Willey & Sons Inc.
8. Kusrini, & Luthfi, E. T.
(2009). Algoritma Data Mining. Yogyakarta: Andi
Publishing.
9. Riduwan. (2008). Metode dan
Teknik Menyusun Tesis. Bandung: Alfabeta.
10. Vercellis, C. (2009).
Business Intelligent: Data Mining and Optimization for Decision Making.
Southern Gate: John Willey & Sons Inc.
11. The Joint National Committee
on detection, Evaluation and
Treatment of High Blood Pressure: The Seventh Report of
the
Joint National Committee on
Detection, Evaluation and Treatment of
High Blood Pressure; Hypertension 2003;42:1206-52.
Tidak ada komentar:
Posting Komentar