Minggu, 08 November 2015
Kamis, 05 November 2015
PREDICTION OF STUDENTS GRADUATION USING ALGORITHM C4.5
International Seminar on Scientific Issues and Trends (ISSIT) 2014
Proceeding ISSIT 2014, Page: A-31
PREDICTION OF STUDENTS GRADUATION USING ALGORITHM C4.5
Hilda Amalia
Akademi Manajemen Informatika and Komputer Bina Sarana Informatika
email : Hilda.ham@bsi.ac.id
Abstract-College is a place for students to gain knowledge before face the competitive world of work. The numbers of students who graduate on time become an indicator of college success both public and private. Important for college to make a prediction for their student so the collage can do some precaution. Research in terms of predicting student graduation and many students have done. In this research we will use algorithm c4.5 method. Algorithm C4.5 is one of the methods that exist in the decision tree method that can be used to make a prediction and classification. Decision tree is a kind of data mining method. Data mining is a way to explore data becoming useful information. Information that results from data mining process can be used for seeing further probability with more accurate than before. The result of this research is decision tree rule with 74,33% accurate.
Key Words: Data Mining, Algorithm C4.5
I. INTRODUCE
The college currently required a competitive advantage by utilizing all available resources that collaged had. Students and lecturers as a college major asset that want to continue to improve key indicators using assets effectively and efficiently (Qudri & Kalayar, 2010). Students who not graduated on time will be affected the assessment of the credibility of the public schools or educational institutions. So important for a college to watch a number of college graduation accuracy. The decline in student graduation rates will also affect the accreditation of the college. So that student graduation rate which is decline with significant and grow up continues are a problem at college. Several methods have been used to predict the accuracy of graduation among which, neural network (Karamouiz, 2009), comparison of naïve Bayes and C4.5 algorithm (suhartinah, 2010), several studies have also been carried out comparative method comparative method that ANN, Decision tree and Liner Regresion (Ibrahim & Rush, 2007), k-means (Oyelade, 2010). C4.5 algorithm is a method in decision tree. Decision Tree is a classification and prediction methods are very powerful and famous. Decision tree change the fact that a very large into a decision tree that represents the rule (Suhartinah, 2010). Decision tree has been widely used to make predictions in various fields. In this study the prediction accuracy will be calculated using the C4.5 algorithm
II. THEORY
2.1 Data Mining
Data Mining is a process of finding meaningful relationships, patterns and trends to examine trends by examining patterns in large collections of data stored in the storage with the introduction of techniques using statistical and mathematical techniques pola seperti (Larose, 2005).
Proses dalam data mining:
1. Data Selection: identifies the source of data to be mined.
2. Data Pre-processing: This stage is a stage for preparation methods, such as abolishing duplicate data, which is not true power, gather data from many databases.
3. Transformation: This is the process of converting data into a data format suitable for the algorithm.
4. Data Mining: This is the main process is the use of data mining methods to find the model.
5. Interpretation and evolution: this stage to intrepret and evaluation results (Yingkuarchat, 2007).
2.2 Algoritma C4.5
Desicion Tree resembles a flowchart structure, each of its internal nodes is expressed as an attribute test, each branch represents the output of the test, and each leaf node (terminal node) determines the class label. Top node of a tree is the root node (Han & Kamber, 2007).
There are several stages in making a decision tree algorithm C4.5 (Kusrini & Lutfi, 2009), namely:
1. Preparing the training data. Training data are usually taken from historical data that never happened before and has been grouped into certain classes.
2. Determine the roots of the tree. The roots will be taken from the selected attributes, by calculating the value of the gain of each attribute, the highest value of gain will becoming a root of the tree. Before
calculating the gain of an attribute, first calculate the entropy values are:
3. Then calculate the gain value with the method of the information gain:
4. Repeat step 2 until all tupelo-partitioned.
5. Decision tree partitioning process will stop when:
a) All tuples in node N gets the same grade.
b) There is no attribute in the tuple is partitioned again.
c) There is no tuple in the branch empty.
III. REASERCH METHODS
In this study, the data used is the graduation of students at one university in Jakarta. In this study will be several steps or phases of the study as described below:
Figure 1 Stages study used:
a. Data Collection
The data obtained are due to the secondary data obtained from a database owned by a university student who was in Jakarta, namely through the department computer centers owned by the campus. The data obtained in this study is the qualitative and quantitative data. The data is the data collected by the University student undergraduate courses (S1) for the period of September 2011.-year graduation record is 1633 records obtained by NIM attribute, name, age, school, semesters IP 1, IP 2 semesters, 3 semesters IP to with IP Semester 8, with late and proper labeling.
b. Preparation data
(1) To obtain high-quality data, several techniques were carried out as follows (vecellis, 2009):
(2) Data validation, to identify and remove the odd data (outliers / noise), the data are inconsistent, and incomplete data (missing value).
(3) Data Integration and Transformation, to improve the accuracy and efficiency of the algorithm. The data used in this paper is worth categorical.
(4) Data size reduction and dicrtization, to obtain data sets with the number of attributes and records but less informative.
From the initial processing of the data on the data obtained can be processed into 1583 data, which consists of 671 data with the class label or "RIGHT" and 911 data labels or class "LATE".
c. The Proposed Method
In this study will be calculated graduation rate accuracy using data mining methods, namely C4.5 algorithm. Here's an illustration of the proposed use of the method in the study:
Figure 2 Illustration of use of the proposed method:
III. THEORY
3.1 Algoritma C4.5
C4.5 algorithm is one of the algorithms in a decision tree method that converts the data into a decision tree using entropy calculation formula. Here are the stages of the calculation of the entropy of the C4.5 algorithm for data graduation:
a. Prepare the training data, which is used for training data in Table 2 that there are training data tables.
b. Calculate the total value of the overall entropy case "RIGHT" pass and "LATE" pass. Of the training data that is known to pass the number of cases "RIGHT" on time
as much as 671 record, and the number of cases that pass the "past due" is as much a record total of 911 cases were 1582 cases overall. So that the overall entropy obtained:
= -671/1582 *log 671/1582 + (-911/1582 * log 911/1582
= 0,983
c. Calculate the entropy value and the gain value of each attribute. The highest gain value is an attribute that becomes the root of the decision tree to be created. Suppose calculate the entropy for attribute falkultas.
Entropi IlmuPendidikan [129,229] = (-129/358 log2 129/358)+(-229/358 log2 229/358)
= 0,943
Entropi BahasaandSeni[166,96]=(-166/262 log(2) 166/262) + (-96/262 log(2) 96/262)
=0,948
Entropi MatematikaandIPA[44,15]=(-44/198 log(2) 44/198) + (-15/198 log(2) 15/198)
= 0,764
Entropi IlmuSosial[99,123]=(-99/222 log(2) 99/222) + (-123/222 log(2) 123/222)
=0,992
Entropi teknik[43,123]=(-43/170 log(2) 43/170) + ( -123/170 log(2) 123/170)
= 0,816
Entropi ekonomi[187,96]=(-187/283 log(2) 187/283) + (-187/283 log(2) 187/283)
= 0,924
Entropi ilmukeolahragaan[3,86]=(-3/170 log(2) 3/170)+(-86/170 log(2) 86/170)
=0,213
kemudian hitung gain dari falkultas:
Gain(S,A)= 0,983-((358/1582 * 0,943)+(262/1582 * 0,948)+(198/1582 * 0,7642)+(222/1582 * 0,992)+(170/1582 * 0,816)+(89/1582 * 0,213)+(96/1582 * 0,924)= 0,290
Gain fakultas=0,290
below are value of root calculation:
Atribut
Nilai gain
Fakultas
0,290
Jenis kelamin
0,021
Umur <=26 and > 26
0,054
Umur <=25 and >25
0,0521
Umur <=38 and >38
-0,058
Umur <=42 and >42
0,0016
IPS1 <=3,190 and > 3,190
0,119
IPS1 <=3,455 and >3,455
0,082
IPS1 <=3,310 and >3,310
0,125
IPS1 <=2,320 and > 2,350
0,040
IPS1 <=3,565 and >3,565
0,062
IPS1 <=3,705 and >3,705
0,032
IPS1 <=3,685 and >3,685
0,062
IPS1 <=3,545 and >3,545
0,079
IPS1 <=3,295 and >3,295
0,116
IPS2 <=3,790 and 3,790
0,060
IPS2 <=2,690 and >2,690
0,050
IPS3 <=3,150 and >3,150
0,058
IPS4 <=2,365 and >2,365
0,036
IPS4 <=2,900 and >2,900
0,065
After calculation of entropy and gain all the attributes obtained the highest gain faculty. Then attributes the faculty at the root or root. Recalculate nilaiand gain for the faculty. So the decision tree is obtained.
Following the decision tree image for graduation the data using the C4.5 algorithm:
below are rule that resulted from algorithm c4.5:
R1: IF fakultas=bahasa and seni and IPS4>2,455 and IPS1>2,350 then result tepat.
R2: IF fakultas=bahasa and seni and IPS4>2,455 and IPS1<=2,350 then result terlambat.
R3: IF fakultas=bahasa and seni and IPS4 <=2,350 then result terlambat.
R4: IF fakultas=ekonomi and IPS1>3,190 then result tepat.
R5: IF fakultas=ekonomi and IPS1<=3,190 then result tepat.
R6: IF fakultas=ilmu keolahragaan and IPS1 >3,455 then result tepat.
R7: IF fakultas=ilmu keolahragaan IPS1<=3,455 and IPS1>3,310 then result tepat.
R8: IF fakultas=ilmu keolahragaan IPS1<=3,455 and IPS1<=3,310 then result terlambat.
R9: IF fakultas=ilmu pendidikan and IPS1 > 3,545 and umur>26 and IPS1>3,566 then result terlambat.
R10: IF fakultas=ilmu pendidikan and IPS1 > 3,545 and umur>26 and IPS1<=3,566 then result tepat.
R11: IF fakultas=ilmu pendidikan and IPS1 > 3,545 and umur <=26 and IPS2 >3,790 then result terlambat.
R12: IF fakultas=ilmu pendidikan and IPS1 > 3,545 and umur <=26 and IPS2 <=3,790 and IPS1 > 3,705 then result tepat.
R13: IF fakultas=ilmu pendidikan and IPS1 > 3,545 and umur <=26 and IPS2 <=3,790 and IPS1 <= 3,705 and IPS1 > 3,685 then result terlambat.
R15: IF fakultas=ilmu pendidikan and IPS1 > 3,545 and umur <=26 and IPS2 <=3,790 and IPS1 <= 3,705 and IPS1 <= 3,685 then result tepat.
R16: IF fakultas=ilmu pendidikan and IPS1 <= 3,545 and umur > 25 and umur > 38 and umur >42 and IPS3 > 3,150 then result tepat.
R17: IF fakultas=ilmu pendidikan and IPS1 <= 3,545 and umur > 25 and umur > 38 and umur >42 and IPS3 <= 3,150 then result terlambat.
R18: IF fakultas=ilmu pendidikan and IPS1 <= 3,545 and umur > 25 and umur <= 38 and IPS1 > 3,295 and IPS4 >2,900 then result terlambat.
R19: IF fakultas=ilmu pendidikan and IPS1 <= 3,545 and umur > 25 and umur <= 38 and IPS1 > 3,295 and IPS4 <=2,900 then result tepat.
R20: IF fakultas=ilmu pendidikan and IPS1 <= 3,545 and umur > 25 and umur <= 38 and IPS1 <= 3,295 then result terlambat.
R21: IF fakultas=ilmu pendidikan and IPS1 <= 3,545 and umur > 25 and umur <= 38 and IPS1<=3,295 then result terlambat.
R22: IF fakultas=ilmu pendidikan and IPS1 <= 3,545 and umur <= 25 then result terlambat.
R23: IF fakultas=ilmu sosial and IPS2 >2,690 then result tepat
R24: IF fakultas=ilmu sosial and IPS2 >2,690 then result terlambat.
R25: IF fakultas=matematika and IPA then result terlambat.
R26: IF fakultas=teknik then result terlambat.
Testing with k-fold validation using RapidMiner application for C4.5 algorithm method:
The following table confusion matrix for C4.5 algorithm method. Known level of accuracy is 74.33%, and from 1582 as many as 473 that the data fit the predicted data and the data predicted exactly 208 but it LATE, and as many as 198 predicted late but apparently including proper classification, and as many as 703 predicted fit is too late. Table confusion matrix presented in Table 4.9 and Figure 4.5 is a graph of AUC Encryption method C4.5 horizontal line is the false positive and false negative vertical lines.
Table 2 Confusin Matrix for data graduatin
IV. CONCLUSION
From the research that has been conducted on the data of students who have done graduation data mining process, it can be concluded C4.5 algorithm method produces 74.33% accuracy values and the AUC value of 0.787 and can say this method is quite accurate in making predictions for the data existing graduation.
REFERENCES
[1] Azwar, S. (2004). Penyusunan Skala Psikologi. Yogyakarta: Pustaka Pelajar.
[2] Nawawi, H., & M, M. (1994). Kebijaksanaan Pendidikan di Indonesia di tinjau dari Sudut Hukum. Yogyakarta: Gajah Mada University Press.
[3] Qudri, M. N., & Kalyankar, N. V. (2010). Drop Out Feature of Student Data for Academic Performance Using Decision Tree techniques. Global Journal of Computer Science and Technology , 2-4.
[4] Karamouzis, T. S., & Vrettos, A. (2008). An Artificial Neural Network for Predicting Student Graduation Outcomes. Preceeding of World Congress on Engineering and Computer Science , 978-988-98671-02.
[6] Han, J., & Kamber, M. (2007). Data Mining Concepts and Techniques. San Fransisco: Mofgan Kaufan Publisher.
[7] Kusrini, & Luthfi, E. T. (2009). Algoritma Data Mining. Yogyakarta: Andi Publishing.
[8] Bramer, M. (2007). Principles of Data Mining. London: Springer.
.
PENERAPAN ALGORITMA C4.5 BERBASIS PARTICLE SWAN OPTIMIZED (PSO) UNTUK PREDIKSI PENYAKIT HIPERTENSI
PENERAPAN
ALGORITMA C4.5 BERBASIS PARTICLE SWAN OPTIMIZED (PSO) UNTUK PREDIKSI PENYAKIT
HIPERTENSI
Hilda Amalia
Akademi Manajemen Informatika dan
Komputer Bina Sarana Informatika Jakarta
Email:Hilda.ham@bsi.ac.id
Abstrak
Data
mining merupakan suatu teknik mengekplorasian data yang tersimpan dalam suatu
basis data menjadi pengetahuan baru yang berharga. Dengan teknik data mining, kumpulan
data-data yang dianggap tidak berguna dapat menjadi suatu informasi yang
berharga. Salah satu teknik data mining yang biasa digunakan adalah algoritma
C4.5. Algoritma C4.5 merupakan salah
satu dari metode data mining yaitu decision tree. Algoritma ini menghasilkan
rule klasifikasi dalam bentuk pohon. Penelitian sebelumnya telah dilakukan
terhadap data hipertensi dengan nilai akurasi 76,6%. Untuk itu dalam penelitian
ini akan dilakukan peningkatan nilai akurasi dengan menggunakan metode optimasi
Particle Swan Optimized (PSO) dari hasil penggabungan metode akurasi particle
swan optimized dan algoritma c4.5 dihasilkan nilai akurasi sebesar 88,00%.
1.
PENDAHULUAN
Hipertensi
merupakan suatu penyakit yang serius yang dapat mempengaruhi hidup
manusia(Sheng-hui dkk, 2008). Hipertensi adalah kelainan yang sering ditemukan
pada manusia yang disebabkan oleh peningkatan tekanan darah sistematik. Hasil
penelitian langangan menunjukan bahwa frekuensi hipertensi adalah sekitar 10%
dari penduduk Indonesia dewasa dan hal yang sama dengan negara sekitarnya
(Sigalrki, 2001). Masalah utama pada penderita hipertensi adalah bahwa lebih
dari 90% hipertensi termasuk gologngan esensial yaitu tidak diketahui
penyebabnya dan 10% sisanya disebabkan oleh hipertensi sekunder atau hipertensi
karena penyakit (Robert & Istvan, 2001). Untuk itu perlu dilakukan
pengolahan data lebih lanjut mengenai data hipertensi untuk menghasilkan
prediksi yang dapat digunakan untuk mengantisipasi penyakit hipertensi. Teknik
yang biasa digunakan dalam mengolah atau menggali informasi dari sekumpulan
data hipertensi yang ada yaitu dengan menggunakan teknik data mining.
Data
mining didefinisikan sebagai proses untuk menemukan pola pada data. Proses
harus otomatis atau (lebih biasanya) semi-otomatis. Pola ditemukan harus lebih
bermakna karena mereka mengakibatkan beberapa keuntungan (Witten, 2011). Data
mining biasanya digunakan dalam dua bentuk yaitu klasifikasi dan clustering
atau pengelompokan. Dalam teknik klasifikasi dapat dilakukan dengan beberapa
metode satu diantaranya yaitu metode algoritma C4.5. algoritma C4.5 adalah
salah satu dari algoritma yang ada pada metode decision tree.
Penelitian
sebelumnya menggunakan data hipertensi ini telah dilakukan yaitu dengan
menggunakan algoritma C4.5, dari penelitian tersebut diperoleh nilai akurasi
yaitu 76,6%. (Amalia & Evicienna, 2013). Dalam penelitian ini akan
dilakukan analisa data hipertensi menggunakan klasifikasi data mining yakni
algoritma C4.5 dengan menggunakan tiga parameter yaitu usia, berat badan dan
jenis kelamin yang kemudian dioptimasikan atau ditingkatakan keakurat hasil
prediksinya dengan menggunakan metode optimasi yaitu particle swam optimazed
(PSO).
2. Landasan Teori
2.1
Data Mining
Data
mining adalah suatu proses ektraksi “penambangan” pengetahuan dari kumpulan
banyak data(Han & Kamber, 2007). Perkembangan teknologi yang begitu pesat, menghasilkan
masyarakat yang sangat membutuhkan informasi. Kebutuhan akan informasi ini dihasilkan
dari kebutuhan dan keiingingan manusia untuk mendapatkan informasi yang lebih
akurat. Informasi yangInformasi dan pengetahuan yang didapat dapat digunakan
untuk aplikasi mulai dari pasar analisis, deteksi penipuan, dan retensi
pelanggan, untuk pengendalian produksi dan ilmu pengetahuan(Han & Kamber,
2007).
Dalam
data mining data disimpan secara elektronik dan diolah secara otomatis, atau
setidaknya disimpan dalam komputer. Data mining adalah tentang menyelesaikan
masalah dengan menganalisa data yang telah ada dalam database(Witten, 2011).
Data
mining memiliki dua tujuan yaitu data mining digunakan untuk tujuan
1. klasifikasi, seperti klasifikasi,
regresi dan prediksi.
2. Deskripsif, seperti clustering
dan asosiasi(Gorunecu, 2011)
2.2
Decision Tree
Pohon
keputusan atau dikenal dengan decision tree adalah struktur pohon flowchart
dimana akar ada di bagian atas dan daun
di bagian bawah(Liao, 2007). Dimana node akar mengandung dataset keseluruhan
dan node daun berisi beberapa kondisi atau test pada atributnya. Setiap cabang
mewakili output yang dihasilkan dari test yang ada di atribut. Pohon keputusan
dapat digunakan untuk mengekstrak model untuk menggambarkan kelas data atau untuk
memprediksi masa depan tren data. Pohon keputusan telah diterapkan di berbagai
bidang, termasuk kedokteran, bisnis, dan deteksi kesalahan. Mereka adalah dasar
dari beberapa sistem induksi aturan komersial (Liao, 2007).
2.2
Algoritma C4.5
Algoritma
C4.5 dan pohon keputusan (decision tree) merupakan dua mode yang tidak
terpisahkan, karena untuk membangun sebuah pohon keputusan, dibutuhkan
algoritma C4.5. Dari akhir tahun 1970 sampai awal 1980-an J.Ross Quinlan,
melakukan pengembangan terhadap algoritma decision tree yakni ID3 (Interative
Dichotomisemiser). Kemudian Quinlan juga menghadirkan algoritma C4.5, yang
menjadi awal dari algoritma supervised learning yang terbaru. Di tahun 1984
sebuah kelompok statistic (L.Breiman, J. Fridman, R. Olshen dan C.Stone)
mempublikasikan Classification and Regresssion Tree (CART), yang mengambarkan
generasi binary decision tree[6].
Ada
beberapa tahap dalam membuat sebuah pohon keputusan dengan algoritma C4.5,
yaitu[8]:
1. Menyiapkan data training. Data training biasanya diambil
dari data histori yang pernah terjadi sebelumnya dan sudah dikelompokan ke
dalam kelas-kelas tertentu.
Keterangan:
S
: himpunan kasus
A
: atribut
N
: jumlah partisi S
Pi
: proporsi dari Si terhadap S
3. Kemudian hitung nilai gain dengan metode informasi gain:
4. Ulangi langkah ke-2 hingga semua tupelo terpartisi.
5. Proses partisi pohon keputusan akan berhenti saat:
a. Semua tupel dalam node N mendapat kelas
yang sama.
b. Tidak ada atribut di dalam tupel yang
dipartisi lagi.
c. Tidak ada tupel di dalam cabang yang
kosong.
2.4
Particle Swarm Optimazed (PSO)
Particle Swarm Optimized (PSO)
adalah teknik optimasi berbasis populasi yang dikembangkan oleh Eberhart dan
Kennedy pada tahun 1995, yang terinsipirasi oleh perilaku social kawanan burung
atau ikan( Park, Lee & Choi, 2009).
Untuk
menemukan solusi yang optimal masing-masing partikel bergerak kea rah posisi
yang terbaik sebelumnya dan posisi terbaik secara global. Sebagai contoh,
partikel ke-I dinyatakan sebagai: xi=(xi1,xi2,….xid) dalam ruang d-dimensi.
Posisi terbaik sebelumnya dari partikel ke-I disimpan dan dinyatakan sebagai
pbesti= (pbesti,1,pbesti,1,….pbesti,d) indeks partikel terbaik diantara semua
partikel dalam kawasan group dinyatakan sebagai gbestd. Kecepatan partikel
dinyatakan sebagai:
vi=(vi,1,vi,2,…..,vi,d). modifikasi kecepatan dan posisi partikel dapat
dihitung menggunakan kecepatan saat ini dan jarak pbesti,gbestd seperti
ditunjukan persamaan berikut:
vi,d
= w * vi,d + c1 * R * (pbesti,d –xi,d) + c2 * R * (gbestd – xi,d )
xid=xi,d
+ vi, d
keterangan
:
Vi, d = Kecepatan partikel ke-I pada iterasi ke-i
w = Faktor bobot inersia
c1,c2 = konstanta akselerasi (learning rate)
R = Bilangan random (0-1)
xi, d = Posisi saat ini dari partikel ke-i pada
iterasi ke-i
pbesati = Posisi terbaik sebelumnya dari partikel ke-i
gbesti = Partikel terbaik diantara semua partikel
dalam satu kelompok atau populasi
n = Jumlah partikel dalam kelompok
d = Dimensi
persamaan
pertama menghitung kecepatan baru untuk tiap partikel (solusi pontensial)
berdasarkan padam kecepatan sebelumnya(vi,m), lokasi partikel dimana nilai
fitness terbaik telah dicapai (pbesti), dan populasi nilai global (gbest untuk
versi global, ibest untuk versi local) atau local neighborhood pada algoritma
versi local dimana fitness terbaik tercapai.
Perasamaan
kedua memperbaharui posisi tiap partikel pada ruang solusi. Dau bilangan acak
cid an c2 dibangkitkan sendiri. Penggunaan berat ineersia w telah memberikan
performa yang meningkat pada sejumlah aplikasi. Hasil dari perhitungan partikel
yaitu kecepatan partikel diantara interval [0,1] (Park, Lee & Choi, 2009).
2.3
Kerangka Pemikiran
3. Metodelogi Penelitian.
Penelitian
adalah mencari melalui proses yang metodis untuk menambahkan pengetahuan itu
sendiri dan dengan yang lainnya, oleh penemuan fakta dan wawasan tidak biasa
(Dawson, 2009).
Metode yang diusulkan
|
Ekperimen dan Pengujian Metode
|
Evaluasi dan Vallidasi Hasil
|
Pengumpulan data
|
Pengolahan data awal
|
Teknik pengumpulan data ialah
teknik atau cara-cara yang dapat digunakan
untuk menggunakan data (Riduwan, 2009). Data yang dikumpulkan diperoleh dari
buku catatan kesehatan pasien dan jumlah sampel yang dikumpulkan sebanyak 85 sampel.
Setiap keluarga mempunyai satu buku dan di dalam satu buku tersebut terdapat
lebih dari satu orang yang dicatat. Di buku kesehatan tersebut terdapat
data-data tentang pasien yang menderita hipertensi yaitu berupa jenis kelamin,
berat badan, usia dan tekanan darah pasien.
B. Pengolahan Awal Data
Data
yang diperoleh kemudian diolah, tidak semua data digunakan, jumlah data yang
berhasil dikumpulkan adalah sebanyak 85 data. Kemudian data tersebut diolah
sehingga menghasilkan 60 data yang akan dianalisa lebih lanjut. Hal ini
dikarenakan pada data awal yang berjumlah 85 data dilakukan teknik pengolahan
awal data yaitu bertujuan untuk memperoleh data yang berkualitas. Berikut teknik
yang dilakukan dalam pengolahan awal data:
1.
Data
Validation: yaitu teknik menghilangkan menghapus data yang tidak
lengkap(outer/noise). Dalam penelitian ini terdapat 25 data yang tidak lengkap
sehingga dihapus, sehingga data yang digunakan untuk analisa adalah 60 data.
2.
Data
Integration and Tranformation: yaitu teknik mengubah dan mengabungkan data
sehingga diperoleh data yang valid. Dalam penelitian ini dilakukan pengubahan
data dari numeric menjadi kategorikal.
Tabel
diatas adalah kategori tekanan darah menurut Joint Comitte on Detection
Evaluation and Treatment of High Blood Presure[11]. Dari tabel diatas maka
dapat dikategorikan bahwa seseorang yang menderita hipertensi adalah dengan
tekanan sistolik diatas 139 mmHg atau tekanan diastolik yang diatas 89 mmHg.
Dibawah tekanan diatas maka dapat dikategorikan tidak menderita hipertensi.
C.
Metode yang diusulkan
Pada
penelitian sebelumnya telah dilakukan penganalisaan data hipertensi menggunakan
algoritma c4.5. Dalam penelitian ini akan dilakukan peningkatkan kinerja metode
algoritma c4.5 dengan metode Particle
Optimized Swarm (PSO).
D. Ekperimen dan pengguijan
Metode
Eksperimen dan Pengujian Metode
Algortima C4.5
1.
Menyiapan data training, yaitu menggunakan data pada
tabel data ya
2.
Menghitung
Entropy keseluruhan total kasus yang “Ya” Hipertensi dan “Tidak” Hipertensi.
Dari data training diketahui jumlah data yang “Ya” Hipertensi adalah 30 dan
jumlah data yang berlabel “Tidak” Hipertensi berjumlah 30 data. Data
keseluruhan adalah 60. Berikut adalah perhitungan entropynya:
=-22/60 log(2) 22/60 –(38/60
log(2) 38/60)
=0,948078244
3.
Hitung nilai entropi dan nilai gain masing-masing atribut. Nilai gain tertinggi adalah atribut yang menjadi root dari pohon keputusan yang akan dibuat.
Berikut perhitungan entropi untuk
atribut usia.
EPerempuan[9,25]=-9/60 log(2)
9/60 –(25/60 log(2) 25/60)
=0,94
Elaki-laki[13,13] =13/60 log(2)
13/60 –(13/60 log(2) 13/60)
= 0,96
Entropi Jenis
Kelamin[35,26]=35/60 * 0,94 + 26/60 *0,96
=0,96
Gain Jenis Kelamin= 0,95- 0,96
= -0,013
Tabel perhitungan entropi atribut
dan gain
simpul
|
Kasus
|
Ya
|
Tidak
|
Entropi
|
Gain
|
Total data
|
60
|
22
|
38
|
0,95
|
|
Jenis Kelamin
|
|
|
|
|
|
Perempuan
|
35
|
9
|
25
|
0,94
|
-0,013
|
Laki-Laki
|
26
|
13
|
13
|
0,96
|
|
Umur
|
|
|
|
|
|
<=54
|
53
|
15
|
38
|
0,5
|
0,46
|
>54
|
7
|
7
|
0
|
0,36
|
|
<=41,5
|
30
|
3
|
27
|
0,155
|
0,38
|
>41,5
|
30
|
19
|
11
|
0,97
|
|
Berat Badan
|
|
|
|
|
|
<=62,5
|
37
|
6
|
31
|
0,82
|
0,11
|
>62,5
|
23
|
16
|
7
|
0,87
|
Dari tabel perhitungan entropi
diatas diketahui gain tertinggi yaitu 0,46 oleh karena itu atribut berat badan
<=54 dan > 54 merupakan root dari pohon keputusan yang dihasilkan.
4. Ulangi langkah kedua sampai tidak
bisa terpartisi, yaitu menghitung entropi dan gain untuk atribut selanjutnya
untuk menentukan simpul 1.1 dan simpul 1.2, nilai dihitung berdasarkan umur
>54 berikut tabel data yang yang termasuk katergori umur >54
Jenis Kelamin
|
Umur
|
berat badan
|
hasil
|
|
L
|
70
|
70
|
YA
|
|
L
|
70
|
65
|
YA
|
|
P
|
70
|
40
|
YA
|
|
L
|
70
|
72
|
YA
|
|
L
|
56
|
63
|
YA
|
|
P
|
62
|
40
|
YA
|
|
L
|
61
|
64
|
YA
|
Dilihat dari tabelnya untuk umur> 54 hasil yang
diperoleh adalah Ya untuk semua data sehingga atribut umur >54 tidak dapat
dipartisi lagi. Berikut tabel data yang termasuk pada katergori umur<=54
Jenis Kelamin
|
Umur
|
berat badan
|
hasil
|
|
P
|
35
|
55
|
TIDAK
|
|
L
|
46
|
80
|
YA
|
|
P
|
26
|
52
|
TIDAK
|
|
P
|
31
|
60
|
TIDAK
|
|
L
|
44
|
55
|
YA
|
|
L
|
45
|
70
|
YA
|
|
L
|
44
|
72
|
YA
|
|
L
|
42
|
65
|
YA
|
|
P
|
49
|
65
|
YA
|
|
P
|
30
|
55
|
TIDAK
|
|
P
|
22
|
52
|
TIDAK
|
|
P
|
35
|
54
|
TIDAK
|
|
P
|
35
|
60
|
YA
|
|
L
|
44
|
40
|
TIDAK
|
|
P
|
50
|
70
|
YA
|
|
L
|
42
|
65
|
YA
|
|
P
|
45
|
57
|
TIDAK
|
|
P
|
40
|
70
|
TIDAK
|
|
P
|
46
|
70
|
YA
|
|
P
|
43
|
52
|
YA
|
|
P
|
40
|
70
|
TIDAK
|
|
L
|
40
|
80
|
YA
|
|
L
|
52
|
60
|
TIDAK
|
|
P
|
25
|
50
|
TIDAK
|
|
P
|
35
|
52
|
TIDAK
|
|
P
|
28
|
45
|
TIDAK
|
|
P
|
26
|
60
|
TIDAK
|
|
P
|
45
|
65
|
TIDAK
|
|
P
|
41
|
45
|
TIDAK
|
|
L
|
23
|
60
|
TIDAK
|
|
P
|
28
|
56
|
TIDAK
|
|
L
|
52
|
65
|
TIDAK
|
|
L
|
40
|
73
|
TIDAK
|
|
P
|
32
|
57
|
TIDAK
|
|
P
|
44
|
70
|
YA
|
|
P
|
34
|
40
|
TIDAK
|
|
L
|
29
|
56
|
TIDAK
|
|
P
|
37
|
50
|
YA
|
|
L
|
32
|
57
|
TIDAK
|
|
L
|
42
|
60
|
TIDAK
|
|
L
|
35
|
61
|
TIDAK
|
|
P
|
47
|
56
|
TIDAK
|
|
P
|
26
|
55
|
TIDAK
|
|
L
|
45
|
72
|
YA
|
|
L
|
45
|
48
|
TIDAK
|
|
L
|
44
|
52
|
TIDAK
|
|
L
|
41
|
67
|
TIDAK
|
|
P
|
46
|
50
|
TIDAK
|
|
P
|
40
|
50
|
TIDAK
|
|
P
|
32
|
51
|
TIDAK
|
|
L
|
45
|
60
|
TIDAK
|
|
P
|
25
|
65
|
TIDAK
|
|
P
|
41
|
45
|
TIDAK
|
Berikut
adalah pohon keputusan yang dihasilkan:
Dari
pohon keputusan tersebut berikut adalah rule yang diperoleh
R1:
jika umur>54 maka hasil YA hipertensi
R2: Jika umur <=54 dan umur
>41,50 dan berat badan >62,5 maka hasil Ya HIpertensi
R3: jika umur>41,5 dan berat
badan <=62,50 maka hasil Tidak Hipertensi
R4: jika umur<=54 dan umur
<=41,5 maka hasil Tidak hipertensi.
5. Evaluasi dan Validasi
Berikut pengujian yang dilakukan
menggunakan cross validation dengan tools RapidMiner.
Metode klasifikasi bisa
dievaluasi berdasarkan kriteria seperti tingkat akurasi, kecepatan, kehandalan,
skabilitas dan interpretabilitas[10]. Berikut tabel confusion Matrix algortima
C4.5, dari tabel diketahui tingkat
akurasi 76,6
V. Kesimpulan
Dalam penelitian ini dilakukan
prediksi data hipertensi menggunakan algoritma C4.5, hasil yang, dan dari 60
kasus diketahui sebanyak 33 kasus diprediksi Tidak Hipertensi sesuai dengan
data yang ada,sebanyak 9 kasus diprediksi tidak hipertensi tetapi pada data
yang ada kenyataanya Ya hipertensi. Sebanyak 5 kasus diprediksi Ya hipertensi
pada kenyataannya tidak hipertensi, dan sebanyak 13 kasus diprediksi tidak
hipertensi pada kenyataannya yaitu sesuai dengan data yang ada.
Berikut grafik Area Under Curve
(AUC) yang dihasilkan dari tools RapidMIner:
Dari grafik diatas diketahui
nilai AUC yang dihasilkan adalah 0,862.
Berikut aplikasi yang dihasilkan
berdasarkan rule yang ada menggunakan
aplikasi java neatbeans:
Kesimpulan
Dalam penelitian ini dilakukan
prediksi pengolahan data hipertensi dengan menggunakan tiga parameter yaitu
jenis, kelamin, berat badan dan umur. Data diolah menggunakan metode algortima
C4.5, dari hasil running data menggunakan tools Rapidminer diketahui tingkat
akurasinya yaitu 0,79% dan AUC 0,862. Dan dibuatkan aplikasi prediksi
hipertensi berdasarkan rule yang ada.
DAFTAR PUSTAKA
1. Depkes. (2006). PHARMACEUTICAL
CARE UNTUK PENYAKIT HIPERTENSI. Jakarta: DIREKTORAT BINA FARMASI KOMUNITAS DAN
KLINIK DITJEN BINA KEFARMASIAN DAN ALAT KESEHATAN DEPARTEMEN KESEHATAN.
2. Abdullah, A. A., Zakaria, Z.,
& Mohammad, F. N. (2011). Design and Development of Fuzzy Expert System for
Diagnosis of Hypertension. Second International Conference on Intelligent
Systems, Modelling and Simulation , 978-0-7695-4336-9.
3. Witten, H. I., Eibe, F., &
Hall, A. M. (2011). Data Mining Machine Learning Tools and Techiques.
Burlington: Morgan Kaufmann Publisher.
4. jangle
5. Jr, McLeod Raymond. Sistem
Informasi Manajemen. Edisi ketujuh. Jilid satu. PT. Penhelindo.Jakarta. 2001.
6. Han, J., & Kamber, M. (2007). Data Mining Concepts
and Techniques. San Fransisco: Mofgan Kaufan Publisher.
7. Larose, D. T. (2005). Discovering Knowledge in
Databases. New Jersey: John Willey & Sons Inc.
8. Kusrini, & Luthfi, E. T.
(2009). Algoritma Data Mining. Yogyakarta: Andi
Publishing.
9. Riduwan. (2008). Metode dan
Teknik Menyusun Tesis. Bandung: Alfabeta.
10. Vercellis, C. (2009).
Business Intelligent: Data Mining and Optimization for Decision Making.
Southern Gate: John Willey & Sons Inc.
11. The Joint National Committee
on detection, Evaluation and
Treatment of High Blood Pressure: The Seventh Report of
the
Joint National Committee on
Detection, Evaluation and Treatment of
High Blood Pressure; Hypertension 2003;42:1206-52.
Langganan:
Postingan (Atom)