Kamis, 05 November 2015

PREDICTION OF STUDENTS GRADUATION USING ALGORITHM C4.5

International Seminar on Scientific Issues and Trends (ISSIT) 2014
Proceeding ISSIT 2014, Page: A-31
PREDICTION OF STUDENTS GRADUATION USING ALGORITHM C4.5
Hilda Amalia
Akademi Manajemen Informatika and Komputer Bina Sarana Informatika
email : Hilda.ham@bsi.ac.id

Abstract-College is a place for students to gain knowledge before face the competitive world of work. The numbers of students who graduate on time become an indicator of college success both public and private. Important for college to make a prediction for their student so the collage can do some precaution. Research in terms of predicting student graduation and many students have done. In this research we will use algorithm c4.5 method. Algorithm C4.5 is one of the methods that exist in the decision tree method that can be used to make a prediction and classification. Decision tree is a kind of data mining method. Data mining is a way to explore data becoming useful information. Information that results from data mining process can be used for seeing further probability with more accurate than before. The result of this research is decision tree rule with 74,33% accurate.
Key Words: Data Mining, Algorithm C4.5

I. INTRODUCE
The college currently required a competitive advantage by utilizing all available resources that collaged had. Students and lecturers as a college major asset that want to continue to improve key indicators using assets effectively and efficiently (Qudri & Kalayar, 2010). Students who not graduated on time will be affected the assessment of the credibility of the public schools or educational institutions. So important for a college to watch a number of college graduation accuracy. The decline in student graduation rates will also affect the accreditation of the college. So that student graduation rate which is decline with significant and grow up continues are a problem at college. Several methods have been used to predict the accuracy of graduation among which, neural network (Karamouiz, 2009), comparison of naïve Bayes and C4.5 algorithm (suhartinah, 2010), several studies have also been carried out comparative method comparative method that ANN, Decision tree and Liner Regresion (Ibrahim & Rush, 2007), k-means (Oyelade, 2010). C4.5 algorithm is a method in decision tree. Decision Tree is a classification and prediction methods are very powerful and famous. Decision tree change the fact that a very large into a decision tree that represents the rule (Suhartinah, 2010). Decision tree has been widely used to make predictions in various fields. In this study the prediction accuracy will be calculated using the C4.5 algorithm
II. THEORY
2.1 Data Mining
Data Mining is a process of finding meaningful relationships, patterns and trends to examine trends by examining patterns in large collections of data stored in the storage with the introduction of techniques using statistical and mathematical techniques pola seperti (Larose, 2005).
Proses dalam data mining:
1. Data Selection: identifies the source of data to be mined.
2. Data Pre-processing: This stage is a stage for preparation methods, such as abolishing duplicate data, which is not true power, gather data from many databases.
3. Transformation: This is the process of converting data into a data format suitable for the algorithm.
4. Data Mining: This is the main process is the use of data mining methods to find the model.
5. Interpretation and evolution: this stage to intrepret and evaluation results (Yingkuarchat, 2007).
2.2 Algoritma C4.5
Desicion Tree resembles a flowchart structure, each of its internal nodes is expressed as an attribute test, each branch represents the output of the test, and each leaf node (terminal node) determines the class label. Top node of a tree is the root node (Han & Kamber, 2007).
There are several stages in making a decision tree algorithm C4.5 (Kusrini & Lutfi, 2009), namely:
1. Preparing the training data. Training data are usually taken from historical data that never happened before and has been grouped into certain classes.
2. Determine the roots of the tree. The roots will be taken from the selected attributes, by calculating the value of the gain of each attribute, the highest value of gain will becoming a root of the tree. Before
calculating the gain of an attribute, first calculate the entropy values are:
3. Then calculate the gain value with the method of the information gain:
4. Repeat step 2 until all tupelo-partitioned.
5. Decision tree partitioning process will stop when:
a) All tuples in node N gets the same grade.
b) There is no attribute in the tuple is partitioned again.
c) There is no tuple in the branch empty.
III. REASERCH METHODS
In this study, the data used is the graduation of students at one university in Jakarta. In this study will be several steps or phases of the study as described below:
Figure 1 Stages study used:


a. Data Collection
The data obtained are due to the secondary data obtained from a database owned by a university student who was in Jakarta, namely through the department computer centers owned by the campus. The data obtained in this study is the qualitative and quantitative data. The data is the data collected by the University student undergraduate courses (S1) for the period of September 2011.-year graduation record is 1633 records obtained by NIM attribute, name, age, school, semesters IP 1, IP 2 semesters, 3 semesters IP to with IP Semester 8, with late and proper labeling.
b. Preparation data
(1) To obtain high-quality data, several techniques were carried out as follows (vecellis, 2009):
(2) Data validation, to identify and remove the odd data (outliers / noise), the data are inconsistent, and incomplete data (missing value).
(3) Data Integration and Transformation, to improve the accuracy and efficiency of the algorithm. The data used in this paper is worth categorical.
(4) Data size reduction and dicrtization, to obtain data sets with the number of attributes and records but less informative.
From the initial processing of the data on the data obtained can be processed into 1583 data, which consists of 671 data with the class label or "RIGHT" and 911 data labels or class "LATE".
c. The Proposed Method
In this study will be calculated graduation rate accuracy using data mining methods, namely C4.5 algorithm. Here's an illustration of the proposed use of the method in the study:
Figure 2 Illustration of use of the proposed method:


III. THEORY
3.1 Algoritma C4.5
C4.5 algorithm is one of the algorithms in a decision tree method that converts the data into a decision tree using entropy calculation formula. Here are the stages of the calculation of the entropy of the C4.5 algorithm for data graduation:
a. Prepare the training data, which is used for training data in Table 2 that there are training data tables.
b. Calculate the total value of the overall entropy case "RIGHT" pass and "LATE" pass. Of the training data that is known to pass the number of cases "RIGHT" on time

as much as 671 record, and the number of cases that pass the "past due" is as much a record total of 911 cases were 1582 cases overall. So that the overall entropy obtained:
= -671/1582 *log 671/1582 + (-911/1582 * log 911/1582
= 0,983
c. Calculate the entropy value and the gain value of each attribute. The highest gain value is an attribute that becomes the root of the decision tree to be created. Suppose calculate the entropy for attribute falkultas.
Entropi IlmuPendidikan [129,229] = (-129/358 log2 129/358)+(-229/358 log2 229/358)
= 0,943
Entropi BahasaandSeni[166,96]=(-166/262 log(2) 166/262) + (-96/262 log(2) 96/262)
=0,948
Entropi MatematikaandIPA[44,15]=(-44/198 log(2) 44/198) + (-15/198 log(2) 15/198)
= 0,764
Entropi IlmuSosial[99,123]=(-99/222 log(2) 99/222) + (-123/222 log(2) 123/222)
=0,992
Entropi teknik[43,123]=(-43/170 log(2) 43/170) + ( -123/170 log(2) 123/170)
= 0,816
Entropi ekonomi[187,96]=(-187/283 log(2) 187/283) + (-187/283 log(2) 187/283)
= 0,924
Entropi ilmukeolahragaan[3,86]=(-3/170 log(2) 3/170)+(-86/170 log(2) 86/170)
=0,213
kemudian hitung gain dari falkultas:
Gain(S,A)= 0,983-((358/1582 * 0,943)+(262/1582 * 0,948)+(198/1582 * 0,7642)+(222/1582 * 0,992)+(170/1582 * 0,816)+(89/1582 * 0,213)+(96/1582 * 0,924)= 0,290
Gain fakultas=0,290

below are value of root calculation:
Atribut
Nilai gain
Fakultas
0,290
Jenis kelamin
0,021
Umur <=26 and > 26
0,054
Umur <=25 and >25
0,0521
Umur <=38 and >38
-0,058
Umur <=42 and >42
0,0016
IPS1 <=3,190 and > 3,190
0,119
IPS1 <=3,455 and >3,455
0,082
IPS1 <=3,310 and >3,310
0,125
IPS1 <=2,320 and > 2,350
0,040
IPS1 <=3,565 and >3,565
0,062
IPS1 <=3,705 and >3,705
0,032
IPS1 <=3,685 and >3,685
0,062
IPS1 <=3,545 and >3,545
0,079
IPS1 <=3,295 and >3,295
0,116
IPS2 <=3,790 and 3,790
0,060
IPS2 <=2,690 and >2,690
0,050
IPS3 <=3,150 and >3,150
0,058
IPS4 <=2,365 and >2,365
0,036
IPS4 <=2,900 and >2,900
0,065
After calculation of entropy and gain all the attributes obtained the highest gain faculty. Then attributes the faculty at the root or root. Recalculate nilaiand gain for the faculty. So the decision tree is obtained.
Following the decision tree image for graduation the data using the C4.5 algorithm:



below are rule that resulted from algorithm c4.5:
R1: IF fakultas=bahasa and seni and IPS4>2,455 and IPS1>2,350 then result tepat.
R2: IF fakultas=bahasa and seni and IPS4>2,455 and IPS1<=2,350 then result terlambat.
R3: IF fakultas=bahasa and seni and IPS4 <=2,350 then result terlambat.
R4: IF fakultas=ekonomi and IPS1>3,190 then result tepat.
R5: IF fakultas=ekonomi and IPS1<=3,190 then result tepat.
R6: IF fakultas=ilmu keolahragaan and IPS1 >3,455 then result tepat.
R7: IF fakultas=ilmu keolahragaan IPS1<=3,455 and IPS1>3,310 then result tepat.
R8: IF fakultas=ilmu keolahragaan IPS1<=3,455 and IPS1<=3,310 then result terlambat.
R9: IF fakultas=ilmu pendidikan and IPS1 > 3,545 and umur>26 and IPS1>3,566 then result terlambat.
R10: IF fakultas=ilmu pendidikan and IPS1 > 3,545 and umur>26 and IPS1<=3,566 then result tepat.
R11: IF fakultas=ilmu pendidikan and IPS1 > 3,545 and umur <=26 and IPS2 >3,790 then result terlambat.
R12: IF fakultas=ilmu pendidikan and IPS1 > 3,545 and umur <=26 and IPS2 <=3,790 and IPS1 > 3,705 then result tepat.
R13: IF fakultas=ilmu pendidikan and IPS1 > 3,545 and umur <=26 and IPS2 <=3,790 and IPS1 <= 3,705 and IPS1 > 3,685 then result terlambat.
R15: IF fakultas=ilmu pendidikan and IPS1 > 3,545 and umur <=26 and IPS2 <=3,790 and IPS1 <= 3,705 and IPS1 <= 3,685 then result tepat.
R16: IF fakultas=ilmu pendidikan and IPS1 <= 3,545 and umur > 25 and umur > 38 and umur >42 and IPS3 > 3,150 then result tepat.
R17: IF fakultas=ilmu pendidikan and IPS1 <= 3,545 and umur > 25 and umur > 38 and umur >42 and IPS3 <= 3,150 then result terlambat.
R18: IF fakultas=ilmu pendidikan and IPS1 <= 3,545 and umur > 25 and umur <= 38 and IPS1 > 3,295 and IPS4 >2,900 then result terlambat.
R19: IF fakultas=ilmu pendidikan and IPS1 <= 3,545 and umur > 25 and umur <= 38 and IPS1 > 3,295 and IPS4 <=2,900 then result tepat.
R20: IF fakultas=ilmu pendidikan and IPS1 <= 3,545 and umur > 25 and umur <= 38 and IPS1 <= 3,295 then result terlambat.
R21: IF fakultas=ilmu pendidikan and IPS1 <= 3,545 and umur > 25 and umur <= 38 and IPS1<=3,295 then result terlambat.
R22: IF fakultas=ilmu pendidikan and IPS1 <= 3,545 and umur <= 25 then result terlambat.
R23: IF fakultas=ilmu sosial and IPS2 >2,690 then result tepat
R24: IF fakultas=ilmu sosial and IPS2 >2,690 then result terlambat.
R25: IF fakultas=matematika and IPA then result terlambat.
R26: IF fakultas=teknik then result terlambat.
Testing with k-fold validation using RapidMiner application for C4.5 algorithm method:



The following table confusion matrix for C4.5 algorithm method. Known level of accuracy is 74.33%, and from 1582 as many as 473 that the data fit the predicted data and the data predicted exactly 208 but it LATE, and as many as 198 predicted late but apparently including proper classification, and as many as 703 predicted fit is too late. Table confusion matrix presented in Table 4.9 and Figure 4.5 is a graph of AUC Encryption method C4.5 horizontal line is the false positive and false negative vertical lines.
Table 2 Confusin Matrix for data graduatin


IV. CONCLUSION
From the research that has been conducted on the data of students who have done graduation data mining process, it can be concluded C4.5 algorithm method produces 74.33% accuracy values and the AUC value of 0.787 and can say this method is quite accurate in making predictions for the data existing graduation.
REFERENCES
[1] Azwar, S. (2004). Penyusunan Skala Psikologi. Yogyakarta: Pustaka Pelajar.
[2] Nawawi, H., & M, M. (1994). Kebijaksanaan Pendidikan di Indonesia di tinjau dari Sudut Hukum. Yogyakarta: Gajah Mada University Press.
[3] Qudri, M. N., & Kalyankar, N. V. (2010). Drop Out Feature of Student Data for Academic Performance Using Decision Tree techniques. Global Journal of Computer Science and Technology , 2-4.
[4] Karamouzis, T. S., & Vrettos, A. (2008). An Artificial Neural Network for Predicting Student Graduation Outcomes. Preceeding of World Congress on Engineering and Computer Science , 978-988-98671-02.
[6] Han, J., & Kamber, M. (2007). Data Mining Concepts and Techniques. San Fransisco: Mofgan Kaufan Publisher.
[7] Kusrini, & Luthfi, E. T. (2009). Algoritma Data Mining. Yogyakarta: Andi Publishing.
[8] Bramer, M. (2007). Principles of Data Mining. London: Springer.
.

PENERAPAN ALGORITMA C4.5 BERBASIS PARTICLE SWAN OPTIMIZED (PSO) UNTUK PREDIKSI PENYAKIT HIPERTENSI

PENERAPAN ALGORITMA C4.5 BERBASIS PARTICLE SWAN OPTIMIZED (PSO) UNTUK PREDIKSI PENYAKIT HIPERTENSI
Hilda Amalia
Akademi Manajemen Informatika dan Komputer  Bina Sarana Informatika Jakarta
Email:Hilda.ham@bsi.ac.id

Abstrak
Data mining merupakan suatu teknik mengekplorasian data yang tersimpan dalam suatu basis data menjadi pengetahuan baru yang berharga. Dengan teknik data mining, kumpulan data-data yang dianggap tidak berguna dapat menjadi suatu informasi yang berharga. Salah satu teknik data mining yang biasa digunakan adalah algoritma C4.5.  Algoritma C4.5 merupakan salah satu dari metode data mining yaitu decision tree. Algoritma ini menghasilkan rule klasifikasi dalam bentuk pohon. Penelitian sebelumnya telah dilakukan terhadap data hipertensi dengan nilai akurasi 76,6%. Untuk itu dalam penelitian ini akan dilakukan peningkatan nilai akurasi dengan menggunakan metode optimasi Particle Swan Optimized (PSO) dari hasil penggabungan metode akurasi particle swan optimized dan algoritma c4.5 dihasilkan nilai akurasi sebesar 88,00%.



1.             PENDAHULUAN
Hipertensi merupakan suatu penyakit yang serius yang dapat mempengaruhi hidup manusia(Sheng-hui dkk, 2008). Hipertensi adalah kelainan yang sering ditemukan pada manusia yang disebabkan oleh peningkatan tekanan darah sistematik. Hasil penelitian langangan menunjukan bahwa frekuensi hipertensi adalah sekitar 10% dari penduduk Indonesia dewasa dan hal yang sama dengan negara sekitarnya (Sigalrki, 2001). Masalah utama pada penderita hipertensi adalah bahwa lebih dari 90% hipertensi termasuk gologngan esensial yaitu tidak diketahui penyebabnya dan 10% sisanya disebabkan oleh hipertensi sekunder atau hipertensi karena penyakit (Robert & Istvan, 2001). Untuk itu perlu dilakukan pengolahan data lebih lanjut mengenai data hipertensi untuk menghasilkan prediksi yang dapat digunakan untuk mengantisipasi penyakit hipertensi. Teknik yang biasa digunakan dalam mengolah atau menggali informasi dari sekumpulan data hipertensi yang ada yaitu dengan menggunakan teknik data mining.
Data mining didefinisikan sebagai proses untuk menemukan pola pada data. Proses harus otomatis atau (lebih biasanya) semi-otomatis. Pola ditemukan harus lebih bermakna karena mereka mengakibatkan beberapa keuntungan (Witten, 2011). Data mining biasanya digunakan dalam dua bentuk yaitu klasifikasi dan clustering atau pengelompokan. Dalam teknik klasifikasi dapat dilakukan dengan beberapa metode satu diantaranya yaitu metode algoritma C4.5. algoritma C4.5 adalah salah satu dari algoritma yang ada pada metode decision tree.
Penelitian sebelumnya menggunakan data hipertensi ini telah dilakukan yaitu dengan menggunakan algoritma C4.5, dari penelitian tersebut diperoleh nilai akurasi yaitu 76,6%. (Amalia & Evicienna, 2013). Dalam penelitian ini akan dilakukan analisa data hipertensi menggunakan klasifikasi data mining yakni algoritma C4.5 dengan menggunakan tiga parameter yaitu usia, berat badan dan jenis kelamin yang kemudian dioptimasikan atau ditingkatakan keakurat hasil prediksinya dengan menggunakan metode optimasi yaitu particle swam optimazed (PSO).
2.         Landasan Teori
2.1 Data Mining
Data mining adalah suatu proses ektraksi “penambangan” pengetahuan dari kumpulan banyak data(Han & Kamber, 2007). Perkembangan teknologi yang begitu pesat, menghasilkan masyarakat yang sangat membutuhkan informasi. Kebutuhan akan informasi ini dihasilkan dari kebutuhan dan keiingingan manusia untuk mendapatkan informasi yang lebih akurat. Informasi yangInformasi dan pengetahuan yang didapat dapat digunakan untuk aplikasi mulai dari pasar analisis, deteksi penipuan, dan retensi pelanggan, untuk pengendalian produksi dan ilmu pengetahuan(Han & Kamber, 2007).
Dalam data mining data disimpan secara elektronik dan diolah secara otomatis, atau setidaknya disimpan dalam komputer. Data mining adalah tentang menyelesaikan masalah dengan menganalisa data yang telah ada dalam database(Witten, 2011).
Data mining memiliki dua tujuan yaitu data mining digunakan untuk tujuan
1.      klasifikasi, seperti klasifikasi, regresi dan prediksi.
2.      Deskripsif, seperti clustering dan asosiasi(Gorunecu, 2011)
2.2 Decision Tree
Pohon keputusan atau dikenal dengan decision tree adalah struktur pohon flowchart dimana akar ada  di bagian atas dan daun di bagian bawah(Liao, 2007). Dimana node akar mengandung dataset keseluruhan dan node daun berisi beberapa kondisi atau test pada atributnya. Setiap cabang mewakili output yang dihasilkan dari test yang ada di atribut. Pohon keputusan dapat digunakan untuk mengekstrak model untuk menggambarkan kelas data atau untuk memprediksi masa depan tren data. Pohon keputusan telah diterapkan di berbagai bidang, termasuk kedokteran, bisnis, dan deteksi kesalahan. Mereka adalah dasar dari beberapa sistem induksi aturan komersial (Liao, 2007).
2.2 Algoritma C4.5
Algoritma C4.5 dan pohon keputusan (decision tree) merupakan dua mode yang tidak terpisahkan, karena untuk membangun sebuah pohon keputusan, dibutuhkan algoritma C4.5. Dari akhir tahun 1970 sampai awal 1980-an J.Ross Quinlan, melakukan pengembangan terhadap algoritma decision tree yakni ID3 (Interative Dichotomisemiser). Kemudian Quinlan juga menghadirkan algoritma C4.5, yang menjadi awal dari algoritma supervised learning yang terbaru. Di tahun 1984 sebuah kelompok statistic (L.Breiman, J. Fridman, R. Olshen dan C.Stone) mempublikasikan Classification and Regresssion Tree (CART), yang mengambarkan generasi binary decision tree[6].
Ada beberapa tahap dalam membuat sebuah pohon keputusan dengan algoritma C4.5, yaitu[8]:
1.         Menyiapkan data training. Data training biasanya diambil dari data histori yang pernah terjadi sebelumnya dan sudah dikelompokan ke dalam kelas-kelas tertentu.
2.         Menentukan akar dari pohon. Akar akan diambil dari atribut yang terpilih, dengan cara menghitung nilai gain dari masing-masing atribut, nilai gain yang paling tinggi yang akan menjadi akar pertama. Sebelum menghitung gain dari atribut, hitung dahulu nilai entropy yaitu:


            Keterangan:
            S : himpunan kasus
            A : atribut
            N : jumlah partisi S
            Pi : proporsi dari Si terhadap S   
3.         Kemudian hitung nilai gain dengan metode informasi gain:
 


           

4.         Ulangi langkah ke-2 hingga semua tupelo terpartisi.
5.         Proses partisi pohon keputusan akan berhenti saat:
            a.         Semua tupel dalam node N mendapat kelas yang sama.
            b.         Tidak ada atribut di dalam tupel yang dipartisi lagi.
            c.         Tidak ada tupel di dalam cabang yang kosong.
2.4 Particle Swarm Optimazed (PSO)
            Particle Swarm Optimized (PSO) adalah teknik optimasi berbasis populasi yang dikembangkan oleh Eberhart dan Kennedy pada tahun 1995, yang terinsipirasi oleh perilaku social kawanan burung atau ikan( Park, Lee & Choi, 2009).
Untuk menemukan solusi yang optimal masing-masing partikel bergerak kea rah posisi yang terbaik sebelumnya dan posisi terbaik secara global. Sebagai contoh, partikel ke-I dinyatakan sebagai: xi=(xi1,xi2,….xid) dalam ruang d-dimensi. Posisi terbaik sebelumnya dari partikel ke-I disimpan dan dinyatakan sebagai pbesti= (pbesti,1,pbesti,1,….pbesti,d) indeks partikel terbaik diantara semua partikel dalam kawasan group dinyatakan sebagai gbestd. Kecepatan partikel dinyatakan  sebagai: vi=(vi,1,vi,2,…..,vi,d). modifikasi kecepatan dan posisi partikel dapat dihitung menggunakan kecepatan saat ini dan jarak pbesti,gbestd seperti ditunjukan persamaan berikut:
vi,d = w * vi,d + c1 * R * (pbesti,d –xi,d) + c2 * R * (gbestd – xi,d ) 
xid=xi,d + vi, d

keterangan :
Vi, d    = Kecepatan partikel ke-I pada iterasi   ke-i
w         = Faktor bobot inersia
c1,c2    = konstanta akselerasi (learning rate)
R          = Bilangan random (0-1)
xi, d     = Posisi saat ini dari partikel ke-i pada iterasi ke-i
pbesati = Posisi terbaik sebelumnya dari partikel ke-i
gbesti   = Partikel terbaik diantara semua partikel dalam satu kelompok atau populasi
n          = Jumlah partikel dalam kelompok
d          = Dimensi
persamaan pertama menghitung kecepatan baru untuk tiap partikel (solusi pontensial) berdasarkan padam kecepatan sebelumnya(vi,m), lokasi partikel dimana nilai fitness terbaik telah dicapai (pbesti), dan populasi nilai global (gbest untuk versi global, ibest untuk versi local) atau local neighborhood pada algoritma versi local dimana fitness terbaik tercapai.
Perasamaan kedua memperbaharui posisi tiap partikel pada ruang solusi. Dau bilangan acak cid an c2 dibangkitkan sendiri. Penggunaan berat ineersia w telah memberikan performa yang meningkat pada sejumlah aplikasi. Hasil dari perhitungan partikel yaitu kecepatan partikel diantara interval [0,1] (Park, Lee & Choi, 2009).

2.3 Kerangka Pemikiran

3.   Metodelogi Penelitian.
Penelitian adalah mencari melalui proses yang metodis untuk menambahkan pengetahuan itu sendiri dan dengan yang lainnya, oleh penemuan fakta dan wawasan tidak biasa (Dawson, 2009).
Metode yang diusulkan
Ekperimen dan Pengujian Metode
Evaluasi dan Vallidasi Hasil
Pengumpulan data
Pengolahan data awal
Pada penelitian ini akan digunakan data kesehatan yaitu usia, berat badan dan jenis kelamin. Berikut adalah tahapan penelitian yang dilakukan dalam penelitian ini:


 A. Pengumpulan data
Teknik pengumpulan data ialah teknik atau cara-cara yang dapat  digunakan untuk menggunakan data (Riduwan, 2009). Data yang dikumpulkan diperoleh dari buku catatan kesehatan pasien dan jumlah sampel yang dikumpulkan sebanyak 85 sampel. Setiap keluarga mempunyai satu buku dan di dalam satu buku tersebut terdapat lebih dari satu orang yang dicatat. Di buku kesehatan tersebut terdapat data-data tentang pasien yang menderita hipertensi yaitu berupa jenis kelamin, berat badan, usia dan tekanan darah pasien.

B.  Pengolahan Awal Data
Data yang diperoleh kemudian diolah, tidak semua data digunakan, jumlah data yang berhasil dikumpulkan adalah sebanyak 85 data. Kemudian data tersebut diolah sehingga menghasilkan 60 data yang akan dianalisa lebih lanjut. Hal ini dikarenakan pada data awal yang berjumlah 85 data dilakukan teknik pengolahan awal data yaitu bertujuan untuk memperoleh data yang berkualitas. Berikut teknik yang dilakukan dalam pengolahan awal data:
1.      Data Validation: yaitu teknik menghilangkan menghapus data yang tidak lengkap(outer/noise). Dalam penelitian ini terdapat 25 data yang tidak lengkap sehingga dihapus, sehingga data yang digunakan untuk analisa adalah 60 data.
2.      Data Integration and Tranformation: yaitu teknik mengubah dan mengabungkan data sehingga diperoleh data yang valid. Dalam penelitian ini dilakukan pengubahan data dari numeric menjadi kategorikal.
Tabel diatas adalah kategori tekanan darah menurut Joint Comitte on Detection Evaluation and Treatment of High Blood Presure[11]. Dari tabel diatas maka dapat dikategorikan bahwa seseorang yang menderita hipertensi adalah dengan tekanan sistolik diatas 139 mmHg atau tekanan diastolik yang diatas 89 mmHg. Dibawah tekanan diatas maka dapat dikategorikan tidak menderita hipertensi.          
C. Metode yang diusulkan
Pada penelitian sebelumnya telah dilakukan penganalisaan data hipertensi menggunakan algoritma c4.5. Dalam penelitian ini akan dilakukan peningkatkan kinerja metode algoritma c4.5 dengan metode Particle Optimized Swarm (PSO).




                                                                                                                             




D. Ekperimen dan pengguijan Metode
Eksperimen dan Pengujian Metode Algortima C4.5
1.      Menyiapan  data training, yaitu menggunakan data pada tabel data ya
2.      Menghitung Entropy keseluruhan total kasus yang “Ya” Hipertensi dan “Tidak” Hipertensi. Dari data training diketahui jumlah data yang “Ya” Hipertensi adalah 30 dan jumlah data yang berlabel “Tidak” Hipertensi berjumlah 30 data. Data keseluruhan adalah 60. Berikut adalah perhitungan entropynya:
 



=-22/60 log(2) 22/60 –(38/60 log(2) 38/60)
=0,948078244

3.      Hitung nilai entropi dan nilai gain masing-masing atribut. Nilai gain tertinggi adalah atribut yang menjadi root dari pohon keputusan yang akan dibuat.
Berikut perhitungan entropi untuk atribut usia.
 


                                                                                                    



EPerempuan[9,25]=-9/60 log(2) 9/60 –(25/60 log(2) 25/60)
                           =0,94
Elaki-laki[13,13] =13/60 log(2) 13/60 –(13/60 log(2) 13/60)
                          = 0,96

Entropi Jenis Kelamin[35,26]=35/60 * 0,94 + 26/60 *0,96
                                            =0,96

Gain Jenis Kelamin= 0,95-  0,96
                             = -0,013

Tabel perhitungan entropi atribut dan gain
simpul
Kasus
Ya
Tidak
Entropi
Gain
Total data
60
22
38
0,95

Jenis Kelamin





Perempuan
35
9
25
0,94
-0,013
Laki-Laki
26
13
13
0,96
Umur





<=54
53
15
38
0,5
0,46
>54
7
7
0
0,36
<=41,5
30
3
27
0,155
0,38
>41,5
30
19
11
0,97
Berat Badan





<=62,5
37
6
31
0,82
0,11
>62,5
23
16
7
0,87

Dari tabel perhitungan entropi diatas diketahui gain tertinggi yaitu 0,46 oleh karena itu atribut berat badan <=54 dan > 54 merupakan root dari pohon keputusan yang dihasilkan.
4.      Ulangi langkah kedua sampai tidak bisa terpartisi, yaitu menghitung entropi dan gain untuk atribut selanjutnya untuk menentukan simpul 1.1 dan simpul 1.2, nilai dihitung berdasarkan umur >54 berikut tabel data yang yang termasuk katergori umur >54
Jenis Kelamin
Umur
berat badan
hasil
L
70
70
YA
L
70
65
YA
P
70
40
YA
L
70
72
YA
L
56
63
YA
P
62
40
YA
L
61
64
YA
Dilihat dari tabelnya untuk umur> 54 hasil yang diperoleh adalah Ya untuk semua data sehingga atribut umur >54 tidak dapat dipartisi lagi. Berikut tabel data yang termasuk pada katergori umur<=54
Jenis Kelamin
Umur
berat badan
hasil
P
35
55
TIDAK
L
46
80
YA
P
26
52
TIDAK
P
31
60
TIDAK
L
44
55
YA
L
45
70
YA
L
44
72
YA
L
42
65
YA
P
49
65
YA
P
30
55
TIDAK
P
22
52
TIDAK
P
35
54
TIDAK
P
35
60
YA
L
44
40
TIDAK
P
50
70
YA
L
42
65
YA
P
45
57
TIDAK
P
40
70
TIDAK
P
46
70
YA
P
43
52
YA
P
40
70
TIDAK
L
40
80
YA
L
52
60
TIDAK
P
25
50
TIDAK
P
35
52
TIDAK
P
28
45
TIDAK
P
26
60
TIDAK
P
45
65
TIDAK
P
41
45
TIDAK
L
23
60
TIDAK
P
28
56
TIDAK
L
52
65
TIDAK
L
40
73
TIDAK
P
32
57
TIDAK
P
44
70
YA
P
34
40
TIDAK
L
29
56
TIDAK
P
37
50
YA
L
32
57
TIDAK
L
42
60
TIDAK
L
35
61
TIDAK
P
47
56
TIDAK
P
26
55
TIDAK
L
45
72
YA
L
45
48
TIDAK
L
44
52
TIDAK
L
41
67
TIDAK
P
46
50
TIDAK
P
40
50
TIDAK
P
32
51
TIDAK
L
45
60
TIDAK
P
25
65
TIDAK
P
41
45
TIDAK
Berikut adalah pohon keputusan yang dihasilkan:




Dari pohon keputusan tersebut berikut adalah rule yang diperoleh
R1: jika umur>54 maka hasil YA hipertensi
R2: Jika umur <=54 dan umur >41,50 dan berat badan >62,5 maka hasil Ya HIpertensi
R3: jika umur>41,5 dan berat badan <=62,50 maka hasil Tidak Hipertensi
R4: jika umur<=54 dan umur <=41,5 maka hasil Tidak hipertensi.
5.      Evaluasi dan Validasi
Berikut pengujian yang dilakukan menggunakan cross validation dengan tools RapidMiner.
Metode klasifikasi bisa dievaluasi berdasarkan kriteria seperti tingkat akurasi, kecepatan, kehandalan, skabilitas dan interpretabilitas[10]. Berikut tabel confusion Matrix algortima C4.5, dari tabel diketahui  tingkat akurasi 76,6



V. Kesimpulan
Dalam penelitian ini dilakukan prediksi data hipertensi menggunakan algoritma C4.5, hasil yang, dan dari 60 kasus diketahui sebanyak 33 kasus diprediksi Tidak Hipertensi sesuai dengan data yang ada,sebanyak 9 kasus diprediksi tidak hipertensi tetapi pada data yang ada kenyataanya Ya hipertensi. Sebanyak 5 kasus diprediksi Ya hipertensi pada kenyataannya tidak hipertensi, dan sebanyak 13 kasus diprediksi tidak hipertensi pada kenyataannya yaitu sesuai dengan data yang ada.
Berikut grafik Area Under Curve (AUC) yang dihasilkan dari tools RapidMIner:
Dari grafik diatas diketahui nilai AUC yang dihasilkan adalah 0,862.
Berikut aplikasi yang dihasilkan berdasarkan rule yang  ada menggunakan aplikasi java neatbeans:

Kesimpulan
Dalam penelitian ini dilakukan prediksi pengolahan data hipertensi dengan menggunakan tiga parameter yaitu jenis, kelamin, berat badan dan umur. Data diolah menggunakan metode algortima C4.5, dari hasil running data menggunakan tools Rapidminer diketahui tingkat akurasinya yaitu 0,79% dan AUC 0,862. Dan dibuatkan aplikasi prediksi hipertensi berdasarkan rule yang ada.

DAFTAR PUSTAKA
1. Depkes. (2006). PHARMACEUTICAL CARE UNTUK PENYAKIT HIPERTENSI. Jakarta: DIREKTORAT BINA FARMASI KOMUNITAS DAN KLINIK DITJEN BINA KEFARMASIAN DAN ALAT KESEHATAN DEPARTEMEN KESEHATAN.
2. Abdullah, A. A., Zakaria, Z., & Mohammad, F. N. (2011). Design and Development of Fuzzy Expert System for Diagnosis of Hypertension. Second International Conference on Intelligent Systems, Modelling and Simulation , 978-0-7695-4336-9.
3. Witten, H. I., Eibe, F., & Hall, A. M. (2011). Data Mining Machine Learning Tools and Techiques. Burlington: Morgan Kaufmann Publisher.
4. jangle
5. Jr, McLeod Raymond. Sistem Informasi Manajemen. Edisi ketujuh. Jilid satu. PT. Penhelindo.Jakarta. 2001.
6. Han, J., & Kamber, M. (2007). Data Mining Concepts and Techniques. San Fransisco: Mofgan Kaufan Publisher.
7. Larose, D. T. (2005). Discovering Knowledge in Databases. New Jersey: John Willey & Sons Inc.
8. Kusrini, & Luthfi, E. T. (2009). Algoritma Data Mining. Yogyakarta: Andi
Publishing.
9. Riduwan. (2008). Metode dan Teknik Menyusun Tesis. Bandung: Alfabeta.
10. Vercellis, C. (2009). Business Intelligent: Data Mining and Optimization for Decision Making. Southern Gate: John Willey & Sons Inc.
11. The Joint National Committee on detection, Evaluation and
Treatment of High       Blood Pressure: The Seventh  Report of  the
Joint National Committee on Detection, Evaluation and Treatment of

High Blood Pressure;  Hypertension 2003;42:1206-52.