Anda di halaman 1dari 17

ABSTRAK

Data mining adalah data analisis metodologi yang digunakan untuk mengidentifikasi pola-pola tersembunyi di sebuah set data yang besar. Ini telah berhasil digunakan di berbagai wilayah termasuk lingkungan pendidikan. Dengan memanfaatkan data latar belakang siswa, data sekolah dan data ujian akhir sekolah berstandar nasional UASBN, diharapkan dapat menghasilkan informasi tentang tingkat kinerja siswa melalui teknik data mining. Kategori tingkat kinerja siswa sekolah dasar di ukur dari latar belakang orang tua, letak geografi rumah siswa, nilai UASBN, dan identitas sekolah. Algoritma yang digunakan adalah algoritma apriori, informasi yang ditampilkan berupa nilai support dan confidence dari masing-masing kategori tingkat kinerja siswa sekolah dasar.

BAB I PENDAHULUAN A. Latar Belakang Mutu pendidikan dipengaruhi banyak factor, yaitu siswa, pengelola sekolah, lingkungan, kualitas pembelajaran, kurikulum dan sebagainya. (Edy Suhartoyo, 2005). Dengan demikian salah satu factor yang penting untuk mencapai tujuan pendidikan adalah proses pembelajaran yang dilakukan, sedangkan salah satu factor penting untuk efektivitas pembelajaran adalah faktor evaluasi baik terhadap proses maupun hasil pembelajaran. Evaluasi dapat mendorong siswa untuk lebih giat belajar terus menerus dan juga mendorong guru untuk lebih meningkatkan kualitas proses pembelajaran serta mendorong sekolah untuk lebih meningkatkan fasilitas kualitas manajemen sekolah. Fokus utama evaluasi hasil proses akademik adalah pada hasil belajar peserta didik. Evaluasi ini biasanya dijadikan dasar baik untuk kepentingan mengetahui keberadaan hasil belajar maupun sebagai dasar untuk memperbaiki proses pembelajaran. Dalam praktek pendidikan, evaluasi terhadap hasil yang lebih banyak dilaksanakan. Dalam konteks pembelajaran sering kali evaluasi terhadap hasil ini disebut juga dengan evaluasi keluaran (output). Pelaksanaannya selalu dikaitkan dengan keberhasilan pencapaian tujuan pendidikan oleh siswa, baik tujuan yang bersifat nasional, tingkat satuan pendidikan, tingkat mata pelajaran maupun tingkat pokok bahasan dalam suatu mata pelajaran. Evaluasi dapat dilaksanakan secara internal ataupun secara eksternal. Evaluasi internal dilakukan oleh pihak-pihak yang ada dalam organisasi. Dalam pendidikan di sekolah, evaluasi internal itu adalah evaluasi yang dilakukan oleh guru. Adapun evaluasi eksternal adalah evaluasi yang dilaksanakan oleh pihakpihak di luar lembaga atau organisasi, biasanya dilaksanakan oleh lembaga independen ataupun dilaksanakan oleh pemerintah (Ibrahim dan Ali, 2007). Penilaian hasil belajar oleh pemerintah bertujuan untuk menilai pencapaian kompetensi lulusan secara nasional pada mata pelajaran tertentu dalam kelompok mata pelajaran ilmu pengetahuan dan teknologi, dan dilakukan dalam bentuk ujian

yang berstandar nasional. Ujian yang berstandar nasional dilakukan secara objektif, berkeadilan dan akuntabel, serta diadakan sekurang-kurangnya satu kali dan sebanyak-banyaknya dua kali dalam satu tahun pelajaran. UASBN atau Ujian Akhir Sekolah Berstandar Nasional adalah ujian yang diperuntukkan untuk sekolah formal jenjang pendidikan Sekolah Dasar/Madrasah Ibtidaiyah/Sekolah Dasar Luar Biasa (SD/MI/SDLB). UASBN bertujuan untuk menilai pencapaian kompetensi lulusan secara nasional pada mata pelajaran Bahasa Indonesia, Matematika, dan Ilmu Pengetahuan Alam (IPA). Selain itu, UASBN juga bertujuan untuk mendorong tercapainya target wajib belajar pendidikan dasar yang bermutu (Permendiknas No. 74 Tahun 2009 Pasal 3). Hasil UASBN digunakan sebagai salah satu pertimbangan untuk: a) Pemetaan mutu satuan pendidikan, b) Dasar seleksi masuk jenjang pendidikan berikutnya, c) Penentuan kelulusan peserta didik, d) Dasar pembinaan dan pemberian bantuan kepada satuan pendidikan dalam upaya peningkatan mutu pendidikan (Permendiknas No. 74 Tahun 2009 Pasal 4). Penggalian kaidah asosiasi mempunyai peranan penting dalam proses pengambilan keputusan. Tahapan besar dari penggalian kaidah asosiasi mengidentifikasikan frequent dan membentuk kaidah asosiasi dari itemset tersebut. Kaidah asosiasi digunakan untuk menggambarkan hubungan antar item pada tabel data transaksional ataupun data relasional. Tapi semakin berkembangnya teknologi komputer di dunia industri, semakin pesat pula perkembangan ukuran data yang dihasilkan. Dan pada data yang besar tersebut, proses pencarian frequent sangatlah sulit. Dari kondisi tersebut, maka dalam penelitian ini diusulkan algoritma Apriori untuk mencari itemset data hasil UASBN, data latar belakang sekolah, dan data latar belakang siswa sehingga dari proses mining didapatkan faktor-faktor yang mempengaruhi hasil UASBN. Ide dasar paradigma apriori ini adalah dengan mencari himpunan kandidat dengan panjang (k+1) dari sekumpulan pola frequent dengan panjang k, lalu mencocokkan jumlah kemunculan pola tersebut dengan informasi yang terdapat dalam database. apriori yang dikembangkan oleh Agrawal dan Srikan (1994), yaitu anti-monotone Apriori Heuristic: pola dengan panjang pola k yang tidak sering muncul (tidak frequent) dalam sebuah kumpulan data, maka pola dengan

panjang (k+1) yang mengandung sub pola k tersebut tidak akan sering muncul pula (tidak frequent). B. TUJUAN KHUSUS Ada beberapa tujuan dari penelitan yang dilakukan, yaitu: 1. 2. 3. Menentukan atribut yang digunakan untuk proses mining Menggunakan metode association rule dengan algoritma apriori Menganalisis hasil mining untuk melihat tingkat keberhasilan siswa sekolah dasar negeri dan swasta dalam UASBN dan faktor-faktor pendukung apa saja yang mempengaruhi siswa sekolah dasar dalam UASBN. C. URGENSI PENELITIAN 1. Hasil penelitian ini diharapkan dapat menjadi informasi atau suatu rekomendasi yang memberi bahan pemikiran dan bahan pertimbangan bagi Dinas Pendidikan Kota Metro Bidang Pendidikan Dasar dalam pengambilan keputusan untuk melakukan pengawasan dan pembenahan sekolah dasar negeri maupun swasta. 2. 3. Hasil penelitian ini diharapkan memberikan informasi pentingnya peran orang tua dalam keberhasilan siswa. Hasil penelitian ini juga diharapkan manajemen sekolah dasar untuk terus meningkatkan mutu pendidikannya.

BAB II

STUDI PUSTAKA

Data

warehouse

adalah

sebuah

sistem

yang

mengambil

dan

menggabungkan data secara periodik dari sistem sumber data ke penyimpanan data bentuk dimensional atau normal (Rainardi, 2008). Data warehouse merupakan penyimpanan data yang berorientasi objek, terintegrasi, mempunyai variant waktu, dan menyimpan data dalam bentuk nonvolatile sebagai pendukung manejemen dalam proses pengambilan keputusan (Han, 2006). Data warehouse menyatukan dan menggabungkan data dalam bentuk multidimensi. Pembangunan data warehouse meliputi pembersihan data, penyatuan data dan transformasi data dan dapat dilihat sebagai praproses yang penting untuk digunakan dalam data mining. Selain itu data warehouse mendukung On-line Analitycal Processing (OLAP), sebuah kakas yang digunakan untuk menganalisis secara interaktif dari bentuk multidimensi yang mempunyai data yang rinci. Sehingga dapat memfasilitasi secara efektif data generalization dan data mining. Banyak metodemetode data mining yang lain seperti asosiasi, klasifikasi, prediksi, dan clustering, dapat diintegrasikan dengan operasi OLAP untuk meningkatkan proses mining yang interaktif dari beberapa level dari abstraksi. Oleh karena itu data warehouse menjadi platform yang penting untuk data analisis dan OLAP untuk dapat menyediakan platform yang efektif untuk proses data mining. Dari pengertian tersebut, sebuah data warehouse merupakan penyimpanan data tetap sebagai implementasi fisik dari pendukung keputusan model data. Data warehouse juga biasanya dilihat sebagai arsitektur, pembangunan dan penyatuan data dari bermacam macam sumber data yang berbeda untuk mendukung struktur dan atau query tertentu, laporan analisis, dan pembuatan keputusan (Han, 2006). Extract, transform, dan load (ETL) merupakan sebuah sistem yang dapat membaca data dari suatu data store, merubah bentuk data, dan menyimpan ke data store yang lain. Data store yang dibaca ETL disebut data source, sedangkan data store yang disimpan ETL disebut target. Proses pengubahan data digunakan agar data sesuai dengan format dan kriteria, atau sebagai validasi data dari source system. Proses ETL tidak hanya menyimpan data ke data warehouse, tetapi juga

digunakan untuk berbagai proses pemindahan data. Kebanyakan ETL mempunya mekanisme untuk membersihkan data dari source system sebelum disimpan ke warehouse. Pembersihan data merupakan proses identifikasi dan koreksi data yang kotor. Proses pembersihan ini menerapkan aturan-aturan tertentu yang mendefinisikan data bersih. Berdasarkan siapa yang memindahkan data, ETL dapat dibedakan menjadi empat seperti yang dapat dilihat pada gambar 2.1, yaitu : 1. Proses ETL menarik data keluar dengan query tertentu di source system database secara periodik. 2. Triggers pada source system mendorong data keluar. Triggers adalah Suatu SQL statement yang dijalankan setiap ada perintah insert, update, atau delete dalam tabel. 3. Penjadwalan proses dalam source system untuk mengekspor data secara periodik. Hal ini mirip dengan proses yang pertama namun query disimpan dalam data source. 4. Sebuah log reader yang bertugas membaca log dalam source system untuk mengidentifikasi perubahan data. Log reader merupakan program yang membaca log file. Setelah dibaca, kemudian data dipindahkan keluar ke tempat penyimpanan yang lain.

Gambar 2.1 Kategori ETL berdasarkan siapa yang menjalankan.

Berdasarkan dimana proses pembangkitan ETL, ETL dibedakan menjadi tiga macam seperti yang digambarkan pada gambar 2.2, yaitu : A. ETL dijalankan dalam server terpisah diantara source system dan data warehouse sistem. Pendekatan ini menghasilkan kinerja tinggi, ETL berjalan di server sendiri, sehingga tidak menggunakan sumber daya dari data warehouse server atau data source server. Namun hal ini lebih mahal karena harus menambah server lagi. B. ETL dijalankan dalam data warehouse server. Pendekatan ini dapat digunakan jika mempunyai kapasitas lebih dalam data warehouse server atau jika mempunyai iddle time ketika data warehouse tidak digunakan (misal pada waktu malam). Pendekatan ini lebih murah dibandingkan pendekatan pertama karena tidak membutuhkan tambahan server. C. ETL dijalankan pada server data source. Pendekatan ini diimplementasikan ketika membutuhkan real time data warehousing. Dengan kata lain, jika data dalam source system berubah, perubahan ini dilakukan juga ke dalam data warehouse. Hal ini dapat dilakukan dengan penggunaan trigger dalam source system.

Gambar 2.2 Kategori ETL berdasarkan tempat dijalankan

Tidak semua data warehouse mempunyai komponen lengkap seperti mekanisme kualitas data, database multidimensi, aplikasi analisis, aplikasi pengguna, control sistem, audit sistem, metadata. Secara sederhana data warehouse dapat digambarkan seperti gambar 2.3

Data Source

ETL

Data Source

Gambar 2.3 Gambaran data warehouse secara sederhana Data mining adalah kegiatan menemukan pola yang menarik dari data dalam jumlah besar, data dapat disimpan dalam database, data warehouse, atau penyimpanan informasi lainnya. Data mining berkaitan dengan bidang ilmu ilmu lain, seperti database system, data warehousing, statistik, machine learning, information retrieval, dan komputasi tingkat tinggi. Selain itu, data mining didukung oleh ilmu lain seperti neural network, pengenalan pola, spatial data analysis, image database, signal processing (Han, 2006). Data mining didefinisikan sebagai proses menemukan pola-pola dalam data. Proses ini otomatis atau seringnya semiotomatis. Pola yang ditemukan harus penuh arti dan pola tersebut memberikan keuntungan, biasanya keuntungan secara ekonomi. Data yang dibutuhkan dalam jumlah besar (Witten, 2005). Karakteristik data mining sebagai berikut :

Data mining berhubungan dengan penemuan sesuatu yang tersembunyi dan pola data tertentu yang tidak diketahui sebelumnya.

Data mining biasa menggunakan data yang sangat besar. Biasanya data yang besar digunakan untuk membuat hasil lebih dipercaya.

Data mining berguna untuk membuat keputusan yang kritis, terutama dalam strategi (Davies, 2004). Berdasarkan beberapa pengertian tersebut dapat ditarik kesimpulan bahwa

data mining adalah suatu teknik menggali informasi berharga yang terpendam

atau tersembunyi pada suatu koleksi data (database) yang sangat besar sehingga ditemukan suatu pola yang menarik yang sebelumnya tidak diketahui. Kata mining sendiri berarti usaha untuk mendapatkan sedikit barang berharga dari sejumlah besar material dasar. Karena itu data mining sebenarnya memiliki akar yang panjang dari bidang ilmu seperti kecerdasan buatan (artificial intelligent), machine learning, statistik dan database. Beberapa metode yang sering disebutsebut dalam literatur data mining antara lain clustering, classification, association rules mining, neural network, genetic algorithm dan lain-lain (Pramudiono, 2007). Dengan definisi data mining yang luas, ada banyak jenis metode analisis yang dapat digolongkan dalam data mining salah satunya adalah association rule mining. Association rule mining adalah suatu prosedur untuk mencari hubungan antar item dalam suatu data set yang ditentukan. Association rule meliputi dua tahap : 1. Mencari kombinasi yang paling sering terjadi dari suatu itemset. 2. Mendefinisikan Condition dan Result (untuk conditional association rule). Dalam menentukan suatu association rule, terdapat suatu interestingness measure (ukuran kepercayaan) yang didapatkan dari hasil pengolahan data dengan perhitungan tertentu. Umumnya ada tiga ukuran, yaitu: Support : suatu ukuran yang menunjukkan seberapa besar tingkat dominasi suatu item/itemset dari keseluruhan transaksi. Ukuran ini akan menentukan apakah suatu item/itemset layak untuk dicari confidence-nya (misal, dari seluruh transaksi yang ada, seberapa besar tingkat dominasi yang menunjukkan bahwa item A dan B dibeli bersamaan) dapat juga digunakan untuk mencari tingkat dominasi item tunggal. Support(AB) = Probabilitas (AB) Confidence : suatu ukuran yang menunjukkan hubungan antar 2 item secara conditional (misal, seberapa sering item B dibeli jika orang membeli item A). Confidence(AB) = Support (A B) Support ( A )

Improvement : suatu ukuran yang menunjukkan besarnya kemungkinan 2 item dapat dibeli secara bersamaan.

Improvement (AB) =

Support (A B) Support ( A ) x Support ( B )

Ketiga ukuran ini nantinya akan berguna dalam menentukan interesting association rules, yaitu untuk dibandingkan dengan threshold (batasan) yang ditentukan. Batasan tersebut umumnya terdiri dari min_support, min_cofidence, dan min_improvement. Support dari tiap kandidat k-itemset didapat dengan men-scan database untuk menghitung jumlah transaksi yang memuat semua item di dalam kandidat k-itemset tersebut. Ini adalah juga ciri dari algoritma apriori yaitu diperlukan penghitungan dengan scan seluruh database sebanyak k-itemset terpanjang European Cross Industry Standard Process for Data Mining (CRISP-DM 1.0) dan pada tahun 2004 Java DataMining standard (JDM 1.0). Selanjutnya bermunculan open-source software system seperti R Project, WEKA, KNIME, RapidMiner, TANAGRA dan yang lain telah menjadi standar informal dalam mendefinisikan proses data mining.

BAB III METODE PENELITIAN

10

Tahapan Penyelesaian Masalah Penelitian ini akan dikerjakan dengan tahapan sebagai berikut : a. Eksplorasi Mempelajari konsep-konsep yang berkaitan dengan penelitian melalui literatur-literatur seperti buku, paper, dan sumber ilmiah lain. b. c. Mengidentifikasi Kebutuhan Data Pembuatan Algoritma Mempersiapkan kebutuhan data yang berhubungan dengan kinerja siswa. 1. Mencari kombinasi yang paling sering terjadi dari suatu itemset. 2. Mendefinisikan Condition dan Result (untuk conditional association rule). d. Implementasi Menerapkan algoritma apriori pada tools data mining. e. Analisis hasil Menganalisis data yang telah dihasilkan tools data mining untuk kebutuhan perencana akademik.

BAB IV HASIL DAN PEMBAHASAN

11

Data yang digunakan dalam penelitian ini adalah dataset yang bertipe record. Dataset ini terdiri dari: no uasbn, status sekolah, kecamatan, umur siswa, jenis kelamin siswa, akreditasi, pekerjaan orang tua, cita-cita, pendidikan orang tua, gaji orang tua, jarak sekolah, transportasi ke sekolah, saudara kandung, dan nilai uasbn. Dataset yang diambil dari data tahun 2010/2011 sebanyak 63 Sekolah Dasar sekota Metro dan 2554 siswa. Tabel 4.1 Dataset yang digunakan dalam penelitian ATRIBUT no uasbn status kec umur jk akreditasi kerja_ortu RECORD Nomor ujian nasional N=negeri, M=madrasah, S=swasta Metro Pusat, Metro Selatan, Metro Utara, Metro Barat, Metro Timur M < 12, N <= 13, T > 13 L, P A, B, C PN= (PNS, TNI/POLRI), Guru/Dosen, Wiraswasta/Swasta, Lainnya= (buruh, cita-cita petani, seniman, dan lain-lain) PN= (PNS, TNI/POLRI), Guru/Dosen, Wiraswasta/Swasta, Lainnya= (buruh, didik_ortu jarak transportasi saudara uasbn petani, seniman, dan lain-lain) Dasar (SD-SMP), menengah (SMA), atas (Sarjana) dekat < 1 km, sedang <= 3 km, jauh > 3 km Pribadi=diantar, jalan, umum N <=2, B > 2 Nilai uasbn

Seluruh atribut pada dataset di atas selanjutnya akan diseleksi untuk mendapatkan atribut-atribut yang berisi nilai yang relevan, tidak missing value, dan tidak redundant, dimana ketiga syarat tersebut merupakan syarat awal yang harus dikerjakan dalam data mining sehingga akan diperoleh dataset yang bersih untuk digunakan pada tahap mining data. Dikatakan missing value jika atributatribut dalam dataset tidak berisi nilai atau kosong, sementara itu data dikatakan

12

redundant jika dalam satu dataset yang sama terdapat lebih dari satu record yang berisi nilai yang sama. Pada tahapan selanjutnya adalah proses pemilihan data. Pada tahapan ini didapat artibut hasil pemilihan seperti pada gambar 4.1.

Gambar 4.1 Tampilan Tanagra pemilihan atribut Berdasarkan hasil pemilihan ada 2 atribut yang tidak digunakan yaitu atribut no_uasbn dan umur. Setelah menentukan atribut tahapan selanjutnya penelitian ini menentukan frequent itemset yang berguna mencari keterkaitan dataset yang berhubungan dengan hasil uasbn.

13

Gambar 4.2 Tampilan Tanagra untuk menentukan frequent itemset Hasil frequent itemset didapat beberapa keterkaitan dataset yang berhubungan dengan hasil uasbn seperti pada gambar 4.2. Tahapan berikutnya adalah tahapan prediksi untuk pengujian kebenaran frequent itemset seperti terlihat pada gambar 4.3. Tahapan ini menguji dengan memasukkan nilai dari target uasbn rendah.

Gambar 4.3 Tampilan Tanagra untuk pengujian frequent itemset

14

Untuk memperkuat hasil prediksi dilakukan pengujian ulang dengan memasukkan nilai support yang merupakan suatu ukuran seberapa besar tingkat dominasi suatu item/itemset dari keseluruhan transaksi. Untuk pengujian ini nilai yang dimasukkan adalah support min dengan nilai 0.33 atau sama dengan 30%. Dengan tingkat kepercayaan atau confidence min 0.93 atau sama dengan 93%.

Gambar 4.4 Tampilan Tanagra untuk pengujian jika uasbn rendah Dari gambar 4.4 didapat penyebab uasbn rendah jika pekerjaan orang tua lainnya, gaji orang tua L atau rendah, dan status sekolah N atau negeri.

15

BAB V PENUTUP A. KESIMPULAN Kesimpulan yang diperoleh dalam penelitian ini adalah: 1. Proses mining yang dilakukan menggunakan metode association rule dari 11 atribut yang digunakan hasil pemilihan menghasilkan 4 buah rule dengan target uasbn rendah dan tingkat kepercayaan minimum yang ditentukan adalah 93% atau 0.93. 2. Hasil analisis yang diperoleh bahwa faktor penghambat kinerja siswa sekolah dasar dalam pencapaian uasbn yang tinggi disebabkan oleh 3 faktor yaitu: 1) status sekolah negeri dan swasta; 2) pekerjaan orang tua; dan 3) gaji orang tua. B. SARAN Saran-saran yang dapat peneliti berikan adalah: 1. Dinas Pendidikan diharapkan melakukan pengawasan yang lebih maksimal untuk standar proses terhadap sekolah-sekolah negeri. Hal ini terlihat dari hasil mining bahwa uasbn yang rendah di dapat di sekolah negeri. 2. Pemerintah daerah diharapkan dapat memberikan beasiswa yang maksimal dan tepat sasaran. Hal ini terlihat dari hasil mining bahwa uasbn yang rendah didapat dari penghasilan orang tua yang rendah. 3. Orang tua sebagai pendidik yang utama lebih memperhatikan perkembangan anaknya disekolah.

16

DAFTAR PUSTAKA

[1] A.Y.K. Chan, K.O. Chow, and K.S. Cheung. Online Course Refinement through Association Rule Mining Journal of Educational Technology Systems Volume 36, Number 4 / 2007-2008, pp 433 44, 2008. [2] B. Dogan, A. Y. Camurcu. Association Rule Mining from an Intelligent Tutor Journal of Educational Technology Systems Volume 36, Number 4 / 2007-2008, pp 433 447, 2008 [3] B.Minaei-Bidgoli, D. A. Kashy, G. Kortemeyer and, W. F. Punch."Predicting student performance: an application of data mining methods with the educational web-based system LON-CAPA" In Proceedings of ASEE/IEEE Frontiers in Education Conference, Boulder, CO: IEEE, 2003. [4] C.J. Tsai, S.S. Tseng, and C.Y. Lin. A Two-Phase Fuzzy Mining and Learning Algorithm for Adaptive Learning Environment. In proceedings of the Alexandrov, V.N., et al. (eds.) [5] F. Castro, A. Vellido, A. Nebot, and F. Mugica. Applying Data Mining Techniques to e-Learning Problems. Evolution of Teaching and Learning Paradigms in Intelligent Environment ISBN: 10.1007/978-3540-71974-8_8 Volume 62, pp 183-221. Springer Berlin Heidelberg, 2007. [6] Ebel, R.L, & Frisbie, D.A. (1986). Esential of Educational Measurement. New Jerseey; Prentice-Hall, Inc. [7] Edi Suhartoyo. (2005). Pengalaman Peningkatan Mutu Pendidikan Melalui Pengembangan Budaya Sekolah di SMAN 1 Kasihan Bantul. Makalah disajikan dalam Seminar Nasional Peningkatan Mutu Pendidikan Melalui Pengembangan Budaya Sekolah, November 2005 di Universitas Negeri Yogyakarta. [8] Gredeer. B, & Margaret, E. (1986). Learning and Instruction: Theory Into Practice. New York: Macmillan Publishing. [12] Han, Jiawei (2006). Data mining: Concept and Technique Second Edition. USA: Elsevier, Inc.

17