Anda di halaman 1dari 5

KLASIFIKASI DATA DENGAN METODE DECISION TREE UNTUK MENENTUKAN HASIL AKHIR PERMAINAN TIC-TAC-TOE

Devota Rachmania Hardask, 2 Annisa Cinintya Risam


1

1,2

5210100026, 2 5210100082 Jurusan Sistem Informasi Fakultas Teknologi Informasi Institut Teknologi Sepuluh Nopember Kampus ITS Sukolilo Surabaya 60111, Indonesia 1 devotarachmania@gmail.com, 2 annisa.risam@gmail.com

AbstractDalam dunia ilmu data mining, salah satu metode utamanya adalah Classification. Yang mana dapat diselesaikan dengan beberapa pendekatan, yaitu salah satunya adalah menggunakan Decision Tree. Di dalam paper ini akan dijelaskan mengenai bagaimana langkah-langkah yang harus diambil untuk dapat memenangkan permainan tic-tac-toe, yang walaupun merupakan sebuah permainan yang sederhana tetapi juga membutuhkan pemikiran panjang untuk dapat meletakkan lambang yang tepat pada ruang yang tepat. Metodologi yang digunakan adalah distribusi data yang dibagi menjadi pengambilan dan analisis data, serta melakukan analisis decision tree yang dibagi menjadi pembuatan dengan tools Weka dan mendapatkan hasil dari decision tree tersebut. Data didapatkan melalui website UCI Machine Learning Repository, dimana data tersebut berjumlah 958 yang terbagi ke dalam 9 atribut dan 1 kelas. Melalui hasil perbandingan percentage split didapatkan informasi bahwa persentase correctly classified instances dengan nilai paling besar yaitu pada persentase tingkat 90 yaitu sejumlah 87.5%. Serta jika dilihat dari incorrectly classified instances pada tingkat persentase 90% didapatkan nilai terkecil yaitu 12.5%. KeywordsTic-tac-toe; Endgame; Decision Tree; Entropy

sehingga dapat memperoleh olahan data yang tepat dan dapat menemukan langkah untuk memenangkan permainan tersebut.

II.

TINJAUAN PUSTAKA

A. Tic Tac Toe Game Tic-tac-toe atau juga dikenal dengan nama Noughts dan Cross adalah sebuah permainan yang biasa dimainkan dengan kertas dan pensil untuk dua pemain, yaitu X dan O, yang bergiliran menandai ruang dalam grid 3 x 3. Pemain berhasil menempatkan tiga tanda masing-masing dalam sebuah horizontal, vertical, atau diagonal memenangkan permainan. (WIKIPEDIA, 2013)

Gambar II-1 Contoh permainan dimenangkan oleh pemain pertama (X)

I. PENDAHULUAN Dalam dunia ilmu data mining, maka sudah tidak asing jika mendengar ada empat macam metode utama, yaitu: Classification, Association Rules, Clustering, dan Anomaly. Namun pembahasan kali ini akan mengarah pada metode classification. Yaitu dengan menggunakan pendekatan Decision Tree. Disamping itu terdapat data test yang akan diuji akurasinya. Tic-tac-toe merupakan sebuah permainan yang menggunakan alat berupa kertas dan pensil dalam pengoperasiannya. Setiap pemain dapat menggunakan lambang X dan O, untuk menandai ruang grid 3x3 secara bergiliran, dan pemain dengan penempatan tiga tanda berturut-turut secara horizontal, vertical, ataupun diagonal dapat memenangkan pertandingan tersebut. Akan tetapi permainan tersebut tidaklah mudah, dan dibutuhkan pemikiran panjang yang cermat untuk menempatkan lambang tersebut secara tepat sehingga dapat memenangkan permainan tesebut. Oleh karena itu, melalui data test permainan yang didapatkan, penulis ingin mengklasifikasikan data yang ada,

B. Decision Tree Classification adalah proses untuk menemukan model atau fungsi yang menjelaskan atau membedakan konsep atau kelas data, dengan tujuan untuk dapat memperkirakan kelas dari suatu objek yang labelnya tidak diketahui. Model itu sendiri bisa berupa aturan jika-maka, berupa decision tree, formula matematis atau neural network [4]. Decision Tree (pohon keputusan) adalah suatu metode dari jenis classification untuk mengetahui aksi apa yang akan dipakai untuk mengambil suatu keputusan. Menurut Putri [1], Decision Tree (DT) merupakan salah satu perangkat utama dalam melakukan pengambilan keputusan. Melalui metode tersebut, kita dapat melakukan proses pengambilan keputusan secara terstruktur, dengan mempertimbangkan alternatif-alternatif keputusan dan hasil yang ada, dan mengkalkulasikan risiko dan payoff dari tiap alternatif keputusan yang diambil. Pada sumber lainnya [3] menjelaskan bahwa untuk melakukan induksi terhadap metode DT dapat dilakukan dengan berbagai algoritma perhitungan: Hunts Algorithm (one of the earliest) CART ID3, C4.5 SLIQ,SPRINT

Pada metode DT, dikenal dua istilah umum yaitu Binary Split dan Multi-way Split. Binary split digunakan untuk membagi value atribut menjadi dua pengelompokan atau lebih. Gunanya adalah untuk menghitung DT mana yang paling optimal. Sedangkan Multi-way split digunakan untuk tiap-tiap value atribut yang berbeda. C. Algoritma ID3 Iterative Dichotomiser 3 (ID3) merupakan sebuah metode yang digunakan untuk membangkitkan pohon keputusan. Algoritma pada metode ini berbasis pada Occams razor: lebih memilih pohon keputusan yang lebih kecil (teori sederhana) dibanding yang lebih besar. Tetapi tidak dapat selalu menghasilkan pohon keputusan yang paling kecil dan karena itu occams razor bersifat heuristik. Occams razor diformalisasi menggunakan konsep dari entropi informasi. Berikut algoritma dari ID3 :

Entropy(t ) p( j | t ) log 2 p( j | t )
j

C1 C2 C1 C2 C1 C2

0 6 1 5 2 4

P(C1) = 0/6 = 0 P(C2) = 6/6 = 1 Entropy = 0 log 0 1 log 1 = 0 0 = 0 P(C1) = 1/6 P(C2) = 5/6 Entropy = (1/6) log2 (1/6) (5/6) log2 (1/6) = 0.65 P(C1) = 2/6 P(C2) = 4/6 Entropy = (2/6) log2 (2/6) (4/6) log2 (4/6) = 0.92

D. WEKA WEKA (Waikato Environment for Knowledge Analysis) adalah suatu perangkat lunak pembelajaran mesin yang populer ditulis dengan Java, yang dikembangkan di Universitas Waikato di selandia baru. WEKA adalah perangkat lunak gratis yang tersedia di bawah GNU General Public License. Pada WEKA menyediakan penggunaan teknik klasifikasi menggunakan pohon keputusan dengan algoritma J48. Teknik klasifikasi dan algoritma yang digunakan di WEKA disebut classifier. E. J48 pada WEKA J48 merupakan open source Java sebagai pelaksana algoritma C4.5 di aplikasi WEKA data mining. C4.5 sendiri adalah algoritma yang digunakan untuk menghasilkan decission tree atau pohon keputusan yang dikembangkan oleh Ross Quinlan. C4.5 merupakan perpanjangan dari algoritma ID3. Pohon-pohon keputusan yang dihasilkan oleh C4.5 dapat digunakan untuk melakukan klasifikasi dan untuk alasan ini, C4.5 sering disebut sebagai classifier statistik. (WIKIPEDIA, 2013) III. METODOLOGI Tahapan metodologi yang dilakukan untuk dapat menghasilkan decision tree dari data permainan tic-tac-toe adalah dijelaskan di dalam Gambar 2 di bawah ini.

Adapun sample data yang digunakan oleh ID3 memiliki beberapa syarat, yaitu: 1. Deskripsi atribut-nilai. Atribut yang sama harus mendeskripsikan tiap contoh dan memiliki jumlah nilai yang sudah ditentukan. 2. Kelas yang sudah didefinisikan sebelumnya. Suatu atribut contoh harus sudah didefinisikan, karena mereka tidak dipelajari oleh ID3. 3. Kelas-kelas yang diskrit. Kelas harus digambarkan dengan jelas. Kelas yang kontinu dipecah-pecah menjadi kategori-kategori yang relatif, misalnya saja metal dikategorikan menjadi hard, quite hard, flexible, soft, quite soft. 4. Jumlah contoh (example) yang cukup. Karena pembangkitan induktif digunakan, maka dibutuhkan test case yang cukup untuk membedakan pola yang valid dari peluang suatu kejadian. Pemillihan atribut pada ID3 dilakukan dengan properti statistik, yang disebut dengan information gain. Gain mengukur seberapa baik suatu atribut memisahkan training example ke dalam kelas target. Atribut dengan informasi tertinggi akan dipilih. Dengan tujuan untuk mendefinisikan gain, pertama-tama digunakanlah ide dari teori informasi yang disebut entropi. Entropi mengukur jumlah dari informasi yang ada pada atribut. Contoh perhitungan Entropy adalah:

A. Distribusi Data
a. Pengambilan Data b. Analisis Data

B. Analisis Decision Tree


a. Pembuatan dengan Weka b. Hasil Decision Tree

Gambar III-1 Metodologi yang dilakukan

Penjelasan dari langkah-langkah metodologi tersebut adalah sebagai berikut:

A. Distribusi Data di dalam langkah pertama ini dibagi menjadi dua, yaitu proses pengambilan data serta analisis dari data yang telah didapatkan. a. Pengambilan data: Pada langkah ini dilakukan proses pengambilan data yang berasal dari website UCI Machine Learning Repository. b. Analisis data: Di dalam langkah ini dilakukan analisis data yang telah didapatkan. Yaitu menjelaskan atribut-atribut yang dimiliki, serta keterangan-keterangan yang didapatkan dari informasi data tersebut. B. Analisis Decision Tree pada langkah metodologi ini terdapat dua langkah di dalamnya, yaitu pembuatan decision tree dengan menggunakan tools Weka serta bagaimana proses mendapatkan hasil decision tree tersebut. a. Pembuatan dengan Weka: Pada langkah ini, dilakukan tahap-tahap pembuatan decision tree menggunakan tools Weka. b. Hasil Decision Tree: Kemudian pada langkah ini didapatkan hasil berupa decision tree dan kemudian keterangan mengenai hasil yang didapatkan. IV. ANALISIS

Tabel IV-1 Distribusi Data tic-tac-toe

b. Analisis Data Tabel 4.3 merupakan tampilan tabel yang berisi data yang telah didapatkan melalui sumber. Keterangan dari tabel di atas adalah:
Tabel IV-2 analisis data tic-tac-toe

Sesuai dengan alur metodologi, maka tahapan analisis yang akan dilakukan adalah terhadap berikut ini: A. Distribusi Data a. Pengambilan Data Data didapatkan melalui website UCI Machine Learning Repository, dimana data tersebut berjumlah 958 yang terbagi ke dalam 9 atribut dan 1 kelas. Data tersebut adalah sebagai berikut.

Nama Atribut Top-left-square Top-middle-square Top-right-square Middle-left-square Middle-middle-square Middle-right-square Bottom-left-square Bottom-middle-square Bottom-right-square Class

Keterangan Atribut x, o, b x, o, b x, o, b x, o, b x, o, b x, o, b x, o, b x, o, b x, o, b Postive, negative

Keterangan: x jika pemain menandai ruang dengan tanda X o jika pemain menandai ruang dengan tanda O b jika pemain tidak menandai ruang (kosong) B. Analisis Decision Tree a. Pembuatan Dengan Weka Untuk dapat menemukan pohon keputusan dari data yang diperoleh, maka sebelumnya terdapat langkah-langkah yaitu: Mengubah data keseluruhan menjadi format .csv Memasukkan data ke dalam Weka, dimana dari proses tersebut akan menghasilkan visualisasi data sebagai berikut.

Gambar IV-1 hasil visualisasi data

Warna biru menunjukkan kelas positive sedangkan warna merah menunjukkan kelas negative. Kemudian terdapat sembilan bagian tabel yang menunjukkan masing-masing hasil visualisasi dari setiap atribut. Atribut tersebut merupakan langkah-langkah jawaban yang dipilih oleh masing-masing pemain. Kemudian langkah selanjutnya adalah masuk ke dalam tab menu classify, kemudian memilih classifier yaitu J-48 dan menggunakan pilihan tes percentage split untuk dapat menghitung nilai ketepatan maupun kesalahan yang ada di dalam data tersebut. Untuk dapat melakukan perbandingan, maka dibuatlah tabel percentage split seperti pada tabel III.3 yang dapat digunakan untuk membandingkan tingkat error/correct data tic-tac-toe berdasarkan persentage split yang dimiliki.

Tabel IV-3 percentage split (%) data tic-tac-toe

Percentage Split (%)

Correctly Classified Instances 573 (66.4733 %) 521 (68.0157 %) 527 (78.5395 %) 451 (78.4348 %) 383 (79.9582 %) 308 (80.4178 %) 228 (79.4425 %) 161 (83.8542 %) 84 (87.5 %)

Incorrectly Classified Instances 289 (33.5267 %) 245 (31.9843 %) 144 (21.4605 %) 124 (21.5652 %) 96 (20.0418 %) 75 (19.5822 %) 59 (20.5575 %) 31 (16.1458 %) 12 (12.5 %)

Mean Absolute Error 0.3703 0.3835 0.2754 0.2617 0.2414 0.2332 0.2283 0.1923 0.1318

Root Mean Squared Error 0.5259 0.5052 0.4348 0.4251 0.4052 0.395 0.4017 0.3709 0.3156

Relative Absolute Error 83.6955 % 84.9268 % 60.4564 % 57.4967 % 53.2533 % 51.6696 % 50.9345 % 43.4186 % 30.0419 %

Root Relative Squared Error 109.6641 % 105.9987 % 91.6311 % 89.864 % 85.6986 % 84.2528 % 86.1362 % 80.4313 % 68.8202 %

Total Number of Instances 862 766 671 575 479 383 287 192 96

10 20 30 40 50 60 70 80 90

Setelah adanya perbandingan tersebut maka dapat diketahui tingkat persentase split dari data yang salah maupun yang benar. Kemudian jika masuk ke dalam tab menu classify, kemudian memilih

classifier yaitu J-48 dan menggunakan pilihan tes percentage split 66%, maka akan didapatkan hasil decision tree sebagai berikut.

Gambar IV-2 hasil decision tree

Di dalam hasil pohon keputusan tersebut, tampak bahwa perbedaan dari masing-masing pemain ketika memilih tanda, dan di urutan ruang yang berbeda maka akan mengeluarkan hasil akhir yang berbeda pula yaitu menang atau kalah.

classified instances pada tingkat persentase 90% didapatkan nilai terkecil yaitu 12.5%.

DAFTAR PUSTAKA V. SIMPULAN Terdapat beberapa kesimpulan yang bisa diperoleh dari hasil analisis diatas, antara lain: 1) Melalui hasil perbandingan percentage split didapatkan informasi bahwa persentase correctly classified instances dengan nilai paling besar yaitu pada persentase tingkat 90 yaitu sejumlah 87.5%. Serta jika dilihat dari incorrectly
[1] [2] [3] WIKIPEDIA. (2013, October 14). C4.5 Algorithm. Retrieved from WIKIPEDIA: http://en.wikipedia.org/wiki/C4.5_algorithm WIKIPEDIA. (2013, October 23). Tic-tac-toe. Retrieved from WIKIPEDIA: http://en.wikipedia.org/wiki/Tic-tac-toe Aha, D. W. (1991, August 19). Retrieved from http://archive.ics.uci.edu/ml/datasets/Tic-Tac-Toe+Endgame

Anda mungkin juga menyukai