Anda di halaman 1dari 10

CLUSTERING MENGGUNAKAN SELF ORGANIZING MAPS (STUDI KASUS: DATA PPMB IPB

)
Irman Hermadi 1, Imas S. Sitanggang 1, Edward 2 Staf Departemen Ilmu Komputer, Fakultas Matematika dan IPA, Institut Pertanian Bogor 2 Mahasiswa Departemen Ilmu Komputer, Fakultas Matematika dan IPA, Institut Pertanian Bogor
1

ABSTRAK
Data berukuran besar yang sudah disimpan tidak digunakan secara optimal karena manusia seringkali tidak memiliki waktu dan ilmu yang cukup untuk mengelolanya. Kasus ini terjadi di Panitia Penerimaan Mahasiswa Baru Institut Pertanian Bogor (PPMB IPB). Penelitian ini bertujuan untuk mengimplementasikan Algoritma Self Organizing Maps (SOM) dalam clustering data, dan untuk mendapatkan karakteristik data dari hasil clustering. Data yang digunakan adalah rata-rata nilai Biologi, Fisika, Matematika, dan Kimia (cawu 1 sampai cawu 7) dari pelamar tahun 2004 dengan pilihan pertama program sarjana di Fakultas Pertanian, IPB. Data (sebanyak 1899 baris dan 4 field yaitu: Biologi, Fisika, Kimia, dan Matematika) akan menjadi masukan algoritma SOM, dengan parameter awal algoritma SOM: ukuran vektor bobot/ output: 3, 4, 5, 6, 7, 8, 9, 10; learning rate: 0.1, 0.5, 0.9; ukuran lingkungan: 0, dan penurunan learning rate: 0.1, 0.5, 0.9, 1. Penentuan bobot pemenang dalam algoritma SOM menggunakan Jarak Mahalanobis, dengan fungsi topologi adalah Gridtop, dan inisialisasi nilai bobot awal dengan nilai midpoint. Kriteria pemberhentian algoritma SOM dalam penelitian ini adalah iterasi, dengan banyak iterasi: 1, 5, dan 10. Hasil clustering dari SOM divalidasi menggunakan Indeks Davies-Bouldin. Hasil clustering data yang memiliki DBI minimal (53.472) dari penelitian adalah ukuran vektor bobot 9 dengan learning rate 0.9, penurunan learning rate 0.1, dan 5 iterasi. Pelamar dari Sumatera banyak berada pada cluster yang memiliki rataan nilai Biologi, Fisika, Kimia, dan Matematika lebih tinggi (81.12, 77.50, dan 74.16). Berbeda dengan daerah asal Jawa, yang banyak berada di cluster yang memiliki rataan lebih rendah (74.08, 73.09, 71.91, 70.04, 68.59, dan 67.93). Pelamar dari Luar Negeri tergolong pelamar dengan nilai rendah, hanya berada di cluster dengan rataan 68.59. Peluang diterima dari masing-masing kategori SMA bergantung kepada nilai, namun nilai pelamar bukan satu-satunya acuan dalam seleksi penerimaan mahasiswa baru. Kategori SMA juga berkontribusi terhadap diterima/tidaknya pelamar. Penelitian selanjutnya dapat difokuskan untuk optimasi kombinasi nilai-nilai parameter algoritma SOM. Kata kunci: Self Organizing Maps, Jarak Mahalanobis, Indeks Davies Bouldin, Analisis Cluster.

1. PENDAHULUAN
Latar Belakang Perkembangan teknologi telah mengakibatkan meningkatnya data dalam jumlah besar. Data berukuran besar yang sudah disimpan tidak digunakan secara optimal karena manusia seringkali tidak punya waktu dan ilmu yang cukup untuk mengelolanya. Kasus ini terjadi di Panitia Penerimaan Mahasiswa Baru Institut Pertanian Bogor (PPMB IPB). PPMB IPB mengumpulkan data pelamar program sarjana setiap tahun, meliputi data akademik, data penilaian terhadap sekolah asal, serta data pribadi. Data pelamar disimpan setelah digunakan untuk menyeleksi calon mahasiswa baru IPB. Data mining sangat sesuai untuk diterapkan pada data berukuran besar. Penerapan data mining pada data PPMB IPB diharapkan bisa

menambang ilmu pengetahuan dan informasi yang penting dan berguna untuk pengambilan keputusan di masa depan. Metode data mining yang akan diterapkan dalam penelitian ini adalah clustering dengan menggunakan algoritma Self Organizing Maps (SOM). Clustering digunakan untuk melakukan pengelompokan data tanpa berdasarkan target variabel kelas data tertentu. Bahkan clustering dapat dipakai untuk memberikan label pada kelas data yang belum diketahui. Clustering menggunakan Fuzzy C-Means pernah dilakukan pada data pelamar melalui jalur Undangan Seleksi Masuk IPB (USMI) yang terpilih di Fakultas Pertanian (Wisnujati 2006). Hasil clustering yang lebih baik dari penelitian sebelumnya diharapkan bisa didapatkan dan bisa memberikan ilmu pengetahuan dan informasi yang berguna.

2 Analisis asosiasi. dan memperbaiki ketidakkonsistenan data. kategori SMA. Pattern Data mining Data Selection Data Warehouse Data Cleaning Data Integration Databases Gambar 1 Tahapan dalam KDD (Han & Kamber 2001). dan konstruksi atribut (atau konstruksi fitur) (Han & Kamber 2001). data warehouse. Proses transformasi data mengubah data menjadi bentuk yang sesuai untuk dilakukan tahapan data mining. Integrasi dan Transformasi Data Integrasi data mengkombinasikan data dari sumber-sumber yang berbeda menjadi bentuk sebuah penyimpanan data yang koheren. Predictive data mining menganalisis data yang bertujuan untuk membangun sebuah atau himpunan model. 2 mendapatkan karakteristik data dari hasil clustering menggunakan SOM. Data mining dapat diklasifikasikan menjadi dua kategori: descriptive data mining dan predictive data mining. fungsionalitas data mining adalah: 1 Deskripsi kelas/ deskripsi konsep dan diskriminasi. Ruang Lingkup Penelitian ini meliputi penerapan salah satu fungsionalitas dari data mining yaitu analisis cluster. memperhalus noise ketika teridentifikasi. adalah: 1 Pembersihan Data 2 Integrasi Data 3 Seleksi Data 4 Transformasi Data 5 Data mining 6 Evaluasi Pola 7 Presentasi Pengetahuan Pembersihan Data Data yang bersih adalah data yang konsisten dan tidak mengandung nilai yang tidak lengkap dan noise. seperti dalam data warehousing. Tahap-tahap proses KDD (Gambar 1) menurut (Han & Kamber 2001). dan data yang tidak konsisten (Han & Kamber 2001). Proses pembersihan data bertujuan untuk melengkapi nilai yang tidak lengkap. IPB. 2. 3 Klasifikasi dan prediksi. dan Kimia (cawu 1 sampai cawu 7) dari pelamar jalur USMI tahun 2004 dengan pilihan pertama program sarjana di Fakultas Pertanian. generalisasi dari data. Matematika. agregasi. Data Mining Data mining adalah kegiatan penemuan pola-pola yang menarik dari data berukuran besar yang disimpan dalam basis data. Persentase masing-masing cluster berdasarkan daerah asal pelamar. Descriptive data mining menjelaskan himpunan data dengan memberikan banyak informasi secara jelas dalam kalimat yang singkat dan memberikan sifat-sifat umum yang menarik dari data. 4 Analisis cluster. data yang mengandung noise. Analisis cluster menggunakan SOM diharapkan akan bermanfaat sebagai pertimbangan pengambilan keputusan di masa depan. TINJAUAN PUSTAKA Knowledge Discovery in Database Data mining merupakan salah satu tahap pada proses Knowledge Discovery in Database (KDD).Tujuan Penelitian Penelitian ini memiliki tujuan: 1 mengimplementasikan algoritma SOM dalam clustering data pelamar jalur USMI tahun 2004 dengan pilihan pertama program studi di Fakultas Pertanian IPB. KDD adalah penyulingan informasi menarik yang tidak biasa. dan putusan diterima akan dilihat untuk melihat pola yang mungkin terjadi dari clustering. Analisis cluster menggunakan metode SOM akan diimplementasikan pada rata-rata nilai Biologi. normalisasi. yang terkandung dalam basis data berukuran besar. atau sarana penyimpanan yang lain. Proses ini meliputi: penghalusan. Secara umum data yang tidak bersih adalah: nilai yang tidak lengkap. Fisika. Manfaat Penelitian Informasi yang bernilai berupa karakteristik pelamar dengan pilihan pertama program studi di Fakultas Pertanian IPB akan dihasilkan dari penelitian ini. Menurut (Han & Kamber 2001). yang sebelumnya tidak diketahui dan potensial bermanfaat (Han & Kamber 2001). . dan berusaha untuk meramalkan karakteristik dari himpunan data baru (Han & Kamber 2001).

Pada setiap tahap dilakukan penggabungan setiap pasangan titik pada cluster sampai hanya satu titik (atau cluster) yang tertinggal. Partisi yang terbentuk harus memenuhi syarat yaitu setiap cluster harus berisi minimal satu objek dan setiap objek harus termasuk tepat satu cluster. lakukan: • Kompetisi. K . Untuk simpul-simpul ini. Jaringan Kohonen memberikan sebuah tipe dari SOM. • Metode berdasarkan model. Misalkan ada sebuah basis data berisi n objek. Pada setiap langkah. Clustering berbeda dengan klasifikasi. w2 j . x n 2 . • Kooperasi. yaitu membuat sebuah dekomposisi berhirarki dari himpunan data (atau objek) menggunakan beberapa kriteria. dengan kesamaan record dalam cluster dimaksimumkan dan kesamaan record di luar cluster diminimumkan (Larose 2005). • Metode hirarkhi. dimulai dengan satu cluster besar yang berisi semua titik data. • Metode berdasarkan kepekatan. x n ) dari semua simpul output. dan adaptasi yaitu perubahan simpul pemenang dan lingkungannya (Larose 2004). setelah competitive learning (Han & Kamber 2001). dengan tiap partisi merepresentasikan cluster dan k ≤ n. kooperasi yaitu setiap simpul pemenang bekerjasama dengan lingkungannya. wmj (Larose 2004). Secara umum metode utama clustering dapat diklasifikasikan menjadi kategori-kategori berikut (Han & Kamber 2001): • Metode partisi. L . Analisis Cluster Clustering adalah pengelompokan dari record. merupakan pendekatan yang berdasarkan pada struktur multiple-level granularity. dimulai dengan titik-titik sebagai cluster individu. x n ) dari fungsi jarak.5 Analisis pencilan. dilakukan pemecahan sebuah cluster sampai setiap cluster berisi sebuah titik (atau terdapat k cluster). SOM memperlihatkan tiga karakteristik: kompetisi yaitu setiap vektor bobot saling berlomba untuk menjadi simpul pemenang. Identifikasikan semua simpul output j dalam lingkungan simpul pemenang J didefinisikan oleh lingkungan berukuran R. Metode partisi membangun k partisi pada basis data tersebut. SOM merupakan metode berdasarkan model dari pendekatan jaringan syaraf tiruan (Han & Kamber 2001). SOM mengenali distribusi (seperti competitive learning) dan topologi dari vektor input yang melalui proses training (Demuth & Beale 2003).current + η x ni − wij . yaitu: sebuah model yang dihipotesis untuk tiap cluster dan ide dasarnya adalah untuk menemukan model yang cocok untuk tiap cluster. Keterangan: • Inisialisasi nilai bobot biasanya menggunakan nilai tengah (middle ( ) . meramalkan. Berikut ini adalah langkah-langkah algoritma SOM (Larose 2004): Untuk setiap vektor x. • Metode berdasarkan grid. Algoritma Self Organizing Maps Misalkan himpunan dari m nilai-nilai field untuk record ke-n menjadi sebuah vektor input x n = x n1 . • Perbaharui learning rate (η ) dan ukuran lingkungan (R) seperlunya. perlakuan ketika kriteria • Hentikan pemberhentian dicapai.new = wij . Untuk setiap simpul output j. x nm . Algoritma-algoritma clustering digunakan untuk menentukan segmen keseluruhan himpunan data menjadi subgroup yang relatif sama atau cluster. Clustering tidak mengklasifikasikan. kelas khusus dari jaringan syaraf tiruan (Larose 2004). dan 6 Analisis evolusi. hitung nilai D ( w j . dalam hal tidak ada variabel target untuk clustering. x n3 . Self Organizing Maps (SOM) Jaringan Kohonen diperkenalkan oleh Teuvo Kohonen seorang ilmuwan Finlandia pada tahun 1982. dan tidak mirip dengan record dari cluster lain. SOM adalah metode terkemuka pendekatan jaringan syaraf tiruan untuk clustering. lakukan: Adaptasi. Cluster adalah koleksi dari record yang mirip. o Divisive. SOM berbeda dengan competitive learning yaitu syaraf dalam satu lingkungan belajar untuk mengenali bagian lingkungan dari ruang input. observasi-observasi atau kasus-kasus ke kelas yang memiliki kemiripan objek-objeknya. Metode ini memiliki dua jenis pendekatan yaitu : o Agglomerative. Perbaharui nilai bobot: wij . dan himpunan dari m bobot untuk simpul output tertentu j menjadi vektor bobot w j = w1 j . atau memprediksi nilai dari sebuah variabel target. merupakan pendekatan yang berdasarkan pada konektivitas dan fungsi kepadatan. Tentukan simpul pemenang J yang meminimumkan D( w j .current .

2002). Beberapa indeks yang biasa digunakan adalah: Hubert Statistic.k = ∑ ( X ij − X j )( X ik − X k ) n − 1 i=1 (Tan et al. yaitu cluster harus terpisah secara luas dari cluster lain. Gambar 2 mengilustrasikan konsep lingkungan. Demuth & Beale 2003). • Lingkungan berukuran R berisi indeks dari semua simpul-simpul yang berada dalam radius R dari simpul pemenang * . dan topologi random (Demuth & Beale 2003). Terdapat tiga pendekatan untuk mengeksplorasi validitas cluster: dengan nc ialah banyak cluster. ada dua kriteria (Salazar et al. Indeks validitas digunakan sebagai metode validasi cluster untuk evaluasi kuantitatif dari hasil clustering (Salazar et al. s c (Qk ) dalam Cluster Qk ialah s c (Qk ) = ∑i X i − C k . Lambang θ adalah penurunan tingkat pembelajaran (PLR). • Kriteria pemberhentian bisa berupa pembatasan jumlah iterasi. N (d ) = j . menurun seiring perubahan waktu t (Laurence 1994). Nk 0 < η < 1 . dan 2 Separation.point/midpoint) atau menggunakan nilai acak (Demuth & Beale 2003). d ≤ R (Demuth & Beale i i { ij } 2003). Indeks Dun. mengevaluasi hasil dari metode clustering berdasarkan praspesifikasi struktur yang diterima dari sebuah data yang mencerminkan intuisi pengguna tentang struktur clustering dari data. 2002): 1 Compactness. topologi hexagonal. Ql ) ⎭ k ≠l Validitas Cluster Validasi cluster ialah prosedur yang mengevaluasi hasil analisis cluster secara kuantitatif dan objektif (Jain & Dubes 1988). xn ) = ∑ i wij − x ni ( )2 (Kaski 1997. Indeks Davies-Bouldin Pendekatan pengukuran ini untuk memaksimalkan jarak inter-cluster di antara Cluster C i dan C j dan pada waktu yang sama dengan Σ ialah matriks kovarian dari vektor input (x n ) . yaitu anggota dari masingmasing cluster harus sedekat mungkin dengan yang lain. Indeks Davies-Bouldin didefinisikan sebagai ⎧ s (Q ) + s c (Ql ) ⎫ 1 nc DB(nc ) = ∑ max ⎨ c k ⎬. 2 kriteria internal. membandingkan sebuah clustering dengan struktur struktur clustering yang lain yang didapatkan dari metode clustering yang sama tetapi nilainilai parameternya dimodifikasi (Salazar et al. dan R-squared (RS) (Salazar et al. Dilain pihak. Topologi lingkungan yang umum digunakan ada 3: topologi grid. mengevaluasi hasil clustering dalam konsep kuantitatif yang didapat dari data. atau ketika η = 0 (Larose 2004). 2004). 1 n Σ j . Gambar 2 kanan menunjukkan lingkungan dari radius R=2. • Perubahan tingkat pembelajaran (LR/ α / η ) mencoba untuk meminimalkan jarak antara titik Jarak intra-cluster dalam sebuah cluster. • Jarak Mahalanobis digunakan untuk atribut yang berkorelasi satu sama lain D ( w . Indeks Davies-Bouldin. dengan rumus α (t + 1) = θ α (t ) . dan 3 kriteria relatif. n k =1 ⎩ d kl (Q k . 2002). dengan N k adalah banyak titik yang termasuk dalam Cluster Qk dan C k adalah centroid dari Cluster Qk . standard deviation Root-mean-square (RMSSTD). Jarak Inter-cluster didefinisikan sebagai d kl = Ck − Cl . x ) = ( w − x ) ∑ −1 ( w − x ) T . • Fungsi jarak biasanya digunakan Jarak Euclidean D(w j . dengan C k dan C l ialah centroid Cluster k dan Cluster l. Gambar 2 Ilustrasi lingkungan (Demuth & Beale 2003). j n j i j i 1 kriteria eksternal. Skema clustering yang optimal menurut Indeks Davies- . Untuk memilih skema clustering optimal. Gambar 2 kiri menunjukkan lingkungan dari radius R=1 sekeliling simpul 13. 2002).

dan o Reset Eksekusi. DBI. dan Kimia (cawu 1 sampai cawu 7) dari pelamar tahun 2004 dengan pilihan pertama program sarjana di Fakultas Pertanian. dan waktu di Menu Resume. 0.9. 7. Masukan ke algoritma SOM adalah data dari praproses dengan kombinasi dari parameter awal. digunakan untuk menampilkan halaman tentang aplikasi secara singkat. Menu Resume untuk menampilkan parameter awal. Fisika. transformasi data. o Scatter Graph. 0. Deskripsi Aplikasi Self Organizing Maps Aplikasi Self Organizing Maps dibangun untuk digunakan pada tahap data mining. Menu Centroid dan Rataan digunakan untuk menampilkan tabel centroid dan rataan dari hasil clustering. o Frekuensi Graph. Pemilihan atribut nilai Biologi. 3 ukuran lingkungan (R) : 0. Jarak Mahalanobis digunakan sebagai fungsi jarak karena antar atribut saling berkorelasi (Wisnujati 2006). akan . Kimia. dan 0. dan 4 penurunan learning rate (θ ) : 0. dan transformasi data telah dilakukan oleh peneliti sebelumnya (Riyanti 2005). METODE PENELITIAN Praproses Penelitian ini akan dilakukan menggunakan proses KDD. DBI. dan waktu dari perlakuan yang pernah dilakukan. Dari berbagai kombinasi parameter awal dan iterasi. dan 10. integrasi data. dan Matematika. Menu Frekuensi Graph untuk menampilkan banyaknya data untuk masingmasing cluster dalam bentuk grafik batang. Fisika. • Arsip. o Centroid dan Rataan. Metode inisialisasi nilai vektor bobot menggunakan midpoint dengan topologi yang digunakan adalah topologi grid. Menu PHP digunakan sebagai penghubung Menu About ke halaman phpMyAdmin. • PHP. Data Mining Data mining yang dilakukan pada penelitian ini adalah clustering data menggunakan algoritma SOM untuk melihat karakteristik (deskripsi) pelamar tahun 2004 dengan pilihan pertama program studi yang ada di Fakultas Pertanian IPB melalui jalur USMI. 5. Tahapan yang termasuk dalam praproses yaitu: pembersihan data. Menu Home digunakan untuk menampilkan form isian parameter awal dan data yang akan digunakan. dipilih clustering yang menghasilkan DBI minimal sebagai clustering terbaik. dan Matematika karena atribut ini selalu diacu dalam seleksi penerimaan mahasiswa baru jalur USMI (Wisnujati 2006). 2 learning rate (η ) : 0. Matematika. data. Tahap pembersihan data. Menu Bobot Graph digunakan untuk menampilkan graph dari bobot/centroid masing-masing cluster dalam bentuk grafik titik garis. o Resume.1. 0. 4. o Bobot Graph. dan • About. o Begin New Train. 6. o Scatter Graph. Kimia. 2002). o Tabel Input. DBI. dan o Reset Eksekusi. dan waktu. Fisika. 5. 9.Bouldin adalah yang memiliki Indeks DaviesBouldin minimal (Salazar et al. dengan banyak iterasi: 1. Parameter awal dari algoritma SOM yang akan digunakan adalah: 1 ukuran ( j ) dari vektor bobot ( w j ) : 3. dan 1. Menu Home memiliki anak menu yang sama dengan menu Arsip. integrasi data. o Tabel Input.5. o Centroid dan Rataan. IPB. o Frekuensi Graph. 8. data. o Begin New Train. dan seleksi data. Seluruh hasil clustering dari algoritma SOM akan divalidasi menggunakan validasi cluster Indeks Davies-Bouldin (DBI). Menu Tabel Input untuk menampilkan data yang telah di lakukan tahap clustering dengan parameter awal. Data hasil seleksi sebanyak 1899 baris dan 4 field yaitu: Biologi. Menu Scatter Graph untuk menampilkan data dan centroid dalam bentuk scatter plot. Aplikasi ini memiliki menu: • Home.9. Pada tahap Seleksi data akan dipilih rata-rata nilai Biologi. • Help. dan 10. Menu Arsip digunakan untuk menampilkan parameter awal.5. Kriteria pemberhentian algoritma SOM dalam penelitian ini adalah iterasi. o Bobot Graph.1. o Resume. Tahapan data mining dilakukan menggunakan aplikasi yang dibangun. 3.

Apache Webserver.1 0. Ukuran Output 3 4 5 6 7 8 9 10 LR 0. Lingkungan Penelitian Lingkungan penelitian yang digunakan adalah sebagai berikut: • Perangkat lunak: Microsoft® Windows XP Professional 2002 SP2.96 10.0. kategori SMA.9 0. Banyaknya data masing-masing cluster dengan ukuran output 9 dapat dilihat pada Tabel 2 (penomoran cluster tidak menunjukkan tingkatan).302 113.95 6.5 0. Parameter penurunan learning rate (PLR) dari learning rate (LR) akan berpengaruh terhadap DBI mulai pada iterasi 2.16 10. Tabel 2 Banyak anggota masing-masing cluster dengan ukuran output 9.285 353. Persentase masingmasing cluster berdasarkan daerah asal pelamar. Representasi pengetahuan akan memperlihatkan karakteristik cluster dari SOM berupa rataan dan centroid dari cluster. dan putusan diterima akan dilihat untuk melihat pola yang mungkin terjadi dari hasil clustering.9. LR 0.5 0. PHP 5. • Perangkat keras: komputer personal dengan spesifikasi Pentium IV 2.370 87. Rataan dan centroid masing-masing cluster dengan ukuran output 9 dapat dilihat pada Tabel 3 dan Tabel 4. RAM 512 MB.1 0.Representasi Pengetahuan Representasi pengetahuan akan dilakukan terhadap cluster yang sudah divalidasi.1 0.9 ITERASI 1 5 1 5 10 1 5 5 DBI 209.48 12.9 0.5 0. dan 5 iterasi.0. DBI terbaik untuk masing-masing ukuran output/ vektor bobot dapat dilihat pada Tabel 1.472 79.856 164.1 PLR 0.80 14.5 0. yang menghasilkan DBI 53. PLR 0.1.743 4.1 0.32 9. HASIL DAN PEMBAHASAN Indeks Davies Bouldin (DBI) Pengamatan terhadap DBI dilakukan untuk mengukur validitas dari hasil clustering. Indeks Davies-Bouldin terbaik dihasilkan dengan parameter awal: ukuran output 9. Cluster ke1 2 3 4 5 6 7 8 9 Banyak anggota 188 284 197 212 199 243 272 189 115 Persentase banyak anggota 9.452 202.9 0. DBI Terbaik Dari hasil penelitian. Microsoft® Internet Explorer 6.3.37 11.4 GHz. Tabel 1 Indeks Davies-Bouldin terbaik untuk tiap ukuran output. Hal ini bisa dilihat dengan PLR yang berbeda pada iterasi 1 akan menghasilkan DBI yang sama.90 14.06 .472 (Tabel 1).917 53.

61 76.94 69.20 76.93 73.87 70.12 68.89 81.35 Matematika 66. bahkan ke tujuh untuk nilai Biologi (Tabel 5). Cluster 7. Cluster 4 menduduki peringkat ke lima (Tabel 5). namun nilai yang lainnya di bawah rata-rata. dan Matematika. menduduki peringkat ke dua dari rataan secara keseluruhan (Tabel 4). Kimia.16 74.15 74. Tabel 5 Urutan cluster berdasarkan nilai Peringkat 1 2 3 4 5 6 7 8 9 Cluster keBiologi 3 6 7 5 4 8 9 1 2 Fisika 3 9 4 6 1 5 8 7 2 Kimia 3 9 8 5 4 6 7 2 1 Matematika 9 3 5 6 4 2 8 7 1 Cluster 9 yang memiliki 6.62 68.49 83.59 67. dan Matematika tertinggi (Tabel 4). Secara keseluruhan. dan 1 merupakan 3 cluster dengan rata-rata nilai di bawah rataan keseluruhan. rata-rata nilai Biologi. dan Matematika Cluster 8 berada di bawah rata-rata (71. Fisika. 7.60 69.78 74. Cluster 4 (11.11 76.34 69. .74 76.Tabel 3 Cluster ke1 2 3 4 5 6 7 8 9 Centroid masing-masing cluster dengan ukuran output 9.16).50 71.82 67.46 73. Cluster 5 menduduki peringkat ke tiga untuk nilai Matematika.33 74.83% dari rata-rata 71.34 74. sedangkan nilai Kimia menduduki peringkat ke enam (Tabel 5).44 Deskripsi Clustering Terbaik Cluster 3 yang memiliki 10.60 72. Cluster 6 menempati peringkat ke 5 untuk rataan keseluruhan (Tabel 4).03 68.86 Rataan 81.27 68.37 76.91 70.94 69. 2.43 69.80% (Tabel 4). Cluster 6 memiliki kemampuan lebih di bidang Biologi dengan peringkat ke dua untuk nilai Biologi (Tabel 5).26 71. Nilai Fisika dan Matematika Cluster 6 menduduki peringkat ke empat.61 69. Namun Cluster 3 bukan cluster yang memiliki nilai yang terbaik untuk seluruh atribut.17 Tabel 4 Rataan nilai mata ajaran masingmasing cluster dengan ukuran output 9.41 76.74 68. Kimia. Fisika.68 68.41 68. namun hanya menduduki peringkat ke dua dari nilai Fisika dan Kimia.37% dari data (Tabel 2).43 80.18 Fisika 69.65 68.81 79. peringkat ke 4 untuk nilai Biologi dan Kimia.66 81.22 82.79 77.04 68. Fisika. Cluster 8 yang menduduki peringkat ke enam memiliki 9.95% dari data (Tabel 2 dan Tabel 4). Cluster 9 memiliki kemampuan yang cukup kuat untuk nilai Matematika. dan peringkat ke 6 untuk nilai Fisika (Tabel 5).11 Kimia 65.84 73.39 74. Cluster 5 (10.76 67.53 Matematika 79.13 78.42 66.38 73.08 73.33 75. sedangkan untuk nilai Biologi.99 74.50 66.09 71. yaitu 68. Cluster 5 memiliki kelemahan di nilai Fisika.39 69. Cluster 9 memiliki nilai Matematika tertinggi.31 73. dan Kimia.92 76.50 74.83 75.88 65.86 68. dan 7 (Tabel 5). Rataan Fisika 80.28 70. Kimia.52 76. Centroid Biologi 69.48 76.06% dari data (Tabel 2). Cluster 8 memiliki kemampuan yang kurang di bidang Biologi.77 77. Fisika.88 71.73 75. Tabel 4.28 73. Nilai Fisika Cluster 5 di bawah rata-rata. dan Matematika dengan masing-masing peringkat ke 6.91 dari rata-rata 73.12 77.16% dari data) adalah Cluster yang menduduki peringkat ke empat dari rataan keseluruhan (Tabel 2 dan Tabel 4).20 68. memiliki anggota terbanyak ke 2 dari data yaitu 12% (Tabel 2).12 75.84 70.55 66. Cluster 8 menduduki peringkat ke 3 untuk nilai Kimia (Tabel 5).57 74. adalah cluster yang memiliki rataan Biologi. Cluster 7 menduduki peringkat ke tiga untuk nilai Biologi (Tabel 5).16 Cluster ke3 9 5 4 6 8 7 2 1 Rataan Biologi 83.47 76.97 67. Cluster 4 memiliki kelebihan di nilai Fisika (menduduki peringkat ke 3).51 79. namun lemah di Biologi.44 67.48% dari data) adalah cluster yang menduduki peringkat ke tiga dari rataan (Tabel 2 dan Tabel 4).80 Kimia 81. peringkat ke dua untuk nilai Matematika (Tabel 5).

19 14.11 4.25 8.48 10.43%. dan lain=diterima di fakultas selain Fakultas Pertanian). Tabel 8 Detail putusan masing-masing cluster diurut berdasarkan rataan nilai.03 13.95 12.92 1.67 0 0 0 16. dan Nusa Tenggara (Tabel 7).00 0.94 2.00 0.49 4.82 1.00 0.00 0.50 0.76 3.17 0. Secara keseluruhan persentase pelamar dari Jawa semakin meningkat mengikuti turunnya rataan cluster (Tabel 6). Pelamar dari Luar Negeri 0.00 0.61 76.00 0.82 0.53 0.47 0.66 86.00 0.67 1.20 0.05 16. Cluster 2.59 13.53 1.05% dari data berada hanya di Cluster 2 (Tabel 6).17 6 0 0 0 0 0 0 100.32 10.88 5.62 21.00 0.68 10. bahkan seluruh pelamar Cluster 1 berasal dari Jawa (Tabel 7).00 0.73 84. Demikian juga dengan pelamar yang berasal dari Nusa Tenggara (5) dan Sulawesi (7) (Tabel 6). pelamar yang terbanyak diterima adalah yang berasal dari Jawa yaitu sebesar 80.30 9.67% (Tabel 6). Keterangan: n = data keseluruhan.49 9. cluster-cluster tersebut masih memiliki persentase diterima (Tabel 8).67 9. Putusan Persentase putusan tidak diterimanya pelamar dari tiap cluster berbanding terbalik dengan rataan nilai keseluruhan (Tabel 8.06 2.15 13.32 0. dan Luar Negeri hanya diterima untuk satu cluster tertentu (Tabel 7).00 0.17 77.88 17.88 2.57 1.46 9.53 5.11 78.79 0.47 0.63 80.60 8. Tabel 7 Cluster ke3 9 5 4 6 8 Persentase pelamar yang diterima dalam setiap daerah asal Asal Pelamar 1 3 5 66. dan Cluster 5 (Tabel 6).78 Keterangan: n = data keseluruhan. Cluster 2. Cluster ke3 9 5 4 6 8 7 2 1 n 0 5.51 11. Cluster 7.00 0.37 16.74 0. Cluster 9.67 16.29 81. Secara keseluruhan.67 4.05 1. Mayoritas anggota dari data berasal dari Jawa (3) sebesar 77.57 18.72 21.92 5. 1=diterima di IPB.12 0.19 9.30 16.72 18.35 0.09 1 A 23.70 69.74 0.00 0.22 10.65 1.65 11.02 0.76 14. Sumatera memiliki persentase yang lebih besar dari persentase dia sendiri secara keseluruhan di Cluster 3.53 0.43 lain 20. Terlihat bahwa pelamar yang berasal dari Jawa banyak berada di cluster yang memiliki rataan lebih rendah (Cluster 4.35 0.92 79. dengan persentase terkecil di Cluster 9. Cluster 8. Irian Jaya.59 15.59 1.67 0 0 0 1.00 0.00 1. dan semakin menurun mengikuti turunnya rataan cluster (Tabel 6).27 12.00 0.00 0 0 0. Hal ini menunjukkan bahwa nilai pelamar bukan satusatunya acuan dalam seleksi penerimaan mahasiswa baru.20 Keterangan: n = data keseluruhan.16 6 0.09 3.43 1.74 0. Persentase pelamar yang diterima menunjukkan penurunan sebanding dengan penurunan nilai rataan cluster.23 12.Daerah Asal Secara keseluruhan dari semua cluster. Kendati Cluster 6.47 1.00 0.18 46. dengan 0=tidak diterima.04 13.46 13.00 0.20 7 100 0 0 0 0 0 0 0 0 8 100 0 0 0 0 0 0 0 0 9 0 0 0 0 0 0 0 100 0 54.19 Tabel 6 Persentase asal pelamar dalam setiap cluster Cluster ke3 9 5 4 6 8 7 2 1 n Asal Pelamar 1 3 5 3.00 0.87 2. Hal ini berlaku untuk daerah asal Sumatera.84 7 8 9 7 2 1 n 45. dan Cluster 1) (Tabel 6).47 0.00 0. bisa kita lihat bahwa pelamar dari Sumatera (1) paling banyak di Cluster 3. pelamar dari Sumatera banyak berada pada cluster yang memiliki rataan lebih tinggi. .90 73.37 0. Sulawesi.70 87. Cluster 6.19 28. Cluster 7.60 17. A=diterima di Fakultas Pertanian.00 0.23 19. Untuk pelamar dengan daerah asal Kalimantan.01 0.12 14. dan Cluster 1 memiliki rataan nilai keseluruhan di bawah rata-rata (Tabel 4). Hal ini menunjukkan bahwa.57 21. Cluster 8.35 0 0 16.06 0. Jawa.62 8.

0 10.1 12.23 4.7 1.6426.3 20.5 5.1 12.81 3.1 7.0 0.63 4.3 21.59. dengan rataan masing-masing 74.0 15.91.3315.2 4.3 0 57.0 17. dan Cluster 5.44 0.35 43. semakin meningkat sebanding dengan rataan cluster (Tabel 10).00 0 2.08.67 0 0 0 0 0 8.8 1. Kimia. Tabel 10 Persentase pelamar yang diterima dari setiap cluster dalam satu kategori SMA Cluster A+ ke3 9 5 4 6 8 7 2 1 n A AB+ B B. Hal ini menunjukkan bahwa peluang untuk diterima dari masingmasing kategori bergantung kepada nilai.47 1.20 Keterangan: n = data keseluruhan.5 5.35 43.67 0 8.1911.5 9. Kategori SMA juga berkontribusi terhadap diterima/tidaknya pelamar.44 16.2 10.1 10.33 0 13.0 50 0.81 0 0 9.Kategori Sekolah Asal Pelamar Dari keseluruhan data terlihat persentase dari pelamar dalam setiap kategori SMA tersebar merata dalam tiap-tiap cluster (Tabel 9).4 Keterangan: n = data keseluruhan.39 0 7.76 16.4 2.1 20. semakin baik kategori sebuah SMA. Cluster 6. Saran Penelitian selanjutnya dapat difokuskan untuk optimasi kombinasi nilai-nilai parameter algoritma SOM untuk memperoleh hasil yang optimal.09 6.0 0.9.8 0.00 1.1 0.3515.85 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 45.0017.4414.76 9.6 17.4435.33 0 7.1 0 11.20 Keterangan: n = data keseluruhan.89 6.12.3826.56 2.35 0 0. 71.4 5. 6.4 5.3 24.06 3.44 17.33 8.29 1.08 9.29 2.7 11.11 0 0 0 2. Peluang untuk diterima dari masing-masing kategori bergantung kepada nilai. dan Matematika dari masing-masing cluster (81.1 31.00 52.5 0. 70.5 2.1 14.5622.1 7.95 1.02 2.85 4.1 12.6 6.1 4.3 3.0 25.3 3.7130.1 0 0.29 2.9517.78 44.1 14.13 7.7 0 12. 13.2 0.9017. Hal ini menunjukkan bahwa dari data terlihat kategori SMA berkontribusi terhadap diterima/tidaknya pelamar.57 9.7 0 14. 77.00 4.4 0 0.6426.2 5. dan Cluster 1.38 0. Fisika.4651.0 12. KESIMPULAN DAN SARAN Kesimpulan Dari hasil percobaan ditemukan bahwa clustering terhadap data yang memiliki DBI minimal adalah ukuran output 9 dengan learning rate 0.8 13.67 0 15.8928. Cluster 2.7 15.76 35.08 4.1 7.04.0 5.00 0 0 0 8.37 0 0 0 2.70 14.71 13.0 13. Pelamar dengan pilihan pertama Fakultas Pertanian dari Sumatera banyak berada pada cluster yang memiliki rataan lebih tinggi (Cluster 3.56 8.04 4.3 5.4511.97 11.67 0 0 0 0 0 25.5 10. Dalam sebuah cluster.09.44 27.3812.00 0 9. penurunan learning rate 0.48 23.9 20.3 17.C+ C CD 40.3 5.24 1.6 7.9 10.9 8.1.65 12.54 8. maka persentase pelamar yang diterima semakin tinggi (Tabel 11). Cluster 8.13 47. Pelamar dari Luar Negeri tergolong pelamar dengan nilai rendah hanya berada di Cluster 2 dengan rataan 68. dan 74.08 0 5.3 10.52 0 0 9.76 5.9 13.74 2.3 50 14.3 14.2833.59.4038.17 5.56 0 0.4 27.3 0.2 10.3 0 14. 68.0 37.54 8.76 25 0 0 0 0 0 0 0 0 0 0 41.33 2.09 4. namun nilai pelamar bukan satu-satunya acuan dalam seleksi penerimaan mahasiswa baru.1 0 0.0018.16). Berbeda dengan daerah asal Jawa.11 0 2.1714.3 10.27 17.5 14.33 0 0 8.9 12.1 10. Persentase pelamar dalam satu kategori SMA.8628.14 4.27 1.02 2.6 14.2 14.2 6.2211.32 8.8315.4 7.6114.1 20.4 9.7 7. 73. Cluster 9. Tabel 11 Persentase pelamar yang diterima dari setiap kategori SMA dalam satu cluster Cluster A+ ke3 9 5 4 6 8 7 2 1 n A AB+ B BC+ C C0 0 0 0 0 0 0 0 D 4.88 0.8823.6 9. Cluster 7.67 0 100 13.472.61 14.67 4.5 14.71 46.03 12.8 6.1 28. .57 00 Tabel 9 Persentase pelamar dari setiap cluster dalam satu kategori SMA Cluster A+ ke3 9 5 4 6 8 7 2 1 n A AB+ B B.43 0 0.35 0 0.90 42.3 10. dan 67.C+ C CD 18.3323.44 0.20 16.50.22 16.2514.9 10.3312.41 2. pelamar yang berasal dari Jawa banyak berada di cluster yang memiliki rataan lebih rendah (Cluster 4.1 8.50 4. dan 5 iterasi yang menghasilkan DBI 53. dengan rataan nilai Biologi.52 55.87 8.93).

New Jersey: Prentice Hall Inc. Parra MCM. Kamber M.DAFTAR PUSTAKA Demuth H. Helsinki University of Technology. 2004. Data Exploration Using Self organizing maps [tesis]. Pembentukan Sistem Inferensi Fuzzy Mamdani dengan Fuzzy CMeans untuk Data Mahasiswa Baru IPB Tahun 2000-2004 [skripsi]. USA: Academic Press. . Dubes RC. Larose DT. 1997. Bogor: Departemen Ilmu Komputer.ist. 2002. New Jersey: Prentice Hall Inc.umn. 2005. Beale M.pdf [10 Januari 2006] Tan PN. Kaski S. 1988.ppt [23 Mei 2006]. Wisnujati I. Veles AC. Discovering Knowledge in Data: An Introduction to Data mining. Ortega LO. Department of Computer Science and Engineering. Steinbach M. http://citeseer. Data mining: Concepts and Techniques. Neural Network Toolbox For Use with MATLAB®. 2003. FMIPA-IPB. Salazar GEJ. Laurence F. http://wwwusers. 2004. Finlandia: Laboratory of Computer and Information Science. FMIPA-IPB. 1994. Algorithms for Clustering Data. Kumar V. USA: The MathWorks.edu/~kumar/dmbook/dmslides/ chap2_data. Bogor: Departemen Ilmu Komputer. 2006. USA: John Wiley&Sons Inc.edu/rd/salazar02cluster . A Cluster Validity Index for Comparing Non-hierarchical Clustering Methods [terhubung berkala]. 2001. Introduction to Data Mining [terhubung berkala]. Riyanti EF. Han J.psu. Jain AK. Fundamentals of Neural Networks. Pengembangan Aplikasi Data Mining Menggunakan Metode Induksi Berorientasi Atribut (Studi Kasus: Data PPMB IPB) [skripsi].cs. Inc.