Anda di halaman 1dari 51

UNIVERSITAS GUNADARMA

DATA MINING
All about Data Mining in 50 Page !!
Agung Prastyo 32109534

Hiskia Fandinata - 33109576

2 DB 23

Apa itu data mining ?

Pendahuluan Perkembangan data mining (DM) yang pesat tidak dapat lepas dari perkembangan teknologi informasi yang memungkinkan data dalam jumlah besar terakumulasi. Sebagai contoh, toko swalayan merekam setiap penjualan barang dengan memakai alat POS(point of sales). Database data penjualan tsb. bisa mencapai beberapa GB setiap harinya untuk sebuah jaringan toko swalayan berskala nasional. Perkembangan internet juga punya andil cukup besar dalam akumulasi data. Tetapi pertumbuhan yang pesat dari akumulasi data itu telah menciptakan kondisi yang sering disebut sebagai rich of data but poor of information karena data yang terkumpul itu tidak dapat digunakan untuk aplikasi yang berguna. Tidak jarang kumpulan data itu dibiarkan begitu saja seakan-akan kuburan data (data tombs). Investasi yang besar di bidang IT untuk mengumpulkan data berskala besar ini perlu dijustifikasi dengan didapatnya nilai tambah dari kumpulan data ini.,

Kebutuhan dari dunia bisnis yang ingin memperoleh nilai tambah dari data yang telah mereka kumpulkan telah mendorong penerapan teknik-teknik analisa data dari berbagai bidang seperti statistik, kecerdasan buatan dsb pada data berskala besar itu. Ternyata penerapan pada data berskala besar memberikan tantangan-tantangan baru yang akhirnya memunculkan metodologi baru yang disebut data mining ini. Bermula dari penerapan di dunia bisnis, sekarang ini data mining juga diterapkan pada bidang-bidang lain yang memerlukan analisa data berskala besar seperti bioinformasi dan pertahanan negara.

Dalam

tulisan

ini,

penulis

mencoba

memperkenalkan

data

mining

dengan

membandingkannya dengan bidang ilmu yang sudah ada, dan juga memberikan beberapa ilustrasi tentang teknik-teknik yang umum dipakai di data mining,

1| Data Mining

Definisi

Ada beberapa definisi dari data mining yang dikenal di buku-buku teks data mining. Diantaranya adalah :

Data mining adalah serangkaian proses untuk menggali nilai tambah dari suatu kumpulan data berupa pengetahuan yang selama ini tidak diketahui secara manual.

Data mining adalah analisa otomatis dari data yang berjumlah besar atau kompleks dengan tujuan untuk menemukan pola atau kecenderungan yang penting yang biasanya tidak disadari keberadaannya

Menarik untuk diingat bahwa kata mining sendiri berarti usaha untuk mendapatkan sedikit barang berharga dari sejumlah besar material dasar. Dari definisi-definisi itu, dapat dilihat ada beberapa faktor yang mendefinisikan data mining :

data mining adalah proses otomatis terhadap data yang dikumpulkan di masa lalu

objek dari data mining adalah data yang berjumlah besar atau kompleks

tujuan dari data mining adalah menemukan hubungan-hubungan atau pola-pola yang mungkin memberikan indikasi yang bermanfaat
2| Data Mining

Sejarah Data mining bukanlah suatu bidang yang sama sekali baru. Salah satu kesulitan untuk mendefinisikan data mining adalah kenyataan bahwa data mining mewarisi banyak aspek dan teknik dari bidang-bidang ilmu yang sudah mapan terlebih dulu. Gambar 1 menunjukkan bahwa data mining memiliki akar yang panjang dari bidang ilmu seperti kecerdasan buatan (artificial intelligent), machine learning, statistic, database dan juga information retrieval.

Gambar 1

Beberapa teknik yang sering disebut-sebut dalam literatur data mining seperti classification, neural network, genetic algorithm dll. sudah lama dikenal di dunia kecerdasan buatan. Statistik memberikan kontribusi pada data mining dengan teknik-teknik untuk menyeleksi data dan evaluasi hasil data mining selain teknik-teknik data mining seperti clustering. Yang membedakan persepsi terhadap data mining adalah perkembangan teknik-teknik data mining untuk aplikasi pada database skala besar. Sebelum populernya data mining, teknik-teknik tersebut pada umunya diterapkan untuk data skala kecil saja. Selain itu beberapa teknik dari bidang database untuk transformasi data juga merupakan bagian integral dari proses data mining.

3| Data Mining

Akhir-akhir ini ada beberapa bidang ilmu seperti information retrieval yang juga terlibat dalam proses data mining untuk mengekstrak sumber data bagi data mining dari sumbersumber seperti teks dan website. Walaupun data mining memiliki sumber dari beberapa bidang ilmu, data mining berbeda dalam beberapa aspek dibandingkan dengan bidang ilmu seperti berikut :

statistik : model statistik dipersiapkan oleh para ahli statistik, sedangkan data mining mengembangkan statistik untuk menangani data berjumlah besar secara otomatis -

expert system (sistem cerdas) : model pada expert system dibuat berupa aturan-aturan berdasar pada pengalaman-pengalaman para ahli

data warehouse (DWH) : sering terjadi kerancuan antara data mining dan data warehouse karena keduanya sering dipakai bersamaan. Pada umumnya data warehouse lebih merujuk pada tempat untuk menyimpan data yang terkonsolidasi sedangkan data mining bisa dianggap sebagai perkakas untuk menganalisa otomatis nilai dari data itu

OLAP : seperti data warehouse, OLAP juga sering dibahas bersama data mining. Tetapi OLAP memiliki tujuan untuk memastikan hipotesa yang sudah diformulasikan terlebih dulu oleh penggunanya.

4| Data Mining

Apa yang bisa dan tidak bisa dilakukan data mining ?

Secara umum, data mining dapat melakukan dua hal : memberikan kesempatan untuk menemukan informasi menarik yang tidak terduga, dan juga bisa menangani data berskala besar.

Dalam menemukan informasi yang menarik ini, ciri khas data mining adalah kemampuan pencarian secara hampir otomatis. Mengapa disebut hampir otomatis karena dalam banyak teknik data mining ada beberapa parameter yang masih harus ditentukan secara manual atau semi manual.

Penelitian untuk melakukan setting secara adaptif merupakan bidang yang hangat diteliti. Data mining juga dapat memanfaatkan pengalaman atau bahkan kesalahan di masa lalu untuk meningkatkan kualitas dari model maupun hasil analisanya, salah satunya dengan kemampuan pembelajaran yang dimiliki beberapa teknik data mining seperti klasifikasi.

Kemampuan data mining untuk menangani data dalam jumlah besar memungkinkan data mining diterapkan pada masalah-masalah kompleks yang ukurannya tidak dibatasi lagi oleh otak manusia. Selain itu penelitian tentang algoritma parallel dari data mining juga membuka jalan agar data mining dapat diterapkan pada program skala yang lebih besar lagi.

Sebaliknya, ada beberapa hal yang tidak bisa dilakukan oleh data mining. Yang pertama perlu disadari adalah data mining bukanlah solusi yang cocok untuk setiap masalah. Ada banyak masalah yang justru lebih baik diselesaikan dengan statistic yang sederhana. Selain itu, data mining juga tidak bisa menemukan pengetahuan yang bermanfaat secara instan.

5| Data Mining

Dalam tahapan-tahapan dari proses data mining yang sudah kita bahas, seorang analis data mining perlu tahu perbedaan, kelebihan dan kekurangan dari teknik-teknik data mining yang ada sebelumnya mengaplikasikan yang paling cocok untuk masalah yang dihadapinya. Ketika menjalankan teknik data mining itu sendiri, si analis juga perlu mengarahkan programnya dengan melakukan persiapan-persiapan dan pemilihan parameternya.

Setelah data mining dilaksanakan pun si analis harus melakukan evaluasi terhadap pola-pola yang dihasilkan sebelumnya bisa merumuskan hasilnya. Terakhir perlu diingat bahwa data mining tidak bisa memberikan hasil yang bisa langsung digunakan. Banyak hasil dari data mining yang tidak bisa langsung diinterpretasikan dengan mudah.

Masih banyak juga teknik-teknik data mining yang belum memiliki teknik baku untuk menilai seberapa besar manfaat dari pola yang ditemukan. Karenanya untuk penilaian hasil data mining masih perlu dilakukan secara manual. Yang menjadi masalah untuk melakukan penilaian pun diperlukan tenaga terlatih karena algoritma data mining cukup kompleks.

Hal-hal ini juga disadari oleh perusahaan-perusahaan yang menerapkan data mining dan OLAP, yang sering dirangkum dalam istilah business intelligence (BI). Untuk memecahkan masalah ini, mulai banyak perusahaan yang membuat pusat untuk business intelligence yang membantu karyawan biasa untuk menggunakan piranti OLAP maupun data mining dengan menyediakan pelatihan dan informasi praktis pemakaian dan aplikasi hasilnya.

6| Data Mining

Proses data mining

Salah satu tuntutan dari data mining ketika diterapkan pada data berskala besar adalah diperlukan metodologi sistematis tidak hanya ketika melakukan analisa saja tetapi juga ketika mempersiapkan data dan juga melakukan interpretasi dari hasilnya sehingga dapat menjadi aksi ataupun keputusan yang bermanfaat.

Karenanya data mining seharusnya dipahami sebagai suatu proses, yang memiliki tahapantahapan tertentu dan juga ada umpan balik dari setiap tahapan ke tahapan sebelumnya. Pada umumnya proses data mining berjalan interaktif karena tidak jarang hasil data mining pada awalnya tidak sesuai dengan harapan analisnya sehingga perlu dilakukan desain ulang prosesnya.

Disini akan diuraikan tahap-tahap umum dari data mining. Sedikit juga disinggung tentang data warehouse karena dalam prakteknya data warehouse sering menjadi bagian integral dari proses data mining.

Perlu diingat sebelum seorang analis menerapkan tahapan-tahapan data mining tsb., sebagai prasyarat penerapan data mining, diperlukan pemahaman terhadap data dan proses diperolehnya data tsb. Yang lebih mendasar lagi adalah diperlukannya pemahaman mengapa menerapkan data mining dan target yang ingin dicapai. Sehingga secara garis besar sudah ada hipotesa mengenai aksi-aksi yang dapat diterapkan dari hasilnya nanti. Pemahamanpemahaman tsb akan sangat membantu dalam mendesain proses data mining dan juga pemilihan teknik data mining yang akan diterapkan. Selain itu, bagi dunia bisnis akan memudahkan untuk melakukan pengukuran return on investment-nya (ROI).

7| Data Mining

Gambar 1 : Tahap-Tahap Data Mining

Tahap-Tahap Data Mining

Sebagai suatu rangkaian proses, data mining dapat dibagi menjadi beberapa tahap yang diilustrasikan di Gambar 1. Tahap-tahap tsb. bersifat interaktif di mana pemakai terlibat langsung atau dengan perantaraan knowledge base

8| Data Mining

1.Pembersihan data (untuk membuang data yang tidak konsisten dan noise)

Pada umumnya data yang diperoleh, baik dari database suatu perusahaan maupun hasil eksperimen, memiliki isian-isian yang tidak sempurna seperti data yang hilang, data yang tidak valid atau juga hanya sekedar salah ketik. Selain itu, ada juga atribut-atribut data yang tidak relevan dengan hipotesa data mining yang kita miliki. Data-data yang tidak relevan itu juga lebih baik dibuang karena keberadaannya bisa mengurangi mutu atau akurasi dari hasil data mining nantinya. arbage in garbage out(hanya sampah yang akan dihasilkan bila yang dimasukkan juga sampah) merupakan istilah yang sering dipakai untuk menggambarkan tahap ini. Pembersihan data juga akan mempengaruhi performasi dari sistem data mining karena data yang ditangani akan berkurang jumlah dan kompleksitasnya.

2. Integrasi data (penggabungan data dari beberapa sumber)

Tidak jarang data yang diperlukan untuk data mining tidak hanya berasal dari satu database tetapi juga berasal dari beberapa database atau file teks. Integrasi data dilakukan pada atributaribut yang mengidentifikasikan entitas-entitas yang unik seperti atribut nama, jenis produk, nomor pelanggan dsb. Integrasi data perlu dilakukan secara cermat karena kesalahan pada integrasi data bisa menghasilkan hasil yang menyimpang dan bahkan menyesatkan pengambilan aksi nantinya. Sebagai contoh bila integrasi data berdasarkan jenis produk ternyata menggabungkan produk dari kategori yang berbeda maka akan didapatkan korelasi antar produk yang sebenarnya tidak ada. Dalam integrasi data ini juga perlu dilakukan transformasi dan pembersihan data karena seringkali data dari dua database berbeda tidak sama cara penulisannya atau bahkan data yang ada di satu database ternyata tidak ada di database lainnya.

9| Data Mining

Hasil integrasi data sering diwujudkan dalam sebuah data warehouse karena dengan data warehouse, data dikonsolidasikan dengan struktur khusus yang efisien. Selain itu data warehouse juga memungkinkan tipe analisa seperti OLAP.. Untuk membangun data warehouse juga tersedia paket-paket software yang mapan seperti database-nya dan piranti pendukung yang sering disebut sebagai ETL (Extract Transform Loading). Banyak paket software ETL sudah mencakup tahap pembersihan dan integrasi data.

3. Transformasi data (data diubah menjadi bentuk yang sesuai untuk di-mining)

Beberapa teknik data mining membutuhkan format data yang khusus sebelum bisa diaplikasikan. Sebagai contoh beberapa teknik standar seperti analisis asosiasi dan klastering hanya bisa menerima input data kategorikal. Karenanya data berupa angka numerik yang berlanjut perlu dibagi-bagi menjadi beberapa interval. Proses ini sering disebut binning. Disini juga dilakukan pemilihan data yang diperlukan oleh teknik data mining yang dipakai. Transformasi dan pemilihan data ini juga menentukan kualitas dari hasil data mining nantinya karena ada beberapa karakteristik dari teknik-teknik data mining tertentu yang tergantung pada tahapan ini.

4. Aplikasi teknik data mining

Aplikasi teknik data mining sendiri hanya merupakan salah satu bagian dari proses data mining. Ada beberapa teknik data mining yang sudah umum dipakai. Kita akan membahas lebih jauh mengenai teknik-teknik yang ada di seksi berikutnya. Perlu diperhatikan bahwa ada kalanya teknik-teknik data mining umum yang tersedia di pasar tidak mencukupi untuk melaksanakan data mining di bidang tertentu atau untuk data tertentu. Sebagai contoh akhirakhir ini dikembangkan berbagai teknik data mining baru untuk penerapan di bidang bioinformatika seperti analisa hasil microarray untuk mengidentifikasi DNA dan fungsifungsinya.

10 | D a t a M i n i n g

5. Evaluasi pola yang ditemukan (untuk menemukan yang menarik/bernilai)

Dalam tahap ini hasil dari teknik data mining berupa pola-pola yang khas maupun model prediksi dievaluasi untuk menilai apakah hipotesa yang ada memang tercapai. Bila ternyata hasil yang diperoleh tidak sesuai hipotesa ada beberapa alternatif yang dapat diambil seperti : menjadikannya umpan balik untuk memperbaiki proses data mining, mencoba teknik data mining lain yang lebih sesuai, atau menerima hasil ini sebagai suatu hasil yang di luar dugaan yang mungkin bermanfaat.

Ada beberapa teknik data mining yang menghasilkan hasil analisa berjumlah besar seperti analisis asosiasi. Visualisasi hasil analisa akan sangat membantu untuk memudahkan pemahaman dari hasil data mining.

6. Presentasi pola yang ditemukan untuk menghasilkan aksi

Tahap terakhir dari proses data mining adalah bagaimana memformulasikan keputusan atau aksi dari hasil analisa yang didapat. Ada kalanya hal ini harus melibatkan orang-orang yang tidak memahami data mining. Karenanya presentasi hasil data mining dalam bentuk pengetahuan yang bisa dipahami semua orang adalah satu tahapan yang diperlukan dalam proses data mining. Dalam presentasi ini, visualisasi juga bisa membantu

mengkomunikasikan hasil data mining.

11 | D a t a M i n i n g

Klasifikasi Klasifikasi adalah proses untuk menemukan model atau fungsi yang menjelaskan atau membedakan konsep atau kelas data, dengan tujuan untuk dapat memperkirakan kelas dari suatu objek yang labelnya tidak diketahui. Model itu sendiri bisa berupa aturan ika-maka berbentuk pohon pengambilan keputusan (decision tree), formula matematis seperti Bayesian dan Support Vector Maching atau bisa juga berupa jaringan seperti neural network.

Proses klasifikasi biasanya dibagi menjadi dua fase : learning dan test. Pada fase learning, sebagian data yang telah diketahui kelas datanya diumpankan untuk membentuk model prediksi. Karena menggunakan data yang telah diberikan label terlebih dulu oleh ahli di bidang itu sebagai contoh data yang benar maka klasifikasi sering juga disebut sebagai metoda diawasi (supervised method). Kemudian pada fase test-nya model yang sudah terbentuk diuji dengan sebagian data lainnya untuk mengetahui akurasi dari model tsb. Bila akurasinya mencukupi model ini dapat dipakai untuk prediksi kelas data yang belum diketahui.

12 | D a t a M i n i n g

Gambar 3. Contoh decision tree

Decision tree adalah salah satu metode klasifikasi yang paling populer karena mudah untuk diinterpretasi oleh manusia. Decision tree adalah model prediksi menggunakan struktur pohon atau struktur berhirarki. Contoh dari decision tree dapat dilihat di Gambar 3. Disini setiap percabangan menyatakan kondisi yang harus dipenuhi dan tiap cabang pohon menyatakan kelas data atau kondisi berikutnya yang juga harus dipenuhi. Contoh di Gambar 3 adalah model prediksi dengan decision tree yang mengidentifikasi orang yang potensial untuk menjadi pembeli komputer, dari decision tree tsb. diketahui bahwa salah satu kelompok yang potensial membeli komputer adalah orang yang berusia di bawah 30 tahun dan kondisi berikutnya dia juga adalah seorang pelajar.

Algoritma decision tree yang paling terkenal adalah C4.5[7], tetapi akhir-akhir ini telah dikembangkan algoritma yang mampu menangani data skala besar yang tidak dapat ditampung di main memory seperti RainForest[3]. Metode-metode klasifikasi yang lain adalah Bayesian, neural network, genetic algorithm, fuzzy, case-based reasoning, dan knearestneighbor.

Disini akan diberikan satu ilustrasi dari perhitungan untuk membuat suatu model prediksi dengan decision tree. Sebagai contoh, Tabel menggambarkan suatu tabel data tentang aplikasi untuk kartu kredit.

13 | D a t a M i n i n g

Tabel 1. Contoh data aplikasi kartu kredit untuk membuat model prediksi decision tree

Name Debt Income Married Credit risk? Budi High High Cecep Low High Sinta Low High Tono High Low Wati Low Low Yes Yes No Yes Yes Good Good Poor Poor Poor

Data ini menggambarkan adanya tiga atribut yaitu tingkat hutang (Debt), tingkat pendapatan (Income) dan status pernikahan (Married). Selain itu ada satu atribut resiko kredit yang berisi penilaian oleh ahli di bidang ini mengenai layak tidaknya orang dengan atribut-atribut ini layak atau tidak untuk diberikan kartu kredit. Atribut khusus yang sering disebut kelas atau atribut target ini menjadi standar untuk membuat model prediksi.

Model prediksi yang baik adalah model yang mampu untuk menentukan kelas yang benar untuk atribut-atribut yang diberikan. Untuk memudahkan dalam contoh ini hanya ada dua jenis nilai untuk kelas resiko kredit ini, yaitu Good (layak untuk mendapat kartu kredit) dan Poor (tidak layak untuk mendapat kartu kredit).

Data yang ada di tabel ini dipakai untuk melatih model decision tree dalam fase training. Decision tree berusaha menemukan atribut yang paling tepat untuk menjelaskan dan menentukan kelas. Dengan kata lain, atribut yang berada di posisi paling atas dalam decision tree adalah atribut yang paling berpengaruh dalam menentukan hasil prediksi. Oleh karena itu, proses pembuatan model decision tree merupakan proses iteratif untuk menilai atribut paling berpengaruh yang akan menjadi percabangan dari struktur pohon ini. Percabangan ini juga sering disebut dengan istilah titik percabangan (split point).

14 | D a t a M i n i n g

Proses ini bisa dibagi menjadi dua tahap. Yang pertama adalah menghitung besarnya pengaruh dari setiap atribut. Tahap kedua adalah memilih atribut terbaik untuk menjadi titik percabangan dari struktur pohon. Untuk tahap pertama ada beberapa metrik yang bisa dipakai untuk menghitung besarnya pengaruh seperti entropy, information gain dsb.

Gambar 4. Perhitungan titik percabangan pertama

Dari contoh data di tabel 1, ada tiga atribut yang perlu dicek pengaruhnya terhadap kelas resiko kredit. Proses ini sama dengan penghitungan korelasi antar dua atribut dalam statistik yang sering disebut sebagai cross table. Dari Gambar 4, kita bisa membandingkan atribut tingkat pendapatan (income) punya pengaruh lebih besar dalam menentukan hasil kelasnya dibandingkan atribut tingkat hutang (debt) dan status pernikahan (Married).

Bila tingkat pendapatannya tinggi (High) maka kelas resiko kreditnya adalah dua diantaranya bernilai baik (Good) dan hanya satu yang bernilai jelek (Poor). Bahkan ketika tingkat pendapatannya rendah (Low) maka semuanya menghasilkan resiko kredit jelek.

15 | D a t a M i n i n g

Dua atribut lainnya tidak menghasilkan pembagian kelas yang sejelas tingkat pendapatan ini. Dengan arti kata lain, atribut tingkat penghasilan memiliki korelasi tertinggi dengan kelas resiko kredit.

Hasil perhitungan information gain (Ig) juga menunjukkan hasil yang konsisten dimana Ig dari tingkat pendapatan (0.42) lebih tinggi dari tingkat hutang (0.02) dan status pernikahan (0.17). Karenanya tingkat pendapatan dipilih sebagai titik percabangan pertama di model ini.

Tabel 2. Data untuk data dengan tingkat pendapatan tinggi saja Name Debt Married Credit risk? Budi High Yes Cecep Low Yes Sinta Low No Good Good Poor

Tapi disini kita lihat bahwa ketika tingkat pendapatan tinggi (High) masih bisa menghasilkan kelas layak kredit dan tidak layak kredit. Oleh karena itu penghitungan model ini masih diteruskan untuk data-data yang memiliki atribut tingkat pendapatan tinggi yang berisi tiga data seperti ditunjukkan di Tabel 2.

Atribut yang diperhitungkan tinggal dua yaitu tingkat hutang (Debt) dan status pernikahan (Married). Gambar 5 mengilustrasikan bahwa tingkat korelasi status pernikahan lebih tinggi dari tingkat hutang karena semua orang yang menikah memiliki resiko kredit yang bagus sedangkan yang tidak menikah semuanya memiliki resiko kredit yang jelek. Karenanya titik percabangan kedua adalah berdasar atribut status pernikahan.

16 | D a t a M i n i n g

Gambar 5. Perhitungan untuk titik percabangan kedua

Model prediksi decision tree yang dihasilkan dilukiskan di Gambar 6 berupa struktur pohon bertingkat dua dengan tingkat pertama adalah titik percabangan berdasarkan tingkat pendapatan dan tingkat kedua adalah status pernikahan. Dengan model prediksi ini kita bisa menilai seorang yang mengisi aplikasi kartu kredit dengan atribut tingkat pendapatan rendah, tingkat hutang rendah dan tidak menikah diprediksikan tidak layak untuk mendapat kartu kredit karena percabangan pertama di tingkat pendapatan yang rendah menghasilkan resiko kredit yang jelek.

17 | D a t a M i n i n g

Gambar 6. Hasil akhir model prediksi decision tree

18 | D a t a M i n i n g

Klasterisasi

Berbeda dengan klasifikasi dimana kelas data telah ditentukan sebelumnya, klasterisasi melakukan pengelompokan data tanpa berdasarkan kelas data tertentu. Bahkan klasterisasi dapat dipakai untuk memberikan label pada kelas data yang belum diketahui itu. Karena itu klasterisasi sering digolongkan sebagai metode unsupervised learning.

Prinsip dari klasterisasi adalah memaksimalkan kesamaan antar anggota satu kelas dan meminimumkan kesamaan antar kelas/klaster. Klasterisasi dapat dilakukan pada data yan memiliki beberapa atribut yang dipetakan sebagai ruang multidimensi.

Ilustrasi dari klasterisasi dapat dilihat di Gambar 7 dimana lokasi, dinyatakan dengan bidang dua dimensi, dari pelanggan suatu toko dapat dikelompokkan menjadi beberapa klaster dengan pusat klaster ditunjukkan oleh tanda positif (+).

Gambar 7. Contoh klasterisasi

19 | D a t a M i n i n g

Beberapa kategori algoritma klasterisasi yang banyak dikenal adalah metode partisi dimana pemakai harus menentukan jumlah k partisi yang diinginkan lalu setiap data dites untuk dimasukkan pada salah satu partisi, metode lain yang telah lama dikenal adalah metode hierarki yang terbagi dua lagi : bottom-up yang menggabungkan klaster kecil menjadi klaster lebih besar dan top-down yang memecah klaster besar menjadi klaster yang lebih kecil.

Kelemahan metode ini adalah bila salah satu penggabungan/pemecahan dilakukan pada tempat yang salah, tidak dapat didapatkan klaster yang optimal. Pendekatan yang banyak diambil adalah menggabungkan metode hierarki dengan metode klasterisasi lainnya seperti yang dilakukan oleh Chameleon[6].

Akhir-akhir ini dikembangkan juga metode berdasar kepadatan data, yaitu jumlah data yang ada di sekitar suatu data yang sudah teridentifikasi dalam suatu klaster. Bila jumlah data dalam jangkauan tertentu lebih besar dari nilai ambang batas, data-data tsb dimasukkan dalam klaster. Kelebihan metode ini adalah bentuk klaster yang lebih fleksibel. Algoritma yang terkenal adalah DBSCAN[2].

Sebagai ilustrasi disini diambil contoh algoritma klasterisasi metode partisi atau sering disebut juga klasterisasi k nilai tengah (k-means clustering). Nama klasterisasi k nilai tengah muncul karena sebelum mulai klastering perlu ditetapkan suatu nilai integer k yang akan menjadi jumlah klaster yang dihasilkan nantinya.

20 | D a t a M i n i n g

Pada contoh yang diberikan di Gambar 8, k ditentukan menjadi tiga. Pada awal proses klastering, ditetapkan secara acak pusat klaster sebanyak k. Setelah itu dilakukan perhitungan untuk menentukan batas klaster sementara. Pada contoh kita yang berupa ruang dua dimensi maka batas klaster dapat digambarkan sebagai garis lurus.

Di Gambar 8, tiga pusat klaster ditempatkan secara acak lalu dihitung batas tiap klaster sebagai garis lurus yang ditarik tegak lurus dari titik tengah garis yang menghubungkan dua pusat klaster. Lalu tiap titik dijadikan anggota dari satu klaster berdasarkan batas tiap klaster tadi. Di gambar itu, tiap titik yang menjadi anggota suatu klaster diberi warna yang berbeda : merah, hijau dan biru.

Gambar 8. Klasterisasi k nilai tengah : pusat klaster awal

21 | D a t a M i n i n g

Langkah berikutnya adalah menghitung ulang pusat klaster berdasarkan anggota-anggota klaster yang baru ditetapkan tadi. Pusat klaster dihitung sebagai posisi rata-rata dari semua anggota klaster. Dalam ruang dua dimensi maka posisi pusat klaster adalah jumlah koordinat semua anggota dibagi dengan jumlah anggota klaster untuk setiap koordinat x dan y. Hasil dari penghitungan pusat klaster yang baru ditunjukkan di Gambar 9.

Gambar 9. Penentuan pusat klaster baru

22 | D a t a M i n i n g

Batas klaster yang baru dihitung sebagai garis lurus tegak lurus pada titik tengah garis yang menghubungkan pusatberulang ini dilanjutkan sampai pusat klaster yang didapat konvergen, artinya pusat klaster baru tidak berubah dibandingkan dengan pusat klaster sebelumnya.

Gambar 10. Proses berulang sampai konvergen.

23 | D a t a M i n i n g

Analisis asosiasi

Analisis asosiasi atau association rule mining adalah teknik data mining untuk menemukan aturan assosiatif antara suatu kombinasi item.

Contoh dari aturan assosiatif dari analisa pembelian di suatu pasar swalayan adalah bisa diketahui berapa besar kemungkinan seorang pelanggan membeli roti bersamaan dengan susu. Dengan pengetahuan tsb. pemilik pasar swalayan dapat mengatur penempatan barangnya atau merancang kampanye pemasaran dengan memakai kupon diskon untuk kombinasi barang tertentu.

Karena analisis asosiasi menjadi terkenal karena aplikasinya untuk menganalisa isi keranjang belanja di pasar swalayan, analisis asosiasi juga sering disebut dengan istilah basket analysis.

Analisis asosiasi dikenal juga sebagai salah satu teknik data mining yang menjadi dasar dari berbagai teknik data mining lainnya. Khususnya salah satu tahap dari analisis asosiasi yang disebut analisis pola frequensi tinggi (frequent pattern mining) menarik perhatian banyak peneliti untuk menghasilkan algoritma yang efisien.

24 | D a t a M i n i n g

Bentuk dasar aturan assosiatif

Penting tidaknya suatu aturan assosiatif dapat diketahui dengan dua parameter, support(nilai penunjang) yaitu persentase kombinasi item tsb. dalam database dan confidence(nilai kepastian) yaitu kuatnya hubungan antar item dalam aturan assosiatif.

Aturan assosiatif biasanya dinyatakan dalam bentuk : {roti, mentega} -> {susu} (support = 40%, confidence = 50%) Yang artinya : "50% dari transaksi di database yang memuat item roti dan mentega juga memuat item susu. Sedangkan 40% dari seluruh transaksi yang ada di database memuat ketiga item itu." Dapat juga diartikan : "Seorang konsumen yang membeli roti dan mentega punya kemungkinan 50% untuk juga membeli susu. Aturan ini cukup signifikan karena mewakili 40% dari catatan transaksi selama ini." Analisis asosiasi didefinisikan suatu proses untuk menemukan semua aturan assosiatif yang memenuhi syarat minimum untuk support (minimum support) dan syarat minimum untuk confidence (minimum confidence).

Metodologi dasar analisis asosiasi

Metodologi dasar analisis asosiasi terbagi menjadi dua tahap : 1. analisa pola frekuensi tinggi

Tahap ini mencari kombinasi item yang memenuhi syarat minimum dari nilai support dalam database. Sebagai contoh, ada database dari transaksi belanja pasar swalayan seperti berikut : ID transaksi 1 2 3 4 5 item terjual

pena,roti,mentega roti,mentega,telur,susu buncis,telur,susu roti,mentega roti,mentega,kecap,telur,susu

25 | D a t a M i n i n g

Syarat minimum dari nilai support untuk pola frekuensi tinggi dalam contoh ini adalah 30%. Diketahui bahwa jumlah transaksi yang memuat {roti,mentega} ada 4 (support 80%), sedangkan jumlah transaksi yang memuat {roti,mentega,susu} ada 2 (support 40%), transaksi yang memuat {buncis} hanya 1 (support 20%) dsb.

Sehingga diperoleh pola frekuensi tinggi yang memenuhi syarat minimum nilai support adalah :

kombinasi item {roti} 80% {mentega} {telur} 60% {susu} 60% {roti,mentega}80% {telur,susu} {roti,susu} 60% 40% 80%

support

{mentega,susu} {roti,telur} 40%

40%

{mentega,telur}

40%

{roti,mentega,susu} 40% {roti,mentega,telur,susu} 40%

26 | D a t a M i n i n g

2. pembentukan aturan assosiatif

Setelah semua pola frekuensi tinggi ditemukan, barulah dicari aturan assosiatif yang memenuhi syarat minimum untuk confidence dengan menghitung confidence aturan assosiatif A->B dari support pola frekuensi tinggi A dan B dengan menggunakan rumus berikut : confidence(A->B) = support(B) / support (A U B) Disini A U B adalah union dari pola A dan B

Bila syarat minimum untuk confidence dari contoh diatas adalah 50% maka salah satu aturan assosiatif yang dapat ditemukan adalah : {telur,susu} -> {roti,mentega} dengan nilai confidence 66.6% karena support({roti,mentega})/support({roti,mentega,telur,susu}) = 40%/60% = 66.6%

Aturan assosiatif lain yang dapat ditemukan diantaranya adalah : aturan assosiatif support confidence 40% 50% 100% 66.6%

{telur,susu} -> {roti,mentega} {roti,mentega} -> {susu} {mentega,susu} -> {roti} 40% 40%

Perlu dicatat bahwa tahap pertama untuk mencari pola frekuensi tinggi biasanya paling banyak menghabiskan waktu. Karenanya banyak peneliti berusaha mengembangkan algoritma yang efisien.

27 | D a t a M i n i n g

Algoritma-algoritma analisis asosiasi

Algoritma paling terkenal untuk menemukan pola frekuensi tinggi dan juga aturan assosiatif adalah Apriori yang dikembangkan para peneliti IBM Almaden :

R. Agrawal and R. Srikant. "Fast Algorithms for Mining Association Rules". Proc. of the 20th Int'l Conference on Very Large Databases, Santiago, Chile, September 1994. http://www.almaden.ibm.com/software/projects/iis/hdb/publications.shtml

Source code dari algoritma-algoritma terbaru dapat di-download dari Frequent Itemset Mining Implementations Repository http://fimi.cs.helsinki.fi/ Disini juga tersedia beberapa dataset yang sering dijadikan benchmark untuk menguji performa dari algoritma analisa asosiasi.

28 | D a t a M i n i n g

DATA MINING SEBAGAI SOLUSI BISNIS

Abstraksi

Dunia bisnis yang penuh persaingan membuat para pelakunya harus selalu memikirkan strategi-strategi terobosan yang dapat menjamin kelangsungan bisnis mereka. Salah satu aset utama yang dimiliki oleh perusahaan masa kini adalah data bisnis dalam jumlah yang luar biasa banyak. Ini melahirkan kebutuhan akan adanya teknologi yang dapat memanfaatkannya untuk membangkitkan pengetahuan-pengetahuan baru, yang dapat membantu dalam pengaturan strategi bisnis.

Teknologi data mining hadir sebagai solusi. Makalah ini akan mengulas permasalahan bisnis yang ada dan dasar-dasar data mining melalui bahasan kegunaan, cara kerja dan metodologimetodologi populer pada teknologi ini (pohon keputusan, klasifikasi, regresi non-linier, berbasis sampel, kebergantungan grafik, dll.).

29 | D a t a M i n i n g

Tahun 90-an telah melahirkan gunungan data di bidang ilmu pengetahuan, bisnis dan pemerintah. Kemampuan teknologi informasi untuk mengumpulkan dan menyimpan berbagai tipe data jauh meninggalkan kemampuan untuk menganalisis, meringkas dan mengekstraksi pengetahuan dari data.

Metodologi tradisional untuk menganalisis data yang ada, tidak dapat menangani data dalam jumlah besar. Sementara para pelaku bisnis memiliki kebutuhan-kebutuhan untuk memanfaatkan gudang data yang sudah dimiliki, para peneliti melihat peluang untuk melahirkan sebuah teknologi baru yang menjawab kebutuhan ini, yaitu data mining. Teknologi ini sekarang sudah ada dan diaplikasikan oleh perusahaanperusahaan untuk memecahkan berbagai permasalahan bisnis.

Makalah ini akan membahas kebutuhan bisnis, solusi yang dipikirkan para pelaku bisnis, pemanfaatan, cara kerja tugas dan metodologi-metodologi populer pada data mining. Bahasan akan diberikan dari sudut pandang pelaku bisnis dan peneliti. Hal ini dimaksudkan agar para pembaca memperoleh gambaran yang kongkret mengenai data mining di dunia bisnis, sekaligus juga mengenal konsep-konsep teoretis yang melandasi teknologi data mining.

30 | D a t a M i n i n g

2. Kebutuhan Bisnis

Dalam dunia bisnis yang selalu dinamis dan penuh persaingan, para pelakunya harus senantiasa memikirkan cara-cara untuk terus survive dan jika mungkin mengembangkan skala bisnis mereka. Untuk mencapai hal itu, dapat diringkaskan tiga kebutuhan bisnis, yaitu :

a) Penambahan jenis maupun peningkatan kapasitas produk.

b) Pengurangan biaya operasi perusahaan.

c) Peningkatan efektifitas pemasaran dan keuntungan.

Untuk memenuhi kebutuhan-kebutuhan di atas, banyak cara yang dapat ditempuh. Salah satunya adalah dengan memikirkan teknik-teknik pemasaran yang efektif dengan biaya yang minimal. Berikut ini akan dibahas mengenai halhal yang berkaitan dengan kegiatan bisnis di bidang pemasaran, seperti identifikasi dan pemahaman permasalahan, analisis pencarian solusi dan pembahasan teknikteknik untuk mengimplementasikan solusi.

31 | D a t a M i n i n g

3. Pemahaman Permasalahan dan Konsep Dasar Solusi Bisnis

Langkah pertama untuk menyelesaikan permasalahan bisnis adalah mendefinisikan permasalahan dengan sejelas-jelasnya. Sebagai contoh, permasalahan umum yang dihadapi oleh perusahaan-perusahaan dot-com adalah:

(1) Bagaimana menyajikan advertensi kepada target yang tepat sasaran.

(2) Menyajikan halaman Web yang khusus untuk setiap kustomer (mempersonalisasi halaman Web) agar kustomer merasa diperlakukan secara khusus dan karenanya akan tetap setia dengan perusahaan itu.

(3) Menampilkan informasi produk-produk lain yang biasa dibeli bersamaan dengan produk tertentu.

(4) Mengklasifikasi artikel-artikel secara otomatis.

(5)Mengelompokkan pengunjung Web yang memiliki kesamaan karakteristik tertentu.

(6)Mengestimisasi data yang hilang.

(7) Memprediksi kelakukan di masa yang akan datang2.

32 | D a t a M i n i n g

Pencarian solusi dari masalah-masalah ini akan berkaitan dengan penemuan dan pemanfaatan dari berbagai jenis polapola yang tersembunyi dari gudang data yang kemungkinan sudah dimiliki oleh perusahaan.

Penjelasan lebih lanjut dari masalahmasalah di atas dan konsep dasar yang dipikirkan oleh para pelaku dan penganalisis bisnis sebagai solusinya diberikan di bawah ini.

a. Perumusan target.

Para ahli pemasaran menggunakan teknik-teknik tertentu untuk memilih orang-orang yang menjadi target pemasaran untuk disuguhi advertensi tertentu. Tujuannya antar lain adalah untuk meningkatkan profit perusahaan, pengenalan produk secara luas, atau hasil-hasil terukur lainnya.

b. Personalisasi.

Para ahli pemasaran memanfaatkan personalisasi untuk memilih advertensi yang paling sesuai untuk (atau memberikan rekomendasi tertentu kepada) orang tertentu. Personalisasi dapat dipandang sebagai kontradiksi dari perumusan target. Pada perumusan target, yang disasar adalah sebanyak mungkin orang yang memiliki potensi untuk membeli produkproduk tertentu, sedangkan pada personalisasi, tujuannya adalah agar kustomer yang sudah menjadi pelanggan membeli sebanyak mungkin produkproduk yang dijual oleh perusahaan.

33 | D a t a M i n i n g

c. Asosiasi (juga dinamakan analisis keranjang-pasar).

Asosiasi ini mengidentifikasi item-item produk yang mungkin dibeli bersamaan dengan produk lain, atau dilihat secara bersamaan pada saat mencara informasi mengenai produk tertentu. Pada halaman Web, kustomer diingatkan untuk melihat atau membeli produkproduk yang berkaitan dengan produk yang menjadi minat kustomer.

d. Manajemen pengetahuan.

Sistem ini mengidentifikasi dan memanfaatkan pola-pola di dalam dokumen yang berbahasa alami, atau berformat text. Di sini didefinisikan asosiasi antara katakata dan konteksnya dalam konsep tingkat-atas. Hal ini dapat dilakukan dengan melatih sistem dengan dokumen-dokumen yang sudah ditandai dengan konsep-konsep yang relevan. Sistem kemudian membangun sebuah pencocok pola untuk tiap konsep. Ketika dihadapkan pada dokumen baru, pencocok pola akan memutuskan tingkat relevansi dari dokumen ini terhadap konsep. Pendekatan ini dapat digunakan untuk menyortir dokumen-dokumen baru yang masuk ke dalam kategori-kategori yang sudah ada. Juga dapat digunakan untuk mempersonalisasi publikasi online. Selain itu, dapat juga dimanfaatkan untuk menciptakan atau membangkitkan dokumen jawaban-jawaban secara otomatis terhadap pertanyaanpertanyaan yang masuk.

34 | D a t a M i n i n g

e. Pengelompokan (Clustering).

Pengelompokan mengidentifikasi orangorang yang memiliki kesamaan karakteristik tertentu, dan kemudian menggunakan karakteristik tersebut sebagai vektor karakteristik atau centroid. Pengelompokan ini digunakan oleh perusahaan untuk membuat laporan mengenai karakteristik umum dari grup-grup pengunjung (kustomer) yang berbeda.

f. Estimasi dan Prediksi.

Estimasi menerka sebuah nilai yang belum diketahui, misalnya penghasilan seseorang, ketika informasi lain mengenai orang tersebut diketahui. Prediksi memperkirakan nilai untuk masa mendatang, misalnya probabilitas orang untuk membeli sebuah mobil baru tahun depan, ketika orang itu belum melakukannya. Atau nilai saham yang akan dibeli tahun depan.

g. Pohon keputusan.

Pohon keputusan ini dapat dipandang sebagai diagram alir dari titik-titik pertanyaan yang menuju pada sebuah keputusan. Pohon keputusan ini diterapkan pada sistem pemilihan produk-produk yang dijual perusahaan.

35 | D a t a M i n i n g

4. Kebutuhan dan Kesempatan untuk Data Mining

Ketersediaan data yang melimpah, kebutuhan akan informasi (atau pengetahuan) sebagai pendukung pengambilan keputusan untuk membuat solusi bisnis, dan dukungan infrastruktur di bidang teknologi informasi merupakan cikal-bakal dari lahirnya teknologi data mining. Ketersediaan data transaksi dalam volume yang besar: Bidang-bidang industri yang memiliki data transaksi dalam volume besar ini misalnya jaringan ritel, telekomunikasi, perbankan, kartu kredit, dll.

Sistem manajemen transaksi pada industri tersebut merekord informasi-informasi rinci yang diperlukan dalam bisnis mereka. Informasi sebagai aset perusahaan yang penting: Kebutuhan terhadap informasi telah melahirkan gudang data yang mengintegrasikan informasi dari sistemsistem yang tersebar untuk mendukung pengambilan keputusan. Seringkali gudang data ini juga dilengkapi dengan data demografis kustomer dan informasi mengenai rumahtangga.

Ketersediaan teknologi informasi dalam skala yang terjangkau: Saat ini teknologi informasi berbasis sistem yang terbuka sudah dapat diadopsi secara luas. Ini termasuk sistem manajemen basis data, kakas penganalisis, dan yang terkini adalah pertukaran informasi dan publikasi melalui jaringan Intranet. Faktor-faktor tersebut di atas dikombinasikan dengan konsep solusi bisnis yang telah diuraikan sebelumnya, telah melahirkan teknologi data mining. Data mining dimaksudkan untuk memberikan solusi nyata bagi para pengambil keputusan di dunia bisnis, untuk mengembangkan bisnis mereka.

36 | D a t a M i n i n g

5. Bahasan Umum Data Mining

Data Mining merupakan teknologi baru yang sangat berguna untuk membantu perusahaanperusahaan menemukan informasi yang sangat penting dari gudang data mereka. Kakas data mining meramalkan tren dan sifat-sifat perilaku bisnis yang sangat berguna untuk mendukung pengambilan keputusan penting. Analisis yang diotomatisasi yang dilakukan oleh data mining melebihi yang dilakukan oleh sistem pendukung keputusan tradisional yang sudah banyak digunakan. Data Mining dapat menjawab pertanyaan-pertanyaan bisnis yang dengan cara tradisional memerlukan banyak waktu untuk menjawabnya. Data Mining mengeksplorasi basis data untuk menemukan pola-pola yang tersembunyi, mencari informasi pemrediksi yang mungkin saja terlupakan oleh para pelaku bisnis karena terletak di luar ekspektasi mereka.

Definisi Data Mining

Data mining didefinisikan sebagai satu set teknik yang digunakan secara otomatis untuk mengeksplorasi secara menyeluruh dan membawa ke permukaan relasi-relasi yang kompleks pada set data yang sangat besar. Set data yang dimaksud di sini adalah set data yang berbentuk tabulasi, seperti yang banyak diimplementasikan dalam teknologi manajemen basis data relasional. Akan tetapi, teknik-teknik data mining dapat juga diaplikasikan pada representasi data yang lain, seperti domain data spatial, berbasis text, dan multimedia (citra).

Data mining dapat juga didefinisikan sebagai pemodelan dan penemuan polapola yang tersembunyi dengan memanfaatkan data dalam volume yang besar1.

37 | D a t a M i n i n g

Data mining menggunakan pendekatan discovery-based dimana pencocokan pola (patternmatching) dan algoritmaalgoritma yang lain digunakan untuk menentukan relasi-relasi kunci di dalam data yang diekplorasi. Data mining merupakan komponen baru pada arsitektur sistem pendukung keputusan (DSS) di perusahaan-perusahaan.

Ruang Lingkup Data Mining

Data mining (penambangan data), sesuai dengan namanya, berkonotasi sebagai pencarian informasi bisnis yang berharga dari basis data yang sangat besar. Usaha pencarian yang dilakukan dapat dianalogikan dengan penambangan logam mulia dari lahan sumbernya. Dengan tersedianya basis data dalam kualitas dan ukuran yang memadai, teknologi data mining memiliki kemampuan-kemampuan sebagai berikut:

Mengotomatisasi prediksi tren dan sifat-sifat bisnis. Data mining mengotomatisasi proses pencarian informasi pemprediksi di dalam basis data yang besar. Pertanyaanpertanyaan yang berkaitan dengan prediksi ini dapat cepat dijawab langsung dari data yang tersedia. Contoh dari masalah prediksi ini misalnya target pemasaran, peramalan kebangkrutan dan bentukbentuk kerugian lainnya.

Mengotomatisasi penemuan polapola yang tidak diketahui sebelumnya. Kakas data mining menyapu basis data, kemudian mengidentifikasi pola-pola yang sebelumnya tersembunyi dalam satu sapuan. Contoh dari penemuan pola ini adalah analisis pada data penjulan ritel untuk mengidentifikasi produkproduk, yang kelihatannya tidak berkaitan, yang seringkali dibeli secara bersamaan oleh kustomer. Contoh lain adalah pendeteksian transaksi palsu dengan kartu kredit dan identifikasi adanya data anomali yang dapat diartikan sebagai data salah ketik (karena kesalahan operator).

38 | D a t a M i n i n g

Cara Kerja Data Mining Bagaimana tepatnya data mining menggali hal-hal penting yang belum diketahui sebelumnya atau memprediksi apa yang akan terjadi? Teknik yang digunakan untuk melaksanakan tugas ini disebut pemodelan.

Pemodelan di sini dimaksudkan sebagai kegiatan untuk membangun sebuah model pada situasi yang telah diketahui jawabannya dan kemudian menerapkannya pada situasi lain yang akan dicari jawabannya. Sebagai contoh di sini diambil pencarian solusi bisnis di bidang telekomunikasi3.

Ada beberapa perusahaan telekomunikasi yang beroperasi di sebuah negara dan dimisalkan pihak manajemen sebuah perusahaan bermaksud untuk menjaring kustomer baru untuk jasa layanan sambungan langsung jarak jauh (SLJJ).

Pihak manajemen dapat menghubungi calon-calon kustomer dengan memilih secara acak kemudian menawari mereka dengan diskon khusus, dengan hasil yang kemungkinan besar kurang menggemberikan, atau dengan memanfaatkan pengalaman-pengalaman bisnis yang saat ini sudah tersimpan di basis data perusahaan untuk membangun sebuah model.

Perusahaan ini telah memiliki banyak informasi mengenai kustomer perusahaan tersebut: umur, jenis kelamin, sejarah penggunaan fasilitas kredit dan penggunaan SLJJ. Juga sudah diketahui informasi mengenai calon-calon kustomer: umur, jenis kelamin, sejarah penggunaan fasilitas kredit, dll.

39 | D a t a M i n i n g

Masalahnya adalah penggunaan SLJJ untuk para calon kustomer ini belum diketahui, karena mereka saat ini menjadi kustomer dari perusahaan lain. Yang dipikirkan pihak manajemen adalah mencari calon kustomer yang akan menggunakan banyak jasa SLJJ. Usaha untuk mencari jawaban masalah ini dilakukan dengan membangun sebuah model. Tabel 1 memberikan ilustrasi mengenai pembangunan model untuk menentukan calon kustomer (prospek) di sebuah gudang data.

Gol dari pemodelan ini adalah untuk membuat perkiraan yang didasari kalkulasi untuk mengisi informasi di kuadran kanan bawah pada Tabel 1, berdasar pada informasi umum dan khusus yang sudah ada (dimiliki oleh perusahaan itu).

Misalnya, sebuah model sederhana untuk perusahaan telekomunikasi itu adalah: 98% kustomer milik perusahaan itu yang berpenghasilan $60.000/tahun membelanjakan lebih dari $80/bulan untuk penggunaan SLJJ.

Model ini kemudian dapat diterapkan untuk menarik kesimpulan dari informasi khusu (sebagai data prospek), dimana saat ini informasi khusus tersebut tidak dimiliki oleh perusahaan. Dengan model ini, calon-calon kustomer baru dapat ditarget secara selektif.

40 | D a t a M i n i n g

Skenario lain dalam membangun model adalah: memprediksi apa yang akan terjadi di masa mendatang. Model ini ditunjukkan oleh Tabel 2.

Hubungan Data Mining dan Knowledge Data Discovery (KDD) Penjelasan umum yang diberikan di atas memberikan pengertian bahwa seolaholah teknologi data mining adalah teknologi utuh dan berdiri sendiri.

Dibandingkan dengan knowledge data discovery (KDD), istilah data mining lebih dikenal para pelaku bisnis. Pada aplikasinya, sebenarnya data mining merupakan bagian dari proses KDD. Sebagai komponen dalam KDD, data mining terutama berkaitan dengan ekstraksi dan penghitungan pola-pola dari data yang ditelaah.

Secara garis besar, langkah-langkah utama dalam proses KDD adalah (lihat Gambar 1):

1. Pemahaman terhadap domain dari aplikasi, relevansinya terhadap pengetahuan yang ada dan goal dari end-user.

2. Menciptakan himpunan data target: pemilihan himpunan data, atau memfokuskan pada subset variabel atau sampel data, dimana penemuan (discovery) akan dilakukan
41 | D a t a M i n i n g

3. Pemrosesan pendahuluan dan pembersihan data: operasi dasar seperti penghapusan noise dilakukan.

4.

Proyeksi

dan

pengurangan

data:

pencarian

fitur-fitur

yang

berguna

untuk

mempresentasikan data bergantung kepada goal yang ingin dicapai.

5. Pemilihan tugas data mining: pemilihan goal dari proses KDD misalnya klasifikasi, regresi, clustering, dll.

6. Pemilihan algoritma data mining untuk pencarian (searching).

7. Data mining: pencarian pola-pola yang diinginkan di himpunan representasi.

8. Penterjemahan pola-pola yang dihasilkan dari data mining (langkah

7), kemungkinan dapat kembali langkah 1-7 untuk iterasi lebih lanjut.

9.

Konsolidasi

pengetahuan

yang

ditemukan:

pendokumentasian

hasil,

pencarian

penyelesaian apabila ada konflik dengan pengetahuan yang telah dipercaya sebelumnya.

42 | D a t a M i n i n g

Metodologi Data Mining

Komponen data mining pada proses KDD seringkali merupakan aplikasi iteratif yang berulang dari metodologi data mining tertentu. Pada pembahasan di sini akan digunakan istilah pola dan model. Pola dapat diartikan sebagai instansiasi dari model. Sebagai contoh f(x) = 3x2 + x adalah pola dari model f(x) = ax2 + bx.

Data mining melakukan pengepasan atau pencocokan model ke, atau menentukan pola dari data yang diobservasi. Ada dua pendekatan matematis yang digunakan dalam pencocokan model: statistik yang memberikan efek non-deterministik dan logik yang murni deterministik. Yang lebih banyak digunakan adalah pendekatan statistik, mengingat ketidakpastian yang ada dalam proses pembangkitan data di dunia nyata.

. Kebanyakan metodologi data mining didasarkan pada konsep mesin belajar, pengenalan atau pencocokan pola dan statistik: klasifikasi, pengelompokan (clustering), pemodelan grafis, dll.

Tugas Utama Data Mining

Telah disebutkan di ruang lingkup data mining bahwa pada kebanyakan aplikasinya, gol utama dari data mining adalah untuk membuat prediksi dan deskripsi. Prediksi menggunakan beberapa variabel atau field-field basis data untuk memprediksi nilai-nilai variabel masa mendatang yang diperlukan, yang belum diketahui saat ini.

43 | D a t a M i n i n g

Deskripsi berfokus pada penemuan pola-pola tersembunyi dari data yang ditelaah. Dalam konteks KDD, deskripsi dipandang lebih penting daripada prediksi. Ini berlawanan dengan aplikasi pengenalan pola dan mesin belajar.

Prediksi dan deskripsi pada data mining dilakukan dengan tugas-tugas utama yang akan dijelaskan di bawah ini. Pada setiap tugas akan diberikan pointer ke masalah bisnis yang dapat diselesaikan (yang telah dibahas pada butir 3).

Gambar-gambar yang ada dimisalkan menunjukkan hubungan antara penghasilan pengecer dan kekurangan pembayaran yang ditanggung oleh distributor (pemasok barang).

a) Klasifikasi adalah fungsi pembelajaran yang memetakan (mengklasifikasi) sebuah unsur (item) data ke dalam salah satu dari beberapa kelas yang sudah didefinisikan. Gambar 2 menunjukkan pembagian sederhana pada data peminjaman menjadi dua ruang kelas (punya dan tidak punya peminjaman). Pada gambar tersebut x merepresentasikan peminjaman yang bermasalah dan o peminjaman yang pengembaliannya lancar. (Sebagai solusi 3.e, 3.d dan 3.g).

44 | D a t a M i n i n g

b) Regresi adalah fungsi pembelajaran yang memetakan sebuah unsur datake sebuah variabel prediksi bernilai nyata. Aplikasi dari regresisi inimisalnya adalah pada prediksi volume biomasa di hutan dengan didasari pada pengukuran gelombang mikro penginderaan jarak jauh (remotely-sensed), prediksikebutuhan kustomer terhadap sebuah produk baru sebagai fungsi daripembiayaan advertensi, dll. Gambar 3 menunjukkan regresi linear sederhana dimana total peminjaman (total debt) diplot sebagai fungsi linier dari penghasilan (income): pengeplotan ini menghasilkan kesalahan besar karena hanya ada korelasi sedikit antara kedua variabel ini. (Solusi 3.a dan 3.f)

45 | D a t a M i n i n g

c) Pengelompokan (clustering) merupakan tugas deskripsi yang banyak digunakan dalam mengidentifikasi sebuah himpunan terbatas pada kategori atau cluster untuk mendeskripsikan data yang ditelaah. Kategori-kategori ini dapat bersifat eksklusif dan ekshaustif mutual, atau mengandung representasu yang lebih kaya seperti kategori yang hirarkis atau saling menumpu (overlapping). Gambar 4 menunjukkan pembagian himpunan data peminjaman menjadi 3 cluster. Di sini, cluster - cluster dapat saling menumpu, sehingga titik-titik data dapat menjadi anggota lebih dari satu cluster. (Label x dan o pada gambar sebelumnya diubah menjadi + untuk mengindikasikan bahwa keanggotaan kelas diasumsikan belum diketahui.) (Solusi 3.e).

d) Peringkasan melibatkan metodologi untuk menemukan deskripsi yang ringkas dari sebuah himpunan data. Satu contoh yang sederhana adalah mentabulasikan mean dan deviasi standar untuk semua field-field tabel. (Solusi 3.f). e) Pemodelan Kebergantungan adalah penemuan sebuah model yang mendeskripsikan kebergantungan yang signifikan antara variabelvariabel. Model kebergantungan ini ada di 2 tingkat: tingkat struktural yang menspesifikasikan variabelvariabel yang secara local bergantung satu sama lain, dan tingkat kuantitatif yang menspesifikasikan tingkat kebergantungan dengan menggunakan skala numerik. (Solusi 3.c).

46 | D a t a M i n i n g

f) Pendeteksian Perubahan dan Deviasi berfokus pada penemuan perubahan yang paling signifikan di dalam data dari nilai-nilai yang telah diukur sebelumnya. (Solusi 3.f)

Komponen Algoritma Data Mining

Setelah tugas-tugas utama dari data mining didefinisikan seperti di atas, maka perlu dirumuskan algoritma-algoritma untuk mencari solusi dari tugas-tugas tersebut di atas. Dalam setiap algoritma data mining ada tiga komponen utama yaitu representasi model, evaluasi model dan metodologi pencarian.

a) Representasi Model adalah bahasa untuk mendeskripsikan pola-pola yang dapat ditemukan. Jika representasi terlalu terbatas, maka tidak akan ada jumlah waktu pelatihan maupun sampel yang mencukupi, yang akan menghasilkan model yang akurat untuk data. b) Evaluasi Model mengestimasi tingkat kecocokan sebuah pola tertentu untuk memenuhi kriteria pada proses KDD. Evaluasi pada keakuratan prediksi (validasi) didasarkan pada validasi silang. Evaluasi kualitas deskriptif berkaitan dengan akurasi, kebaruan, utilitas dan kemampuan untuk dipahami dari model yang diterapkan. Kiteria logika dan statistik dapat digunakan untuk evaluasi model. c) Metodologi Pencarian terdiri dari dua komponen: pencarian parameter dan pencarian model. Pada pencarian parameter, algoritma harus mencari parameterparameter yang mengoptimisasi kriteria evaluasi model dengan tersedianya data yang diobservasi dan representasi model yang tetap. Pencarian model terjadi sebagai sebuah loop di atas metodologi pencarian parameter: representasi model diubah sehingga dibentuk satu keluarga model-model. Untuk setiap representasi model, metodologi pencarian parameter diinstansiasi untuk mengevaluasi kualitas dari model itu. Implementasi metodologi pencarian model cenderung untuk menggunakan teknik pencarian heuristic.

47 | D a t a M i n i n g

7. Metodologi Data Mining yang Populer

Ada banyak metodologi data mining, tapi di sini hanya akan dibahas yang populer saja. Bahasan metodologi akan meliputi segi representasi model, evaluasi model dan metodologi pencarian.

a. Aturan dan Pohon Keputusan Metodologi ini, yang menggunakan pemisahan (split) univariate, mudah dipahami oleh pemakai karena bentuk representasinya yang sederhana.. Akan tetapi, batasan-batasan yang diterapkan pada representasi aturan dan pohon tertentu dapat secara signifikan membatasi bentuk fungsional dari model. Sebagai contoh, Gambar 2 memberikan ilustrasi mengenai efek penerapan pemisahan, yang didasarkan pada nilai ambang tertentu, pada variabel penghasilan (income) di himpunan data peminjaman: sangat jelas terlihat bahwa penerapan pemisahan nilai ambang sederhana sangat membatasi tipe batas (boundary) klasifikasi yang dapat dihasilkan. Jika ruang model dilebarkan untuk memfasilitasi ekspresi-ekspresi yang lebih umum (misalnya multivariate hyperplanes pada berbagai sudut), maka model ini menjadi lebih canggih untuk prediksi. Hanya saja, mungkin akan lebih sulit untuk dipahami pemakai. Metodologi ini terutama digunakan untukpemodelan prediksi, keduanya untuk klasifikasi dan regresi. Selain itu, dapat digunakan juga untuk pemodelan deskripsi ringkasan.

b. Metodologi Klasifikasi dan Regresi Non-linier, Kedua metodologi ini terdiri dari sekumpulan teknik-teknik untuk memprediksi kombinasi variabel-variabel masukan yang pas dengan kombinasi linier dan non-linier pada fungsi-fungsi dasar (sigmoid, splines, polinomial). Contohnya antara lain adalah jaringan saraf feedforward, metodologi spline adaptif, dan proyeksi regresi pursuit. Gambar 5 menunjukkan tipe boundary keputusan nonlinier yang mungkin dihasilkan oleh jaringan saraf . Metodologi regresi non-linier, walaupun canggih dalam representasinya, mungkin sulit untuk diinterpretasikan. Gambar 5 bisa jadi lebih akurat dibandingkan dengan Gambar 2, tapi Gambar 2 lebih mudah untuk diinterpretasikan (jika penghasilan lebih dari t, maka peminjaman akan memiliki status yang bagus).

48 | D a t a M i n i n g

c. Metodologi Berbasis-sampel Representasi dari metodologi ini cukup sederhana: gunakan sampel dari basisdata untuk mengaproksimasi sebuah model, misalnya, prediksi sampelsampel baru diturunkan dari properti sampel-sampel yang mirip di dalam model yang prediksinya sudah diketahui. Teknik ini misalnya adalah klasifikasi tetanggaterdekat, algoritma regresi dan sistem reasoning berbasis-kasus. Gambar 6 menunjukkan hasil dari klasifikasi tetangga terdekat pada himpunan data peminjaman: kelas pada setiap titik di dalam ruang 2-dimensi sama dengan kelas dari titik terdekat di dalam himpunan data yang ditelaah dan orisinil. Kekurangan pada metodologi berbasis sampel (misalnya jika dibandingkan dengan berbasis-pohon) adalah dibutuhkannya metrik jarak yang akurat untuk mengevaluasi jarak antara titik-titik data.

49 | D a t a M i n i n g

d.

Model

Kebergantungan

Grafik

Probabilistik,

Model

grafik

menspesifikasikan

kebergantungan probabilistik yang mendasari sebuah model dalam menggunakan struktur grafik. Dalam bentuknya yang paling sederhana, model ini menspesifikasikan variabelvariabel mana yang bergantung satu sama lain. Pada umumnya, model ini digunakan dengan variabel kategorial atau bernilai diskret, tapi pengembangan untuk kasus khusus, seperti densitas Gausian, untuk variabel yang bernilai real (pecahan) juga dimungkinkan. Baru-baru ini riset di bidang inteligensia buatan dan statistik dilakukan untuk mencari teknik dimana struktur dan parameter-parameter pada model grafik dipelajari secara langsung dari basisdata.

e. Model Belajar Relasional, Jika aturan dan pohon-keputusan memiliki sebuah representasi yang terbatas pada logika proporsional, pembelajaran relasional (yang juga dikenal sebagai pemrograman logika induksi) menggunakan bahasa pola yang lebih sederhana dengan logika tingkatsatu. Pembelajar relasional dengan mudah dapat menemukan formula seperti X=Y. Kebanyakan riset pada metodologi evaluasi model untuk pembelajaran relasional bersifat logic.

50 | D a t a M i n i n g

Anda mungkin juga menyukai