Anda di halaman 1dari 17

TUGAS 1 DATA MINING

Tanggal Pengumpulan: 07 Oktober 2010

TUGAS 1 DATA MINING Tanggal Pengumpulan: 07 Oktober 2010 Informasi Data Mining Disusun Oleh: 090155201031 Mega

Informasi Data Mining

Disusun Oleh:

090155201031 Mega Jaya

PROGRAM STUDI TEKNIK INFORMATIKA

UNIVERSITAS MARITIM RAJA ALI HAJI

2010

1

Apa itu data mining ?

Pendahuluan Perkembangan data mining(DM) yang pesat tidak dapat lepas dari perkembangan teknologi informasi yang memungkinkan data dalam jumlah besar terakumulasi. Sebagai contoh, toko swalayan merekam setiap penjualan barang dengan memakai alat POS(point of sales). Database data penjualan tsb. bisa mencapai beberapa GB setiap harinya untuk sebuah jaringan toko swalayan berskala nasional. Perkembangan internet juga punya andil cukup besar dalam akumulasi data. Tetapi pertumbuhan yang pesat dari akumulasi data itu telah menciptakan kondisi yang sering disebut sebagai rich of data but poor of information karena data yang terkumpul itu tidak dapat digunakan untuk aplikasi yang berguna. Tidak jarang kumpulan data itu dibiarkan begitu saja seakan-akan kuburan data (data tombs). Investasi yang besar di bidang IT untuk mengumpulkan data berskala besar ini perlu dijustifikasi dengan didapatnya nilai tambah dari kumpulan data ini.,

Kebutuhan dari dunia bisnis yang ingin memperoleh nilai tambah dari data yang telah mereka kumpulkan telah mendorong penerapan teknik-teknik analisa data dari berbagai bidang seperti statistik, kecerdasan buatan dsb pada data berskala besar itu. Ternyata penerapan pada data berskala besar memberikan tantangan-tantangan baru yang akhirnya memunculkan metodologi baru yang disebut data mining ini. Bermula dari penerapan di dunia bisnis, sekarang ini data mining juga diterapkan pada bidang-bidang lain yang memerlukan analisa data berskala besar seperti bioinformasi dan pertahanan negara.

Dalam tulisan ini, penulis mencoba memperkenalkan data mining dengan membandingkannya dengan bidang ilmu yang sudah ada, dan juga memberikan beberapa ilustrasi tentang teknik-teknik yang umum dipakai di data mining,

Definisi Ada beberapa definisi dari data mining yang dikenal di buku- buku teks data mining. Diantaranya adalah :

2

Data mining adalah serangkaian proses untuk menggali nilai tambah dari suatu kumpulan data berupa pengetahuan yang selama ini tidak diketahui secara manual.

Data mining adalah analisa otomatis dari data yang berjumlah besar atau kompleks dengan tujuan untuk menemukan pola atau kecenderungan yang penting yang biasanya tidak disadari keberadaannya

Menarik untuk diingat bahwa kata mining sendiri berarti usaha untuk mendapatkan sedikit barang berharga dari sejumlah besar material dasar. Dari definisi-definisi itu, dapat dilihat ada beberapa faktor yang mendefinisikan data mining :

1. data mining adalah proses otomatis terhadap data yang dikumpulkan di masa lalu

2. objek dari data mining adalah data yang berjumlah besar atau kompleks

3. tujuan dari data mining adalah menemukan hubungan- hubungan atau pola-pola yang mungkin memberikan indikasi yang bermanfaat

Sejarah Data mining bukanlah suatu bidang yang sama sekali baru. Salah satu kesulitan untuk mendefinisikan data mining adalah kenyataan bahwa data mining mewarisi banyak aspek dan teknik dari bidang-bidang ilmu yang sudah mapan terlebih dulu. Gambar 1 menunjukkan bahwa data mining memiliki akar yang panjang dari bidang ilmu seperti kecerdasan buatan (artificial intelligent), machine learning, statistic, database dan juga information retrieval.

3

Gambar 1 Beberapa teknik yang sering disebut-sebut dalam literatur data mining seperti classification, neural network,

Gambar 1

Beberapa teknik yang sering disebut-sebut dalam literatur data mining seperti classification, neural network, genetic algorithm dll. sudah lama dikenal di dunia kecerdasan buatan. Statistik memberikan kontribusi pada data mining dengan teknik-teknik untuk menyeleksi data dan evaluasi hasil data mining selain teknik-teknik data mining seperti clustering. Yang membedakan persepsi terhadap data mining adalah perkembangan teknik-teknik data mining untuk aplikasi pada database skala besar. Sebelum populernya data mining, teknik-teknik tersebut pada umunya diterapkan untuk data skala kecil saja. Selain itu beberapa teknik dari bidang database untuk transformasi data juga merupakan bagian integral dari proses data mining.

Akhir-akhir ini ada beberapa bidang ilmu seperti information retrieval yang juga terlibat dalam proses data mining untuk mengekstrak sumber data bagi data mining dari sumber- sumber seperti teks dan website. Walaupun data mining memiliki sumber dari beberapa bidang ilmu, data mining berbeda dalam beberapa aspek dibandingkan dengan bidang ilmu seperti berikut :

statistik : model statistik dipersiapkan oleh para ahli statistik, sedangkan data mining mengembangkan

4

statistik untuk menangani data berjumlah besar secara otomatis -

expert system (sistem cerdas) : model pada expert system dibuat berupa aturan-aturan berdasar pada pengalaman-pengalaman para ahli

data warehouse (DWH) : sering terjadi kerancuan antara data mining dan data warehouse karena keduanya sering dipakai bersamaan. Pada umumnya data warehouse lebih merujuk pada tempat untuk menyimpan data yang terkonsolidasi sedangkan data mining bisa dianggap sebagai perkakas untuk menganalisa otomatis nilai dari data itu

OLAP : seperti data warehouse, OLAP juga sering dibahas bersama data mining. Tetapi OLAP memiliki tujuan untuk memastikan hipotesa yang sudah diformulasikan terlebih dulu oleh penggunanya.

Proses data mining

Salah satu tuntutan dari data mining ketika diterapkan pada data berskala besar adalah diperlukan metodologi sistematis tidak hanya ketika melakukan analisa saja tetapi juga ketika mempersiapkan data dan juga melakukan interpretasi dari hasilnya sehingga dapat menjadi aksi ataupun keputusan yang bermanfaat.

Karenanya data mining seharusnya dipahami sebagai suatu proses, yang memiliki tahapan-tahapan tertentu dan juga ada umpan balik dari setiap tahapan ke tahapan sebelumnya. Pada umumnya proses data mining berjalan interaktif karena tidak jarang hasil data mining pada awalnya tidak sesuai dengan harapan analisnya sehingga perlu dilakukan desain

ulang

prosesnya.

Disini akan diuraikan tahap-tahap umum dari data mining.

karena

dalam prakteknya data warehouse sering menjadi bagian

tentang

Sedikit juga

disinggung

data

warehouse

integral

dari

proses

data mining.

.

5

Perlu diingat sebelum seorang analis menerapkan tahapan- tahapan data mining tsb., sebagai prasyarat penerapan data mining, diperlukan pemahaman terhadap data dan proses diperolehnya data tsb. Yang lebih mendasar lagi adalah diperlukannya pemahaman mengapa menerapkan data mining dan target yang ingin dicapai. Sehingga secara garis besar sudah ada hipotesa mengenai aksi-aksi yang dapat diterapkan dari hasilnya nanti. Pemahaman-pemahaman tsb akan sangat membantu dalam mendesain proses data mining dan juga pemilihan teknik data mining yang akan diterapkan. Selain itu, bagi dunia bisnis akan memudahkan untuk melakukan pengukuran return on investment-nya (ROI).

bisnis akan memudahkan untuk melakukan pengukuran return on investment-nya (ROI). Gambar 2 : Tahap-Tahap Data Mining

Gambar 2 : Tahap-Tahap Data Mining

6

Tahap-Tahap Data Mining

Sebagai suatu rangkaian proses, data mining dapat dibagi menjadi beberapa tahap yang diilustrasikan di Gambar 2[4]. Tahap-tahap tsb. bersifat interaktif di mana pemakai terlibat langsung atau dengan perantaraan knowledge base.

1.Pembersihan data (untuk membuang data yang tidak konsisten dan noise)

Pada umumnya data yang diperoleh, baik dari database suatu perusahaan maupun hasil eksperimen, memiliki isian- isian yang tidak sempurna seperti data yang hilang, data yang tidak valid atau juga hanya sekedar salah ketik. Selain itu, ada juga atribut-atribut data yang tidak relevan dengan hipotesa data mining yang kita miliki. Data-data yang tidak relevan itu juga lebih baik dibuang karena keberadaannya bisa mengurangi mutu atau akurasi dari hasil data mining nantinya. 敵arbage in garbage out・(hanya sampah yang akan dihasilkan bila yang dimasukkan juga sampah) merupakan istilah yang sering dipakai untuk menggambarkan tahap ini. Pembersihan data juga akan mempengaruhi performasi dari sistem data mining karena data yang ditangani akan berkurang jumlah dan kompleksitasnya.

2.

sumber)

Integrasi

data

(penggabungan

data

dari

beberapa

Tidak jarang data yang diperlukan untuk data mining tidak hanya berasal dari satu database tetapi juga berasal dari beberapa database atau file teks. Integrasi data dilakukan pada atribut-aribut yang mengidentifikasikan entitas-entitas yang unik seperti atribut nama, jenis produk, nomor pelanggan dsb. Integrasi data perlu dilakukan secara cermat karena kesalahan pada integrasi data bisa menghasilkan hasil yang menyimpang dan bahkan menyesatkan

7

pengambilan aksi nantinya. Sebagai contoh bila integrasi data berdasarkan jenis produk ternyata menggabungkan produk dari kategori yang berbeda maka akan didapatkan korelasi antar produk yang sebenarnya tidak ada. Dalam integrasi data ini juga perlu dilakukan transformasi dan pembersihan data karena seringkali data dari dua database berbeda tidak sama cara penulisannya atau bahkan data yang ada di satu database ternyata tidak ada di database lainnya.

Hasil integrasi data sering diwujudkan dalam sebuah data warehouse karena dengan data warehouse, data dikonsolidasikan dengan struktur khusus yang efisien. Selain itu data warehouse juga memungkinkan tipe analisa seperti

Untuk membangun data warehouse juga tersedia

OLAP

paket-paket software yang mapan seperti database-nya dan piranti pendukung yang sering disebut sebagai ETL (Extract Transform Loading). Banyak paket software ETL sudah mencakup tahap pembersihan dan integrasi data.

3. Transformasi data (data diubah menjadi bentuk yang sesuai untuk di-mining)

Beberapa teknik data mining membutuhkan format data yang khusus sebelum bisa diaplikasikan. Sebagai contoh beberapa teknik standar seperti analisis asosiasi dan klastering hanya bisa menerima input data kategorikal. Karenanya data berupa angka numerik yang berlanjut perlu dibagi-bagi menjadi beberapa interval. Proses ini sering disebut binning. Disini juga dilakukan pemilihan data yang diperlukan oleh teknik data mining yang dipakai. Transformasi dan pemilihan data ini juga menentukan kualitas dari hasil data mining nantinya karena ada beberapa karakteristik dari teknik- teknik data mining tertentu yang tergantung pada tahapan ini.

4. Aplikasi teknik data mining

Aplikasi teknik data mining sendiri hanya merupakan salah

8

satu bagian dari proses data mining. Ada beberapa teknik data mining yang sudah umum dipakai. Kita akan membahas lebih jauh mengenai teknik-teknik yang ada di seksi berikutnya. Perlu diperhatikan bahwa ada kalanya teknik- teknik data mining umum yang tersedia di pasar tidak mencukupi untuk melaksanakan data mining di bidang tertentu atau untuk data tertentu. Sebagai contoh akhir- akhir ini dikembangkan berbagai teknik data mining baru untuk penerapan di bidang bioinformatika seperti analisa hasil microarray untuk mengidentifikasi DNA dan fungsi- fungsinya.

5. Evaluasi pola yang ditemukan (untuk menemukan yang menarik/bernilai)

Dalam tahap ini hasil dari teknik data mining berupa pola- pola yang khas maupun model prediksi dievaluasi untuk menilai apakah hipotesa yang ada memang tercapai. Bila ternyata hasil yang diperoleh tidak sesuai hipotesa ada beberapa alternatif yang dapat diambil seperti :

menjadikannya umpan balik untuk memperbaiki proses data mining, mencoba teknik data mining lain yang lebih sesuai, atau menerima hasil ini sebagai suatu hasil yang di luar dugaan yang mungkin bermanfaat.

Ada beberapa teknik data mining yang menghasilkan hasil analisa berjumlah besar seperti analisis asosiasi. Visualisasi hasil analisa akan sangat membantu untuk memudahkan pemahaman dari hasil data mining.

6. Presentasi pola yang ditemukan untuk menghasilkan aksi

Tahap terakhir dari proses data mining adalah bagaimana memformulasikan keputusan atau aksi dari hasil analisa yang didapat. Ada kalanya hal ini harus melibatkan orang- orang yang tidak memahami data mining. Karenanya presentasi hasil data mining dalam bentuk pengetahuan yang bisa dipahami semua orang adalah satu tahapan yang diperlukan dalam proses data mining. Dalam presentasi ini,

9

visualisasi juga bisa membantu mengkomunikasikan hasil data mining.

Apa yang bisa dan tidak bisa dilakukan data mining ?

Secara umum, data mining dapat melakukan dua hal :

memberikan kesempatan untuk menemukan informasi menarik yang tidak terduga, dan juga bisa menangani data berskala besar.

Dalam menemukan informasi yang menarik ini, ciri khas data mining adalah kemampuan pencarian secara hampir otomatis. Mengapa disebut hampir otomatis karena dalam banyak teknik data mining ada beberapa parameter yang masih harus ditentukan secara manual atau semi manual. Penelitian untuk melakukan setting secara adaptif merupakan bidang yang hangat diteliti. Data mining juga dapat memanfaatkan pengalaman atau bahkan kesalahan di masa lalu untuk meningkatkan kualitas dari model maupun hasil analisanya, salah satunya dengan kemampuan pembelajaran yang dimiliki beberapa teknik data mining seperti klasifikasi.

Kemampuan data mining untuk menangani data dalam jumlah besar memungkinkan data mining diterapkan pada masalah-masalah kompleks yang ukurannya tidak dibatasi lagi oleh otak manusia. Selain itu penelitian tentang

algoritma parallel dari data mining juga membuka jalan agar data mining dapat diterapkan pada program skala yang lebih

besar

lagi.

Sebaliknya, ada beberapa hal yang tidak bisa dilakukan oleh data mining. Yang pertama perlu disadari adalah data mining bukanlah solusi yang cocok untuk setiap masalah. Ada banyak masalah yang justru lebih baik diselesaikan dengan statistic yang sederhana. Selain itu, data mining juga tidak bisa menemukan pengetahuan yang bermanfaat secara instan. Dalam tahapan-tahapan dari proses data mining yang sudah kita bahas, seorang analis data mining perlu tahu perbedaan, kelebihan dan kekurangan dari teknik-teknik data mining yang ada sebelumnya mengaplikasikan yang

10

paling cocok untuk masalah yang dihadapinya. Ketika menjalankan teknik data mining itu sendiri, si analis juga perlu mengarahkan programnya dengan melakukan persiapan-persiapan dan pemilihan parameternya. Setelah data mining dilaksanakan pun si analis harus melakukan evaluasi terhadap pola-pola yang dihasilkan sebelumnya bisa merumuskan hasilnya. Terakhir perlu diingat bahwa data mining tidak bisa memberikan hasil yang bisa langsung digunakan. Banyak hasil dari data mining yang tidak bisa langsung diinterpretasikan dengan mudah. Masih banyak juga teknik-teknik data mining yang belum memiliki teknik baku untuk menilai seberapa besar manfaat dari pola yang ditemukan. Karenanya untuk penilaian hasil data mining masih perlu dilakukan secara manual. Yang menjadi masalah untuk melakukan penilaian pun diperlukan tenaga terlatih karena algoritma data mining cukup kompleks. Hal-hal ini juga disadari oleh perusahaan-perusahaan yang menerapkan data mining dan OLAP, yang sering dirangkum dalam istilah business intelligence (BI). Untuk memecahkan masalah ini, mulai banyak perusahaan yang membuat pusat untuk business intelligence yang membantu karyawan biasa untuk menggunakan piranti OLAP maupun data mining dengan menyediakan pelatihan dan informasi praktis pemakaian dan aplikasi hasilnya.

Teknik-Teknik Data Mining

Dengan definisi DM yang luas, ada banyak jenis teknik analisa yang dapat digolongkan dalam DM. Karena keterbatasan tempat, disini penulis akan memberikan sedikit gambaran tentang tiga teknik DM yang paling populer. Association rule mining adalah teknik mining untuk menemukan aturan assosiatif antara suatu kombinasi item. Contoh dari aturan assosiatif dari analisa pembelian di suatu pasar swalayan adalah bisa diketahui berapa besar kemungkinan seorang pelanggan membeli roti bersamaan dengan susu. Dengan pengetahuan tsb. pemilik pasar swalayan dapat mengatur penempatan barangnya atau merancang kampanye pemasaran dengan memakai kupon

11

diskon untuk kombinasi barang tertentu. Penting tidaknya suatu aturan assosiatif dapat diketahui dengan dua parameter, support yaitu persentase kombinasi item tsb. dalam database dan confidence yaitu kuatnya hubungan antar item dalam aturan assosiatif. Algoritma yang paling populer dikenal sebagai Apriori dengan paradigma generate and test, yaitu pembuatan kandidat kombinasi item yang mungkin berdasar aturan tertentu lalu diuji apakah kombinasi item tsb memenuhi syarat support minimum. Kombinasi item yang memenuhi syarat tsb. disebut frequent itemset, yang nantinya dipakai untuk membuat aturan- aturan yang memenuhi syarat confidence minimum[1]. Algoritma baru yang lebih efisien bernama FP-Tree[5].

Classification

Classification adalah proses untuk menemukan model atau fungsi yang menjelaskan atau membedakan konsep atau kelas data, dengan tujuan untuk dapat memperkirakan kelas dari suatu objek yang labelnya tidak diketahui. Model itu sendiri bisa berupa aturan “jika-maka”, berupa decision tree, formula matematis atau neural network.

berupa decision tree, formula matematis atau neural network. Decision tree adalah salah satu metode classification yang

Decision tree adalah salah satu metode classification yang paling populer karena mudah untuk diinterpretasi oleh manusia. Contoh dari decision tree dapat dilihat di Gambar 3. Disini setiap percabangan menyatakan kondisi yang harus

12

dipenuhi dan tiap ujung pohon menyatakan kelas data. Contoh di Gambar 3 adalah identifikasi pembeli komputer, dari decision tree tsb. diketahui bahwa salah satu kelompok yang potensial membeli komputer adalah orang yang berusia di bawah 30 tahun dan juga pelajar.

Algoritma decision tree yang paling terkenal adalah C4.5[7], tetapi akhir-akhir ini telah dikembangkan algoritma yang mampu menangani data skala besar yang tidak dapat ditampung di main memory seperti RainForest[3]. Metode- metode classification yang lain adalah Bayesian, neural network, genetic algorithm, fuzzy, case-based reasoning, dan k-nearest neighbor, Proses classification biasanya dibagi menjadi dua fase : learning dan test. Pada fase learning, sebagian data yang telah diketahui kelas datanya diumpankan untuk membentuk model perkiraan. Kemudian pada fase test model yang sudah terbentuk diuji dengan sebagian data lainnya untuk mengetahui akurasi dari model tsb. Bila akurasinya mencukupi model ini dapat dipakai untuk prediksi kelas data yang belum diketahui.

Clustering

Berbeda dengan association rule mining dan classification dimana kelas data telah ditentukan sebelumnya, clustering melakukan penge-lompokan data tanpa berdasarkan kelas data tertentu. Bahkan clustering dapat dipakai untuk memberikan label pada kelas data yang belum diketahui itu. Karena itu clustering sering digolongkan sebagai metode unsupervised learning. Prinsip dari clustering adalah memaksimalkan kesamaan antar anggota satu kelas dan meminimumkan kesamaan antar kelas/cluster. Clustering dapat dilakukan pada data yan memiliki beberapa atribut yang dipetakan sebagai ruang multidimensi. Ilustrasi dari clustering dapat dilihat di Gambar 4 dimana lokasi, dinyatakan dengan bidang dua dimensi, dari pelanggan suatu toko dapat dikelompokkan menjadi beberapa cluster dengan pusat cluster ditunjukkan oleh tanda positif (+).Banyak algoritma clustering memerlukan fungsi jarak untuk mengukur kemiripan antar data, diperlukan juga metode untuk normalisasi bermacam atribut yang dimiliki data. Beberapa kategori algoritma clustering yang banyak dikenal

13

adalah metode partisi dimana pemakai harus menentukan jumlah k partisi yang diinginkan lalu setiap data dites untuk dimasukkan pada salah satu partisi, metode lain yang telah lama dikenal adalah metode hierarki yang terbagi dua lagi :

bottom-up yang menggabungkan cluster kecil menjadi cluster lebih besar dan top-down yang memecah cluster besar menjadi cluster yang lebih kecil. Kelemahan metode ini adalah bila bila salah satu penggabungan/pemecahan dilakukan pada tempat yang salah, tidak dapat didapatkan cluster yang optimal. Pendekatan yang banyak diambil adalah menggabungkan metode hierarki dengan metode clustering lainnya seperti yang dilakukan oleh Chameleon[6]. Akhir-akhir ini dikembangkan juga metode berdasar kepadatan data, yaitu jumlah data yang ada di sekitar suatu data yang sudah teridentifikasi dalam suatu cluster. Bila jumlah data dalam jangkauan tertentu lebih besar dari nilai ambang batas, data-data tsb dimasukkan dalam cluster. Kelebihan metode ini adalah bentuk cluster yang lebih fleksibel. Algoritma yang terkenal adalah DBSCAN[2].

Contoh Penerapan Datamining

Sebagai cabang ilmu baru di bidang komputer (lihat artikel sebelumnya berjudul ‘Data Mining’) cukup banyak penerapan yang dapat dilakukann oleh Data Mining. Apalagi ditunjang ke-kaya-an dan ke-anekaragam-an berbagai bidang ilmu (artificial intelligence, database, statistik, pemodelan matematika, pengolahan citra dsb.) membuat penerapan data mining menjadi makin luas. Di bidang apa saja penerapan data mining dapat dilakukan? Artikel singkat ini berusaha memberikan jawabannya.

Analisa Pasar dan Manajemen Untuk analisa pasar, banyak sekali sumber data yang dapat digunakan seperti transaksi kartu kredit, kartu anggota club tertentu, kupon diskon, keluhan pembeli, ditambah dengan studi tentang gaya hidup publik. Beberapa solusi yang bisa diselesaikan dengan data mining diantaranya:

Menembak target pasar

14

Data mining dapat melakukan pengelompokan (clustering) dari model-model pembeli dan melakukan klasifikasi terhadap setiap pembeli sesuai dengan karakteristik yang diinginkan seperti kesukaan yang sama, tingkat penghasilan yang sama, kebiasaan membeli dan karakteristik lainnya.

Melihat pola beli pemakai dari waktu ke waktu

Data mining dapat digunakan untuk melihat pola beli seseorang dari waktu ke waktu. Sebagai contoh, ketika seseorang menikah bisa saja dia kemudian memutuskan pindah dari single account ke joint account (rekening bersama) dan kemudian setelah itu pola beli-nya berbeda dengan ketika dia masih bujangan.

Cross-Market Analysis Kita dapat memanfaatkan data mining untuk melihat hubungan antara penjualan satu produk dengan produk lainnya. Berikut ini saya sajikan beberapa contoh:

o Cari pola penjualan Coca Cola sedemikian rupa sehingga kita dapat mengetahui barang apa sajakah yang harus kita sediakan untuk meningkatkan penjualan Coca Cola? o Cari pola penjualan IndoMie sedemikian rupa sehingga kita dapat mengetahui barang apa saja yang juga dibeli oleh pembeli IndoMie. Dengan demikian kita bisa mengetahui dampak jika kita tidak lagi menjual IndoMie. o Cari pola penjualan

Profil Customer

Data mining dapat membantu Anda untuk melihat profil customer/pembeli/nasabah sehingga kita dapat mengetahui kelompok customer tertentu suka membeli produk apa saja.

Identifikasi Kebutuhan Customer

Anda dapat mengidentifikasi produk-produk apa saja yang terbaik untuk tiap kelompok customer dan menyusun

15

faktor-faktor apa saja yang kira-kira dapat menarik customer baru untuk bergabung/membeli.

Anda juga dapat memanfaatkan data mining untuk membuat laporan summary yang bersifat multi-dimensi dan dilengkapi dengan informasi statistik lainnya.

Internet Web Surf-Aid

IBM Surf-Aid menggunakan algoritma data mining untuk mendata akses halaman Web khususnya yang berkaitan dengan pemasaran guna melihat prilaku dan minat customer serta melihat ke-efektif-an pemasaran melalui Web. Dengan melihat beberapa aplikasi yang telah disebutkan di atas, terlihat sekali potensi besar dari penerapan Data Mining di berbagai bidang. Bahkan beberapa pihak berani menyatakan bahwa Data Mining merupakan salah satu aktifitas di bidang perangkat lunak yang dapat memberikan ROI (return on investment) yang tinggi. Namun demikian, perlu diingat bahwa Data Mining hanya melihat keteraturan atau pola dari sejarah, tetapi tetap saja sejarah tidak sama dengan masa datang. Contoh: jika orang terlalu banyak minum Coca Cola bukan berarti dia pasti akan kegemukan, jika orang terlalu banyak merokok bukan berarti dia pasti akan kena kanker paru-paru atau mati muda. Bagaimanapun juga data mining tetaplah hanya alat bantu yang dapat membantu manusia untuk melihat pola, menganalisis trend dsb. dalam rangka mempercepat pembuatan keputusan. Kapankah data mining akan banyak digunakan di Indonesia? Kita tunggu saja.

16

Referensi

[1] Agrawal and R. Srikant, “Fast algorithms for mining association rules in large databases”, In Proc. 1994 Int. Conf. Very Large Data Bases(VLDB), 1994.

[2] M. Ester et. al. “A density based algorithm for discovering clusters in large spatial databases” In Proc. 1996 Int. Conf. Knowledge Discovery and Data Mining (KDD’96), 1996.

[3] J. Gehrke, R. Ramakrishnan and V. Ganti. “Rainforest: A framework for fast decision tree construction of large datasets”. In Proc. 1998 Int. Conf Very Large Data Bases (VLDB), 1998.

[4]

J.

Han

and M. Kamber. Data Mining : Concepts and

Techniques. Morgan Kaufmann, 2001.

[5] Iko Pramudiono. Data Mining : www.ilmukomputer.Com.

17