Anda di halaman 1dari 60

PENGANTAR DATA MINING

PROGRAM PASCA SARJANA PROGRAM STUDI MAGISTER TEKNIK ELEKTRO UNIVERSITAS UDAYANA

NI KADEK ARIASIH,S.KOM 1) PUTU BENNY ADNYANA,S.KOM 2), SATRIA PRATAMA,ST


3),

I GUSTI AYU AGUNG DIATRI INDRADEWI,S.KOM 4)

KATA PENGANTAR

Puji syukur penulis panjatkan kehadapan Ida Sang Hyang Widhi Wasa atas segala berkat dan rahmat-Nya sehingga paper mata kuliah Data Mining yang berjudul Pengantar Data Mining ini dapat diselesaikan tepat pada waktunya. Paper ini merupakan sebuah pengantar awal sebelum memahami lebih mendalam mengenai Data Mining. Penulis berharap paper ini dapat memberikan gambaran secara umum yang cukup jelas mengenai apa itu Data Mining. Penulis menyadari sepenuhnya bahwa paper ini masih jauh dari sempurna mengingat keterbatasan pengetahuan dan kemampuan penulis, oleh karena itu kritik dan saran dari semua pihak yang bersifat membangun selalu penulis harapkan demi kesempurnaan paper ini. Akhir kata, penulis berharap semoga paper ini bermanfaat bagi semua pihak yang berkompeten.

Denpasar, 26 Februari 2011

Penulis

ii

DAFTAR ISI

iii

DAFTAR TABEL

iv

DAFTAR GAMBAR

Bab 1 PENGANTAR DATA MINING DAN PROSES DATA MINING


Bab ini merupakan pengantar awal mengenai data mining yang akan memberikan gambaran mengenai apa yang dimaksud dengan data mining dan aktivitas apa saja yang yang terkait dengan data mining.

1.Mengapa Data Mining?


Orang-orang telah mencatat dan mengekstraksi pengetahuan dari sekumpulan data sejak awal peradaban. Gambar-gambar yang terdapat pada dinding-dinding di gua Arles, tulisan-tulisan kuno pada lempengan tanah liat yang

mendokumentasikan bongkar muat kapal pada zaman Babilonia kuno, dan batu Rosetta merupakan beberapa contoh yang menggambarkan karakteristik manusia dalam memahami dunia melalui catatan-catatan simbolis atau numeris. Gambargambar pada dinding gua merupakan catatan yang menceritakan pengalaman mereka sehari-hari di zaman itu, seperti kehidupan, kematian, masa perburuan, masa panen, merayakan hari besar (berpesta), dan masa berkeluarga. Tulisantulisan kuno pada lempengan tanah liat merupakan catatan mengenai rincian aktivitas perdagangan mereka di zaman itu, seperti mengukur bobot dan menghitung jumlah batu berharga atau menghitung jumlah dan volume dari amphorae yang diisi dengan minyak zaitun. Sedangkan batu Rosetta membuka jalan dalam memecahkan makna dari tulisan hieroglif milik bangsa Mesir [1]. Di manapun dan kapanpun, orang-orang selalu menggambarkan dan mencatat peristiwa-peristiwa pada kehidupannya dalam berbagai media perekaman. Pelaku data mining yang pertama kali mencatat peristiwa dalam kehidupannya melalui gambar-gambar yang dibuat pada dinding gua untuk menggambarkan dan memprediksi aktivitas manusia di masa itu. Di wilayah Laut Mediterania kuno,

orang-orang telah dapat menggambarkan dan memprediksi pola perdagangan dan akibat dari cuaca yang berubah-ubah terhadap hasil panen dari pohon zaitun. Catatan-catatan yang mereka buat di lempengan tanah liat sebenarnya merupakan cikal bakal dari lahirnya sistem database modern [1]. Kemajuan dalam akuisisi data digital dan teknologi penyimpanan telah berdampak pada berkembangnya database yang menjadikannya berukuran sangat besar. Hal ini telah terjadi di segala bidang yang ditekuni oleh manusia, mulai dari bidang umum (data transaksi supermarket, rekaman penggunaan kartu kredit, rincian panggilan telepon, dan statistik pemerintahan) hingga bidang yang lebih khusus (citra benda-benda luar angkasa, database molekular, dan rekam medis). Kini, ukuran database telah mencapai satuan terabytes yang berarti telah mencapai lebih dari 1.000.000.000.000 bytes data. Di dalam data berukuran sangat besar ini terdapat informasi tersembunyi yang sangat berharga. Sehingga tidak mengherankan jika kini perhatian telah bergeser dari perekaman data ke ekstraksi informasi berharga yang dapat dimanfaatkan oleh pemilik database. Ketika terdapat banyak sekali pohon di suatu hutan, bagaimana cara memperoleh gambaran yang berarti mengenai hutan tersebut? Hal tersebutlah yang dilakukan oleh data mining. Ketika tersedia data yang jumlahnya sangat besar, data mining digunakan untuk memperoleh informasi berharga dari kumpulan data tersebut [2]. Dalam beberapa tahun terakhir, data mining telah menarik sejumlah besar perhatian dalam industri informasi dan masyarakat secara keseluruhan, karena ketersediaan sejumlah besar data yang beragam dan kebutuhan untuk mengubah data tersebut menjadi informasi dan pengetahuan yang berguna. Informasi dan pengetahuan yang dihasilkan dapat digunakan untuk berbagai aplikasi, mulai dari analisis pasar, deteksi penipuan, retensi pelanggan, mengendalikan produksi, dan eksplorasi ilmu pengetahuan [3]. Data mining dapat dipandang sebagai hasil evolusi alami dari statistical computing, market research/cognitive science, artificial inteligence, executive information/decision support, data warehousing, dan business intelligence/OLAP [1]. Industri sistem database telah menjadi saksi mata dari jalur evolusioner dalam pengembangan kemampuan-kemampuan seperti koleksi data dan pembuatan database, manajemen data (termasuk penyimpanan dan pencarian data, dan

pengolahan transaksi database), dan analisis data lanjutan (meliputi data mining dan data warehouse) [3].

Gambar 1.1 Asal Usul Data Mining [1]

2. Evolusi Teknologi Sistem Database


Semenjak tahun 1960-an, database dan teknologi informasi telah berkembang secara sistematis dari sistem pengolahan file primitif ke sistem database yang canggih dan tangguh. Penelitian dan pengembangan sistem database pada tahun 1970-an telah mengalami kemajuan dari sistem database hierarki dan jaringan ke pengembangan sistem database relasional (data disimpan dalam struktur tabel relasional), tools pemodelan data, dan metode pengaksesan dan pengindeksan. Sebagai tambahan, user memperoleh akses data yang sesuai dan fleksibel melalui bahasa query, antarmuka pengguna, pemrosesan query teroptimisasi, dan manajemen transaksi. Metode yang efisien untuk on-line transaction procesing (OLTP), dimana suatu query dipandang sebagai transaksi read-only, telah berkontribusi secara substansial kepada suatu evolusi dan penerimaan yang luas terhadap teknologi relasional sebagai tool utama untuk penyimpanan yang efisien, pencarian, dan manajemen jumlah data yang besar [3].

Teknologi database sejak pertengahan tahun 1980-an telah dikarakteristikkan dengan mengadopsi teknologi relasional dan penelitian yang semakin meningkat serta aktivitas pengembangan pada sistem database yang baru dan tangguh. Hal ini memberikan kemajuan terhadap pengembangan model data lanjutan seperti extended-relational, object-oriented, object-relational, dan model deduktif. Sistem database berorientasi aplikasi, meliputi spasial, temporal, multimedia, aktif, stream, sensor, database ilmiah dan rekayasa, basis pengetahuan, dan basis informasi perkantoran telah mengalami perkembangan yang pesat. Permasalahan yang terkait dengan distribusi, diversifikasi, dan berbagi data telah dipelajari secara ekstensif. Sistem database yang heterogen dan sistem informasi global berbasis internet seperti World Wide Web (WWW) juga telah muncul dan memainkan peran yang vital dalam industri informasi [3].

Gambar 1.2 Evolusi Teknologi Sistem Database [3]

Kini, data dapat disimpan dalam berbagai jenis database dan repositori informasi yang berbeda. Arsitektur repositori data yang telah muncul adalah data warehouse, yang merupakan repositori dari sejumlah sumber data heterogen yang diatur berdasarkan skema kesatuan pada sebuah lokasi untuk memfasilitasi manajemen pembuat keputusan. Teknologi data warehouse meliputi pembersihan data, integrasi data, dan on-line analytical processing (OLAP) yang merupakan teknik analisis dengan fungsionalitas seperti summarization, konsolidasi, dan agregasi sebaik kemampuan untuk menampilkan informasi dari sudut pandang yang berbeda. Walaupun tools OLAP mendukung analisis multidimensional dan pembuatan keputusan, tools analisis data tambahan diperlukan untuk analisis yang lebih mendalam seperti klasifikasi data, clustering, dan perubahan karakteristik data seiring dengan waktu. Sebagai tambahan, volume data yang berukuran sangat besar dapat dihimpun di luar lingkup database dan data warehouse. Contoh yang khas meliputi, World Wide Web dan data streams, dimana arus data masuk dan keluar menyerupai aliran, seperti aplikasi pengawasan melalui video,

telekomunikasi, dan jaringan sensor. Analisis data yang efisien dan efektif dalam bentuk yang berbeda berkembang menjadi tugas yang menantang [3]. Ketersediaan data yang berlimpah, disertai dengan kebutuhan terhadap tools analisis data yang tangguh telah digambarkan sebagai suatu situasi dimana data yang dimiliki berlimpah, tetapi miskin informasi (data rich but information poor). Perkembangan pesat dalam jumlah data, dihimpun dan disimpan pada repositori berkapasitas besar yang berjumlah banyak, telah jauh melampaui kemampuan manusia dalam memahami himpunan data yang tersedia tanpa bantuan tools yang tangguh. Hal ini menyebabkan data-data yang dihimpun dalam repositori berukuran besar lambat laun hanya akan menjadi pusara data (arsip data yang jarang disinggahi). Sebagi konsekuensi, keputusan penting seringkali dihasilkan tanpa menggunakan dasar berlimpahnya informasi yang dimiliki oleh data yang tersimpan pada repositori data, tetapi cenderung didasarkan pada intuisi pembuat keputusan hanya dikarenakan mereka tidak memiliki tools yang dapat digunakan untuk mengekstrak pengetahuan berharga dari data yang berlimpah tersebut. Namun patut disayangkan, prosedur ini cenderung menghasilkan informasi yang bias dan mengandung kesalahan, dan tentunya memakan waktu dan biaya yang

tidak sedikit. Data mining tools melakukan analisis data dan dapat menyingkap pola data penting, yang berkontribusi besar dalam strategi bisnis, basis pengetahuan, dan penelitian ilmiah serta medis. Adanya jurang pemisah antara data dan informasi telah memicu pengembangan yang sistematis dari data mining tools yang akan mengubah pusara data menjadi bongkahan emas pengetahuan [3].

Gambar 1.3 Data Berlimpah, Tetapi Miskin Informasi [3]

3. Definisi Data Mining

Terdapat beragam pendapat mengenai definisi dari data mining. Pada bagian ini dicantumkan beberapa pendapat mengenai apa sebenarnya yang dimaksud dengan data mining yang diperoleh dari beberapa sumber berbeda. Menurut Han and Kamber, secara sederhana, data mining mengacu pada pernyataan ekstraksi atau menggali pengetahuan dari sejumlah data yang besar. Istilah lain yang juga mengacu pada data mining adalah knowledge mining from data (penggalian pengetahuan dari data), knowledge extraction (ekstraksi pengetahuan), data/pattern analysis (analisis data/pola), data archaelogy (arkeologi data), dan data dredging (pengerukan data). Selain istilah-istilah tersebut, istilah lain yang juga populer sebagai sinonim dari data mining adalah knowledge discovery from data (KDD) [3].

Gambar 1.4 Data Mining, Pencarian Pengetahuan (Pola Menarik) Dalam Data [3]

Pandangan lain menyatakan bahwa data mining merupakan langkah utama dalam proses knowledge discovery. Sebagai bagian dalam suatu proses, knowledge discovery digambarkan pada gambar berikut ini:

Gambar 1.5 Proses Knowledge Discovery [3]

Proses-proses yang terdapat pada knowledge discovery terdiri dari rangkaian iteratif, seperti [3]: a. Data cleaning, untuk menghapus noise dan data yang tidak konsisten. b. Data integration, mengkombinasikan beberapa sumber data. c. Data selection, mengambil kembali data-data dari database yang relevan untuk keperluan analisis. d. Data transformation, dimana data ditransformasi dan dihimpun ke dalam bentuk yang sesuai, sebagai contoh dengan menggunakan summary atau operasi aggregation. e. Data mining, proses utama dimana metode cerdas digunakan untuk mengekstrak pola-pola pada data. f. Pattern evaluation, untuk mengidentifikasi pola yang benar-benar menarik dan mewakili pengetahuan berdasarkan beberapa ukuran ketertarikan. g. Knowledge presentation, dimana visualisasi dan pengetahuan mewakili teknik-teknik yang digunakan untuk menampilkan pengetahuan yang telah diperoleh kepada user. Berdasarkan proses-proses tersebut, arsitektur dari sistem data mining dapat terdiri dari beberapa komponen utama seperti berikut ini [3]: a. Database, data warehouse, World Wide Web, atau repositori informasi lainnya: merupakan sebuah atau sekumpulan database, data warehouse, spreadsheets, atau jenis lainnya dari repositori informasi. Data cleaning dan teknik data integration dapat digunakan pada data. b. Database atau data warehouse server: database atau data warehouse server bertanggung jawab untuk menampilkan data yang relevan, berdasarkan permintaan dari user. c. Knowledge base: merupakan domain pengetahuan yang digunakan untuk memandu pencarian atau mengevaluasi hal yang menarik dari pola yang dihasilkan. Pengetahuan tersebut dapat terdiri dari concepts hierarchies, yang digunakan untuk mengorganisasikan atribut-atribut atau nilai atribut ke dalam tingkat abstraksi yang berbeda. d. Data mining engine: merupakan hal yang penting dalam sistem data mining dan secara ideal terdiri dari sekumpulan modul-modul fungsional yang

digunakan untuk characterization, association dan correlation analysis, classification, prediction, cluster analysis, outlier analysis, dan evolution analysis.

Gambar 1.5 Arsitektur Sistem Data Mining [3]

e. Pattern evaluation module: komponen ini biasanya digunakan untuk mengukur ketertarikan dan berinteraksi dengan modul-modul data mining sehingga fokus mencari alur pola yang menarik. f. User interface: modul ini berkomunikasi antara user dan sistem data mining, yang mengizinkan user untuk berinteraksi dengan sistem dengan cara menentukan data mining query, menyediakan informasi untuk membatu fokus pencarian, dan melakukan eksplorasi data mining berdasarkan hasil data mining lanjutan. Komponen ini juga mengizinkan user untuk melakukan browsing pada database dan skema data warehouse

10

atau struktur data, mengevaluasi pola penggalian, dan memvisualisasikan pola-pola pada bentuk yang berbeda-beda. Menurut McCue, data mining memiliki banyak istilah seperti knowledge management, knowledge discovery, dan sense making. Data mining merupakan suatu aktivitas ekstraksi informasi yang bertujuan untuk mengungkapkan faktafakta tersembunyi yang terdapat pada suatu database. Dengan kata lain, data mining melibatkan analisis sistematis dari himpunan data yang sangat besar dengan menggunakan metode otomatis. Dengan penggalian data, sangat dimungkinkan untuk membuktikan maupun menyanggah hipotesis yang ada atau ide-ide mengenai suatu data atau informasi, ketika menemukan informasi baru atau informasi yang sebelumnya tidak diketahui. Secara khusus, hubungan yang unik dan berharga yang terdapat pada data dapat diidentifikasi dan digunakan secara proaktif untuk mengkategorikan atau mengantisipasi data tambahan. Melalui penggunaan exploratory graphics yang dikombinasikan dengan advanced statistics, machine learning tools, dan artificial intelligence, bongkahan informasi penting dapat digali dari repositori data yang berukuran besar [4]. Menurut Hand, et al, data mining merupakan suatu analisis terhadap himpunan data penelitian (seringkali himpunan data dalam jumlah besar) untuk menemukan hubungan yang belum terungkap dan untuk merangkum data dalam cara baru yang dapat dipahami dan berguna bagi pemilik data. Hubungan dan rangkuman yang diperoleh dari penggunaan data mining seringkali mengacu pada model atau pola. Contohnya meliputi, linear equations, rules, clusters, graphs, tree structures, dan recurrent patterns pada time series [2]. Data mining biasanya berhubungan dengan data yang telah dihimpun untuk tujuan tertentu selain analisis data mining. Sebagai contoh, data-data yang telah dihimpun digunakan untuk memelihara rekaman seluruh transaksi di bank agar selalu up-to-date. Hal ini berarti tujuan dari penggunaan data mining tidak berkaitan dengan strategi pengumpulan data. Inilah yang membedakan data mining dengan statistik. Pada statistik, data biasanya dikumpulkan menggunakan strategi yang efisien untuk menjawab pertanyaan tertentu. Berkaitan dengan ini, data mining seringkali dianggap sebagai analisis data kedua. Selain itu disebutkan juga bahwa data yang digunakan pada data mining seringkali berukuran besar.

11

Pada saat melibatkan data dalam jumlah besar inilah yang akan memunculkan pemasalahan baru. Beberapa diantaranya adalah mengenai bagaimana cara menyimpan atau mengakses data, bagaimana menentukan hal-hal yang dapat mewakili data-data tersebut, bagaimana cara menganalisis data dalam jangka waktu yang layak, dan bagaimana memutuskan apakah hubungan yang terlihat pada data hanyalah suatu kebetulan yang tidak mencerminkan kenyataan sebenarnya atau bukan. Seringkali data yang tersedia hanya merupakan sebuah sampel dari suatu populasi yang utuh sehingga tujuan yang diharapkan merupakan generalisasi dari sampel ke populasi. Sebagai contoh, pada saat memprediksi bagaimana perilaku pelanggan di waktu mendatang atau bagaimana menentukan properti yang dimiliki oleh struktur protein yang sebelumnya belum pernah diketahui. Jika pada kasus tersebut digunakan generalisasi, maka tujuan yang diharapkan tidak akan sesuai dengan standar yang berlaku di statistik karena data yang digunakan bukan merupakan random samples, tetapi lebih mengarah ke convenience atau opportunity samples. Terkadang diinginkan untuk meringkas atau memampatkan suatu himpunan data yang sangat besar dalam suatu cara tertentu sehingga hasilnya dapat lebih mudah dipahami tanpa adanya konsep generalisasi. Permasalan seperti itu akan muncul misalnya ketika memiliki data sensus yang lengkap untuk suatu kota tertentu atau rekaman database dari jutaan individu pada transaksi retail [2]. Proses dalam pencarian hubungan pada suatu himpunan data melibatkan sejumlah langkah yang terdiri dari [2]: a. Menentukan sifat dan struktur dari representasi yang digunakan. b. Mememutuskan bagaimana cara mengukur dan membandingkan seberapa baik representasi yang berbeda bisa sesuai pada data yang dimiliki (memilih score function). c. Memilih proses algoritma untuk mengoptimalkan score function. d. Memutuskan prinsip manajemen data apa yang dibutuhkan untuk mengimplementasikan algoritma yang telah dipilih dengan efisien.

4. Aktivitas Data Mining

12

Data mining dapat dikelompokkan ke dalam beragam aktivitas, berkaitan dengan perbedaan tujuan yang diharapkan oleh orang yang menganalisis data.

a. Classification b. Estimation c. Prediction d. Association rules e. Clustering f. Description dan visualization Tiga aktivitas pertama (classification, estimation, prediction) merupakan contoh dari directed data mining atau supervised learning. Pada directed data mining, tujuan yang hendak dicapai adalah menggunakan data yang tersedia untuk membangun sebuah model yang menggambarkan satu atau lebih atribut-atribut khusus dari pusat perhatian (atribut target atau atribul kelas) sesuai dengan atributatribut yang tersedia. Sedangkan tiga aktivitas berikutnya (association rules, clustering, description dan visualization) merupakan contoh dari undirected data mining, yakni tidak atribut yang dikhususkan sebagai target. Tujuan dari undirected data mining adalah untuk membangun beberapa hubungan di antara semua atribut [5]. 4.1 Klasifikasi (Classification) Klasifikasi terdiri dari pengujian terhadap karakteristik yang dimiliki oleh objek baru dan menentukan di kelas mana objek baru tersebut berada. Pada klasifikasi, kelas-kelas yang digunakan sudah ditentukan sebelumnya. Tugas klasifikasi ditandai dengan pendefinisian yang baik dari kelas-kelasnya, dan satu set pelatihan terdiri dari contoh-contoh yang belum diklasifikasikan. Tujuan dari klasifikasi adalah untuk membangun suatu model yang dapat digunakan untuk mengklasifikasikan data-data yang belum terklasifikasi. Contoh dari klasifikasi meliputi [5]: a. Pengklasifikasian para pengaju kredit ke dalam kategori resiko rendah, sedang, atau tinggi

13

b. Pengklasifikasian jamur ke dalam kategori jamur yang aman dikonsumsi atau jamur beracun c. Penentuan saluran telepon rumah yang digunakan untuk mengakses internet 4.2 Perkiraan (Estimation) Perkiraan berkaitan dengan nilai hasil yang berkelanjutan. Diberikan sejumlah data masukan, perkiraan digunakan untuk memunculkan nilai dari beberapa variabel kontinyu yang nilainya tidak diketahui seperti pendapatan atau jumlah saldo kartu kredit. Beberapa contoh dari perkiraan, yakni [5]: a. Memperkirakan jumlah anak dalam suatu keluarga berdasarkan data riwayat pendidikan sang ibu b. Memperkirakan total pendapatan yang dimiliki oleh suatu rumah tangga berdasarkan data kendaraan yang dimiliki oleh keluarga tersebut c. Memperkirakan nilai jual dari sebuah real estate berdasarkan data jarak kedekatan antara lokasi real estate dari pusat bisnis utama di perkotaan 4.3 Prediksi (Prediction) Prediksi apapun dapat dianggap sebagai klasifikasi atau perkiraan. Namun perbedaannya terletak pada hal apa yang menjadi perhatian. Ketika data mining digunakan untuk mengklasifikasikan saluran telepon yang penggunaan utamanya adalah untuk mengakses internet atau transaksi kartu kredit yang diklasifikasikan sebagai penipuan, tidak pernah terpikirkan apakah klasifikasi tersebut benar atau tidak. Klasifikasi yang dilakukan bisa jadi bernilai benar atau salah. Namun, ketidakpastian biasanya hanya disebabkan oleh pengetahuan yang tidak lengkap. Prediksi menjadi tugas yang terasa berbeda karena rekaman-rekaman data diklasifikasikan menurut beberapa perilaku masa depan yang telah diprediksi atau nilai masa depan yang telah diperkirakan. Pada prediksi, satu-satunya cara untuk mengetahui tingkat akurasi dari klasifikasi adalah dengan cara menunggu dan mengamatinya. Contoh dari prediksi, di antaranya adalah : a. Memprediksi jumlah saldo yang akan ditransfer jika prospek kartu kredit dalam menerima transfer ditawarkan b. Memprediksi pelanggan mana yang akan pergi/berpaling dalam enam bulan ke depan

14

c. Memprediksi pelanggan telepon yang akan memesan layanan tambahan seperti panggilan telepon tiga jalur atau kota suara Teknik apapun yang digunakan dalam klasifikasi maupun perkiraan dapat digunakan di dalam melakukan prediksi dengan menggunakan contoh pelatihan di mana nilai dari variabel yang akan diprediksi telah diketahui, beserta dengan datadata historisnya. Data historis digunakan untuk membentuk suatu model yang menjelaskan perilaku yang sedang diteliti. Ketika model ini digunakan untuk aliran masukan, hasil yang diperoleh berupa prediksi dari perilaku yang akan terjadi di masa mendatang [5]. 4.4 Aturan Asosiasi (Association Rules) Aturan asosiasi adalah suatu aturan yang menyiratkan hubungan asosiasi tertentu di antara suatu himpunan objek (seperti terjadi bersama atau saling melibatkan satu sama lain) dalam suatu database. Misalkan diberikan suatu himpunan transaksi, di mana setiap transaksi merupakan suatu himpunan literal (disebut item). Suatu aturan asosiasi merupakan sebuah ekspresi dalam bentuk X Y, di mana X dan Y adalah himpunan items. Makna intuitif dari aturan tersebut yakni, transaksi database yang mengandung X akan cenderung mengandung Y. Contoh dari aturan asosiasi adalah: 30% petani yang menanam gandum juga menanam kacang-kacangan; 2% dari keseluruhan petani menanam dua komoditas tersebut Dari pernyataan tersebut, presentase 30% disebut confidence of the rule, dan 2% menyatakan support of the rule. Permasalahan dalam aturan asosiasi adalah untuk menemukan semua aturan asosiasi yang memenuhi spesifikasi user dalam hal minimum support dan minimum confidence constraints [5].

4.5 Klaster (Clustering) Pengklasteran merupakan suatu tugas untuk membagi grup yang beragam menjadi sejumlah subgrup yang memiliki kemiripan atau klaster. Hal yang membedakan klaster dengan klasifikasi adalah pengklasteran tidak bergantung terhadap penentuan kelas awal. Dalam pengklasteran tidak terdapat pendefinisian kelas awal. Rekaman data dikelompokkan berdasarkan kemiripan yang terdapat

15

antar data. Pengklasteran seringkali dilakukan sebagai langkah awal dalam membentuk pemodelan pada data mining. Sebagai contoh, pengklasteran dapat dijadikan sebagai langkah awal dalam melakukan segmentasi pasar, jika dibandingkan harus menerapkan aturan one-size-fits-all untuk menentukan jenis promosi terbaik untuk setiap klaster [5]. 4.6 Deskripsi dan Visualisasi (Description dan Visualization) Visualisasi data merupakan bentuk yang tangguh dari pendeskripsian data mining. Memang visualisasi tidak selalu menjadi hal yang mudah untuk dipahami, tetapi gambar yang tepat benar-benar dapat bernilai seperti ribuan aturan asosiasi karena manusia telah sangat terbiasa dalam memahami pandangan visual [5].

5.

Summary
Data mining merupakan suatu analisis yang dilakukan terhadap suatu

himpunan data untuk mengekstrak informasi yang terkandung di dalamnya sehingga diperoleh pemahaman terhadap himpunan data tersebut dan dapat dimanfaatkan oleh pemilik data untuk tujuan yang dikehendakinya. Ekstraksi informasi dari suatu himpunan data dilakukan sesuai dengan tujuan yang dikehendaki oleh pemilik data sehingga aktivitas data mining dikelompokkan menjadi enam kelompok, yakni klasifikasi (classification), perkiraan (estimation), prediksi (prediction), aturan asosiasi (association rule), klaster (clustering), deskripsi dan visualisasi (description and visualization).

16

Bab 2 PERKAKAS DAN TEKNIK DATA MINING


Pada bab ini akan membahas tentang tools apa saja yang dapat digunakan sebagai acuan untuk melakukan proses data mining, serta teknik-teknik apa saja yang dapat digunakan untuk melakukan proses data mining.

1.

Perkakas Data Mining


Data mining tidak hanya membahas tentang alat atau perangkat lunak

database yang Anda gunakan. Anda dapat melakukan data mining dengan sistem database relatif sederhana dan alat-alat yang sederhana, termasuk membuat dan menulis sendiri, atau menggunakan paket perangkat lunak yang ada. Manfaat data mining yang kompleks dari pengalaman masa lalu dan algoritma didefinisikan dengan perangkat lunak dan paket perangkat lunak yang ada, dengan alat tertentu memperoleh afinitas yang lebih besar atau reputasi dengan teknik yang berbeda. Misalnya, IBM SPSS, yang memiliki akarnya dalam analisis statistik dan survei, dapat membangun model prediksi yang efektif dengan melihat tren masa lalu dan membangun perkiraan yang akurat. IBM InfoSphere Warehouse menyediakan data sourcing, preprocessing, mining, dan analisis informasi dalam satu paket, yang memungkinkan Anda untuk mengambil informasi dari database sumber langsung ke output yang berupa laporan akhir. Baru-baru ini bahwa data set yang sangat besar dan cluster dan pengolahan data skala besar yang dapat memungkinkan data mining untuk menyusun dan melaporkan kelompok dan korelasi data yang lebih rumit. Sekarang banyak sekali alat dan sistem baru yang tersedia, termasuk penyimpanan data gabungan dan sistem pengolahan. Anda dapat menambang data dengan berbagai set data yang berbeda, termasuk, database SQL tradisional, data teks baku, simpanan kunci / nilai, dan database dokumen. Clustered database, seperti Hadoop, Cassandra,

17

CouchDB, dan Couchbase Server, menyimpan dan menyediakan akses ke data sedemikian rupa sehingga tidak sesuai dengan struktur tabel tradisional. Secara khusus, format penyimpanan yang lebih fleksibel dari database dokumen menyebabkan fokus yang berbeda dan kompleksitas dalam hal pengolahan informasi. Database SQL memiliki struktur yang ketat dan kekakuan dalam skema, yang membuat proses query mereka dan menganalisis data langsung dari perspektif bahwa format dan struktur informasi telah diketahui. Database dokumen yang memiliki standar seperti struktur JSON, atau file yang memiliki beberapa struktur dapat dibaca oleh mesin, juga lebih mudah untuk memproses, meskipun mereka bisa menambahkan kompleksitas karena struktur dan variabel yang berbeda. Misalnya, dengan pengolahan data baku sepenuhnya dari Hadoop yang dapat menjadi kompleks untuk mengidentifikasi dan mengekstraksi konten sebelum Anda mulai untuk memproses dan

menghubungkannya [6]. Organisasi-organisasi yang ingin menggunakan alat data mining dapat membeli program mining yang dirancang untuk perangkat lunak dan platform perangkat keras yang ada, yang dapat diintegrasikan ke dalam produk baru dan sistem seperti yang dibeli secara online, atau mereka dapat membangun solusi custom mining mereka sendiri. Misalnya, memasukkan output dari latihan mining data ke sistem komputer lain, seperti jaringan saraf, adalah sangat umum dan dapat memberikan nilai lebih pada data yang di-mining. Hal ini karena alat data mining mengumpulkan data, sedangkan program kedua (misalnya, jaringan saraf) membuat keputusan berdasarkan data yang dikumpulkan. Berbagai jenis alat data mining yang tersedia di pasaran, masing-masing dengan kekuatan dan kelemahan mereka sendiri. Auditor internal perlu menyadari pada berbagai jenis alat-alat pertambangan data yang tersedia dan

merekomendasikan pembelian alat yang sesuai dengan kebutuhan organisasi. Hal ini harus dipertimbangkan sedini mungkin dalam siklus proyek, bahkan mungkin dalam studi kelayakan. Kebanyakan alat data mining dapat diklasifikasikan ke dalam salah satu dari tiga kategori: alat data mining tradisional, dashboard, dan alat teks-mining. a. Alat Data Mining Tradisional

18

Program data mining tradisional membantu perusahaan membangun pola data dan tren dengan menggunakan beberapa algoritma dan teknik yang kompleks. Beberapa dari alat ini diinstal pada desktop untuk memantau data dan menyorot tren dan lainnya mengangkap informasi yang berada di luar database. Mayoritas tersedia di Windows dan versi UNIX, meskipun beberapa spesialisasi dalam satu sistem operasi saja. Selain itu, beberapa mungkin berkonsentrasi pada satu jenis database, sebagian besar akan mampu menangani data menggunakan pengolahan analisis online atau teknologi serupa. b. Dashboards Diinstal di komputer untuk memantau informasi dalam database, dashboard mencerminkan perubahan data dan update onscreen - seringkali dalam bentuk grafik atau tabel - memungkinkan pengguna untuk melihat bagaimana bisnis berkinerja. Data historis juga dapat dirujuk, yang memungkinkan pengguna untuk melihat di mana hal telah berubah (misalnya, peningkatan penjualan dari periode yang sama tahun lalu). Fungsi ini membuat dashboard mudah digunakan dan sangat menarik bagi manajer yang ingin memiliki gambaran kinerja perusahaan. c. Alat Text-Mining Terkadang disebut alat teks-mining karena kemampuannya untuk

menambang data dari berbagai jenis teks - dari Microsoft Word dan PDF Acrobat dokumen ke file teks sederhana, misalnya. Alat ini memindai isi dan mengkonversi data yang dipilih ke format yang kompatibel dengan database alat tersebut, sehingga memberikan pengguna dengan cara yang mudah dan nyaman untuk mengakses data tanpa perlu membuka aplikasi yang berbeda. Konten yang dipindai dapat terstruktur (misalnya, informasi yang tersebar hampir secara acak di seluruh dokumen, termasuk e-mail, halaman internet, audio dan data video) atau terstruktur (misalnya, bentuk data dan tujuan yang dikenal, seperti konten yang ditemukan dalam database). Menangkap masukan ini dapat memberikan organisasi dengan banyak informasi yang dapat digali untuk menemukan tren, konsep, dan sikap.

19

Selain alat ini, aplikasi dan program lain dapat digunakan untuk tujuan data mining. Misalnya, audit alat interogasi dapat digunakan untuk menyoroti penipuan, data anomali, dan pola. Contoh dari hal ini telah diterbitkan oleh kantor Treasury Inggris dalam Fraud Report 2002-2003: Anti-fraud Advice and Guidance, yang membahas bagaimana menemukan penipuan menggunakan alat interogasi audit. Contoh lain adalah digunakannya alat pemeriksaan interogasi untuk mengidentifikasi penipuan yang ditemukan pada tahun 1999 dalam buku David G. Coderre, Fraud Detection. Selain itu, auditor internal dapat menggunakan spreadsheet untuk melakukan latihan sederhana data mining atau untuk menghasilkan tabel ringkasan. Beberapa komputer desktop, notebook, dan server yang menjalankan sistem operasi seperti Windows, Linux, dan Macintosh dapat diimpor langsung ke Microsoft Excel. Menggunakan tabel penting dalam spreadsheet, auditor dapat meninjau data yang kompleks dalam format sederhana dan menelusuri di mana yang diperlukan untuk menemukan asumsi yang digarisbawahi atau informasi. Ketika mengevaluasi strategi data mining, perusahaan dapat memutuskan untuk membeli beberapa alat untuk tujuan tertentu, daripada membeli satu alat yang memenuhi semua kebutuhan. Meskipun memperoleh beberapa alat bukanlah pendekatan utama, perusahaan dapat memilih untuk melakukannya jika, misalnya, menginstal dashboard untuk menjaga manajer mendapatkan informasi pada masalah bisnis, data mining suite penuh untuk mengambil dan membangun data untuk pemasaran dan penjualan, dan alat interogasi sehingga auditor dapat mengidentifikasi aktivitas penipuan [7]. Selain alat-alat data mining yang telah disebutkan diatas, Wikipedia memberikan daftar software dan aplikasi bersifat free dan open source yang dapat digunakan untuk data mining antara lain sebagai berikut [8] : a. Carrot2: framework clustering teks dan hasil pencarian. b. Chemicalize.org: miner struktur kimia dan web search engine. c. ELKI: project riset universitas dengan analisis cluster canggih dan metode deteksi outlier yang ditulis dalam bahasa Java. d. GATE: pemroses bahasa natural dan tool rekayasa bahasa.

20

e. JHepWork: framework analisis data berbasis Java yang dikembangkan di Argonne National Laboratory. f. KNIME: Konstanz Information Miner, framework analisis data

komprehensif yang user-friendly. g. ML-Flex: paket software yang memungkinkan pengguna untuk

mengintegrasikan dengan paket mesin belajar pihak ketiga yang ditulis dalam bahasa pemrograman apapun, mengeksekusi klasifikasi analisis secara paralel sepanjang node komputasi, dan menghasilkan laporan HTML dari hasil klasifikasi. h. NLTK (Natural Language Toolkit): Sebuah kumpulan libraries dan program untuk pengolahan bahasa simbolik dan statistik alami untuk bahasa Python. i. Orange: Sebuah komponen berbasis data mining dan suite software mesin pembelajaran ditulis dalam bahasa Python. j. R: Sebuah bahasa pemrograman dan lingkungan perangkat lunak untuk komputasi statistik, data mining, dan grafis. Ini adalah bagian dari proyek GNU. k. RapidMiner: Sebuah lingkungan untuk pembelajaran mesin dan eksperimen data mining. l. UIMA: framework komponen untuk menganalisis konten tidak terstruktur seperti teks, audio dan video - awalnya dikembangkan oleh IBM. m. Weka: suite software aplikasi pembelajaran mesin yang ditulis dalam bahasa pemrograman Java. Sedangkan software dan aplikasi yang bersifat komersial antara lain sebagai berikut [8] : a. Angoss KnowledgeSTUDIO: tool data mining yang dibuat Angoss. b. BIRT Analytics: tool visual data mining dan analisis prediktif yang dibuat Actuate Corporation. c. Clarabridge: solusi analisis text kelas enterprise. d. E-NI (e-mining, e-monitor): tool data mining berbasiskan pola sementara. e. IBM SPSS Modeler: software data mining yang dibuat IBM.

21

f. KXEN Modeler: tool data mining yang dibuat KXEN. g. LIONsolver: software aplikasi terintegrasi untuk data mining, intelegen bisnis, dan pemodelan yang mengimplementasikan pendekatan Learning and Intelligent OptimizatioN (LION). h. Microsoft Analysis Services: software data mining yang dibuat Microsoft. i. Oracle Data Mining: software data mining oleh Oracle. j. SAS Enterprise Miner: software data mining yang dibuat SAS Institute. k. STATISTICA Data Miner: software data mining yang dibuat StatSoft.

2.

Teknik Data Mining


Selain menggunakan alat data mining tertentu, auditor internal dapat

memilih dari berbagai teknik data mining. Teknik yang paling sering digunakan termasuk jaringan saraf tiruan, pohon keputusan, dan metode tetangga-terdekat. Masing-masing teknik melakukan analisis data dengan cara yang berbeda. a. Jaringan Saraf Tiruan Model prediksi non-linear yang belajar melalui pelatihan. Meskipun teknik pemodelan prediktif ini kuat, beberapa kekuatan datang dengan mengorbankan kemudahan penggunaan. Satu area di mana auditor dapat dengan mudah menggunakannya adalah ketika meninjau catatan untuk mengidentifikasi penipuan dan tindakan mendekati penipuan. Karena kompleksitas, teknik ini lebih baik digunakan dalam situasi di mana teknik ini dapat digunakan dan digunakan kembali, seperti meninjau transaksi kartu kredit setiap bulan untuk memeriksa anomali. b. Pohon Keputusan Pohon berbentuk struktur yang mewakili set keputusan. Keputusan ini menghasilkan aturan, yang kemudian digunakan untuk mengklasifikasikan data. Pohon keputusan adalah teknik favorit untuk membangun model yang mudah dimengerti. Auditor dapat menggunakannya untuk menilai, misalnya, apakah organisasi menggunakan strategi pemasaran hemat biaya yang tepat yang didasarkan pada nilai yang diberikan pelanggan, seperti laba.

22

c.

Metode Tetangga-Terdekat Mengklasifikasikan record dataset berdasarkan data yang sama dalam

sejarah dataset. Auditor dapat menggunakan pendekatan ini untuk menentukan dokumen yang menarik untuk mereka dan meminta sistem untuk mencari barang serupa. Masing-masing pendekatan membawa berbagai keuntungan dan kerugian yang perlu dipertimbangkan sebelum penggunaannya. Jaringan saraf tiruan, yang sulit untuk dilaksanakan, mewajibkan semua input dan output yang dihasilkan untuk diekspresikan secara numerik, sehingga membutuhkan semacam

interpretasi tergantung pada sifat alami latihan data mining. Teknik pohon keputusan adalah metodologi yang paling umum digunakan, karena sederhana dan mudah untuk diimplementasikan. Akhirnya, metode tetangga-terdekat lebih bergantung pada menghubungkan barang serupa dan, karenanya, bekerja lebih baik untuk ekstrapolasi daripada pertanyaan prediktif. Cara yang baik untuk menerapkan teknik-teknik canggih data mining adalah memiliki alat data mining yang fleksibel dan interaktif yang terintegrasi dengan database atau data warehouse. Menggunakan alat yang beroperasi di luar database atau data warehouse tidak efisien. Menggunakan alat tersebut akan melibatkan langkah-langkah ekstra untuk mengekstrak, impor, dan menganalisis data. Ketika alat data mining terintegrasi dengan data warehouse,

menyederhanakan penerapan dan pelaksanaan hasil mining. Selain itu selama gudang tumbuh dengan keputusan dan hasil baru, organisasi dapat menambang praktik terbaik dan terus menerapkannya menuju keputusan masa depan. Terlepas dari teknik yang digunakan, nilai sebenarnya di balik data mining adalah pemodelan, proses membangun model yang didasarkan pada kriteria yang ditentukan pengguna dari data yang telah ditangkap. Setelah model dibangun, hal itu dapat digunakan dalam situasi yang sama di mana jawaban tidak diketahui. Sebagai contoh, sebuah organisasi yang ingin memperoleh pelanggan baru dapat membuat model pelanggan ideal yang didasarkan pada data yang ada diambil dari orang-orang yang sebelumnya membeli produk. Model ini kemudian digunakan untuk query data pada calon pelanggan untuk melihat apakah profil mereka cocok. Modeling juga dapat digunakan oleh departemen audit untuk memprediksi jumlah

23

auditor yang diperlukan untuk melakukan rencana audit berdasarkan usaha-usaha sebelumnya dan pekerjaan serupa [7].

Sedangkan menurut Dr. Rajni Jain dalam papernya yang berjudul Introduction to Data Mining Techniques, teknik-teknik dalam data mining dapat dijabarkan sebagai berikut [5] : a. Statistik permasalahan dalam mengabstraksi pengetahuan dari data telah ditemukan oleh ahli statistik, jauh sebelum paper pertama tentang kecerdasan buatan dipublikasikan. Contoh, analisis korelasi

mengaplikasikan alat statistik untuk menganalisis korelasi antara dua atau lebih variabel. Analisis cluster menawarkan metode untuk menemukan cluster di set obyek besar yang digambarkan oleh vektor nilai. Analisis faktor mencoba untuk menunjukkan variabel yang paling penting yang menggambarkan cluster. Beberapa teknik populer yang digunakan untuk tugas-tugas klasifikasi tersebut adalah Linear Discriminants, Quadratic Discriminants, K-Nearest Neighbour, Nave Bayes, Logistic Regression dan CART. b. Machine Learning Metode statistik mengalami kesulitan

menggabungkan informasi subjektif non terukur dalam model mereka. Mereka juga harus mengasumsikan distribusi berbagai parameter dan independensi atribut. Berbagai penelitian telah menyimpulkan bahwa pembelajaran mesin menghasilkan akurasi prediksi yang sebanding (dan sering lebih baik). Kinerjanya yang baik dibandingkan dengan metode statistik dapat dikaitkan dengan fakta bahwa bebas dari asumsi parametrik dan struktural yang mendasari metode statistik. Kelemahan lain dari pendekatan statistik untuk analisis data adalah masalah menafsirkan hasil. Beberapa teknik pembelajaran mesin disebutkan di bawah ini. b.1 Jaringan Saraf Jaringan saraf tiruan adalah model komputasi yang terdiri dari banyak elemen pemrosesan non linier yang diatur dalam pola yang mirip dengan jaringan neuron biologis. Jaringan saraf yang khas memiliki nilai aktivasi yang terkait dengan masing-masing node dan bobot nilai yang terkait dengan masing-masing koneksi. Sebuah fungsi

24

aktivasi mengatur penembakan node dan penyebaran data melalui koneksi jaringan di paralelisme besar. Jaringan juga dapat dilatih dengan contoh-contoh melalui penyesuaian berat koneksi. b.2 Algoritma Genetika Algoritma genetik adalah algoritma pencarian berdasarkan mekanisme seleksi alam dan genetika alami. Mereka mengkombinasikan survival of the fittest antara string struktur dengan pertukaran informasi terstruktur secara acak untuk membentuk algoritma pencarian dengan beberapa bakat inovatif pencarian manusia. Dalam setiap generasi, satu set string baru dibuat dengan menggunakan potongan-potongan yang terkuat dari yang lama, sebuah bagian baru sesekali dicoba untuk pengukuran yang baik. Sementara diacak, algoritma genetik tidak berjalan secara sederhana. Mereka secara efisien mengeksploitasi informasi bersejarah untuk berspekulasi pada poin pencarian baru dengan harapan mendapatkan kinerja yang lebih baik. Sebuah GA sederhana yang menghasilkan hasil yang baik, terdiri dari tiga operator yaitu reproduksi, crossover dan mutasi. GA berbeda dari optimasi normal dan prosedur pencarian dalam empat hal: 1. GA bekerja dengan coding dari set parameter, bukan

parameternya. 2. GA melakukan pencarian dari poin populasi, bukan dari point tunggal. 3. GA menggunakan fungsi informasi objektif, bukan turunan atau pengetahuan tambahan lainnya. 4. GA menggunakan aturan transisi probabilistik, bukan aturan deterministik. b.3 Support Vector Machines SVM adalah mesin pembelajaran yang dapat melakukan klasifikasi biner dan tugas estimasi regresi. Mereka menjadi semakin populer sebagai paradigma baru klasifikasi dan pembelajaran karena dua faktor penting. Pertama, tidak seperti teknik klasifikasi lainnya, SVM meminimalkan kesalahan yang diharapkan bukannya meminimalkan kesalahan klasifikasi. Kedua, SVM

25

menggunakan

dualitas

teori

pemrograman

matematika

untuk

mendapatkan masalah ganda yang mengakui metode komputasi efisien. b.4 Induksi Pohon Keputusan DT adalah skema klasifikasi yang menghasilkan pohon dan seperangkat aturan, mewakili model kelas yang berbeda, dari dataset yang diberikan. DT adalah diagram alur seperti struktur pohon, di mana setiap node internal menunjukkan sebuah tes pada atribut, setiap cabang merupakan hasil dari tes dan node daun mewakili kelas atau distribusi kelas. Simpul yang paling atas dalam pohon adalah simpul akar. Berikut adalah sebuah contoh untuk pohon keputusan dengan menggunakan aturan dan dataset. Aturan:

1. IF hair = blonde AND lotion = no THEN sunburn = yes. 2. IF hair = blonde AND lotion = yes THEN sunburn = no. 3. IF hair = red THEN sunburn = yes. 4. IF hair = brown THEN sunburn = no.
Dan berikut adalah gambar tabel dataset untuk sunburn.

Gambar 2.1 Dataset sunburn 1 [5]

26

Gambar 2.2 Dataset sunburn 2 [5]

Gambar 2.3 Pohon keputusan yang didapatkan dari dataset sunburn [5] c. Fuzzy Logic Fuzzy logic, yang dapat dipandang sebagai perluasan dari sistem logika klasik, menyediakan kerangka kerja konseptual yang efektif untuk mengatasi masalah representasi pengetahuan dalam lingkungan ketidakpastian dan ketidaktepatan. Beberapa karakteristik penting dari logika fuzzy berhubungan dengan berikut: c.1 Dalam logika fuzzy, penalaran yang tepat dipandang sebagai kasus terbatas perkiraan penalaran. c.2 Dalam logika fuzzy segalanya tentang masalah derajat. c.3 Semua sistem logika dapat difuzzifikasi. c.4 Dalam logika fuzzy, pengetahuan diartikan sebagai kumpulan elastisitas atau ekuivalen, batasan fuzzy terletak pada kumpulan variabel. Ringkasan konsep dasar dan teknik yang mendasari penerapan logika fuzzy untuk representasi pengetahuan dan gambaran sejumlah contoh yang berkaitan dengan penggunaannya sebagai sistem komputasi yang

disediakan. logika fuzzy dalam bentuk murninya bukan teknik untuk

27

klasifikasi tetapi telah menjadi konsep yang sangat berguna dalam banyak teknik hibrida untuk klasifikasi. d. Rough Sets RS teori berkaitan dengan pendekatan set atau konsep dengan cara biner relasi yang dibangun dari data empiris didasarkan pada gagasan dari ketidakmampuan untuk membedakan antara objek. Perkiraan tersebut dapat dikatakan untuk membentuk model konsep target, dan karenanya dalam penggunaan yang khas, berada di bawah pendekatan bottom up untuk konstruksi model. Aplikasi Rough Set ke data mining secara umum dilanjutkan sepanjang arah berikut: d.1 Aturan keputusan adalah induksi dari atribut nilai tabel. d.2 Data filtrasi oleh template generasi - ini terutama melibatkan ekstraksi blok dasar dari data yang didasarkan pada hubungan kesetaraan. algoritma genetik juga kadang-kadang digunakan dalam tahap ini untuk pencarian. Sedangkan menurut Karimella Vikram pada papernya yang berjudul Data Mining Tools and Techniques: a review, seperti halnya tukang kayu menggunakan banyak peralatan untuk membangun rumah yang kokoh, seorang analis yang baik mempekerjakan lebih dari satu teknik untuk mengubah data menjadi informasi. Sebagian besar data miner melampaui dasar-dasar pelaporan dan OLAP (On-Line Analytical Processing, juga dikenal sebagai multi-dimensi pelaporan) untuk mengambil pendekatan multi-metode yang mencakup berbagai teknik-teknik canggih. Beberapa di antaranya adalah teknik statistik sedangkan yang lain didasarkan pada kecerdasan buatan (AI) [9]. a. Cluster Analysis Analisis Cluster adalah teknik reduksi data yang dikelompokkan bersama-sama baik variabel atau kasus berdasarkan karakteristik data yang sama. Teknik ini berguna untuk menemukan segmen pelanggan berdasarkan karakteristik seperti informasi demografis dan keuangan atau perilaku pembelian. Misalnya, bank ingin mencari segmen pelanggan berdasarkan jenis rekening yang mereka buka. Sebuah analisis cluster dapat menghasilkan beberapa kelompok pelanggan. Bank kemudian mungkin mencari perbedaan jenis rekening dibuka dan perilaku, khususnya

28

gesekan, antara segmen. Mereka kemudian mungkin memperlakukan segmen secara berbeda berdasarkan pada karakteristik ini. b. Regresi linier Regresi linier adalah metode yang cocok dengan garis lurus melalui data. Jika garis miring ke atas, itu berarti bahwa variabel independen seperti ukuran tenaga penjualan memiliki efek positif pada variabel dependen seperti pendapatan. Jika garis miring ke bawah, ada efek negatif. Makin curam kemiringan, variabel independen memiliki efek lebih pada variabel dependen. c. Korelasi Korelasi adalah ukuran hubungan antara dua variabel. Sebagai contoh, korelasi yang tinggi antara pembelian produk tertentu seperti keju dan rackers menunjukkan bahwa produk ini kemungkinan akan dibeli bersama-sama. Korelasi dapat berupa positif atau negatif. Korelasi positif menunjukkan bahwa tingginya tingkat sebuah variabel akan disertai dengan nilai tinggi dari variabel yang berkorelasi. Sebuah korelasi negatif menunjukkan bahwa tingkat tinggi dari sebuah variabel akan disertai dengan nilai yang rendah dari variabel yang berkorelasi. Korelasi positif yang berguna untuk menemukan produk yang cenderung dibeli bersama-sama. Korelasi negatif dapat berguna untuk diversifikasi di pasar dalam portofolio strategis suatu perusahaan. Sebagai contoh, sebuah perusahaan energi mungkin memiliki minat baik dalam gas alam dan bahan bakar minyak karena perubahan harga dan tingkat substitutabilitas mungkin berdampak pada permintaan untuk satu sumber daya di atas yang lain. Analisis korelasi dapat membantu perusahaan mengembangkan portofolio pasar untuk menyerap perubahan lingkungan seperti di pasar individu. d. Analisis faktor Analisis faktor adalah teknik reduksi data. Teknik ini mendeteksi faktor yang mendasari, juga disebut "variabel laten" dan menyediakan model untuk faktor-faktor ini didasarkan pada variabel dalam data. Sebagai contoh, jika tiga atribut seperti dukungan teknis, layanan pelanggan, dan ketersediaan pelatihan dibebankan semua sangat pada satu faktor, kita sebut faktor "layanan." Teknik ini dapat sangat membantu dalam menemukan karakteristik penting yang mendasari mungkin tidak mudah diamati, tetapi yang mungkin ditemukan sebagai manifestasi dari variabel

29

yang dapat diamati. Aplikasi lain yang baik dari analisis faktor adalah untuk mengelompokkan berbagai produk berdasarkan kesamaan pola pembelian. Analisis faktor dapat membantu bisnis menemukan peluang untuk crossselling dan bundling. Sebagai contoh, analisis faktor mungkin menunjukkan empat kelompok yang berbeda dari produk dalam sebuah perusahaan. Dengan pengelompokan produk, seorang marketer sekarang dapat merancang paket produk atau mencoba untuk cross-sell produk ke pelanggan di masing-masing kelompok yang tidak mungkin saat ini bisa membeli produk lainnya dalam kelompok produk. e. Pohon keputusan Pohon keputusan memisahkan data ke dalam seperangkat aturan yang cenderung memiliki efek yang berbeda pada variabel sasaran. Sebagai contoh, kita mungkin ingin mencari karakteristik orang yang cenderung untuk menanggapi secarik surat langsung. Karakteristik ini dapat diterjemahkan ke dalam seperangkat aturan. Pohon keputusan juga merupakan alat yang baik untuk menganalisis gesekan, menemukan peluang cross-selling, melakukan analisis promosi,

menganalisa risiko kredit atau kebangkrutan, dan mendeteksi kecurangan. Pohon keputusan adalah pohon berbentuk struktur yang mewakili set keputusan. Keputusan ini menghasilkan aturan, yang kemudian digunakan untuk mengklasifikasikan data. Pohon keputusan adalah teknik favorit untuk membangun model yang dapat dipahami. f. Jaringan saraf Jaringan saraf meniru otak manusia dan dapat belajar dari contoh-contoh untuk menemukan pola dalam data atau

mengklasifikasikan data. Keuntungannya adalah bahwa hal itu tidak perlu memiliki model tertentu ketika menjalankan analisis. Juga, jaringan saraf dapat menemukan efek interaksi (seperti efek dari kombinasi usia dan jenis kelamin) yang harus secara eksplisit ditentukan dalam regresi. Kerugiannya adalah bahwa lebih sulit untuk menafsirkan model yang dihasilkan dengan lapisan bobot dan transformasi yang sulit dimengerti. Jaringan saraf berguna dalam memprediksi variabel target saat data sangat non-linear dengan interaksi, tetapi mereka tidak sangat berguna ketika hubungan ini perlu dijelaskan. Mereka dianggap alat yang baik untuk aplikasi seperti

30

peramalan, skor kredit, skor respon model, dan analisis risiko. Jaringan saraf tiruan adalah non-linear, model prediksi yang belajar melalui pelatihan. Meskipun mereka teknik pemodelan prediktif yang kuat, beberapa kekuatan datang dengan mengorbankan kemudahan penggunaan dan penyebaran. Satu area di mana auditor dapat dengan mudah menggunakannya adalah ketika meninjau catatan untuk mengidentifikasi penipuan tindakan seperti penipuan. Karena kompleksitas, mereka lebih baik digunakan dalam situasi di mana mereka dapat digunakan dan digunakan kembali, seperti meninjau transaksi kartu kredit setiap bulan untuk memeriksa anomali. g. Model asosiasi Model asosiasi memeriksa sejauh mana nilai-nilai dari satu field bergantung, atau diperkirakan oleh, nilai-nilai dari field lain. Asosiasi penemuan menemukan aturan tentang item yang muncul bersamasama dalam sebuah peristiwa seperti transaksi pembelian. Aturan memiliki dukungan yang ditetapkan pengguna, confidence, dan panjang. Aturan menemukan hal-hal yang "pergi bersama-sama." Model ini sering disebut sebagai Market Basket Analysis ketika mereka diterapkan untuk industri retail untuk mempelajari pola beli pelanggan mereka. h. Nearest-neighbor mengklasifikasikan record dataset berdasarkan data yang sama dalam sejarah dataset. Auditor dapat menggunakan pendekatan ini untuk menentukan dokumen yang menarik untuk mereka dan meminta sistem untuk mencari barang serupa. i. Analisis link Ini adalah teknik lain untuk mengasosiasikan record. Tidak digunakan terlalu banyak, tetapi ada beberapa alat yang dibuat hanya untuk ini. Seperti namanya, teknik ini mencoba untuk menemukan link, baik pada pelanggan, transaksi, dll. Dan menunjukkan link tersebut. j. Visualisasi Teknik ini membantu pengguna memahami data mereka. Visualisasi membuat jembatan dari text based untuk presentasi grafis. Halhal seperti pohon keputusan, aturan, cluster dan pengguna visualisasi pola membantu melihat hubungan data daripada membaca tentang data tersebut. Banyak program data mining yang kuat pertambangan telah membuat kemajuan dalam meningkatkan konten visual mereka selama beberapa tahun terakhir. Ini benar-benar visi masa depan data mining dan analisis.

31

3. Summary
Data mining melibatkan ekstraksi aturan yang berguna atau pola yang menarik dari data historis. Ada banyak tugas data mining yang masing-masing memiliki lebih lanjut banyak teknik. Sebuah teknik tunggal tidak cocok untuk semua jenis data untuk semua jenis domain. Kadang-kadang, teknik hybrid telah diteliti dapat berkinerja lebih baik dibandingkan dengan yang murni.

32

Bab 3 APLIKASI DAN CONTOH KASUS DATA MINING


Data Mining terlahir lewat pengembangan Statistik dalam memecahkan permasalahan terkini menggunakan teknologi terbaru. Data Mining memegang peranan penting dalam berbagai aspek dalam kehidupan di masyarakat saat ini. Pada bab ini berisi contoh bagaimana data mining digunakan di bidang perbankan / keuangan, ritel, kesehatan, dan telekomunikasi. Tujuan dari bab ini adalah untuk memberikan pengguna beberapa ide dari jenis-jenis kegiatan di mana data mining telah digunakan oleh berbagai bidang usaha. Berikut beberapa aplikasi dan penjelasannya Data Mining di berbagai bidang, antara lain [10]: 1. Aplikasi Data-Mining di Bidang Perbankan dan Keuangan 2. Aplikasi Data-Mining di Retail 3. Aplikasi Data-Mining di Kesehatan 4. Aplikasi Data-Mining di Telekomunikasi

1. Aplikasi di Bidang Perbankan dan Keuangan


Data mining telah digunakan secara luas di pasar perbankan dan keuangan. Dalam perbankan industri, data mining sering digunakan untuk model dan memprediksi kredit penipuan, untuk mengevaluasi resiko,untuk melakukan analisis kecenderungan, dan untuk menganalisis profitabilitas, serta untuk membantu dengan pemasaran langsung kampanye. Di pasar keuangan, jaringan saraf telah digunakan dalam stok-harga peramalan,dalam perdagangan option, di peringkat obligasi, dalam manajemen portofolio, dalam prediksi harga komoditas, dalam merger dan akuisisi, serta dalam meramalkan bencana keuangan. Beberapa perusahaan keuangan yang menggunakan jaringan saraf dan telah dirujuk di Internet adalah Daiwa Securities, NEC Corporation, Carl & Associates, LBS Capital Management, Penasihat Investasi Walkrich, dan Saudara O'Sullivan

33

Investasi. Jumlah perusahaan investasi yang menggunakan data mining sejauh lebih luas daripada sebelumnya, namun mereka tidak bersedia dirujuk. Salah satu buku yang menarik di bidang keuangan Pasar global Neural Networks di ibukota, diedit oleh Apostolos-Paul Refenes. Buku ini mengeksplorasi aplikasi ekuitas, aplikasi pertukaran mata uang asing, aplikasi bond, dan kinerja ekonomi makro dan perusahaan [10].

1.1 Stock Forecasting Ada banyak aplikasi perangkat lunak di pasar yang menggunakan teknik datamining untuk prediksi saham. Salah satu aplikasi tersebut digunakan untuk prediksi saham ditunjukkan pada Gambar 1.1, dibawah ini :

Gambar 1.1. Stock Forecasting [10] NETPROPHET oleh Corporation Aplikasi Neural adalah aplikasi prediksi saham yang menggunakan jaringan saraf. Dua garis yang ditunjukkan dalam grafik pada Gambar 1.1. mewakili nyata dan nilai saham diprediksi. Dalam perbankan, penggunaan paling luas dari data mining adalah di bidang deteksi penipuan. HNC ini produk Falcon khusus membahas daerah ini. komentar HNC

34

tentang pendeteksian penipuan pada kartu kredit di tempat sekarang untuk memantau lebih dari 160 juta pembayaran kartu rekening tahun ini. Mereka juga mengklaim pengembalian atas investasi yang sehat. Sementara penipuan menurun, rekening untuk aplikasi pembayaran kartu meningkat sebanyak 50% per tahun. Meluasnya penggunaan data mining di bidang perbankan belum diketahui. Pada tahun 1996, Bank Sistem & Teknologi berkomentar: "Data mining adalah aplikasi yang paling penting dalam jasa keuangan pada tahun 1996." Mencari perusahaan perbankan yang menggunakan data mining adalah tidak mudah, mengingat kecenderungan mereka untuk tertutup. Berikut adalah daftar perusahaan keuangan yang menggunakan data mining diperlukan beberapa menggali ke dalam laporan SEC dari vendor data mining yang dibuat tersedia untuk umum. Daftar ini mencakup: Bank of America, USA Pertama Bank, Perusahaan Headlands Mortgage, FCC National Bank, Federal Home Loan Mortgage Corporation, Wells Fargo Bank, Bangsa-Banc Jasa, Mellon Bank NA, Advanta Mortgage Corporation, Kimia Bank, Chevy Chase Bank, US Bancorp, dan USAA Bank Tabungan Federal. Sekali lagi masuk akal untuk mengasumsikan bahwa sebagian besar bank besar yang melakukan semacam data mining, meskipun banyak memiliki kebijakan untuk tidak membahasnya [10]. 1.2 Cross-Selling dan Loyalitas Pelanggan di Industri Perbankan Lembaga keuangan yang paling utama memiliki statistik dan data-mining kelompok. Bahkan, bank seperti Wells Fargo, Bank of America, Armada Bank, dan lain-lain telah menjadi subyek dari banyak artikel tentang data mining canggih mereka, dan pemodelan perilaku pelanggan mereka. Pertanyaan berikutnya untuk bertanya adalah: seberapa baik lembaga keuangan tahu pelanggan mereka? Sebuah studi yang diterbitkan dalam Berita DM dan dilakukan oleh Deluxe Perusahaan menemukan bahwa 43% dari konsumen yang disurvei mengatakan penyedia layanan keuangan mereka tidak tahu kebutuhan spesifik mereka baik sekali, 60% mengatakan tawaran yang mereka terima tidak relevan dengan kebutuhan mereka, dan 39% mengatakan mereka tidak menerima tawaran sama sekali. Penelitian oleh Deluxe Korporasi menunjukkan masalah yang

35

signifikan dengan data mining: ketidakmampuan untuk memanfaatkan datamining studi menjadi hasil ditindaklanjuti. Sebagai contoh, sementara bank mungkin tahu bahwa pelanggan memenuhi kriteria tertentu cenderung untuk menutup akun mereka, itu adalah masalah lain untuk mengetahui strategi untuk melakukan sesuatu tentang hal itu. Salah satu vendor yang telah mengembangkan rangkaian produk yang dirancang untuk mengintegrasikan teknologi prediktif dengan poin interaksi pelanggan adalah Right Point software.Vendor lain bekerja pada masalah yang sama, khususnya di web, di mana memprediksi apa yang pelanggan terbaik akan sangat merespon penting. Perusahaan perbankan web seperti Jaminan Pertama dan BroadVision, antara lain, juga berusaha untuk memasukkan satu persatu pemasaran, dengan menggunakan teknologi prediksi, ke situs perbankan mereka. Pemasaran The Right Point Real-Time Suite mengambil data-mining model dan memanfaatkan mereka dalam real-time interaksi dengan pelanggan. Pemasaran The Right Point Real-Time Suite Tepat dirancang untuk membuat, mengelola, dan memberikan 1:1 promosi pemasaran untuk industri high touch (seperti perbankan, telekomunikasi, dan penjualan ritel) yang mengandalkan interaksi pelanggan langsung untuk melakukan bisnis. Untuk bisnis ini dan yang sejenis, adalah penting untuk memastikan bahwa setiap interaksi pelanggan merebut kesempatan untuk meningkatkan kepuasan pelanggan, loyalitas, dan pendapatan-generasi potensial. Model prediksi yang digunakan untuk

mengevaluasi pesan pemasaran yang tepat untuk disampaikan kepada pelanggan. Teknologi pembelajaran yang dinamis juga membangun model prediksi dengan cepat dan menghitung probabilitas penerimaan, yang menunjukkan penawaran yang diterima oleh yang jenis pelanggan. Model-model prediktif juga dapat digunakan bersama dengan aturan bisnis untuk memberikan penawaran yang tepat pada waktu yang tepat. Salah satu aspek peluang pasar penentuan adalah mengidentifikasi pelanggan bernilai tinggi. Dalam bukunya, Semua Konsumen Diciptakan Sama, penulis Garth Hallberg mengutip Mark Media Research, Inc temuan bahwa sekitar sepertiga dari akun pelanggan untuk 68% dari semua pembelian. Secara

36

tradisional, pemasar telah difokuskan pada segmentasi dan memikat bernilai tinggi konsumen. Dimana pemasar mengambil jangka pendek dalam mengambil keputusan bahwa pemahaman pelanggan bernilai tinggi dan menggunakan informasi ini, untuk memprediksi kualitas yang akan meningkatkan nilai tingkat menengah konsumen, membuka kesempatan (dan sebagian besar belum dimanfaatkan) pasar yang besar. Real-time marketing berfokus pada mengeksekusi satu persatyu promosi yang memanfaatkan teknologi prediktif untuk menangkap selera personalisasi. Idenya adalah bahwa dengan menyesuaikan pilihan pemasaran untuk konsumen, perusahaan mendapatkan tingkat respons yang lebih baik untuk promosi mereka. Sama pentingnya, bisnis sekarang memiliki outlet yang efektif untuk membangun loyalitas dan nilai merek, dengan memasuki permintaan pelanggan untuk layanan pribadi, dan keinginan mereka untuk menghindari kerumitan melakukan riset penawaran layanan yang berbeda. Sebagai contoh, seorang pelanggan hipotek dapat memberitahu bank pinjaman mengenai kredit mobil yang ada. Seorang agen dari bank dapat menambahkan informasi ini ke profil pelanggan, dan menyajikan kembali sebelum-disetujui oleh refinance dari kredit mobil. Ini akan menghemat uang pelanggan dengan konsolidasi hipotek yang ada dan kredit mobil dengan satu bank. Jika bank dapat menghitung penghematan dengan cepat, pelanggan dapat melihat manfaat yang jelas [10].

2. Aplikasi Data-Mining di Retail


Margin Slim telah mendorong pengecer dalam merangkul data warehousing lebih awal dari industri lain. Pengecer telah melihat peningkatan pendukung keputusan proses mengarah langsung ke peningkatan efisiensi dalam manajemen persediaan dan peramalan keuangan. Penerapan awal data warehousing oleh pengecer telah memberi mereka kesempatan yang lebih baik untuk mengambil keuntungan dari data mining. Rantai ritel besar dan toko kelontong menyimpan sejumlah besar titik-of-sale data yang merupakan informasi yang kaya. Di garis depan aplikasi yang telah diadopsi di ritel adalah aplikasi pemasaran langsung. Pemasar langsung seringkali peduli tentang segmentasi pelanggan, yang merupakan masalah clustering dalam data mining. Banyak vendor menawarkan

37

paket segmentasi pelanggan, seperti yang ditunjukkan pada Gambar 2.1. perangkat lunak segmentasi Pelanggan, Courtesy of Software Pilot, dan Software pilot juga menggunakan segmentasi pelanggan untuk membantu secara langsungmailing promosi, seperti yang ditunjukkan pada Gambar 2.2. IBM telah menggunakan data mining untuk beberapa pengecer untuk menganalisis pola belanja dalam toko berdasarkan informasi point of sale (POS). Sebagai contoh, satu perusahaan ritel dengan $ 2 miliar dalam pendapatan, 300.000 UPC kode, dan 129 toko di 15 negara menemukan beberapa hasil yang menarik setelah menganalisis informasi penjualan. Sebuah komentar eksekutif toko: "Kami menemukan bahwa orang-orang yang datang ke toko condong ke sisi kiri dari toko untuk item menggerakkan pro dan belum tentu berbelanja seluruh toko." Informasi tersebut digunakan untuk mengubah aktivitas promosi dan memberikan pemahaman yang lebih baik tentang bagaimana untuk lay out toko dalam rangka mengoptimalkan penjualan.

Gambar 2.1 Perangkat Lunak Segmentasi Pelanggan Courtesy of Software Pilot [10]

38

Gambar 2.2 Sebuah aplikasi untuk promosi pemasaran langsungCourtesy of Software Pilot [10]

3. Aplikasi Data-Mining di Kesehatan


Data mining telah digunakan sudah secara luas dalam industri medis. Misalnya, Sistem Neuro Medical menggunakan jaringan saraf untuk melakukan pap smear bantuan diagnostik. Vysisuses menggunakan jaringan saraf untuk melakukan analisis protein untuk pengembangan obat. The University of Rochester Cancer Center dan Pusat Transplantasi menggunakan Oxford Knowledge SEEKER, teknologi pohon keputusan, untuk membantu penelitian mereka. The Southern California Spinal Disorders Hospital menggunakan penemuan informasi untuk data mining. Penemuan informasi mengutip seorang dokter yang mengatakan Saat ini sendirian, saya datang dengan diagnosis untuk pasien yang bahkan tidak harus melalui pemeriksaan fisik ". 3.1 Penggunaan Visualisasi Data di Industri Medis Data visualisasi adalah salah satu bidang yang sudah membangun minat di bidang medis. CrossGraphs produk Belmont Research telah digunakan dalam berbagai aplikasi.

39

Ditunjukkan pada Gambar 3.1, adalah array dari grafik yang menunjukkan, bersisian, cerita tentang aktivitas antibakteri Cefdinir dari waktu ke waktu. Gambar 3.1 berguna untuk membandingkan tingkat kemanjuran dari patogen antibakteri yang berbeda dari waktu ke waktu. Dalam kasus ini, zat antimikroba, Cefdinir, sedang dipelajari terhadap zat lainnya untuk periode delapan jam [10].

Gambar 3.1. Keberhasilan Obat Antibakteri Selama Beberapa Waktu (Belmont Research, Inc) [10]

40

4. Aplikasi Data-Mining di Telekomunikasi


Dalam beberapa tahun terakhir, industri telekomunikasi telah mengalami salah satu makeover paling dramatis dari industri apapun. AS Telekomunikasi Act of 1996 Perusahaan diperbolehkan Operasi Bell Daerah (RBOCs) untuk memasuki pasar jarak jauh dan menawarkan "cablelike" layanan. The Liberalisasi Eropa Jasa Telekomunikasi, efektif 1 Januari 1998, liberalisasi jasa

telekomunikasi di Eropa, dan menawarkan kompetisi penuh di antara negaranegara Eropa yang berpartisipasi. Enam puluh delapan negara liberalisasi pasar telekomunikasi mereka pada tanggal 1 Januari 1998 sampai bertepatan dengan komitmen Eropa berdasarkan Perjanjian Telekomunikasi Organisasi Perdagangan Dunia. Tidak hanya telah ada deregulasi yang besar-besaran, namun di Amerika Serikat, telah terjadi aksi jual oleh FCC dari gelombang radio kepada perusahaan pelopor dengan cara baru untuk berkomunikasi. Industri seluler dengan cepat mengambil langkah sendiri. Data visualisasi daerah lain dengan menggunakan strategi banyak telekomunikasi. Gambar 4.1 menunjukkan peta, yang diciptakan oleh

Pemberdayaan Geographics menggunakan teknologi MapInfo, menunjukkan area masalah untuk jaringan telekomunikasi nirkabel [10].

Gambar 4.1. Sebuah Peta dari Titik-titik Jaringan Telekomunikasi Nirkabel yang Menjatuhkan Panggilan [10]

41

4.1 Contoh Kasus Data Mining Pada bagian ini, sebuah studi kasus singkat dibahas, sebagai contoh konkret "praktik terbaik" tentang bagaimana metode data mining pendidikan untuk belajar dekomposisi (sejenis Hubungan pertambangan) digunakan untuk menentukan efektivitas relatif dari berbagai jenis materi pembelajaran disajikan kepada siswa. Dalam Beck dan Mostow (2008), data yang diperoleh dari 346 siswa sekolah Amerika SD membaca 6,9 juta kata, selama setahun, sementara guru menggunakan perangkat lunak cerdas yang mengajarkan membaca. Kata-kata ini disajikan dalam bentuk cerita, dan mahasiswa dan perangkat lunak yang mengambil cerita bergantian memilih (pilihan perangkat lunak cerita didasarkan pada perkiraan tingkat membaca siswa kelas). Beck dan Mostow tertarik dalam menentukan apakah membaca ulang cerita (pilihan populer untuk anak-anak) adalah lebih atau kurang efektif dalam mempromosikan kata belajar daripada menghadapi kata yang sama dalam cerita yang berbeda. Mereka juga tertarik pada apakah akan ada perbedaan-perbedaan individual, sehingga beberapa siswa akan mendapat manfaat dari pola yang berbeda dari praktek daripada yang lain. Beck dan Mostow memperoleh data untuk kinerja masing-masing siswa dalam membaca setiap cerita dalam perangkat lunak. Waktu membaca digunakan sebagai ukuran terus menerus pengetahuan kata, mis-membaca dan bantuanpermintaan juga diperhitungkan, membaca peluang di mana perilaku terjadi ditugaskan waktu 3,0 detik (99,9% dari kata membaca lebih cepat dari 3,0 detik) . Model eksponensial praktek didirikan, terkait waktu respon untuk fungsi: Time = A * e b (W*t1+t2); Dalam parameter ini, persamaan A mewakili prestasi siswa pada kesempatan pertama untuk membaca kata yang diberikan, parameter b merupakan kecepatan keseluruhan pembelajaran, e adalah 2,718, dan t1 dan t2 mewakili berapa kali kata tersebut dibaca, dalam dua jenis yang berbeda praktek. Dalam kasus ini, t1 didefinisikan sebagai jumlah kali kata itu dibaca ketika kembali membaca cerita dan t2 didefinisikan sebagai jumlah kali kata itu dibaca ketika membaca cerita untuk pertama kalinya. W adalah mendapatkan kecepatan relatif yang terkait dengan dua jenis praktek. Jika W sama dengan 1, dua jenis praktek dianggap sama

42

efektif, jika W di atas 1, peluang t1 jenis yang lebih efektif daripada peluang jenis t2 (dan sebaliknya berlaku jika W adalah di bawah 1). Seluruh populasi siswa, nilai rata-rata W untuk membaca kembali diperoleh oleh Beck dan Mostow adalah 0,49, menunjukkan bahwa re-membaca cerita mengarah ke sekitar setengah belajar sebanyak membaca cerita baru. 95 dari 346 siswa memiliki parameter W statistik signifikan di bawah 1, sedangkan hanya 7 siswa memiliki nilai parameter W statistik signifikan lebih dari 1, hasil yang signifikan secara statistik di seluruh kelas. Beck dan Mostow selanjutnya menggunakan nilai W dari model dalam analisis regresi logistik berikutnya (contoh pada table 3.1.yaitu penemuan dengan model). Dalam analisis ini, model dekomposisi pembelajaran digunakan untuk membagi populasi menjadi siswa yang diuntungkan dari membaca ulang dan siswa yang tidak mendapat manfaat dari membaca ulang, dan berbagai variabel penjelas diuji untuk melihat apakah mereka menjelaskan siswa yang diuntungkan dari membaca kembali. Analisis ini menetapkan bahwa siswa dengan kecepatan membaca secara keseluruhan yang rendah maka menerima dukungan kebutuhan belajar khusus, sebenarnya memperoleh manfaat dari membaca ulang [11].

Tabel/ilustrasi : Tabel 1.1 Kategori-kategori Utama dari Data Mining Pendidikan Kategori Metode Ramalan Tujuan Metode Mengembangkan model yang dapat menyimpulkan satu aspek data (variabel diprediksi) dari beberapa kombinasi dari aspekaspek lain dari data (variabel prediktor) Temukan titik data yang secara alami kelompok bersama-sama, membelah data set lengkap ke set ke dalam seperangkat kategori Temukan hubungan antara variabel Kunci Aplikasi Mendeteksi perilaku mahasiswa (misalnya game sistem, offtask perilaku, tergelincir); Mengembangkan model domain, Memprediksi dan memahami hasil siswa pendidikan Discovery kategori pola perilaku mahasiswa baru, kesamaan Investigasi dan perbedaan antara sekolah

Pengelompokan

Hubungan Mining

Penemuan asosiasi kurikuler di urutan kursus; Menemukan strategi pengajaran yang

43

Penemuan dengan Sebuah model dari Model fenomena yang dikembangkan dengan ramalan, clustering pengetahuan, atau teknik, digunakan sebagai komponen dalam prediksi lebih lanjut atau Hubungan pertambangan. Distilasi Data Data didestilasi untuk untuk Manusia mengaktifkan manusia keputusan dengan cepat mengidentifikasi atau mengklasifikasikan fitur dari data.

menyebabkan lebih efektif / kuat belajar Penemuan hubungan antara perilaku siswa, dan karakteristik siswa atau variabel kontekstual, Analisis persoalan tersebut di berbagai konteks

identifikasi Manusia pola dalam belajar siswa, perilaku, atau kolaborasi; Pelabelan data untuk digunakan dalam perkembangan selanjutnya model ramalan

5. Summary
Pada bab ini meliputi contoh industri data mining di bidang perbankan dan keuangan, ritel, kesehatan, dan telekomunikasi dan contoh kasus penerapan data mining pada pendidikan. Meskipun ini tentu bukan merupakan daftar termasuk semua kegiatan datamining dan tidak memberikan contoh tentang bagaimana data mining digunakan saat ini. Pada bab 4 akan membahas lebih spesifik tentang trend data mining saat ini dan masa yang akan datang.

44

Bab 4 TOPIK LANJUTAN & TREND KE DEPAN


Sebagai bidang riset yang masih sangat muda sejak penemuan nya pada tahun delapan puluhan, Data Mining telah banyak membantu untuk menggali informasi yang terdapat pada data mentah yang di hasilkan baik itu dari suatu sistem informasi maupun yang dari data yang di dapatkan melalui survey kepada suatu objek tertentu. Dalam bab ini akan dibahas mengenai topik lanjutan dari Data Mining beserta bagaimana trend Data Mining di masa mendatang.

1. Topik Lanjutan dari Data Mining


Beberapa aplikasi Data Mining yang telah ada telah mampu mencakup banyak area dalam kehidupan sehari hari seperti area bisnis dan industri, biomedik dan kesehatan, organisasi, politik, pencitraan dan tentunya dalam bidang science. 1.1 Intrusion Detection Dalam perkembangan nya data mining telah di gunakan untuk mendeteksi intrusi/serangan, dengan cara mencari penyusup dan mendeteksi penyalahgunaan, dimana kesemua proses tersebut di lakukan dari secara internal. Dari pola yang di hasilkan tools data mining bisa mengindikasikan apabila sistem telah atau akan di penetrasi oleh seseorang dimana administrator akan melakukan review kembali terhadap pola serangan tersebut dan menambahkan proteksi tambahan pada sistem. 1.2 Identify Theft Pemalsuan identitas untuk melakukan tindak kejahatan telah menjadi permasalahan pada institusi sosial dan perbankan. Penipuan dengan menggunakan identitas palsu marak terjadi, hal tersebut terjadi karena banyaknya orang yang mampu untuk memalsukan identitas sehingga akan tampak bahkan sesuai dengan aslinya. Dahulu mengidentifikasi pencurian atau penipuan terjadi apabila kejadian tersebut sudah terjadi, usaha proaktif yang melibatkan pencarian data pribadi dan

45

rekord kredit secara manual untuk proses penyelidikan adalah sangat menyulitkan dan tidak efisien karena data yang akan di analisa sangat banyak. Dengan data mining pencarian tersebut bisa di otomatisasi dan tidak hanya akan memberikan tanda kepada rekord yang invalid atau mencurigakan, tools data mining juga bisa menciptakan model pola prilaku pencurian atau penipuan sehingga pendekatan ini bisa memfasilitasi pengembangan dari strategi proaktif dalam rangka untuk proses identifikasi pencurian [....] 1.3 Syndrome Surveilance Sistem pengawasan Syndromic telah di kembangkan untuk mendeteksi penyebaran penyakit menular dan bioterorisme, dengan mengunakan deteksi anomali sistem ini mampu mendeteksi cluster gejala yang tidak biasa dan perubahan tingkat penyakit yang tidak terantisipasi. Dengan mengembangkan sistem deteksi anomali standar dan menambahkan rule keputusan yang tepat kemampuan proses penyaringan data ini bisa maksimal dan menghasilkan informasi yang tepat guna. [..] 1.4 Data Collection, Fusion dan Preposition Kumpulan data, penggabungan berbagai macam data dan preposisi data adalah tehnik mining sangat sangat mendukung surveilance atau pengawasan terhadap suatu bidang tertentu. Banyak nya data yang ada baik itu data yang di dapat dari pengawasan secara online maupun pengawasan secara offline, membuat tingkat kesulitan untuk mendapatkan informasi penting yang di butuhkan semakin tinggi. Dengan adanya tools data mining, kesemua data yang ada baik yang di dapat melalui pengawasan online maupun offline (pengawasan langsung) bisa di gabungkan lalu kemudian di pilah pilah untuk mendapatkan beberapa data yang bersifat krusial sehingga bisa di analisa secara menyeluruh untuk mendapatkan knowledge discovery baru yang bisa di gunakan untuk menindaklanjuti permasalahan yang ada. Dengan data mining suatu model pengawasan baru yang lebih kompleks bisa di kembangkan yang bisa meliputi pengawasan gegografi tertentu dan objek yang terisolasi dengan mengunakan gabungan sumberdaya data dan tools data mining terkait.

46

Gambar 4.1. Model pengawasan dengan data mining yang menggabungkan berbagai resource [..] 1.5 Text Mining Kebutuhan analyst untuk text mining sudah sangat penting sekali, dan itu telah membuat software developer berusaha untuk mengembangkan kemampuan dari tools text mining yang sudah ada. Text mining bisa di gunakan untuk menyeidiki kasus kasus yang mempunyai data berupa informasi tertulis, dari informasi raw tersebut tools text mining kemudian mengidentifikasi key concept yang ada lalu kemudian memberikan informasi baru yang berhasil di extraksi dari informasi yang tidak terstruktur tersebut sekaligus membuatkan model informasi yang dapat membantu analyst untuk memperkirakan penyebab kasus tersebut. 1.6 Fraud Detection Bidang pengembangan data mining lain nya adalah untuk mendeteksi penyimpangan. Dalam bidang ini beragam penyimpangan yang akan dan sedang terjadi bisa di deteksi dengan model algoritma yang menggunakan tehnik clustering dan deteksi anomali. Model algoritma tersebut bisa mengidentifikasi pola atau prilaku yang menyimpang dari pola yang sudah ada, dan informasi baru yang di hasilkan dari analisa pola tersebut bisa menpjadi bahan pertimbangan untuk investigasi lebih lanjut. Bidang perbankan dan keamanan adalah contoh dimana aplikasi data mining for fraud detection banyak dipergunakan, banyak nya transaksi yang terjadi dalam

47

sehari pada bidang perbankan telah membuat data transaksi menjadi sulit untuk di telusuri secara manual. Implementasi model algoritma seperti yang di sebutkan di atas bisa membantu melakukan pembentukan model pola normal dan pendeteksian terhadap pola yang menyimpang dari pola normal. Demikian pula pada bidang keamaanan, dengan menggabungkan semua informasi kejahatan dan menerapkan tehnik clustering dan deteksi anomali seperti yang di sebutkan di atas, petugas bisa menentukan apakah kejahatan tersebut di lakukan oleh orang yang sama, sekaligus memprediksi kapan kejahatan lain akan terjadi sehingga bisa di lakukan tindakan pencegahan sekaligus menangkap pelaku kejahatan. 1.7 Bio-Informatics & Medical Research Saat ini berbagai tehnik dan tools data mining telah banyak di gunakan dalam riset biologi dan medis, dalam riset tersebut hasil yang di harapkan adalah informasi baru yang di hasilkan dari data yang ada. Penerapan data mining dalam bio-informatics dan medical research lebih banyak kepada riset tentang pengaruh DNA manusia terhadap suatu penyakit yang di derita seperti kanker, HIV dan berbagai penyakit lain yang mempunya kemungkinan berkorelasi dengan DNA [3]. Disamping menelusuri pengaruh genetika terhadap suatu penyakit, penambangan data juga di lakukan pada DNA untuk menemukan pengobatan terhadap penyakit mematikan seperti HIV dan kanker sekaligus mengalisa penyebab kelainan fisik bawaan.

1.8 Business Trends Perkembangan dunia usaha sangat dinamis pada saat ini membuat pelaku usaha harus bereaksi secara cepat terhadap terhadap perubahan, lebih banyak memberikan quality service guna mendapatkan profit yang di inginkan. Pada sektor ini data mining berperan untuk membuat transaksi yang di lakukan oleh konsumen menjadi semakin cepat dan akurat, penggunaan tehnik data mining seperti classification, regression dan cluster analysis di gunakan untuk menentukan keputusan yang tepat di samping menciptakan suatu lingkungan usaha pintar (Business Inteligence) yang berbasis informasi [3].

48

2. Trend Ke Depan dari Data Mining


Data mining merupakan salah satu ilmu baru yang area cakupan nya sangat luas tidak hanya terpaku pada engineering tapi sudah mencakup area seperti riset biologi dan medis, riset ekosistem, security dan public safety, industri dan bahkan penggalian informasi tersembunyi yang terdapat pada data tulisan sehingga akan di dapatkan nya informasi baru. 2.1 Text Mining Tools data mining seperti text mining merupakan tools yang sangat menjanjikan untuk di aplikasikan kedalam analisa public safety dan security mining, kemampuan nya untuk mengolah informasi tertulis dan mendapatkan informasi baru dari informasi raw yang tidak terstruktur tersebut telah membuat tools ini menjadi salah satu tools yang sangat banyak di gunakan oleh analyst. Kedepan nya pengunaan text mining untuk mendapatkan knowledge discovery akan banyak di gunakan karena kemampuan nya dan proses mining yang cepat dan terotomasi. Institusi yang bergerak dalam bidang keamanan akan banyak mempergunakan text mining guna mendukung intelligence analysis yang perlu di lakukan. Berbagai macam knowledge discovery yang di hasilkan oleh text mining pada security analisyst dapat pula di pergunakan oleh institusi lain untuk mendukung pekerjaan mereka dan sebalik nya, sehingga akan tercipta suatu gudang data / informasi yang merupakan data sentral yang bisa di akses oleh beragam institusi guna mendapatkan informasi baru yang di butuhkan. Beragam tools lain seperti seperti voice recognition dan translation software bisa di integrasikan kedalam text mining sehingga bisa menyediakan layanan realtime analytical support melalui text mining dalam fusion center kepada pengguna kapan saja dan dimana saja tanpa menghabiskan banyak waktu untuk mengumpulkan data dan menginput data [..].

49

Gambar 4.2. Ilustrasi model konseptual dari pemberian analisa informasi kepada proses operasional [..] Dari gambar konseptual di atas berdasarkan data yang di dapat dari hasil interview lalu di lakukan pencarian dengan menggunakan tools voice recognition dimana input dari voice recognition akan di proses menggunakan metode text mining. Knowledge discovery yang di hasilkan lalu di analisa dalam analytical fusion center dimana informasi external juga bisa di dapatkan dari fusion center yang lain guna memperkaya dan melengkapi informasi yang di perlukan. Setelah di analisa dalam fusion center, scoring algorithm bertugas untuk memberikan ranking kepada informasi baru yang di hasilkan setelah proses perankingan lalu di tetapkan strategi interview yang sesuai dan kemudian strategi tersebut akan di bawa pada proses interview kembali. 2.2 Image Data Mining Semantic dan image mining di perkirakan akan menjadi trend kedepan, dalam hal ini analyst bisa menemukan informasi tersembunyi dalam data gambar menggunakan kecerdasan buatan dan structural analysis software, karakteristik atau pola yang terkandung dalam gambar bisa di identifikasi dan informasi

50

keluaran nya bisa di pergunakan untuk kemajuan dalam bidang science lain nya dan tentunya business sectors [2]. 2.3 Data Mining dalam Industri Keuangan Menggali informasi dari data yang ada pada bursa saham dan pasar valas tentunya akan sangat sulit di kerjakan karena banyak nya data dan faktor faktor lain yang dapat menciptakan perubahan terhadap data, penggunaan tools dan tehnik data mining dalam bidang tersebut akan sangat membantu para brooker untuk mendapatkan informasi penting yang sangat mereka butuhkan [3]. Tujuan penggunaan data mining dalam area ini adalah untuk mendapatkan lebih banyak profit melalui prediksi yang lebih akurat yang didapat dari analisa pola dan model sehingga keputusan yang di ambil bisa berdasarkan sumber informasi yang terpercaya. 2.4 Mendeteksi Gangguan Ekosistem Ekosistem adalah suatu area study yang luas yang mencakup remote sensing, earth-science, biosphere, study kelautan, dan prediksi ekosistem, dalam bidang ini data mining di gunakan untuk mendapatkan pola yang tejadi pada ekosistem, sehingga bisa di tarik informasi baru atau kesimpulan tentang siklus bumi yang terjadi [3]. Informasi mengenai perubahan keadaan tanah, pergerakan air laut, dan informasi tentang ekosistem lain akan menjelaskan tentang kejadian alam luar biasa seperti gempa bumi, tsunami, badai es, dan pencairan es kutub serta peninggian level air laut dari tahun ke tahun. 2.5 Fusion Centre Beragam informasi yang di hasilkan oleh beberapa bidang tertentu, berkemungkinan akan berguna bagi suatu bidang lain nya. dimana informasi tersebut bisa berguna apabila di lakukan analisa menyeluruh dengan metode metode yang terdapat pada data mining. Karena data dari beberapa bidang saling memiliki korelasi, maka terciptalah ide untuk menggabungkan semua data tersebut kedalam sentral data (Fusion Centre) [..]. Fungsi analitis yang yang di hadirkan oleh fusion centre memiliki keterbatasan hanya pada pencarian repository data dan penciptaan statistik, dari

51

pusat gabungan data ini bisa di buat suatu tools untuk melakukan analisa prediktif untuk melakukan analisa terhadap repository yang ada.

Gambar 4.3. Ilustrasi informasi dari tools konseptual yang berisi inti analisa dan fusion centre [..] Dari gambar di atas menunjukan susunan node yang saling berhubungan yang di dukung oleh suatu fusion centre, dimana model di atas sudah menggunakan analytic filter untuk memproses data menjadi informasi yang dapat mendukung suatu keputusan. Node di atas melambangkan informasi yang terhubung dengan fusion center dimana pembaharuan informasi tersebut akan selalu di teruskan ke fusion center. 2.6 Virtual Warehouse Pembuatan data warehosue dapat menghabiskan banyak biaya dan juga tidak mampu memberikan kecepatan proses yang di butuhkan analyst keamanan. Banyaknya informasi yang ada pada word wide web telah memungkinan terciptanya virtual warehouse yang mampu memberikan yang tidak bisa di berikan oleh data warehouse tradisional. Semua informasi dari virtual warehouse dapat di refresh dan update secara mudah sehingga selalu mampu memberikan knowledge discovery yang baru kepada pengguna nya.

52

3. Summary
Perkembangan tehnik data mining dari semenjak di temukan nya telah berhasil mencakup area study yang sangat luas, dimana pada masing masing area study tehnik data mining mampu membantu memberikan solusi terbaik yang di dapat dari pengolahan data dan pengetahuan baru (discovery knowledge).

53

DAFTAR PUSTAKA
[1] de Ville, Barry. 2001. The Discovery and Delivery of Knowledge for Effective Enterprise Outcomes: Knowledge Management. Sidney:

DigitalPress. [2] Hand, David, Heikki Mannila and Padhraic Smith. 2001. Principles of Data Mining. Massachusets: The MIT Press. [3] Han, Jiawei and Micheline Kamber. 2006. Data Mining: Concepts and Techniques. California: Morgan Kauffman Publishers. [4] McCue, Colleen. 2006. Data Mining and Predictive Analysis: Inteligence Gathering and Crime Analysis. Oxford: Butterworth-Heinemann. [5] Dr. Rajni Jain, Introduction to Data Mining Techniques. Tersedia online : http://www.iasri.res.in/ebook/expertsystem/DataMining.pdf. Diakses tanggal : 23 Februari 2013. [6] http://www.ibm.com/developerworks/opensource/library/ba-data-miningtechniques/index.html?ca=drs-. Diakses tanggal : 24 Februari 2013. [7] http://www.theiia.org/intAuditor/itaudit/archives/2006/august/data-mining101-tools-and-techniques/. Diakses tanggal : 24 Februari 2013. [8] http://en.wikipedia.org/wiki/Data_mining. Diakses tanggal : 24 Februari 2013. [9] Vikram, Karimella, Niraj Upadhayaya, 2011, Data Mining Tools and Techniques: a review, www.iiste.org. Diakses tanggal : 24 Februari 2013. [10] Industry Application of Data Mining. Tersedia online : http://www.pearsonhighered.com/samplechapter/0130862711.pdf. Diakses tanggal : 23 Februari 2013. [11] Baker, Ryan S.J.d. Data Mining for Education. Carnegie Mellon University, Pittsburgh, Pennsylvania, USA. [12] Witten, Ian H. Text Mining. Tersedia online : http://www.cs.waikato.ac.nz/~ ihw/papers/04-IHW-Textmining.pdf. Diakses tanggal : 22 Februari 2013. [13] http://invensis.net/blog/industry-news/data-mining-future-trends-predicted2012. Diakses tanggal : 20 Februari 2013.

54

[14] Kumar, Dharminder and Deepak Bhardwaj. Rise of Data Mining: Current and Future Application Area. International Journal of Computer Science Issues, vol.8, Issue 5. 2011. Tersedia online : http://www.cs.xu.edu/csci390/ 12s/RiseofDataMining.pdf. Diakses tanggal : 20 Februari 2013.

55