Data Mining Task

Data Mining Task
Eko K. Subha, Jakti K. Prasojo, Umar Sagaf

Universitas Brawijaya Malang
E-Mail: ekosubha@gmail.com, jaktiprasojo@ymail.com, stardust.asault@gmail.com
Abstrak
Data mining merupakan satu bidang ilmu komputer yang membahas tentang proses
komputasi untuk menemukan pola dalam kumpulan data yang besar. Tujuan keseluruhan dari
proses data mining adalah untuk mengekstrakinformasi dari kumpulan data dan mengubahnya
menjadi sebuah struktur yang mudah dimengerti untuk digunakan lebih lanjut. Istilah data
mining relatif baru namun teknologi yang digunakan dalam proses data mining tidaklah baru.
Dalam prosesnya, data mining melibatkan beberapa tugas (hal-hal yang bisa dilakukan dalam
data mining) yaitu, deteksi anomaly, association rule, clustering, classification, regression,
dan summarization. Masing-masing menerapkan algoritma yang berbeda untuk
menyelesaikan tugasnya, meskipun ada beberapa algoritma yang digunakan di lebihdari satu
tugas.
Kata kunci: Data Mining, Data Mining Task, Algoritma.
1. PENDAHULUAN
Data mining (langkah analisis Knowledge Discovery dan Data Mining proses, atau
KDD), [1] suatu disiplin ilmu komputer, [2][3][4] yaitu proses komputasi untuk menemukan
pola dalam kumpulan data yang besar yang melibatkan metode di perpotongan antara bidang
kecerdasan buatan, machine learning, statistika, dan sistem database.[2] Tujuan keseluruhan
dari proses data mining adalah untuk mengekstrak informasi dari kumpulan data dan
mengubahnya menjadi sebuah struktur yang mudah dimengerti untuk digunakan lebih
lanjut.[2] Selain dari langkah analisis mentah, melibatkan database dan aspek pengolahan
data, data pra-pengolahan, model dan inferensi pertimbangan, metrik ketertarikan,
pertimbangan kompleksitas, pasca-pengolahan dari struktur yang ditemukan, visualisasi, dan
perbaruan online.[2]
Pihak lain mengartikan data mining (kadang-kadang disebut data atau penemuan
pengetahuan) sebagai proses menganalisis data dari perspektif yang berbeda dan meringkas
menjadi informasi yang berguna - informasi yang dapat digunakan untuk meningkatkan
pendapatan, mengurangi biaya, atau keduanya. Software Data mining adalah salah satu dari
sejumlah alat-alat analisis untuk menganalisis data. Hal ini memungkinkan pengguna untuk
menganalisis data dari berbagai dimensi atau sudut, mengkategorikan, dan meringkas
hubungan diidentifikasi. Secara teknis, data mining adalah proses menemukan korelasi atau
pola antara puluhan field dalam database relasional yang besar.[5]
Meskipun data mining adalah istilah yang relatif baru, namun teknologinya tidak.
Perusahaan telah menggunakan komputer canggih untuk menyaring data scanner supermarket
dan menganalisis laporan riset pasar selama bertahun-tahun. Namun, inovasi terus-menerus
dalam performa pemrosesan komputer, media penyimpanan, dan perangkat lunak statistik
secara dramatis meningkatkan akurasi analisis saat menurunkan biaya.[5]
2. DATA MINING TASK
Data mining melibatkan enam jenis tasking [6], yaitu: Anomaly detection:
identifikasi dari rekaman data aneh yang mungkin saja menarik atau data error yang
membutuhkan penyelidikan lebih lanjut. Association rule learning: Mencari hubungan antar
variable. misal sebuah toko mengumpulkan data tentang barang yang biasa dibeli. dengan
menggunakan association rule learning, toko tersebut dapat menentukan produk apa yang
biasanya dibeli bersama-sama dan menggunakannya sebagai bahan pertimbangan.
Clustering: Tugas menemukan kumpulan dan struktur didalam data yang dirasa mirip, tanpa
menggunakan struktur yang sudah diketahui didalam data. Classification: tugas
menggeneralisasikan struktur yang telah diketahui untuk diaplikasikan ke data baru. misal
program email bermaksud untuk mengklasifikasikan email kedalam inbox atau spam.
Regression: upaya untuk menemukan function yang memodelkan data dengan kesalahan
minimal. Summarization: menyediakan representasi data set yang lebih padat, termasuk
visualisasi dan laporan generasi.
A. Anomaly Detection
Dalam data mining, anomaly detection adalah pengidentifikasian dari item, event,
atau observasi yang tidak sesuai dengan pola yang diharapkan atau item lain dalam dataset.
Biasanya item yang anomali akan menjadi sebuah masalah seperti cacat struktural atau error.
Anomali juga disebut sebagai outliers (asing), noveltiadalah es (baru) noise (bising), dan
exception (pengecualian)
Algoritma dalam Anomaly Detection
Algoritma yang dapat digunakan dalam anomaly detection adalah algoritma k-Nearest
Neighbors, dan local outlier factor. [7]
B. Association Rule
Mencari hubungan antar variable. misal sebuah toko mengumpulkan data tentang
barang yang biasa dibeli. dengan menggunakan association rule learning, toko tersebut dapat
menentukan produk apa yang biasanya dibeli bersama-sama dan menggunakannya sebagai
bahan pertimbangan. Berikut beberapa algoritma yang bisa digunakan dalam metode
association rule: [8]
1. Algoritma apriori
Algoritma apriori merupakan sebuah algoritma pencarian pola yang sangat populer
dalam teknik penambangan data (datamining). Algoritma ini ditujukan untuk mencari
kombinasi item-set yang mempunyai suatu nilai keseringan tertentu sesuai kriteria atau filter
yang diinginkan. Hasil dari algoritma ini dapat digunakan untuk membantu dalam
pengambilan keputusan pihak manajemen.
2. Algoritma clat
adalah salah satu metode kaidah asosiasi yang menggunakan perpotongan (intersection)
antar transaksi ID List untuk mencari frequent item setnya untuk kemudian dibentuk rule agar
dapat dijadikan rekomendasi.
3. Algoritma fp-growth
Algoritma ini merupakan perluasan dari algoritma apriori yang telah ada sebelumnya,
oleh karena setiap melakukan kombinasi item apriori akan menscan database berulang kali
menyebabkan banyaknya waktu yang dibutuhkan untuk melakukan scanning database
tersebut, apalagi bila jumlah datanya cukup besar, selain itu dibutuhkan generate
candidate yang besar untuk mendapatkan kombinasi item dari database
C. Clustering
Merupakan pengelompokan data yang memiliki kemiripan namun belum memiliki
kelas. Clustering merupakan tugas utama eksplorasi dat mining, dan teknik biasa untuk
statistical data analysis, digunakan pada banyak bidang, termasuk machine learning, pattern
recognition, image analysis, information retrieval, dan bioinformatics. Beberapa algoritma
dalam clustering yaitu connectivity based clustering, centroid-based clustering, distributionbased clustering, dan density-based clustering. [9]
D. Classification
Menggeneralisasikan struktur yang telah diketahui untuk diaplikasikan ke data baru.
misal program email bermaksud untuk mengklasifikasikan email kedalam inbox atau spam.
Berikut ini 4 algoritma klasifikasi yang cenderung digunakan dalam pengembangan data
mining: [10]
1. C45, merupakan algoritma dengan prioritas tertinggi menjadi pilihan developer data
mining karena kecepetannya dalam mengklasifikasikan pohon keputusan selain
kemampuannya dalam mengkonstruksi pengklasifikasian dengan aturan lainnya.
2. k-NN, k-NN dipilih salah satunya dikarenakan penggunaan pilihan k-nya. k yang sangat
kecil dapat mengakibatkan noise, namun jika terlalu besar dapat menyebabkan n dengan
banyak kelas yang harus diklasifikasikan. Algoritma k-NN mudah dipahami dan
diimplemetasikan.
3. Naive bayes, memiliki kemudahan dalam konstruksinya dan tidak membutuhkan
parameter skema pengulangan yang kompleks sehingga mudah dalam membaca data dengan
jumlah yang besar. Naive bayes dinyatakan sebagai algoritma yang memiliki sifat simplicity,
elegance, dan robustness.
4. CART, banyak digunakan di bidang-bidang yang membutuhkan pengolahan data yang
komprehensif. Cart memiliki mekanisme bertingkat meliputi automatic class balancing,
automatic missing, value handling cost-sensitive dan allows for learning, dynamic feature
construction dan probability tree estimation sehingga tingkat kompleksitas menjadi
pertimbangan para peneliti pemula.
E. Regression
Regresi merupakan proses statistik untuk memperkirakan hunbungan antar variabel.
Analisis regrsi mencakup banyak teknik untuk pemodelan dan menganalisis beberapa
variabel, saat fokus ada pada hubungan antara variabel dependen dan satu atau lebih variabel
variabel independen. Lebih spesifik lagi, analisis regresi membantu seseorang mengerti
bagaimana nilai typical value dari variabel dependen berubah ketika salah satu variabel
independen berganti-ganti, sedangkan variabel independen yang lain tidak berganti-ganti.
Biasanya analisis regresi memperkirakan ekspektasi bersyarat dari variable dependen jika
diberikan variabel independen - yang mana, nilai rata-rata dari variabel dependen jika
variabel independen tidak berganti-ganti. Selain itu juga, walaupun kurang umum, fokus ada
pada parameter lokasi lain dari distribusi kondisi variabel dependen jika diberikan variabel
independen. Pada semua kasus, target estimasi adalah fungsi dari variabel independen yang
disebut fungsi regresi. pada nalisis regresi, itu juga kadang disebut distribusi probabilitas.
[11] Beberapa algoritma yang digunakan dalam analisis regresi adalah
F. Summarization
Merupakan proses mengurangi dokumen teks dengan program komputer untuk
membuat ringkasan yang tetap memiliki poin-poin paling penting dari dokumen yang
sebenarnya. Karena masalah information overload telah berkembang, dan juga kuantitas data
telah bertambah, begitu pula keminatan pada automatic summarization. Teknologi yang dapat
membuat ringkasan jelas memperhitungkan variabel sperti panjang data, gaya penulisan, dan
sintaks. Misal seperti teknologi summarization adalah search engine seperti google. Contoh
lain ialah document summarization. [12] Beberapa metode yang digunakan dalam
summarization adalah extraction-based summarization, abstraction-based summarization,
maximum entropy-based summarization, dan aided summarization.
DAFTAR REFERENSI
[1] Fayyad, Usama; Piatetsky-Shapiro, Gregory; Smyth, Padhraic (1996). "From Data
Mining to Knowledge Discovery in Databases".
[2] "Data Mining Curriculum". ACM SIGKDD.
[3] Clifton, Christopher (2010). "Encyclopdia Britannica: Definition of Data Mining".
[4] Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome (2009). "The Elements of
Statistical Learning: Data Mining, Inference, and Prediction".
[5] Bill Palace. Data Mining: What is Data Mining?.
[6] Wikipedia encyclopedia. Data Mining, Diakses tanggal 2 Maret 2014.
[7] Wikipedia encyclopedia. Anomali Detection, Diakses tanggal 2 Maret 2014.
[8] Wikipedia encyclopedia. Association rule learning, Diakses tanggal 2 Maret 2014.
[9] Wikipedia encyclopedia. Cluster Analysis, Diakses tanggal 2 Maret 2014.
[10] Subiyakto, Aang; Penggunaan Algoritma klasifikasi dalam Data Mining.
[11] Wikipedia encyclopedia. Regression Analysis, Diakses tanggal 2 Maret 2014.
[12] Wikipedia encyclopedia. Automatic Summarization, Diakses tanggal 2 Maret 2014.

Data Mining Task

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Data Mining Task

Diunggah oleh

Hak Cipta:

Format Tersedia

Data Mining Task

Eko K. Subha, Jakti K. Prasojo, Umar Sagaf

Anda mungkin juga menyukai