DATA MINING
Oleh:
SINAR NUSANTARA
SURAKARTA
2020
i
KATA PENGANTAR
Alhamdulillah, Puji syukur kehadirat Tuhan Yang Maha Esa yang telah memberikan
taufik dan hidayahnya, sehingga kami mampu menyelesaikan makalah ini dengan judul
“Data Mining”.
Namun penyusun menyadari bahwa dalam penyusun makalah ini masih jauh dari
sempurna. Maka dari itu penyusun mengharapkan kritik dan salam yang bersifat membangun
demi berkembangnya kami dalam menulis makalah ini.
Dalam penyusunan makalah ini tidak lepas dari dukungan berbagai pihak. Maka dari
itu penyusun menyampaikan rasa terimakasih kepada semua pihak yang telah membantu dan
memberi dukungan sehingga dapat terselesainya makalah ini tepat waktu.
Semoga makalah yang kami buat ini bermanfaat bagi penulis dan pembaca pada
umumnya.
Penulis
ii
DAFTAR ISI
iii
BAB I PENDAHULUAN
A. LATAR BELAKANG
Aplikasi pencarian informasi yang telah ada salah satunya adalah Web mining untuk
pencarian berdasarkan kata kunci dengan Teknik Clustering. Selain itu, pada document
dilakukan juga teks mining dan perhitungan jumlah kata, dari jumlah kata tersebut dilakukan
pengklusteran dengan metode CLHM (Centroid Lingkage Hierarchial Method). Pemakai
tidak mengetahui berapa jumlah yang tepat untuk mengklusterkan dokumen-dokumen
tersebut. Untuk itu, dipakai metode yang lain yaitu metode Hill Climbing yang bertugas
untuk melakukan indentifikasi terhadap pergerakan varian dari tiap tahap pembentukan
kluster dan menganalisa polanya sehingga jumlah klusternya akan terbentuk secara otomatis.
Penggunaan teks mining, pengklusteran dengan CLHM dan proses Hill Climbing
Automatic Clustering sangat memudahkan pemakai karena menghasilkan kluster secara
otomatis dan tepat dengan waktu yang cepat.
1
B. RUMUSAN MASALAH
C. TUJUAN PEMBAHASAN
2
BAB II ISI
Keluaran dari data mining bisa dipakai untuk memperbaiki pengambilan keputusan
dimasa depan (Budi Santosa, 2007)
Data mining adalah sebuah proses percarian secara otomatis informasi yang berguna
dalam tempat penyimpanan data berukuran besar. Istilah lain yang sering digunakan
diantaranya knowledge discovery (mining) in databases (KDD), knowledge extraction,
data/pattern analysis, data archeology, data dredging, information harvesting, dan business
intelligence. Teknik data mining digunakan untuk memeriksa basis data berukuran besar
sebagai cara untuk menemukan pola yang baru dan berguna. Tidak semua pekerjaan
pencarian informasi dinyatakan sebagai data mining. Sebagai contoh, pencarian record
individual menggunakan database management system atau pencarian halaman we tertentu
melalui kueri ke semua search engine adalah pekerjaan pencarian informasi yang erat
kaitannya dengan information retrieval. Teknik-teknik data mining dapat digunakan untuk
meningkatkan kemampuan sistem-sistem information retrieval.
Data mining adalah bagian integral dari knowledge discovery in databases (KDD).
Keseluruhan proses KDD untuk konversi raw data ke dalam informasi yang berguna
ditunjukkan dalam Gambar 1.
3
Gambar 1 Proses dalam KDD (Tan et al, 2005)
Data input dapat disimpan dalam berbagai format seperti flat file,spreadsheet, atau
tabel-tabel relasional, dan dapat menempati tempat penyimpanan data terpusat atau
terdistribusi pada banyak tempat. Tujuan dari preprocessing adalah mentransformasikan
data input mentah ke dalam format yang sesuai untuk analisis selanjutnya. Langkah-langkah
yang terlibat dalam preprocessing data meliputi mengabungkan data dari berbagai sumber,
membersihkan (cleaning) data untuk membuang noise dan observasi duplikat, dan
menyeleksirecord dan fitur yang relevan untuk pekerjaandata mining. Karena terdapat
banyak cara mengumpulkan dan menyimpan data, tahapan preprocessing data merupakan
langkat yang banyak menghabiskan waktu dalam KDD.
Hasil dari data mining sering kali diintegrasikan dengan decision support system
(DSS). Sebagai contoh, dalam aplikasi bisnis informasi yang dihasilkan olehdata mining
dapat diintegrasikan dengan tool manajemen kampanye produk sehingga promosi pemasaran
yang efektif yang dilaksanakan dan dapat diuji. Integrasi demikian memerlukan langkah
postprocessing yang menjamin bahwa hanya hasil yang valid dan berguna yang akan
digabungkan dengan DSS. Salah satu pekerjaan dan postprocessing adalah visualisasi yang
memungkinkan analyst untuk mengeksplor data dan hasil data mining dari berbagai sudur
pandang. Ukuran-ukuran statistik dan metode pengujian hipotesis dapat digunakan selama
postprocessing untuk membuang hasil data mining yang palsu.
4
retrieval. Sejumlah area lain juga memberikan peran pendukung dalam data mining, seperti
sistem basis data yang dibutuhkan untuk menyediakan tempat penyimpanan yang efisien,
indexing dan pemrosesan kueri. Gambar 1. menunjukkan hubungan data mining dengan
area-area lain.
Gambar 2 Data mining sebagai pertemuan dari banyak disiplin ilmu (Tan et al, 2005)
5
• Data mining engine. Bagian ini merupakan komponen penting dalamarsitektur
sistemdata mining. Komponen ini terdiri modul-modul fungsionaldata mining seperti
karakterisasi, asosiasi, klasifikasi, dan analisis cluster.
• Modul evaluasi pola. Komponen ini menggunakan ukuran-ukurankemenarikan dan
berinteraksi dengan modul data mining dalam pencarian pola
• pola menarik. Modul evaluasi pola dapat menggunakan thresholdkemenaikan untuk
mem-filter pola-pola yang diperoleh.
• Antarmuka pengguna grafis. Modul ini berkomunikasi dengan pengguna
dansistemdata mining. Melalui modul ini, pengguna berinteraksi dengan
sistemmengan menentukan kueri atau taskdata mining. Antarmuka jugamenyediakan
informasi untuk memfokuskan pencarian dan melakukaneksplorasi data mining
berdasarkan hasil data mining antara. Komponen ini juga memungkinkan pengguna
untuk mencari (browse) basis data dan skema data warehouse atau struktur data,
evaluasi pola yang diperoleh danvisualisasi pola dalam berbagai bentuk.
1. Classification
Yaitu proses penemuan model atau fungsi yang menjelaskan atau membedakan konsep
atau kelas data, dengan tujuan untuk dapat memperkirakan kelas dari object yang
labelnya tidak diketahui atau menyimpulkan definisi-definisi karakteristik sebuah
grup. Contoh: customer dari sebuah toko yang telah berpindah kesaingan took tersebut.
6
2. Clustering
Termasuk metode yang sudah cukup dikenal dan banyak dipakai dalam data mining .
sampai sekarang para ilmuan dalam bidang data mining masih melakukan perbaikan
model Clustering karena metode yang dikembangkan sekarang masih bersifat
heuristic. Usaha usaha untuk menghitung jumlah Cluster yang optimal dan
pengklasteran yang paling baik masih terus dilakukan. Dengan demikian
menggunakan metode yang sekarang tidak bisa menjamin hasil pengklasteran
merupakan hasil yang optimal. Namun, hasil yang dicapai sudah cukup baik.
3. Association
Yaitu mengidentifikasi hubungan antara kejadian-kejadian yang terjadi pada suatu
waktu.
4. Sequencing
Hampir sama dengan Association, yaitu mengidentifikasi hubungan-hubungan yang
berbeda pada suatu periode waktu tertentu, seperti customer yang berbelanja secara
berulang-ulang pada suatu toko yang sama.
5. Forecasting
Memperkirakan nilai pada masa yang akan dating berdasarkan pola-pola dengan
sekumpulan data yang besar, seperti peramalan permintaan pasar.
6. Regretion
Adalah proses pemetaan data dalam nilai prediksi
7. Solution
Adalah proses penemuan akar masalah dan Problem solving dari persoalan bisnis yang
dihadapi atau paling tidak sebagai informasi pendukung dalam pengambilan
keputusan.
7
C. TUJUAN DATA MINING
1. Explanatory
Untuk menjelaskan beberapa kondisi penelitian, seperti mengapa penjualan truk pick
up meningkat di colorado.
2. Confirmatory
Untuk mempertegas hipotesis, seperti halnya 2 kali pendapatan keluarga lebih suka
di pakai untuk membeli peralatan keluarga, di bandingkan dengan satu kali
pendapatan keluarga.
3. Exploratory
Menganalisis data untuk hubungan yang baru yang tidak di harapkan, seperti halnya
pola apa yang cocok untuk kasus penggelapan kartu kredit.
Data mining sesunggunghnya merupakan salah satu rangkaian dari proses pencarian
pengetahuan pada database (Knowledge Discovery in Database/KDD). KDD berhubungan
dengan teknik integrasi dan penemuan ilmiah, interprestasi dan visualisasi dari pola-pola
sejumlah kumpulan data. KDD adalah keseluruhan proses non-trivial untuk mencari dan
mengidentifikasi pola (pattern) dalam data, dimana pola yang ditemukan bersifat sah, baru,
dapat bermanfaat dan dapat dimengerti. Serangkaian proses tersebut yang memiliki tahap
sebagai berikut (Tan, 2004):
Proses ini digunakan untuk membuang data yang tidak konsisten dan bersifat
noise dari data yang terdapat di berbagai basisdata yang mungkin berbeda format
maupun platform yang kemudian diintegrasikan dalam satu database datawarehouse.
8
Pembersihan data merupakan proses menghilangkan noise dan data yang tidak
relevan. Pada umumnya data yang diperoleh, baik dari database memiliki isian-isian
yang tidak sempurna seperti data yang hilang, data yang tidak valid atau juga hanya
sekedar salah ketik.Datadata yang tidak relevan itu juga lebih baik dibuang.
Pembersihan data juga akan mempengaruhi performasi dari teknik data mining karena
data yang ditangani akan berkurang jumlah dan kompleksitasnya.
➢ Sampling, adalah seleksi subset representatif dari populasi data yang besar.
➢ Denoising, adalah proses menghilangkan noise dari data yang akan
ditransformasikan
➢ Feature extraction, adalah proses membuka spesifikasi data yang signifikan
dalam konteks tertentu. Transformasi data diperlukan sebagai tahap pre-
procecing, dimana data yang diolah siap untuk ditambang. Beberapa cara
transformsi, antara lain (Santosa, 2007):
➢ Centering, mengurangi setiap data dengan rata-rata dari setiap atribut yang ada.
Normalisation, membagi setiap data yang dicentering dengan standar deviasi
dari atribut bersangkutan.
➢ Scaling, mengubah data sehingga berada dalam skala tertentu.
9
Gambar 3. : Tahap-tahap Knowledge Discovery in Database
Tahap ini merupakan bagian dari proses pencarian pengetahuan yang mencakup
pemeriksaan apakah pola atau informasi yang ditemukan bertentangan dengan fakta
atau hipotesa yang ada sebelumnya. Langkah terakhir KDD adalah mempresentasikan
pengetahuan dalam bentuk yang mudah dipahami oleh pengguna.
10
5. Presentasi pengetahuan (knowledge presentation)
Sebagai salah satu bagian dari system informasi, data mining menyediakan perencanaan dari
ide hingga implementasi akhir. Komponen-komponen dari rencana data mining adalah sebagai
berikut:
1. Analisa masalah
Data asal harus bisa ditaksir untuk dilihat apakah data tersebut memenuho keriteria data
mining. Kualitas kelimpahan data adalah factor utama untuk memutuskan apakah data tersebut
cocok dan tersedia sebagai tambahan. Hail yang diharapkan dari dampak data mining harus
dengan hati-hati, dimengerti dan dipastikan bahwa data yang diperlukan membawa informasi
yang bisa diekstrak.
2. Mengekstrak dan membersihkan
Data pertama kali diekstrak dari data aslinya, seperti dari OLTP basis data, text file,
microcrof acces database, dan bahkan dari spreadsheet, struktur yang sesuai dengan data
model secara khas.
3. Validitas data
Ketika data telah diekstrak dan dibersihkan, kita bisa menelusuri model yang telah kita
ciptakan untuk memastikan bahwa semua data yang ada adalah data sekarang dan data tetap.
4. Membuat dan melatih model
Ketika algoritma diterapkan pada model, struktur telah dibangun. Hal ini sangatlah
penting untuk melihat data telah dibangun untuk memastikan bahwa data tersebut meyerupai
fakta di dalam data sumber.
11
5. Query data dari model data mining
Ketika model yang telah cocok diciptakan dan dibangun, data yang telah dibuat tersedia
untuk mendukung keputusan. Jal ini biasanya melibatkan penulisan front end query dengan
program aplikasi basis data.
6. Evaluasi validitas dari mining model
Setelah model data mining terkumpul, karateristik data awal seperti granularitas dan
validitas mungkin berubah. Karena model data mining dapat terus berubah seiring
perkembangan waktu.
Berikut adalah beberapa contoh penerapan data mining dalam kehidupan sehari-hari :
1. Kebutuhan
Dalam penerapan data mining dalam kehidupan sehari-hari salah satunya adalak
pada kebutuhan suatu keluarga / mahasiswa. Terutama pada mahasiswa data mining
digunakan mendeteksi kebutuhan yang mubadir/ yang tidak diperlukan sehingga dapat
menghemat pengeluaran.
2. Analisa dan managemen resiko
Data mining dapat menjadi solusi yang tepat yaitu melakukan perencanaan
keuangan dalam keluarga dan merencanakan langkah yang akan diambil dalam
keluarga agar meminimalisir resiko kerugian contoh: suatu keluarga berencana untuk
membangun sebuah bisnis kemudian menggunakan managemen resiko untuk
merencanakan dan memperkecil resiko kerugian.
3. Penggunaan data mining dalam bidang kesehatan :
Sekarang ini sistem informasi rumah sakit mulai menerapkan sistem informasi
berbasis komputer untuk mendukung manajemen keuangan khususnya dipakai untuk
billing systems (sistem pembayaran)
4. Penggunaan data mining dalam bidang perkantoran :
Sebagai alat pendukung untuk presensi dengan sidik jari (finger print)
12
5. Penggunaan data mining dalam bidang olahraga :
Sebagai sensor atau alat untuk mencatat jumlah statistik pada statistik sepak
bola, basket, tenis, voli, dll.
6. Penggunaan data mining dalam bidang telekomunikasi :
Sebagai sarana statistik untuk mencatat kepadataan jumlah penelpon di jam
tertentu ( jam sibuk / bukan) sehingga operator dapat memberikan tarif tertentu bagi
pelanggan.
Dengan menggunakan data mining, suatu pekerjaan yang berat bisa dilakukan
dengan mudah dan menjadi efektif dan efisien. Dan dengan adanya data mining ini bisa
membawa perubahan yang besar bagi kita.
DAFTAR PUSTAKA
➢ https://www.scribd.com/document/436178313/makalah-dokumen-mining-docx
➢ https://www.academia.edu/35424334/MAKALAH_DATA_MINING_TUGAS_KECERDASAN_BISN
IS
➢ https://bootup.ai/blog/data-mining-adalah/
➢ https://www.academia.edu/34743973/BAB_1_PENGERTIAN_DATA_MINING
➢ https://hafsahkhair.wordpress.com/2016/12/25/penerapan-data-mining-dalam-kehidupan-
sehari-hari/
➢ https://shabri-prayogi.blogspot.com/2012/03/penerapan-data-mining_05.html
13