Data Mining

Data Mining
Pengertian Data Mining

data mining merupakan suatu proses penambangan data dalam jumlah data yang sangat
besar dengan menggunakan metode statistika, matematika, hingga memanfaatkan
teknologi artificial intelligence terkini. Menurut para ahli (Efraim Turban, dkk 2005)
Tujuan dari penambangan data ini untuk mengekstraksi serta mengidentifikasi suatu data
demi informasi tertentu yang berhubungan dengan suatu database besar atau big data.
Terdapat beberapa istilah pula yang memiliki makna hampir sama dengan penambangan
data meskipun definisi khususnya berbeda seperti Knowledge discovery in databases
(KDD), analisa data atau pola, ekstraksi pengetahuan, kecerdasan bisnis, data arkeologi,
dan data dredging.
Fungsi Data Mining
Penambangan data adalah suatu proses yang memiliki banyak fungsi. Fungsi utamanya
yaitu untuk mendapatkan informasi penting yang nantinya bisa bermanfaat. Jika
dijabarkan lebih lanjut, berikut fungsi dasarnya.
1. Prediction: Prediction atau fungsi prediksi merupakan salah satu fungsi data
mining. Maksudnya yaitu dari proses nanti akan menemukan pola tertentu
dari suatu data. Pola tersebut dapat diketahui dari variabel-variabel yang ada
pada data. Pola yang didapat bisa digunakan untuk memprediksi variabel
lain yang belum diketahui nilai ataupun jenisnya.Karena itulah fungsi satu ini
dikatakan sebagai fungsi prediksi. Nantinya bisa digunakan untuk
memprediksi variabel tertentu yang tidak ada dalam suatu data. Hal ini
tentunya memudahkan dan menguntungkan bagi mereka pemilik
kepentingan yang memerlukan prediksi akurat untuk membuat hal penting
tersebut menjadi lebih baik.
2. Description: Fungsi selanjutnya adalah description atau fungsi deskripsi.
Maksud dari fungsi deskripsi ini yaitu untuk memahami lebih jauh tentang
data yang diamati. Jadi dengan melakukan proses, diharap mampu
mengetahui perilaku dari data tersebut yang nantinya bisa digunakan untuk
mengetahui karakteristik dari data yang dimaksud. Data mining nantinya
bisa menemukan pola tertentu yang tersembunyi dalam sebuah data. Dengan
pola yang berulang dan bernilai itulah karakteristik data bisa diketahui. Hal
satu ini tentunya memberikan banyak manfaat dan dapat meningkatkan
pengetahuan.
3. Klasifikasi: Fungsi lainnya adalah fungsi klasifikasi atau classification.
Maksud dari fungsi klasifikasi yaitu data yang ada akan diproses sehingga
akan ditemukan fungsi atau model tertentu yang menggambar konsep dari
suatu data. Model atau fungsi tersebut nantinya akan memisahkan tiap data
menjadi kelompok-kelompok tertentu. Kelompok data tersebut nantinya bisa
digunakan untuk meramalkan kecenderungan suatu data di masa depan.
Pengelompokan atau pengklasifikasian data juga dapat memudahkan pemilik
data saat mencari data yang dibutuhkan.
4. Asosiasi : Fungsi selanjutnya ialah fungsi asosiasi. Maksud dari fungsi
asosiasi atau analisis asosiasi yaitu penggunaannya untuk menemukan
kombinasi atau aturan assosiatif dari suatu data. Jadi data yang ada nantinya
diproses sehingga akan menemukan informasi tentang hubungan variabel
satu dengan lainnya.
Proses Pencarian Pola dalam Data Mining
Proses pencarian pola atau bisa dikatakan sebagai proses penambangan data penting.
Seperti menambang pada umumnya yang memerlukan pencarian untuk mendapatkan
sesuatu yang penting. Nah berikut proses pencarian pola dalam menemukan data penting.
1. Pembersihan data: Proses pencarian pola yang pertama adalah proses pembersihan
data. Pembersihan data berupa penghapusan data pengganggu atau data yang tidak
penting serta mengisi data yang hilang.
2. Integrasi data :Setelah pembersihan data, proses selanjutnya yaitu integrasi data.
Integrasi data merupakan proses penggabungan beberapa sumber data yang ada.
3. Pemilihan data: Pencarian pola selanjutnya dalam adalah pemilihan data. Data-data
yang relevan nantinya dipilih dan dikumpulkan.
4. Transformasi data: Setelah itu proses selanjutnya adalah transformasi data. Jadi dari
banyaknya data, nantinya akan diproses dan ditransformasi ke dalam format
tertentu, format yang akan digunakan dalam penggalian data.
5. Penggalian data: Dalam proses satu ini, data akan diolah menggunakan metode yang
cerdas dan canggih sehingga akan menghasilkan ekstraksi pola tertentu.
6. Evaluasi pola: Proses selanjutnya yaitu evaluasi pola. Dari pola-pola yang
ditemukan, nantinya akan dikenali pola-pola yang menarik. Pola-pola menarik
tersebut lah yang akan diambil.
7. Penyajian pola: Setelah ditemukan pola yang menarik, pola tersebut kemudian akan
divisualisasikan ke pengguna.
Tahapan Data Mining
Setelah tadi mengetahui proses pencarian polanya, kini saaatnya membahas tentang
tahapan umum data mining. Apa saja tahapannya? Berikut penjelasannya.
1. Seleksi: Tahapan pertama dalam adalah seleksi. Proses seleksi merupakan proses
penyeleksian data. Data yang diseleksi akan ditransformasikan ke format yang
sesuai untuk analisis data. Seleksi data menggunakan beberapa kriteria. Data hasil
seleksi kemudian akan disimpan di suatu berkas terpisah yang kemudian akan
diolah atau dilakukan proses data mining.
2. Preprocessing: Sebenarnya tahapan ini hampir sama dengan proses pemecahan
pola. Hanya saja tahapan ini ditulis secara umum, tidak menjurus ke pemecahan
pola. Nah dalam tahap processing, data yang tidak valid dan tidak dibutuhkan akan
dibuang. Jadi akan terjadi pembersihan data yang informasinya tidak terlalu
dibutuhkan. Data yang duplikat, yang tidak konsisten, dan data yang salah akan
diperiksa dan dibersihkan.
3. Transformasi: Tahapan selanjutnya adalah transformasi. Proses transformasi atau
coding merupakan proses transformasi data ke dalam format tertentu sehingga
nantinya data dapat digunakan dan ditelusuri.
4. Data Mining: Dalam tahapan ini, akan terjadi proses pencarian pola dengan metode,
teknik, dan algoritma tertentu yang bervariasi dan rumit. Pola dan data yang dicari
adalah pola dan data yang menarik.
5. Interpretasi dan Evaluasi: Setelah menemukan pola dan data menarik, selanjutnya
adalah menampilkan data tersebut ke dalam bentuk yang mudah dipahami oleh
pengguna atau pihak yang berkepentingan. Jadi pola yang ditemukan nanti akan
diperiksa dan dicek apakah bertentangan dengan hipotesis sebelumnya ataukah
tidak. Intinya data sudah bisa dibaca dan tentunya akan bermanfaat bagi pihak yang
berkepentingan.
Kelebihan Data Mining
Data mining merupakan sebuah proses interatif dan interaktif untuk mendapatkan sebuah
pola baru yang menarik. Pola tersebut tentunya akan sangat bermanfaat. Model yang
dihasilkan dari proses data mining biasanya sudah sempurna sehingga dapat digeneralisasi
untuk kepentingan di masa depan.
Karena prosesnya yang cukup panjang dan rumit, maka dari proses awal biasanya akan
menghasilkan sesuatu yang baru, yang tidak diketahui sebelumnya. Sesuatu yang baru ini
akan menambah pengetahuan para pengguna ataupun peneliti dan tentunya akan sangat
bermanfaat karena dapat digunakan untuk melakukan tindakan tertentu.
Penggalian data juga sering dikatakan sebagai proses interaktif dan interatif. Proses
interaktif maksudnya yaitu proses yang masih memerlukan interaksi manusia agar bisa
terlaksana. Sedangkan proses interatif, maksudnya adalah proses yang tidak hanya
dilakukan sekali, perlu proses yang berulang-ulang untuk mendapatkan data penting yang
dimaksud.
Kelebihannya membuat analisa suatu data besar menjadi semakin mudah. Pencarian pola
baru atau trend baru bisa dilakukan dengan mudah sehingga bisa membantu mengambil
keputusan di masa yang akan datang atau bisa memprediksi data tertentu sehingga bisa
menganalisis apa yang harus dilakukan.
Data Science
pengertian
Menurut Chikio Hayashi dari Institut Statistika Matematika Sakuragaoka, pengertian data

science adalah ilmu pengetahuan interdisiplin tentang metode komputasi untuk
mendapatkan wawasan berharga yang dapat ditindaklanjuti dari kumpulan data yang
mencakup tiga fase yaitu desain data, mengumpulkan data, dan analisis data. Sebagai ilmu
interdisiplin, data science mempunyai definisi yang berbeda-beda dari akademisi maupun
praktisi yang berkecimpung di dalamnya.
Penggunaan Data Science
Data science atau ilmu data merupakan ilmu terapan baru yang perkembangannya dituntut
oleh meningkatnya penggunaan teknologi secara signifikan. Data science digunakan oleh
perusahaan maupun instansi tertentu untuk melakukan analisis data yang tidak bisa
dilakukan dengan metode sederhana. Misalkan marketplace Tokopedia memerlukan suatu
pengetahuan yang dapat melakukan analisis data penjual dan pembeli di platform mereka.
Tentunya, data yang mereka punyai setiap detiknya terus berubah atau bertambah.
Sehingga diperlukan suatu metode komputasi untuk mengambil data tersebut serta
melakukan perhitungan yang dapat menganalisis informasi pada data tersebut. Disinilah
peran data science dalam pemenuhan kebutuhan suatu perusahaan atau instansi.
Data Mining
bigData Mining adalah serangkaian proses untuk menggali nilai tambah dari suatu
kumpulan data berupa pengetahuan yang selama ini tidak diketahui secara manual.
Patut diingat bahwa kata mining sendiri berarti usaha untuk mendapatkan sedikit
barang berharga dari sejumlah besar material dasar. Karena itu Data Mining
sebenarnya memiliki akar yang panjang dari bidang ilmu seperti kecerdasan buatan
(artificial intelligent), machine learning, statistik dan database. Data mining adalah
proses menerapkan metode ini untuk data dengan maksud untuk mengungkap pola-
pola tersembunyi. Dengan arti lain Data mining adalah proses untuk penggalian pola-
pola dari data. Data mining menjadi alat yang semakin penting untuk mengubah data
tersebut menjadi informasi. Hal ini sering digunakan dalam berbagai praktek profil,
seperti pemasaran, pengawasan, penipuan deteksi dan penemuan ilmiah.
Data Science
Data Science merupakan ilmu atau teknik untuk mengeksplorasi dan mengekstrak
sekumpulan data atau database sehingga dari sekumpulan data tersebut dapat
ditemukan model, bentuk atau pola serta wawasan baru yang dapat digunakan sebagai
salah satu alat untuk pengambilan keputusan. Banyak sekali manfaat serta fungsi dari
data science ini diantaranya pada bidang bisnis untuk memprediksi produk apa yang
akan laku dijual pada masa yang akan datang berdasarkan data transaksi penjualan,
clusterisasi pangsa pasar untuk sebuah produk, menempatkan dua atau lebih produk
yang berlainan atau market basket analysis dll, hasil atau output dari data science
merupakan salah satu alat atau tools untuk pengambilan keputusan sehingga
didapatkan nilai tambah dari sebuah bisnis.
Dari buku Practical Data Science with R di
https://www.manning.com/books/practical-data-science-with-r bahwa dalam sebuah
proyek data science melibatkan berbagai unsur yang salah satunya yang sangat vital
adalah data scientist itu sendiri yang mempunyai fungsi dan tugas selain mengatur dan
merencanakan design dari proyek itu supaya berhasil juga menentukan tools yang
diperlukan serta melakukan test statistik dan memodelkan machine learning
selanjutnya mengevaluasi hasil atau output dari proyek itu sendiri.
Untuk menjadi seorang data science atau sering disebut dengan data scientist kita harus
mempunyai pengetahuan mengenai database, data scientist juga harus memahami
algorithm dan machine learning diantaranya: Decision Tree, K-Means, Neural Network,
Linear Regression, Logistic Regression, FP-Growth, Association Rules dll juga harus
menguasai ilmu statistik serta memahami tools atau pemograman untuk statistik
seperti SPSS, Stata, SAS, Pyhton ataupun R, dari ketiga tools atau bahasa
pemograman tersebut cukup kita menguasai salah satunya saja misalkan menguasai
bahasa pemograman R saja, terlepas dari kelebihan dan kekurangannya dengan R
selain open source R juga merupakan bahasa pemograman yang dikhusukan untuk
keperluan analysis statistik serta R juga dapat dihubungkan dengan Spark framework
apabila kita akan mengeksplorasi Bigdata atau massive datasets.
Big Data
Big Data adalah data dengan ciri berukuran sangat besar, sangat variatif, sangat cepat
pertumbuhannya dan mungkin tidak terstruktur yang perlu diolah khusus dengan
teknologi inovatif sehingga mendapatkan informasi yang mendalam dan dapat
membantu pengambilan keputusan yang lebih baik. Keempat karakterik tersebut:
berukuran sangat besar (high-volume), atau sangat bervariasi (high-variety), atau
kecepatan pertumbuhan tinggi (high-velocity), dan sangat tidak jelas (high veracity)
sering disebut dengan 4V’s of Big Data.
Teknologi Big Data diciptakan untuk menangani keempat ciri di atas. Jadi jika data
Anda memiliki satu ciri saja atau beberapa kombinasi ciri di atas, tentunya dapat
memanfaatkan teknologi Big Data yang tersedia di pasaran. Definisi di atas merupakan
kompilasi definisi dari Gartner – sebuah perusahaan riset dan konsultan IT yang sangat
terkenal di dunia dan berbasis di US – dan beberapa organisasi lain yang menambahkan
elemen high-veracity ke dalam definisi Gartner.
PERBEDAAN BIG DATA DAN BUSINESS INTELLIGENCE
Perbedaan yang mendasar adalah bagaimana konsep Big Data dan Business Intelligence
memproses data.Untuk menghadapi volume yang tinggi, prinsip Business Intelligence mengajak kita untuk
membersihkan data yang ada. Proses pembersihan ini akan membuang residu yang dianggap tidak penting.
Sedangkan prinsip Big Data adalah untuk tidak membuang data apapun karena residu tersebut mungkin akan
menjadi penting sejalannya waktu.
Untuk menghadapi velositas yang tinggi, prinsip Business Intelligence mengajak kita untuk melakukan operasi batch
secara teratur. Operasi ini akan medorong data dari sistem transaksi ke data warehouse untuk diproses selanjutnya.
Sedangkan prinsip Big Data adalah real-time processing.
Untuk menghadapi variasi data yang tinggi, prinsip Business Intelligence mengajak kita untuk menciptakan struktur
melalui ekstraksi, transformasi dan membuang residu yang tersisa. Big Data memiliki pendekatan yang serupa
namun tanpa harus membuang data mentah yang kita miliki. Misalnya dari sebuah unstructured data kita bisa
melakukan entity resolution untuk mengekstrak konteks sebuah kata (contoh: Apple adalah perusahaan atau label
rekaman atau buah). Kalkulasi ini biasanya dilakukan secara real time.

Data Mining

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Data Mining

Diunggah oleh

Hak Cipta:

Format Tersedia

Data Mining

Pengertian Data Mining

Menurut Chikio Hayashi dari Institut Statistika Matematika Sakuragaoka, pengertian data

Penggunaan Data Science

PERBEDAAN BIG DATA DAN BUSINESS INTELLIGENCE

Anda mungkin juga menyukai