Untuk Memenuhi Tugas Mata Kuliah Sistem Informasi dan Manajemen Database
Disusun Oleh :
Kelas : AKUNC-2022-02
Puji syukur kami panjatkan kepada Tuhan Yang Maha Esa karena atas segala rahmat
dan karunia-Nya sehingga kami dapat menyelesaikan tugas makalah kami yang berjudul
“Data Mining” ini. Adapun tujuan dari pembuatan makalah ini adalah untuk memenuhi
tugas mata kuliah Sistem Informasi Manajemen & Database. Semoga makalah ini dapat
memberikan banyak manfaat bagi seluruh pihak terutama para pembaca untuk dapat lebih
memahami konsep dasar dan pengaplikasian data mining ini ke dalam berbagai konteks yang
berbeda.
Dalam proses penyusunan makalah ini tentu tidak terlepas dari bantuan dari berbagai
pihak. Oleh karena itu, dalam kesempatan yang berbahagia ini kami ingin mengucapkan
terima kasih yang sebesar-besarnya kepada :
1. Bapak Arief Nurhandika S.E., M. Ak selaku dosen pengampu mata kuliah Sistem Informasi
Manajemen dan Database.
2. Seluruh rekan-rekan mahasiswa kelas AKUNC-02-2022 yang telah memberikan semangat
dan apresiasi posistifnya kepada kami.
3. Dan yang paling utama, kami mengucapkan terima kasih kepada diri kami yang telah berhasil
menyelesaikan tugas makalah ini dengan baik.
Kami selaku penulis menyadari bahwa makalah yang telah kami susun ini masih
terdapat banyak sekali kekurangan baik dari segi isi maupun teknik penulisannya. Untuk itu
kami mengharapkan kritik dan saran yang membangun demi kesempurnaan makalah ini.
Demikian makalah ini kami buat, semoga dapat memberikan esensi yang tinggi bagi kita
semua.
Kelompok 6
i
DAFTAR ISI
KATA PENGANTAR................................................................................................................i
DAFTAR ISI..............................................................................................................................ii
BAB I.........................................................................................................................................1
PENDAHULUAN......................................................................................................................1
BAB II........................................................................................................................................4
PEMBAHASAN........................................................................................................................4
BAB III.....................................................................................................................................27
PENUTUP................................................................................................................................27
3.1 Kesimpulan....................................................................................................................27
3.2 Saran...............................................................................................................................27
DAFTAR PUSTAKA..............................................................................................................28
ii
BAB I
PENDAHULUAN
Ide data mining digunakan untuk menggali informasi yang tersembunyi di dalam
database. Data mining adalah prosedur semi-otomatis yang mengekstrak dan
mengidentifikasi informasi pengetahuan yang berpotensi membantu dari database yang
sangat besar dengan menerapkan pendekatan statistik, matematika, kecerdasan buatan,
dan pembelajaran mesin. Urban dan lainnya, 2005). Pemilihan data, pra-pemrosesan,
transformasi, penggalian data, dan evaluasi hasil adalah beberapa langkah yang
membentuk proses KDD (Knowledge Discovery in Database) (Maimon dan Last,
2000). Nama lain dari KDD adalah database mining. Terdapat dua kategori utama dari
teknik data mining: penemuan dan verifikasi. Metode statistik untuk verifikasi biasanya
melibatkan analisis kecocokan dan analisis varians.
Model prediktif dan deskriptif adalah kategori lain yang dapat dipisahkan dari
pendekatan penemuan. Strategi prediktif menggunakan hasil yang diketahui dari
berbagai kumpulan data untuk membuat prediksi tentang data tersebut. Data historis
lainnya dapat menjadi dasar pembuatan model-model ini. Di sisi lain, model deskriptif
menawarkan cara untuk mengeksplorasi fitur-fitur dari data yang sedang dipelajari dan
mencari pola atau hubungan antar data.
Dalam makalah "Data Mining", kita akan membahas apa itu data mining, mengapa
data mining penting untuk dipelajari, bagaimana data mining berhubungan dengan data
yang besar, dan beberapa aplikasi di dunia nyata.
Jumlah data atau informasi yang disimpan secara elektronik telah meningkat secara
dramatis selama 20 tahun terakhir. Menurut perkiraan, informasi di dunia akan berlipat
ganda setiap 20 bulan, dan ukuran basis data akan meningkat lebih cepat lagi.
Dengan teknologi database saat ini, volume data yang dikumpulkan dalam jumlah
besar dapat disimpan. Di sinilah peningkatan volume data yang tiba-tiba, atau masalah
data, terjadi. Meskipun penyimpanan data diperlukan, proses penggalian pengetahuan
1
dari data yang terekam lebih penting lagi. Oleh karena itu, penting untuk menilai data
yang disimpan di gudang data.
Apa yang harus dilakukan dengan data tersebut kemudian menjadi masalah. Sudah
menjadi rahasia umum bahwa informasi diperlukan untuk mendukung operasi perusahaan
dan memberikan pengambil keputusan pandangan yang lebih lengkap tentang perusahaan
mereka. Meskipun mereka memberikan akses ke data kepada pengguna, sistem manajemen
basis data hanya memberikan sebagian kecil dari nilai yang dapat diciptakan dari data. Sistem
pemrosesan transaksi online (OLPT) konvensional sangat baik dalam memasukkan data ke
dalam database dengan cepat, aman, dan efisien; namun, sistem ini gagal dalam hal analisis
data, yang menawarkan pemahaman yang lebih mendalam mengenai bisnis yang sedang
dijalankan.
2
1.2 Rumusan Masalah
3
BAB II
PEMBAHASAN
Ada beberapa definisi dari data mining. Secara umum, data mining dapat
didefinisikan sebagai berikut:
Metode penambangan data yang tersimpan untuk menemukan pola yang menarik. Ini
adalah pendekatan yang paling populer dengan berbagai macam aplikasi dan merupakan
perkembangan logis dari teknologi basis data.
Menemukan pola atau pengetahuan dalam sejumlah besar data yang tersimpan yang
mungkin berharga atau menarik (tidak sepele, implisit, sebelumnya tidak diketahui, nilai
prospektif). investigasi analisis data otomatis atau semi-otomatis untuk menemukan tren dan
peraturan yang signifikan. Pada intinya, data mining terkait erat dengan analisis data dan
penerapan algoritma untuk mengidentifikasi pola dan kesamaan dalam kumpulan data.
Premis yang mendasarinya adalah bahwa dengan menggunakan alat data mining untuk
mengidentifikasi pola yang sebelumnya tidak terlihat atau sangat halus sehingga tidak ada
yang mengenalinya, sumber daya yang signifikan dapat ditemukan di tempat yang tidak
terduga.
Oleh karena itu, teknik terbaik untuk analisis data mining difokuskan pada data yang
sangat besar untuk mengekstrak sebanyak mungkin kesimpulan dan keputusan. Analisis data
mining beroperasi pada data yang cenderung berkembang. Nama atau judul lain untuk data
mining antara lain ekstraksi pengetahuan, pemulihan pengetahuan (mining) dalam basis data
(KDD), dan analisis data/pola intelijen bisnis. Meskipun sebagian besar teknik data mining
yang dibahas dalam laporan tugas akhir ini bukanlah hal yang baru, namun data mining baru
benar-benar mendapatkan perhatian dalam beberapa tahun terakhir, yaitu ketika data mining
menjadi layak secara komersial.
Data mining adalah penemuan pengetahuan dalam database, atau suatu langkah
analisis dalam proses penemuan pengetahuan dalam databse, disingkat KDD (Fayyad, Usama
1996). Data mining merupakan bagian dari seri Knowledge Discovery in Databases (KDD).
KDD (Knowledge Discovery in Databases) berhubungan dengan teknik integrasi dan
4
penemuan ilmiah, interpretasi, dan visualisasi pola data (Tan, 2004). Data mining adalah
ekstraksi pengetahuan dari database. Data mining adalah proses mengekstraksi dan
mengidentifikasi informasi yang berguna dan pengetahuan yang terkait dari berbagai
database berskala besar dengan menggunakan teknik statistik, matematika, kecerdasan
buatan, dan pembelajaran mesin (Turban, dkk. 2005).
Kumpulan prosedur yang disebut data mining dimaksudkan untuk mengekstrak nilai
tambahan secara manual-yaitu pengetahuan yang tidak diketahui-dari kumpulan data. (Max
Bramer, 2007) Menemukan pola tersembunyi dalam bentuk pengetahuan yang sebelumnya
tidak ditemukan dari kumpulan data-di mana data disimpan dalam database, penyimpanan
data, atau lokasi lain dalam media penyimpanan informasi-adalah definisi umum dari data
mining.
Melalui proses data mining, pengguna dapat menemukan informasi yang mereka
butuhkan dengan menggunakan salah satu dari dua jenis atau mode operasi: model penemuan
pengetahuan atau model verifikasi.
Penggunaan data mining telah meningkat secara signifikan selama dua puluh tahun
terakhir karena semakin banyak sumber data yang menyediakan lingkungan big data. Data
5
besar mengacu pada volume data yang sangat besar, sering kali dalam aliran yang terus
menerus dari berbagai sumber dan dengan kecepatan tinggi. Pada masa-masa awal intelijen
bisnis, tabel data sering kali diekspor dari perangkat dan dipersiapkan secara manual untuk
mendapatkan wawasan. Namun, seiring dengan semakin terhubungnya dunia, data dapat
memiliki volume yang terlalu besar untuk dibedah secara manual, terutama jika data tersebut
merupakan campuran dari data terstruktur dan tidak terstruktur.
Data mining adalah proses yang membuat big data menjadi fungsional. Tanpa data
mining, perusahaan akan mendapatkan terabyte data dari berbagai sumber: Perangkat Internet
of Things (IoT), basis data, media sosial perusahaan, email pemasaran, sensor, penggunaan
situs web, dan banyak lagi, masing-masing dengan kumpulan metadatanya sendiri. Menyisir
data dalam jumlah besar secara fisik tidak mungkin dilakukan. Teknik penggalian data
menggunakan algoritme untuk mengidentifikasi pola melalui kumpulan data yang sangat
besar ini, kemudian mengeluarkan serangkaian rekomendasi untuk ditindaklanjuti oleh tim.
Contoh sederhana dari hal ini berasal dari belanja online untuk peritel. Dalam situasi
ini, riwayat pelanggan dikumpulkan ke dalam basis data yang sangat besar. Sebuah algoritme
menyaring data untuk mencari korelasi, misalnya, orang yang hanya membeli merek
makanan tertentu. Algoritme akan mencari informasi tentang pembelian terkait, seperti
suplemen atau merek makanan. Ketika pola muncul, informasi ini dapat diberikan kepada tim
pemasaran untuk membuat promosi yang berkaitan dengan merek tertentu.
- Tujuan dari data mining adalah untuk menemukan hubungan dan pola yang dapat
memberikan petunjuk yang berguna.
Data mining dilakukan dengan menggunakan alat khusus yang melakukan operasi
data mining tertentu berdasarkan model analitis. Data mining adalah proses analisis data yang
berfokus pada pencarian informasi tersembunyi dalam sejumlah besar data yang tersimpan
dalam operasi bisnis.
6
1. Data telah mencapai jumlah dan ukuran yang sangat besar
Proses dan hasil dari data mining melibatkan penggunaan informasi untuk
mendukung tindakan tertentu, sehingga keakuratan informasi sangat penting.
Semakin banyak dan besar jumlah data yang digunakan, semakin dapat
diandalkan kesimpulannya. Perkembangan data, baik dalam jumlah maupun
ukuran, telah meningkat pesat hingga database perusahaan dapat berukuran
gigabyte atau bahkan terabyte.
2. Proses data warehousing yang telah dilakukan
Sumber data yang digunakan dalam proses data mining sering kali merupakan
data gabungan dari beberapa departemen, area operasional, dan bahkan dari
sumber eksternal seperti data populasi untuk menghasilkan hasil yang
memuaskan. Untuk alasan ini, disarankan untuk menggunakan prosedur data
warehousing untuk menjaga integritas data, konsistensi, dan perspektif yang
lebih baik.
3. Kemampuan komputasi yang semakin terjangkau
Pada intinya, proses penggalian data melibatkan akses yang luas ke volume
data yang sangat besar. Proses ini juga melakukan tugas komputasi yang
menuntut banyak sumber daya. Proses penggalian data sekarang layak secara
finansial karena penurunan harga perangkat keras komputer yang cepat dan
peningkatan kinerja teknologi pemrosesan data modern dan sistem komputer,
seperti pemrosesan paralel.
Bisnis didorong untuk terus berinovasi agar menjadi lebih kompetitif di pasar
global oleh tekanan persaingan perusahaan yang semakin ketat. Beberapa tren
yang muncul saat ini adalah :
Bagian di atas menjelaskan data mining pada tingkat gambaran besar, tetapi mari kita
jelajahi proses data mining yang sebenarnya. Pemrosesan otomatis dan analisis manusia
7
digunakan untuk mendapatkan hasil maksimal dari penggalian data, dengan staf membuat
panduan sementara pembelajaran mesin dan kecerdasan buatan menyaring data dalam jumlah
besar. Secara umum, alur kerja berikut ini digunakan:
- Tujuan
- Persiapan data
- Membangun model
Ilmuwan data akan membangun model dan mengembangkan serta melatihnya melalui
Literasi. Dalam banyak kasus, beberapa model akan dibangun dan diuji untuk
menemukan jalur yang paling tepat untuk mencapai tujuan. Proses evaluasi ini
membutuhkan pendekatan yang luas untuk validasi, dengan teknik seperti validasi
silang dan analisis kurva receiver operating characteristic (ROC).
Adapun beberapa Kelebihan dan Kekurangan Dari Menggunakan Data Mining, diantaranya :
Menurut Vikram dan Upadhayaya (2011), ada beberapa manfaat dari penerapan data mining
di berbagai aplikasi, termasuk perbankan, manufaktur dan produksi, pemasaran, dan
perawatan kesehatan:
1. Perbankan
8
yang sebelumnya tidak teridentifikasi. Memprediksi penggunaan kartu kredit
oleh pelanggan baru, tingkat pinjaman yang buruk, dan pelanggaran kartu
kredit menjadi lebih mudah dengan menggunakan data mining. Hal ini juga
membantu mengidentifikasi nasabah mana yang akan bereaksi dengan cepat
terhadap penawaran pinjaman.
3. Marketing
4. Kesehatan
Data Mining sangat membantu industri kesehatan. Hal ini membantu bidang
medis memahami karakteristik pasien dengan kondisi yang mengancam jiwa,
mendapatkan pemahaman yang lebih dalam tentang penyebab dan gejalanya,
dan mempelajari cara merawatnya dengan tepat.
5. Asuransi
6. Hukum
9
7. Pemerintahan dan Pertahanan
Data Mining membantu dalam prediksi konsumsi sumber daya dan estimasi
biaya transportasi peralatan militer. Dengan menganalisis data dari berbagai
sumber, hal ini juga membantu meningkatkan keamanan dalam negeri dan
menguji rencana operasi militer yang prospektif.
10. Penerbangan
Disamping kelebihan ada juga keterbatasan data mining yang juga dijelaskan sebagai
berikut:
1. Masalah Privasi
2. Masalah Keamanan
10
Masalah keamanan, yang merupakan sumber kekhawatiran yang
konstan untuk teknologi informasi, adalah kerugian signifikan lainnya.
Perusahaan menyimpan banyak data tentang klien dan pekerja mereka,
termasuk nomor jaminan sosial, tanggal lahir, skala gaji, dan detail lainnya,
yang semuanya dapat diakses secara online. Namun, tidak ada langkah-
langkah keamanan yang cukup untuk menjaga informasi ini tetap aman.
Dalam banyak kasus, para peretas mendapatkan akses dan mencuri informasi
pribadi klien.
1. Market analysis
11
Dengan menggunakan profil konsumen, seseorang dapat
memastikan jenis pelanggan yang membutuhkan produk atau
layanan yang dikategorikan berdasarkan pekerjaan mereka.
Analisis keinginan klien, yang dilakukan untuk menentukan produk
mana yang ideal untuk berbagai kelompok pelanggan. Selanjutnya
adalah orientasi pasar, yang meliputi mempelajari data konsumen,
memprediksi karakteristik yang dapat menarik prospek penjualan,
dan lain sebagainya.
2. Corporate Analysis
Data mining sangat penting untuk kontrol kualitas, analisis kompetitif, dan
retensi klien dalam dunia bisnis. Berikut adalah beberapa contoh
penggunaan data mining dalam analisis perusahaan.
Tan (2004) menyatakan dalam (Vulandari S., 2017) bahwa ada dua perspektif dalam
penggunaan data mining: perspektif komersial dan perspektif ilmiah. Data mining dapat
digunakan untuk mengelola ledakan volume data dari perspektif komersial. Dengan
memeriksa penyimpanan, ekstraksi, dan penggunaannya. Secara alami, informasi yang
diperlukan dapat dihasilkan melalui berbagai ilmu komputasi.
Selain itu, data mining dapat digunakan untuk mengatasi masalah yang berkaitan dengan
kebutuhan bisnis, seperti:
12
2. Menyadari komponen produk yang memiliki kualitas yang sebanding.
3. Mengenali barang yang telah dikombinasikan dengan barang lain untuk dijual.
5. Mengevaluasi tingkat risiko saat memutuskan berapa banyak produk yang akan diproduksi.
1. Data sering kali tersembunyi di dalam database yang sangat besar, beberapa di
antaranya menyimpan data selama bertahun-tahun. Data tersebut sering kali
dibersihkan dan digabungkan ke dalam gudang data.
2. Environment data mining pada umumnya adalah arsitektur client-server atau
arsitektur sistem informasi berbasis web.
3. Alat visualisasi canggih, di antara teknologi baru dan ampuh lainnya, sangat
membantu dalam mengekstrak informasi dari arsip atau file perusahaan. Untuk
mencapainya, data harus dibersihkan dan disinkronkan untuk menghasilkan hasil yang
diinginkan. Penambang data ahli juga memverifikasi nilai data (misalnya, informasi
tidak terstruktur yang disimpan dalam file teks di internet, intranet bisnis, atau
database Lotus Notes).
4. Dengan sedikit atau tanpa pengalaman pemrograman, penambang sering kali
merupakan pengguna akhir yang dibantu oleh "latihan data" dan alat kueri yang kuat
untuk mengajukan pertanyaan yang ditargetkan dan menerima balasan yang cepat.
5. Menemukan pola sering kali memiliki konsekuensi yang tidak terduga dan memaksa
pengguna akhir untuk mempertimbangkan semua aspek proses, termasuk bagaimana
menginterpretasikan hasilnya.
6. Mengidentifikasi pola sering kali memiliki dampak yang tidak terduga dan memaksa
pengguna untuk memikirkan setiap langkah prosedur, termasuk bagaimana
menginterpretasikan hasilnya.
7. Dalam kasus tertentu, pemrosesan paralel diperlukan untuk penggalian data karena
volume data yang sangat besar dan upaya pencarian yang intensif.
13
Data Mining bertujuan untuk memberikan penjelasan atau jawaban atas suatu
masalah. Anggaplah kita ingin menentukan alasan di balik penjualan suatu produk
yang lebih rendah daripada produk lain di situs web kita. Kita menemukan bahwa
produk tersebut tidak memiliki alternatif warna setelah memeriksa dengan cermat data
yang berkaitan dengan aktivitas pengunjung situs web. Sementara itu, pelanggan
biasanya memilih warna yang mereka sukai sebelum menambahkannya ke keranjang.
2. Confirmatory
Tujuan data mining adalah untuk memvalidasi sebuah teori atau pendapat,
seperti namanya. Tujuan ini biasanya sangat penting dalam proses produksi suatu
produk. Ketika membuat sebuah produk, kita harus membuat asumsi tentang masalah
yang dimiliki oleh basis pelanggan yang dituju dan kemudian membangun solusi
untuk memenuhi permintaan mereka. Kita harus mengumpulkan informasi tentang
perilaku konsumen yang berkaitan dengan produk yang diantisipasi untuk
memverifikasi hal ini.
3. Exploratory
Menemukan peluang atau tren baru dalam proses bisnis adalah tujuan lain dari
penggalian data. Misalnya, penjualan produk akan dipengaruhi oleh tren pasar.
Penggalian data dapat digunakan untuk memastikan produk yang harus dijual
berdasarkan tren dan kebutuhan masyarakat. Mengembangkan produk berdasarkan
tren saat ini dapat meningkatkan kemungkinan penjualan. Akibatnya, hal ini akan
mempengaruhi kelanjutan operasi.
A) Tipe Data Numerik adalah tipe data yang diperoleh dengan cara pengukuran, dimana
jarak dua titik pada skala sudah diketahui.
B) Tipe Data Kategorial adalah tipe data yang diperoleh dengan cara kategorisasi atau
klasifikasi.
C) Tipe Data Tentang Waktu adalah tipe yang diperoleh dengan cara menunjukan
beberapa objek berbeda.
Salah satu dari dua pendekatan pembelajaran - diawasi atau tidak diawasi - menjadi
dasar dari model penggalian data. Untuk memprediksi suatu nilai, fungsi pembelajaran
terawasi diterapkan. Struktur intrinsik, atau hubungan dalam data yang tidak memerlukan
14
kelas atau label sebelum proses pembelajaran, ditemukan dengan menggunakan algoritme
pembelajaran tak terawasi. Algoritma untuk pembelajaran tanpa pengawasan termasuk aturan
asosiasi Apriori dan pengelompokan k-means. Naive Bayes adalah algoritma klasifikasi yang
merupakan contoh dari pembelajaran terawasi.
Peran yang dimainkan oleh teknik data mining atau jenis aplikasi yang
menggunakannya dapat digunakan untuk mengkategorikannya:
1. Classification
Praktik mengidentifikasi ciri-ciri yang sama dalam suatu kelas atau kelompok
dikenal sebagai klasifikasi data mining. Klasifikasi menggunakan data mining
adalah salah satu aplikasi yang paling populer. Tujuan metode ini adalah untuk
menentukan estimasi kelas objek.
Banyak sifat yang membentuk setiap objek data, dan setiap sifat memiliki
beberapa kemungkinan nilai. Dari semua sifat, hanya satu yang disebut atribut
target; atribut lainnya disebut atribut prediktor. Setiap nilai yang mungkin dari
karakteristik target menunjukkan kelas yang diharapkan berdasarkan nilai atribut
prediktor. Klasifikasi digunakan dalam banyak aplikasi, seperti segmentasi klien,
pemodelan bisnis, dan penelitian kartu kredit. Sebagai contoh, sebuah perusahaan
kartu kredit ingin meramalkan pelanggan mereka berdasarkan cara mereka
membayar.
2. Association
15
Analisis atau asosiasi keranjang pasar adalah teknik data mining yang kedua.
Teknik yang berhubungan dengan pemasaran ini mencari produk yang sering
dibeli konsumen secara bersamaan.
Fungsi "Market Basket Analysis" yang menemukan korelasi atau hubungan
antar himpunan sering disebut sebagai fungsi Aturan Asosiasi. Penggunaan paling
umum dari fungsi ini adalah untuk analisis data yang terkait dengan desain
katalog, strategi pemasaran, dan pengambilan keputusan bisnis.
Aturan asosiasi digunakan untuk menangkap objek atau peristiwa dari
kumpulan data yang sangat besar yang berisi data transaksi. Teknologi telah
memungkinkan untuk menyimpan data penjualan dalam jumlah yang sangat besar
dalam apa yang dikenal sebagai "Basket Data". Penggunaan promosi dibuat dari
aturan asosiasi yang ditentukan pada basket data.
3. Clustering
16
menjadi beberapa kelompok sesuai dengan karakteristik yang telah ditentukan,
dan juga membagi kelas menjadi beberapa bagian sesuai dengan properti yang
diberikan. Penentuan atribut harus sesuai dengan kesamaan dari kelas-kelas
tertentu.
Menggunakan clustering untuk mengeksplorasi data merupakan ide yang
bagus. Ketika ada beberapa kasus dan tidak ada pengelompokan alami, maka
digunakanlah clustering. Dalam hal ini, pengelompokan dalam data dapat
ditemukan dengan menggunakan alat penggalian data. Klaster data ditemukan
dengan analisis pengelompokan. Sebuah klaster terdiri dari elemen-elemen data
yang menunjukkan kemiripan satu sama lain.
Untuk menjamin bahwa data dalam sebuah klaster serupa, klaster yang
berkualitas dibuat dengan menggunakan teknik pengelompokan yang baik. Tidak
adanya properti tujuan membedakan model clustering dari model prediktif.
Membangun struktur hirarki dengan clustering akan menentukan klasifikasi data.
Centroid, histogram atribut, dan model pohon hirarki clustering adalah
karakteristik dari sebuah cluster dalam ODM. ODM menggunakan versi yang
disempurnakan dari algoritma k-means dan O-Cluster untuk membuat
pengelompokan hirarki.
4. Regression
Regression adalah teknik data mining keempat. Proses ini memiliki kemiripan
dengan klasifikasi data mining. Analisis regresi adalah teknik yang mencari tren
nilai numerik daripada perbedaan kelas. Analisis regresi menghasilkan sebuah
fungsi yang menghitung hasil yang bergantung pada nilai input.
5. Forecasting
Salah satu teknik untuk memperkirakan nilai yang akan dicapai dalam jangka
waktu tertentu adalah forecasting data mining. Dengan metode ini, nilai periode
sebelumnya dan data noise menjadi dasar untuk melakukan peramalan.
17
6. Sequencing
Serangkaian kejadian disebut Sequence atau urutan. Seperti yang tersirat dari
namanya, metode analisis urutan mencari pola dalam urutan atau serangkaian
kejadian.
7. Descriptive
Tujuan dari teknik data mining ini adalah untuk mendapatkan wawasan lebih
lanjut tentang data observasi. Mengetahui perilaku data itu sendiri merupakan
hasil akhirnya.
8. Attribute Importance
Pemilihan fitur, terkadang disebut sebagai atribut penting, menawarkan cara
otomatis untuk meningkatkan kecepatan dan ketepatan model klasifikasi yang
dibangun menggunakan tabel data dengan banyak variabel. Dengan menghapus
nilai yang berulang, tidak perlu, atau tidak informatif, Attribute Importance
memberi peringkat pada atribut prediktif dan mengidentifikasi kualitas prediktor
yang paling penting untuk digunakan dalam membuat keputusan.
Mengurangi jumlah atribut dalam sebuah model akan mempercepat konstruksi
model dan meningkatkan daya prediksinya. Jumlah atribut yang berlebihan akan
menghasilkan sejumlah besar noise, yang akan berdampak pada model dengan
menurunkan akurasi dan kinerja.
18
2.3 Tahapan Proses dalam Data Mining
Proses Data Mining melibatkan beberapa tahap. Beberapa langkah dalam proses data
mining digambarkan dalam diagram di bawah ini. Tahap pertama dimulai dengan sumber
data dan diakhiri dengan informasi yang diperoleh dari beberapa tahap, khususnya:
Ada 5 langkah dalam proses Knowledge Discovery in Database (KDD), yaitu sebagai
berikut :
1. Data selection
Sebelum memulai tahap penggalian informasi dari KDD, data harus dipilih
dari pengumpulan data operasional. Selain dari database yang sedang berjalan, data
yang dipilih yang digunakan untuk prosedur penggalian data disimpan dalam sebuah
file.
2. Pre-processing / cleaning
Data yang menjadi subjek KDD harus dibersihkan sebelum proses penggalian
data dapat dimulai. Penghapusan data duplikat, pengecekan data yang tidak
konsisten, dan koreksi kesalahan adalah bagian dari proses pembersihan.
3. Transformation
Proses mengubah data yang dipilih agar sesuai dengan prosedur data mining
dikenal sebagai coding. Dalam KDD, pengkodean adalah proses kreatif yang sangat
bergantung pada jenis atau struktur data yang akan dicari di dalam database.
4. Data Mining
19
Data mining adalah proses penggunaan alat atau strategi tertentu untuk
mencari pola atau informasi yang menarik dalam data. Dalam penggalian data,
teknik, metodologi, atau algoritme dapat sangat berbeda. Memilih pendekatan atau
algoritma terbaik bergantung pada prosedur dan tujuan KDD secara keseluruhan.
5. Interpretation / evalution
Pola informasi yang dihasilkan selama proses data mining harus disajikan
dengan cara yang masuk akal bagi pihak-pihak yang berkepentingan. Fase proses
KDD ini dikenal sebagai interpretasi. Langkah ini melibatkan penentuan apakah
informasi atau pola yang ditemukan bertentangan dengan fakta atau teori yang telah
diketahui (Fayyad, 1996).
Seperti yang telah disebutkan sebelumnya, proses KDD biasanya terdiri dari 5
langkah. Meskipun demikian, mungkin ada pengulangan pada titik-titik tertentu dalam proses
KDD yang sebenarnya. Seorang analis dapat kembali ke tahap sebelumnya kapan saja selama
proses KDD. Sebagai contoh, analis dapat menemukan data atau informasi baru untuk
"memperkaya" data saat ini selama pengkodean atau penggalian data, atau analis dapat
menemukan bahwa prosedur pembersihan tidak diselesaikan dengan sempurna.
Proses mengumpulkan dan mengubah data yang belum diolah dari database menjadi
informasi yang bermakna dikenal sebagai data mining dalam bidang ilmu data. Di antara
tujuan data mining adalah untuk memberikan penjelasan (eksplanatory) untuk suatu kondisi
penelitian, memvalidasi (confirmatory) klaim atau teori, dan menemukan (eksploratory) pola
baru yang belum pernah ditemukan sebelumnya. Alat-alat data mining diperlukan untuk
dapat mencapai tujuan-tujuan tersebut.
Adapun tools atau alat-alat yang digunakan dalam proses data mining diantaranya
sebagai berikut :
20
1. Aplikasi WEKA
Salah satu alat yang dapat digunakan untuk tugas-tugas penggalian data adalah
WEKA (Waikato Environment for Knowledge Analysis). WEKA memecahkan
masalah terkait sistem pencarian informasi dengan metode pembelajaran mesin.
WEKA menawarkan sejumlah fitur. Berikut adalah beberapa di antaranya.
21
Visualization. Kemampuan WEKA untuk menampilkan data yang telah melalui
proses data mining adalah salah satu fiturnya. Informasi data menjadi lebih mudah
dipahami dengan penggunaan grafik dan visualisasi.
Salah satu program yang dapat digunakan untuk data mining adalah Rapid Miner.
Aplikasi ini memiliki manfaat untuk melakukan penambangan teks dan kemampuan analisis
teks. Teknik data mining lainnya yang dapat digunakan dengan Rapid Miner termasuk
ekstraksi pola dan mengintegrasikan beberapa teknik statistik untuk menghasilkan wawasan.
Analisis prediktif, machine learning, dan deep learning semuanya dapat dipahami dengan
Rapid Miner.Berikut beberapa fitur yang terdapat dalam Rapid Miner :
3. Aplikasi Rattle
22
Rattle adalah aplikasi berikutnya yang dapat digunakan untuk data mining.
Menggunakan perangkat lunak ini untuk mempelajari lebih lanjut tentang bahasa R membuat
Rattle menjadi pilihan yang tepat untuk pemula. Rattle berguna untuk analisis statistik karena
R adalah bahasa yang banyak digunakan di bidang ini. Berbeda dengan perangkat lunak
sebelumnya, yang berkonsentrasi pada penggunaan metode pembelajaran mesin. Rattle
menerima jenis file input berikut ini: CSV, Excel, TXT, R Dataset, Skrip, dan Korpus.
Rattle adalah fungsi yang berguna untuk analisis statistik karena dapat
memvisualisasikan data dalam berbagai format grafis, termasuk plot kotak, histogram,
kumulatif, dendogram, dan grafik lainnya. Mengenai prosedur pengelompokan, Rattle
menawarkan beberapa dari
4. Aplikasi Orange
23
Program Orange memfasilitasi prosedur analisis data yang mudah. Hal ini agar
Orange dapat digunakan tanpa memerlukan pengetahuan pengkodean. Anda dapat memilih
karakteristik yang Anda butuhkan. Misalnya, kami ingin membangun model regresi atau
klasifikasi. Kami hanya menyertakan widget KNN atau Naive. Orange adalah alat lain yang
kami miliki untuk data mining. Python digunakan sebagai bahasa pemrograman dalam
aplikasi ini. Widget adalah bagian dari Orange. Widget sebagian besar digunakan untuk
membaca data, menampilkan elemen data, memilih fitur, dan menampilkan tabel data.
Orange menyediakan satu set teknik machine learning yang siap pakai, sama seperti aplikasi
data mining yang telah dibahas sebelumnya. Orange menawarkan UI yang menarik secara
visual dan ramah pengguna.
24
5. Aplikasi KNIME
Platform integrasi terbaik untuk analisis dan pelaporan data adalah KNIME. KNIME
biasanya digunakan dalam penelitian farmasi. Analisis data keuangan dan pelanggan juga
disertakan. KNIME memiliki beberapa sifat yang menarik, seperti penskalaan yang efisien
dan penyebaran yang cepat. Karena KNIME mudah digunakan dan cepat diselesaikan,
KNIME juga dapat menjadi pilihan terbaik untuk pemula.
25
Berbagai macam teknik dalam database tersedia di Oracle Data Mining untuk
menjalankan berbagai tugas machine learning, termasuk ekstraksi fitur, pengelompokan,
regresi, klasifikasi, deteksi anomali, dan analisis keranjang pasar. Data kasus standar, data
transaksional, skema bintang, dan data teks tak terstruktur, semuanya bisa diproses oleh
algoritme ini. Analisis kumpulan data berskala besar merupakan spesialisasi Oracle Data
Mining.
Di antaranya, Oracle Advanced Analytics Option menawarkan API yang kuat untuk
penggalian data dalam database melalui Oracle Data Mining dan Oracle Machine Learning
untuk R..
26
BAB III
PENUTUP
3.1 Kesimpulan
Dalam menjalankan proses Data Mining, penggunaan metode dan teknik telah
membuka peluang baru untuk mendapatkan wawasan berharga dari data. Penemuan pola-pola
tersembunyi, identifikasi hubungan yang kompleks, dan pemodelan prediktif telah membantu
organisasi untuk mengoptimalkan pengambilan keputusan. Kesimpulan yang dapat diambil
dari aktivitas Data Mining adalah bahwa potensinya untuk meningkatkan efisiensi
operasional, mengidentifikasi peluang bisnis, dan memahami kebutuhan pasar sangat
signifikan.
Dalam menghadapi Big Data, Data Mining memberikan solusi yang dapat mengatasi
kompleksitas dan volume data yang masif. Teknik machine learning, clustering, dan analisis
asosiasi menjadi alat yang sangat berharga dalam mengeksplorasi dan memahami pola data
yang kompleks. Meskipun demikian, untuk meningkatkan efektivitas, diperlukan integrasi
data yang lebih baik, keamanan data yang ditingkatkan, dan penyelarasan aktivitas Data
Mining dengan kebutuhan bisnis yang spesifik.
3.2 Saran
27
DAFTAR PUSTAKA
Jollyta, D., Ramdhan, W., & Zarlis, M. (2020). Konsep Data Mining Dan Penerapan.
Deepublish.
Marisa, F. (2013). Educational Data Mining (Konsep dan Penerapan). Jurnal Teknologi
Informasi: Teori, Konsep, dan Implementasi, 4(2), 90-97.
Raharjo, M. R., & Windarto, A. P. (2021). Penerapan Machine Learning dengan Konsep Data
Mining Rough Set (Prediksi Tingkat Pemahaman Mahasiswa terhadap
Matakuliah). Jurnal Media Informatika Budidarma, 5(1), 317-326.
Marisa, F., Kom, S., Maukar, A. L., Akhriza, T. M., & MMSI, P. D. (2021). Data mining
konsep dan penerapannya. Deepublish.
Sumadikarta, I. (2016). Penerapan Algoritma K-Means Pada Data Mining Untuk Memilih
Produk Dan Pelanggan Potensial (Studi Kasus: PT Mega Arvia Utama). Jurnal Satya
Informatika, 1(01), 12-23.
Mandias, G. F. (2015). Penerapan data mining untuk evaluasi kinerja akademik mahasiswa di
Universitas Klabat dengan metode klasifikasi. Proceedings Konferensi Nasional
Sistem Dan Informatika (KNS&I).
Leto, C., Sujana, D., Windyasari, V. S., & Muhammad, R. (2023). KONSEP DATA
MINING DAN PENERAPAN.
Pranata, B. S., & Utomo, D. P. (2020). Penerapan Data Mining Algoritma FP-Growth Untuk
Persediaan Sparepart Pada Bengkel Motor (Study Kasus Bengkel Sinar
Service). Bulletin of Information Technology (BIT), 1(2), 83-91.
28
Nofriansyah, D., Kom, S., & Kom, M. (2015). Konsep data mining vs sistem pendukung
keputusan. Deepublish.
Dhika, H., Jaman, J. H., Hermawan, I., Utami, P. P., & Destiawati, F. (2021). Penyuluhan
Data Mining Dengan Ensemble Learning Dalam Strees Pembelajaran Sekolah Saat
Covid19. ABDINE: Jurnal Pengabdian Masyarakat, 1(2), 159-167.
Yunus, M. (2010). Penerapan Konsep Data Mining Pada Database Akademik STMIK
Pradnya Paramita Dengan Delphi. Dinamika Dotcom: Jurnal Pengembangan
Manajemen Informatika dan Komputer.
Nofriansyah, D., Yetri, M., & Erwansyah, K. (2019). Penerapan Data Mining Dalam
Menganalisa Data Penjualan Untuk Mendapatkan Pola Rekomendasi Penjualan
Menggunakan Algoritma Apriori Pada K3 Mart. Jurnal SAINTIKOM (Jurnal Sains
Manajemen Informatika dan Komputer), 18(2), 176-182.
Putra, R. F., Zebua, R. S. Y., Budiman, B., Rahayu, P. W., Bangsa, M. T. A., Zulfadhilah,
M., ... & Andiyan, A. (2023). DATA MINING: Algoritma dan Penerapannya. PT.
Sonpedia Publishing Indonesia.
Budiman, I., & Ramadina, R. (2015). Penerapan Fungsi Data Mining Klasifikasi untuk
Prediksi Masa Studi Mahasiswa Tepat Waktu pada Sistem Informasi Akademik
Perguruan Tinggi. JUPITER (Jurnal Penelitian Ilmu dan Teknik Komputer), 7(1), 39-
50.
29