Laporan Pratikum Penambangan Data
Laporan Pratikum Penambangan Data
Laporan Praktikum ini di ajukan Sebagai Salah Satu Syarat Lulus Pada
Matakuliah Penambangan Data
DOSEN PENGAMPU
NOFRI YUDI ARIFIN, S.Kom., M.Kom
DISUSUN OLEH
NUR FADILA PUTRI (201055201116)
FAKULTAS TEKNIK
PROGRAM STUDI TEKNIK INFORMATIKA
UNIVERSITAS IBNU SINA
2023
HALAMAN PENGESAHAN LAPORAN PRATIKUM
Bahwa tiada yang orang dapatkan, kecuali yang ia usahakan, Dan bahwa
usahanya akan kelihatan nantinya. (Q.S. An Najm ayat 39-40)
Jangan terlalu memikirkan masa lalu karena telah pergi dan selesai, dan jangan
terlalu memikirkan masa depan hingga dia datang sendiri. Karena jika
melakukan yang terbaik dihari ini maka hari esok akan lebih baik.
iii
KATA PENGANTAR
Puji syukur kami panjatkan kehadiran Tuhan Yang Maha Esa karena
dengan rahmat, karunia, serta taufik dan hidayah-Nya penulis dapat menyelesaikan
laporan tentang Penambangan Data ini dengan baik meskipun banyak kekurangan
didalamnya.
Kami sangat berharap laporan ini dapat berguna dalam rangka menambah
wawasan serta pengetahuan kita mengenai Penambangan Data. Kami juga
menyadari sepenuhnya bahwa di dalam laporan ini terdapat kekurangan dan jauh
dari kata sempurna. Oleh sebab itu, kami berharap adanya kritik, saran dan usulan
demi perbaikan laporan yang telah kami buat di masa yang akan datang, mengingat
tidak ada sesuatu yang sempurna tanpa saran yang membangun.
Semoga laporan sederhana ini dapat dipahami bagi siapapun yang
membacanya. Sekiranya laporan yang telah disusun ini dapat berguna bagi kami
sendiri maupun orang yang membacanya. Sebelumnya kami mohon maaf apabila
terdapat kesalahan kata-kata yang kurang berkenan dan kami memohon kritik dan
saran yang membangun demi perbaikan di masa depan.
iv
DAFTAR ISI
Contents
HALAMAN PENGESAHAN LAPORAN PRATIKUM .................................. ii
HALAMAN MOTTO .......................................................................................... iii
KATA PENGANTAR ......................................................................................... iv
DAFTAR ISI ......................................................................................................... v
DAFTAR GAMBAR .......................................................................................... vii
DAFTAR TABEL .............................................................................................. viii
BAB I PENDAHULUAN ..................................................................................I-1
1.1. Latar Belakang Masalah ......................................................................... I-1
1.2 Identifikasi Masalah ............................................................................... I-1
1.3 Rumusan Masalah .................................................................................. I-2
1.4 Batasan Masalah ..................................................................................... I-2
1.5 Tujuan Data Mining ............................................................................... I-3
1.6 Manfaat Data Mining ............................................................................. I-3
1.7 Sistematika Penulisan ................................................................................. I-4
BAB II LANDASAN TEORI .......................................................................... II-5
2.1 Pengertian Data Mining ............................................................................ II-5
2.2 Pengenalan Pola, Data Mining, dan Machine Learning ............................ II-6
2.2.1 Tahap-Tahap Data mining.................................................................. II-7
2.3 Pengertian Data Warehouse .................................................................... II-10
2.3.1 Istilah-Istilah dalam Data Warehouse .............................................. II-11
2.4 Analisis Asosiasi ..................................................................................... II-14
2.4.1 Analisa pola frekuensi tinggi ........................................................... II-15
2.4.2 Pembentukan aturan assosiatif ......................................................... II-15
2.5 Algoritma Apriori.................................................................................... II-19
2.6 DBMS (Database Management System) dan MySQL ........................... II-21
2.6.1 SQL (Structured Query Language) .................................................. II-23
2.6.2 DDL (Data Definition Language) .................................................... II-23
v
2.6.3 DML (Data Manipulation Language) .............................................. II-24
BAB III METODELODI PRATIKUM ....................................................... III-1
3.1 Waktu dan Tempat Pengambilan Data ................................................ III-1
3.2 Jenis Data ............................................................................................ III-1
3.2.1 Data Primer .................................................................................. III-1
3.2.2 Data Sekunder .............................................................................. III-1
3.3 Metode Pengumpulan data .................................................................. III-2
3.3.1 Wawancara ........................................................................................ III-2
3.3.2 Observasi ........................................................................................... III-2
3.3.3 Dokumentasi ................................................................................ III-2
3.4 Metode Pengolahan Data ...................................................................... III2
BAB IV HASIL DAN PEMBAHASAN ........................................................ IV-1
4.1 Hasil ...................................................................................................... IV-1
4.1.1 Implementasi ..................................................................................... IV-1
BAB V KESIMPULAN DAN SARAN ........................................................ IV-12
5.1 Kesimpulan ........................................................................................ IV-12
5.2 Saran .................................................................................................. IV-12
DAFTAR PUSTAKA..................................................................................... IV-13
vi
DAFTAR GAMBAR
Gambar 2.1 Tahapan proses KDD dalam menghasilkan knowledge ................ II-6
Gambar 2.2 Hubungan Bidang Ilmu Data mining, Manchine learning dan
Pengenalan Pola .................................................................................................. II-7
Gambar 2.2.1 Tahap – tahap Data Mining (Han,2006) Tahap-tahap ................ II-8
Gambar 2.3.1 Bidang Ilmu data mining .......................................................... II-13
Gambar 4.1.1 Dataset pada tampilan Microsoft Excel ..................................... IV-1
Gambar 4.1.2 Tampilan awal google colab ...................................................... IV-2
Gambar 4.1.3 Cara menukar nama File ............................................................ IV-2
Gambar 4.1.4 Hasil ubah nama file .................................................................. IV-3
Gambar 4.1.5 Upload file ................................................................................. IV-3
Gambar 4.1.6 Hasil Output ............................................................................... IV-5
Gambar 4.1.7 Persentase kondisi barang digudang .......................................... IV-6
Gambar 4.1.8 Jumlah Barang Per Jenis dan Kondisi ....................................... IV-7
Gambar 4.1.9 Histogram untuk variabel jumlah .............................................. IV-8
Gambar 4.1.10 pivot table untuk jumlahbarang per bulan dan jenis barang .. IV-10
vii
DAFTAR TABEL
viii
BAB I
PENDAHULUAN
Tujuan utama data mining adalah untuk mengambil informasi mentah dan
menentukan apakah ada kohesi atau korelasi di antara data.
1. Prediksi Tentukan bagaimana atribut tertentu akan berperilaku di masa depan.
Misalnya, berapa volume penjualan yang akan dihasilkan sebuah toko dalam
periode tertentu.
2. Identifikasi Identifikasi pola dalam data. Misalnya, pasangan yang baru
menikah cenderung menghabiskan lebih banyak uang untuk membeli
furnitur.
3. Klasifikasi Mempartisi data ke dalam kelas-kelas. Misalnya, pelanggan dapat
diklasifikasikan ke dalam kategori yang berbeda dengan perilaku yang
berbeda dalam berbelanja.
4. Optimalisasi Mengoptimalkan penggunaan sumber daya yang terbatas seperti
waktu, ruang, uang, atau materi. Misalnya, cara terbaik menggunakan iklan
untuk memaksimalkan keuntungan (penjualan).
BAB II
LANDASAN TEORI
Data mining berhubungan dengan penemuan sesuatu yang tersembunyi dan pola
data tertentu yang tidak diketahui sebelumnya.
1. Data mining biasa menggunakan data yang sangat besar. Biasanya data yang
besar digunakan untuk membuat hasil lebih dipercaya.
2. Data mining berguna untuk membuat keputusan yang kritis, terutama dalam
strategi (Davies, 2004).
II-6
Sehingga istilah pattern recognition jarang digunakan karena termasuk bagian dari
data mining (Santoso, 2007).
Sebagai suatu rangkaian proses, data mining dapat dibagi menjadi beberapa
tahap yang diilustrasikan di Gambar 2.5. Tahap-tahap tersebut bersifat interaktif,
pemakai terlibat langsung atau dengan perantaraan knowledge base
II-8
bahkan menyesatkan pengambilan aksi nantinya. Sebagai contoh bila integrasi data
berdasarkan jenis produk ternyata menggabungkan produk dari kategori yang
berbeda maka akan didapatkan korelasi antar produk yang sebenarnya tidak ada.
3. Seleksi Data (Data Selection)
Data yang ada pada database sering kali tidak semuanya dipakai, oleh karena
itu hanya data yang sesuai untuk dianalisis yang akan diambil dari database.
Sebagai contoh, sebuah kasus yang meneliti faktor kecenderungan orang membeli
dalam kasus market basket analysis, tidak perlu mengambil nama pelanggan,
cukup dengan id pelanggan saja.
4. Transformasi data (Data Transformation)
Data diubah atau digabung ke dalam format yang sesuai untuk diproses
dalam data mining. Beberapa metode data mining membutuhkan format data
yang khusus sebelum bisa diaplikasikan. Sebagai contoh beberapa metode standar
seperti analisis asosiasi dan clustering hanya bisa menerima input data
kategorikal. Karenanya data berupa angka numerik yang berlanjut perlu dibagibagi
menjadi beberapa interval. Proses ini sering disebut transformasi data.
5. Proses mining,
Merupakan suatu proses utama saat metode diterapkan untuk menemukan
pengetahuan berharga dan tersembunyi dari data.
6. Evaluasi pola (pattern evaluation),
Untuk mengidentifikasi pola-pola menarik kedalam knowledge based yang
ditemukan. Dalam tahap ini hasil dari teknik data mining berupa pola-pola yang
khas maupun model prediksi dievaluasi untuk menilai apakah hipotesa yang ada
memang tercapai. Bila ternyata hasil yang diperoleh tidak sesuai hipotesa ada
beberapa alternatif yang dapat diambil seperti menjadikannya umpan balik untuk
memperbaiki proses data mining, mencoba metode data mining lain yang lebih
sesuai, atau menerima hasil ini sebagai suatu hasil yang di luar dugaan yang
mungkin bermanfaat.
II-10
c Data yang ada dalam data mart lebih sedikit daripada yang ada dalam data
warehouse, data mart juga lebih mudah dimengerti karena lebih sederhana.
3. OLAP (Online Analytical Processing)
Menurut Mallach (2000, p531), “OLAP is a category of sofware that enables
analyst, managers, and executive to gain insight into data through fast, consistent,
interactive access to a wide variety of possible views of information that has been
transformed from raw data to reflect the real dimensionality of the enterprise as
understood by the user”, yang artinya OLAP adalah kategori teknologi software
yang dapat memungkinkan penganalisa, manager, dan eksekutif untuk melihat data
yang ada dengan akses yang cepat, konsisten dan interaktif sehingga dapat melihat
informasi yang sudah di transformasi dari data mentah menjadi dimensi keadaan
nyata yang dapat dimengerti dengan mudah oleh user. OLAP juga merupakan
suatu pemrosesan database yang menggunakan tabel fakta dan dimensi untuk
dapat menampilkan berbagai bentuk laporan, query dari data yang berukuran besar.
4. OLTP (Online Transaction Processing)
Menurut O‟Brien (2003, p224), “OLTP is a real time transaction processing
systems”, yang artinya sebuah Transaction Processing Systems saat ini.
“Transaction Processing Systems (TPS) are cross-functional information systems
that process data resulting from the occurrence of business transaction”, yang
artinya TPS adalah sistem informasi yang cross-functional yang memproses data
sehari-hari dari sebuah kejadian dari transaksi bisnis. OLTP dirancang untuk
memungkinkan terjadinya pengaksesan secara bersamaan oleh beberapa user
terhadap sumber data yang sama dan mengatur proses yang diperlukan.
5. Dimensional Table (Tabel Dimensi)
Tabel yang berisikan kategori dengan ringkasan data detil yang dapat
dilaporkan seperti laporan keuntungan pada tabel fakta dapat dilaporkan sebagai
dimensi waktu (yang berupa perbulan, perkuartal, dan pertahun).
6. Fact Table (Tabel Fakta)
Merupakan tabel yang umumnya mengandung angka dan data historis
dimana key (kunci) yang dihasilkan sangat unik karena key nya merupakan
kumpulan foreign key dan primary key yang ada pada masing-masing tabel
II-13
dimensi yang berhubungan atau merupakan tabel terpusat dari skema bintang.
Tabel Fakta menyimpan tipe-tipe measure yang berbeda, seperti measure, yang
secara langsung terhubung dengan tabel dimensi dan measure yang tidak
berhubungan dengan tabel dimensi.
7. Data Mining
Menurut Aldeman (2000, p145), “Data Mining is a discovery process of
unknown unsuspected pattern of data”, yang artinya data mining adalah proses
pencarian pola data yang tidak diketahui atau tidak diperkirakan sebelumnya,
sedangkan menurut Hui Tang-MacLennan 17 (2005, p2), “Data mining is about
analyzing data and finding hidden pattern using automatic and semi–automatic
means”, yang artinya data mining adalah penganalisisan data dan penemuan pola
yang tersembunyi menggunakan arti yang otomatis dan semi-otomatis. Tujuan
utama dari data mining adalah untuk mengekstraksi pola dari data yang ada,
menambah nilai intrinsik dari data serta mengubahnya menjadi pengetahuan. Nama
lain data mining adalah Knowledge discovery from Databases (KDD).
Tahap ini mencari kombinasi item yang memenuhi syarat minimum dari nilai
support dalam database. Nilai support sebuah item diperoleh dengan rumus berikut:
Itemset Support
A 50%
B 75%
C 75%
D 25%
E 75%
2. Langkah 2 : Mencari kandidat itemset untuk L 2, gabungkan itemset
pada L1 (algoritma apriori-gen) { A B, A C, A E, B C, B E, C E}. Item D
tidak masuk dalam kombinasi karena nilai support tidak memenuhi
minimum support.
3. Langkah 3 : Hitung nilai Support untuk masing- masing itemset. Hasilnya
dapat ditunjukkan pada Tabel 2.4.3
II-17
Itemset Support
AB 25%
AC 50%
AE 25%
BC 50%
BE 75%
CE 50%
4. Langkah 4: tentukan item set yang memenuhi minimum support. Hasilnya
dapat ditunjukkan pada tabel 2.4.4 L 2 { large 2-itemset}
Itemset Support
AC 50%
BC 50%
BE 75%
CE 50%
5. Langkah 5 : Ulangi langkah 2 - 4
6. Selanjutnyan gabungkan itemset pada L1 & L2. Hasilnya dapat ditunjukkan
pada Tabel 2.5.
Tabel 2.4.5 Hasil Gabungan 3 itemset
Itemset Support
ABC 25%
ACE 25 %
ABE 25%
BCE 50%
3. Multi user Dapat digunakan oleh beberapa user dalam waktu yang
bersamaan.
4. Performance Tuning Mempunyai kecepatan yang tinggi dalam
menangani query.
5. Column types Memiliki tipe kolom yang sangat kompleks, seperti :
signed/unsigned integer, float, double, char, varchar, text, blob, date,
time, datetime, timestamp, year dan enum.
6. Command dan function Memiliki operator dan fungsi secara penuh
yang mendukung select dan where dalam sebuah query.
7. Security Memiliki beberapa lapisan sekuritas seperti tingkat
subnetmask, hostname, privilege user dengan system perijinan yang
mendetail serta password yang terenkripsi.
8. Scalability dan limits Mampu menangani basis data dalam jumlah
besar, dengan jumlah field lebih dari 50 juta, 60 ribu table dan 5 milyar
record. Batas indeks yang dimiliki mencapai 32 buah per table.
9. Localication Dapat mendeteksi pesan kesalahan (error code) pada klien
dengan menggunakan lebih dari 20 bahasa.
10. Conncectivity Dapat dilakukan koneksi dengan klien menggunakan
protocol TCP/IP, Unix Socket, Named Pipes.
11. Interface Memiliki antarmuka terhadap berbagai aplikasi dan bahasa
pemrogrmaan dengan menggunakan fungsi API.
12. Clients dan tools Dilengkapi dengan berbagai tool yang dapat
digunakan untuk administrasi basis data sekaligus dokumen petunjuk
online.
13. Struktur table Memiliki struktur table yang lebih fleksibel dalam
menangani alter table dibandingkan dengan PostgreSQL dan Oracle.
II-23
MySQL sebenarnya merupakan turunan dari salah satu konsep utama dalam
basis data sejak lama, yaitu SQL (Structured Query Language). SQL adalah sebuah
konsep pengoperasian basis data terutama untuk proses seleksi, pemasukan,
pengubahan dan penghapusan data yang dimungkinkan dapat dikerjakan dengan
mudah dan otomatis.
Didalam SQL terdapat 3 sub bahasa, yaitu: Data Definition Language (DDL)
yang digunakan untuk membangun objek – objek dalam database seperti tabel dan
indeks; Data manipulation Language (DML) yang digunakan untuk menambah,
mencari, mengubah, dan menghapus aris dalam tabel; dan Data Control Language
(DCL) yang digunakan untuk menangani masalah sekuriti dalam database. Ketiga
sub bahasa ini dapat kita akses setelah database dipanggil.
DDL adalah perintah – perintah yang digunakan untuk membangun isi dari
database. DDL bertugas untuk membuat objek SQL dan menyimpan definisinya
dalam tabel. Contoh dari objek yang dimaksud adalah tabel, view, dan index.
Pembuatan tabel, perubahan struktur tabel, perubahan nama tabel, serta
perintahuntuk menghapus tabel, dilakukan dengan sub bahasa yang tergolong
dalam DDL Perintah – perintah yang digolongkan dalam DDL adalah :
a. Create : Perintah ini digunakan untuk membuat databs, tabel, dan objek lain
dalam database
b. Alter : Perintah ini digunakan untuk memodifikasi tabel, seperti mengganti
nama tabel, mengubah jenis/tipe field yang digunakan, mengubah nama field
baru atau mengurangi field tertentu
c. Drop : Perintah ini digunakan untuk menghapus database, tabel dan objek
lain dalam dabase.
II-24
Data primer adalah suatu data yang bersumber dari lapangan yaitu data yang
diperoleh dari sumber asalnya yang pertama dan belum diolah dan diuraikan oleh
orang lain. Untuk memperoleh data primer, harus ditentukan wilayah dan
subyeknya.
3.2.2 Data Sekunder
Data sekunder adalah suatu data yang bersumber dari kepustakaan yaitu data
yang diperoleh dari data yang berbentuk dokumen.
III-2
Dalam hal ini penulis melakukan pengambilan data secara langsung ketempat
penulis melakukan pengumpulan data. Adapun data yang diperoleh merupakan data
dari staf administrasi yang bertugas menangani data.
3.3.3 Dokumentasi
4.1 Hasil
4.1.1 Implementasi
Dalam pengolahan Data Toserba untuk Menentukan berapa barang yang ada
di Gudang ,barang baik atau rusak, penulis menggunakan software atau aplikasi
bantu yaitu aplikasi Google colab menggunakan Bahasa pemograman Python.
Pada penelitian ini dataset yang digunakan adalah data penjualan toko serba
ada yang disimpan dalam format CSV (Comma-Separated Values). Dataset ini
berisi informasi tentang transaksi produk yang ada di Gudang, barang rusak atau
tidak dan tanggal masuk barang ke Gudang. Hal pertama yang dilakukan pengguna
dalam mengolah program Clustering K-Means yaitu menyiapkan dataset yang
dibuat menggunakan Microsoft Office Excel dengan format .csv.
File output Microsoft Excel dengan format .csv akan terlihat seperti pada
Gambar 2. Dataset diatas merupakan data asli dari tempat penelitian yaitu took
serba ada di Batam. Setelah itu kita masuk ke google colab dengan cara bukak
google lalu ketik Google Colab lalu masuk menggunakan google drive.
Lalu ubah nama filenya dengan cara mengklik tanda lingkaran yang ada pada
gambar 4.1.3 di bawah lalu menuka nama file yang akan kita buat.
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import seaborn as sns
Setelah itu kita akan load data Gudang ,menampilkan informasi data,
menampilkan struktur data, dan menampilkan statistic dasar dari data dengan cara
mengetil source code seperti yang dibawah ini :
# Load data
data = pd.read_csv("data_gudang (1).csv")
# menampilkan informasi data
print(data)
Setelah membuat jumlah barang digudang, jumlah barang rusak, jumlah barang
baik, dan jumlah barang kadaluarsa Langkah selanjutnya yaitu menampilkan
grafik pie untuk menampilkan informasi jumlah barang dengan cara dibawah ini :
IV-6
Jika sudah berhasil menampilkan grafik pie untuk menampilkan informasi jumlah
barang, selanjutnya membuat grafik bar untuk menampilkan informasi barang per
jenisnya.
sns.set(style="whitegrid")
sns.set_color_codes("pastel")
plt.figure(figsize=(12, 6))
sns.barplot(x="jenis_barang", y="jumlah", data=data,
hue="kondisi_barang")
plt.title('Jumlah barang per jenis dan kondisi', fontsize=16,
fontweight='bold')
plt.xlabel('Jenis Barang', fontsize=12)
plt.ylabel('Jumlah', fontsize=12)
IV-7
plt.xticks(fontsize=12, rotation=0)
plt.yticks(fontsize=12)
plt.legend(title='Kondisi', fontsize=12, title_fontsize=12)
plt.tight_layout()
Setelah membuat grafik bar untuk menampilkan informasi barang per jenisnya kita
akan membuat histogram untuk variable jumlah kita bisa menggunakan source
code seperti dibawah ini :
plt.hist(data['jumlah'], bins=10)
plt.xlabel('Jumlah')
plt.ylabel('Frekuensi')
plt.show()
IV-8
Dan jika berhasil akan muncul output seperti gambar dibawah ini:
Untuk membuat pivot table untuk jumlah barang per bulan dan jenis barang
menggunakan source code dibawah ini :
df = pd.read_csv('data_gudang (1).csv',
parse_dates=['tanggal_masuk'])
Lalu untuk membuat kolom bulan dan tahun dengan perintah seperti berikut :
df['bulan'] = df['tanggal_masuk'].dt.month
df['tahun'] = df['tanggal_masuk'].dt.year
membuat pivot table untuk jumlah barang per bulan dan jenis barang dengan
perintah dibawah ini
pt = df.pivot_table(index=['jenis_barang', 'bulan'],
columns='tahun', values='jumlah', aggfunc='sum')
Setelah membuat pivot table untuk jumlah barang perbulan selanjutnya membuat
plot untuk setiap jenis barang.
for jenis_barang in df['jenis_barang'].unique():
IV-9
Gambar 4.1.10 pivot table untuk jumlah barang per bulan dan jenis_barang
IV-11
import numpy as np
data['jumlah'] = data['jumlah'].astype(int)
5.1 Kesimpulan
Berdasarkan pembahasan yang telah dilakukan pada bab-bab sebelumnya
dari pembuatan laporan praktikum ini, maka penulis dapat mengambil kesimpulan
sebagai berikut:
5.2 Saran
Beberapa saran yang mungkin dapat dijadikan acuan untuk pengembangan
dan penggunaan ke depannya :
1. Gunakan data yang real time akan menghasilkan informasi yang realtime
dan terbarukan pula.
2. Metoda pengolahan data menggunakan Power BI dapat terus
dikembangkan ke studi kasus yang juga.
DAFTAR PUSTAKA