Anda di halaman 1dari 16

Nama : Novya Lira Natasya

Nim : 1911523010

Matkul : Data Mining

Nama Dosen Pengampu : Dwi Welly Sukma Nirad, M.T.

UJIAN TENGAH SEMESTER

(DATA MINING)

A. Soal

1 Jelaskan konsep data mining, tujuan, dan kemampuannya !

Jawab :

Mining itu bisa berarti menambang atau menemukan dari sesuatu yang akan kita gali nantinya
yang bermanfaat bagi kita semua. Lalu Warehousing adalah kegiatan dalam penyimpanan data
ke dalam server / gudang data yang nantinya bisa kita gunakan sesuai kebutuhanannya, kegiatan
mining jika kita kaitkan dengan Data Mining adalah kegiatan dalam menemukan pengetahuan
atau Knowladge dari data yang jumlah nya sangat banyak yang sebelumnya tidak diketahui.Data
Mining bisa disebut sebagai alat untuk memungkinkan para pengguna untuk mengakses secara
cepat data dengan jumlah yang besar .

Data Mining adalah suatu proses pengerukan atau pengumpulan informasi penting dari suatu
data yang besar yang dalam prosesnya seringkali menggunakan metode statistika,matematika,
hingga memanfaatkan teknologi artificial intellegence .sehingga Data Mining sering disebut
sebagai KDD (Knowladge Discovery in Databases ) dimana merupakan sebuah proses
pengambilan pola pada data yang akan di proses , output tersebut berupa informasi yang sangat
penting. Secaraumum, data mining dapat diklasifikasikan kedalam 2 kategori utama (Han dan
Kamber. 2006), yaitu

a. Prediktif

Kategori prediktif ini adalah untuk memprediksi nilai dari atribut tertentu berdasarkan pada nilai
atribut-atribut lain. Atribut yang diprediksi umumnya dikenal sebagai target atau variable tak
bebas, sedangkan atribut – atribut yang digunakan untuk membuat prediksi dikenal sebagai
explanatory atau variable bebas.
b. Deskriptif

Kategori deskriptif untuk menurunkan pola – pola (korelasi, trend, cluster, teritori dan anomali)
yang meringkas hubungan yang pokok dalam data. Tugas data mining deskriptif sering
merupakan penyelidikan dan seringkali memerlukan teknik post – preprocessing untuk validasi
dan penjelasan hasil

Tujuan Data Mining :

1. Sebagai sarana penjelasan (Data mining adalah sebuah sarana untuk menjelaskan suatu


kondisi.)

2. Sebagai sarana konfirmasi (sebuah sarana untuk mengklarifikasi sebuah pernyataan atau
mempertegas adanya hipotesa)

3. Sebagai sarana eksplorasi (suatu sarana yang dapat digunakan untuk mencari pola baru yang
sebelumnya tidak terdeteksi)

Kemampuan Data Mining :

- Mengotomatisasi prediksi tren dan sifat-sifat bisnis

- Mengotomatisasi penemuan pola-pola yang tidak diketahui sebelumnya

2. Jelaskan 5 keuntungan pemanfaatan data mining dalam organisasi

Jawab :

 Bidang Pendidikan Data mining membantu tenaga mendidik dalam mengakses data
siswa, memprediksi tingkat pencapaian dan memberi pandangan tentang siswa atau
kelompok siswa mana saja yang membutuhkan perhatian ekstra

 Bidang Perbankan Data mining membantu perusahaan jasa keuangan untuk mendapatkan
pandangan yang lebih baik tentang risiko pasar, mendeteksi penipuan, mengelola
pemenuhan peraturan dan untuk mendapatkan return optimal dari investasi pemasaran.

 Manufaktur, data mining dimanfaatkan seperti untuk menyesuaikan rencana supply dan
perkiraan permintaan, quality assurance, memprediksi aset produksi dan mengantisipasi
pemeliharaan.
 Asuransi, penerapan data mining lainnya adalah pada industri asuransi. Perusahaan
asuransi umumnya menggunakan teknik data mining untuk mendeteksi penipuan,
mengidentifikasi faktor risiko pada pengajuan klaim, analisa pelanggan, hingga untuk
menemukan cara menawarkan produk kompetitif ke basis pelanggan yang ada.
 Retail, data mining digunakan untuk membantu perusahaan mengoptimalkan kampanye
pemasaran, meningkatkan hubungan pelanggan dan memperkirakan penjualan.

3. Jelaskan tahap-tahap dalam data mining.!

Jawab :

1.Seleksi Data

Pemilhan (seleksi) data dari sekumpulan data operasional perlu dilakukan sebelum tahap
penggalian informasi dalam KDD dimulai. Data hasil seleksi yang digunakan untuk proses data
mining, disimpan dalam suatu berkas, terpisah dari basis data operasional.

2. Pre-processing / cleaning

Sebelum proses data mining dapat dilaksanakan, perlu dilakukan proses cleaning pada data yang
menjadi fokus KDD. Proses cleaning mencakup antara lain membuang duplikasi data,
memeriksa data yang inkonsisten, dan memperbaiki kesalahan pada data.seperti kesalahan cetak
(tpografi). Juga dilakukan proses enrichment , yaitu proses memperkaya data yang sudah ada
dengan data atau informasi lain yang relevan dan diperlukan untuk KDD , seperti data atau
informasi eksternal.

3.Transformasi

Coding adalah proses transformasi pada data yang telah dipilih, sehingga data tersebut sesuai
untuk proses data mining. Proses coding dalam KDD merupakan proses kreatif dan sangat
tergantung pada jenis atau pola informasi yang akan dicari dalam basis data.

4.Data Mining
Data mining adalah proses mencari pola atau informasi menarik dalam data terpilih dengan
menggunakan teknik atau metode tertentu. Teknik, metode, atau algoritma dalam data mining
sangat bervariasi. Pemilihan metode atau algoritma yang tepat sangat bergantung pada tujuan
dan proses KDD secara keseluruhan.

5. Interpretation / evalution

Pola informasi yang dihasilkan dari proses data mining perlu ditampilkan dalam bentuk yang
mudah dimengerti oleh pihak yang berkepentingan. Tahap ini merupakan bagian dari proses
KDD yang disebut interpretation. Tahap ini mencakup pemeriksaan apakah pola atau informasi
yang ditemukan bertentangan dengan fakta atau hipotesis yang ada sebelumnya.

4. Jelaskan alasan pentingnya preprocessing data.

Data Preparation atau bisa disebut juga dengan data preprocessing adalah suatu proses/langkah
yang dilakukan untuk membuat data mentah menjadi data yang berkualitas(input yang baik
untuk data mining tools). Preprocessing merupakan salah satu tahapan menghilangkan
permasalahan-permasalahan yang dapat mengganggu hasil daripada proses data.

Preprocessing data sangat penting karena kesalahan, redundan, missing value, dan data yang
tidak konsisten menyebabkan berkurangnya akurasi hasil analisis. Jadi, sebelum mengolah data,
kita harus memastikan bahwa data yang akan kita gunakan merupakan data "bersih".

Terdapat beberapa langkah langkah dalam data preparation :

1. Data Cleaning

Dalam data cleaning yang akan kita lakukan antara lain mengisi missing value, mengidentifikasi
outlier, menangani data noise, mengoreksi data yang tidak konsisten, dan menyelesaikan masalah
redudansi data akibat integrasi data.

2. Data Integration

Data integration adalah suatu langkah untuk menggabungkan data dari beberapa sumber. Data
integration hanya dilakukan jika data berasal dari tempat yang berbeda-beda (sumber data tidak
hanya dari 1 tempat). Langkah yang dilakukan antara lain mengintegrasikan skema,
mengidentifikasi masalah entitas, dan mendeteksi sekaligus menyelesaikan konflik pada nilai
data.

3. Data Transformation Data transformation yaitu mengubah suatu data supaya diperoleh data
yang lebih berkualitas. Yang akan dilakukan antara lain menghilangkan noise dari data
(smoothing), meng-agregasi data, generalisasi data, normalisasi data, dan pembentukan
atribut/fitur.
4. Data Reduction

Data Reduction yaitu langkah untuk mereduksi dimensi, atribut ataupun jumlah data. Yang akan
dilakukan antara lain agregasi data cube, reduksi dimensi, diskretisasi, dan kompresi data.

5. Jelaskan perbedaan data mining dengan data warehouse dan bagaimana keduanya
berkolaborasi?

Jawab :

Data Mining dan Data Warehousing keduanya digunakan untuk menampung intelijen bisnis dan
memungkinkan pengambilan keputusan. Namun keduanya, penambangan data dan pergudangan
data memiliki aspek operasi yang berbeda pada data perusahaan. Di satu sisi, gudang data adalah
lingkungan di mana data perusahaan dikumpulkan dan disimpan secara agregat dan diringkas. Di
sisi lain, data mining adalah suatu proses; yang menerapkan algoritma untuk mengekstrak
pengetahuan dari data yang Anda bahkan tidak tahu ada di database.

perbedaan mendasar yang memisahkan data mining dan data pergudangan yaitu data mining
adalah proses ekstraksi data yang bermakna dari database besar atau data warehouse. Namun,
gudang data menyediakan lingkungan di mana data disimpan dalam bentuk terintegrasi yang
memudahkan penambangan data untuk mengekstraksi data lebih efisien.

Bagaimana Data mining Bekerja

Data mining secara umum mencari untuk mengidentifikasikan empat tipe pattern utama yaitu:

• Associations, menemukan secara umum mengacu pada pengelompokan hal-hal.

• Predictions, memberitahukan kejadian-kejadian alami di masa yang akan datang di even yang
tepat berdasar pada apa yang terjadi di masa lampau.

• Cluster, mengidentifikasikan pengelompokan hal-hal natural berdasar pada karakteristik yang


diketahui.

• Sequential relationship, menemukan event dengan waktu yang berurutan.

Data warehouse merupakan sekelompok data yang diproduksi untuk mendukung pembuatan
keputusan; juga merupakan tempat penyimpanan saat ini dan data historis dari potensi
ketertarikan manager seluruh perusahaan. Karakteristik data warehouse sebagai berikut
• Subject oriented.

• Integrated.

• Time variant (time series).

• Nonvolatile.

Yang termasuk karakteristik tambahan data warehouse antara lain

• Web based.

• Relational/multidimensional.

• Client/server.

• Real time.

• Include metadata.

6. Jelaskan perbedaan antara OLAP dan OLTP dan contoh pemanfaatannya.

Jawab :

OLTP (Online Transaction Processing)

OLTP (Online Transaction Processing) merupakan suatu aplikasi atau program yang digunakan
dalam operasional perusahaan sehari-hari seperti melakukan insert (memasukan data),
update(mengubah data) dan delete (menghapus data) berbagai macam data, seperti penjualan,
pembelian, produksi dan lain sebagainya. OLTP bertujuan untuk memproses suatu transaksi
secara langsung melalui komputer yang tergabung didalam jaringan. Misalnya OLTP biasa
digunakan pada sebuah supermarket, kasir menggunakan mesin dalam proses transaksinya dapat
langsung memasukan data kedalam aplikasi yang terhubung didalam jaringan. Berdasarkan
datanya, OLTP menggunakan data asli dan dapat di update setiap saat. OLTP biasanya memiliki
ukuran yang relatif kecil seperti data pada suatu database. Karakteristik OLTP umumnya
memiliki banyak user yang dapat mengakses data secara bersamaan, user tersebut bisa
melakukan creating, updating, retrieving untuk setiap record data, OLTP sangat optimal untuk
updating data..tujuan utama OLTP adalah untuk membuat kueri yg cepat

Sedangkan OLAP (OnLine Analytical Processing) merupakan metode pendekatan untuk


menyajikan jawaban dari permintaan proses analisis yang bersifat dimensional secara cepat,
yaitu desain dari aplikasi dan teknologi yang dapat mengoleksi, menyimpan, memanipulasi suatu
data multidimensi untuk tujuan analis. OLAP adalah bagian dari kategori yang lebih global dari
pemikiran bisnis, yang merangkum hubungan antara pelaporan dan penggalian data. Aplikasi
khusus dari OLAP yaitu pelaporan bisnis untuk penjualan, pemasaran, manajemen pelaporan,
manajemen proses bisnis, penganggaran dan peramalan, laporan keuangan dan bidang-bidang
yang serupa. Beberapa tujuan OLAP yakni menggunakan informasi dalam sebuah data
warehouse dalam memandu keputusan-keputusan yang strategis. Contoh dari perangkat lunak
OLAP yaitu Express Server (Oracle), PowerPlay (Cognos Software), dsb. atau Online Analytical
Processing merupakan suatu sistem yang dirancang guna membantu dalam perencanaan,
pemecah masalah, serta mendukung keputusan.

Kemampuan OLAP : 1.konsolidasi (mnggulung) 2. Perincian 3. Mengiring dan memotong

Perbedaan Utama Antara OLTP dan OLAP

1. Poin yang membedakan OLTP dan OLAP adalah bahwa OLTP adalah sistem transaksi online
sedangkan, OLAP adalah sistem pengambilan dan analisis data online.
2. Data transaksional online menjadi sumber data untuk OLTP. Namun, database OLTPs yang
berbeda menjadi sumber data untuk OLAP.
3. Operasi utama OLTP adalah memasukkan, memperbarui, dan menghapus sedangkan, operasi
utama OLAP adalah mengekstraksi data multi dimensi untuk analisis.
4. OLTP memiliki transaksi pendek tapi sering, sedangkan OLAP memiliki transaksi panjang dan
kurang sering.
5. Waktu pemrosesan untuk transaksi OLTP lebih banyak dibandingkan dengan OLAP.
6. Kueri OLAP lebih kompleks dengan menghormati OLTP.
7. Tabel dalam database OLTP harus dinormalisasi (3NF) sedangkan, tabel dalam database OLAP
mungkin tidak dinormalisasi.
8. Karena OLTP sering melakukan transaksi dalam basis data, jika ada transaksi yang gagal di
tengahnya, hal itu dapat merusak integritas data dan karenanya harus menjaga integritas data.
Sementara di OLAP transaksi lebih jarang karena itu, tidak terlalu mengganggu integritas data.

2) Jelaskan salah satu algoritma dalam teknik klasifikasi beserta contoh implementasinya!

Jawab :

Algoritma Naive Bayes Merupakan pengklasifikasian statistik yang dapat digunakan untuk
memprediksi probabilitas keanggotaan suatu class. Bayesian Classification didasarkan pada
teorema Bayes yang memiliki kemampuan klasifikasi serupa decision tree dan neural network.

Pada pembahasan kali ini saya akan memberikan contoh perhitungan metode naive bayes untuk
sistem pakar penentuan kerusakan pada laptop, pada tahap awal kita harus mempunyai data
kerusakan dan gejala laptop terlebih dahulu. Kerusakan laptop yang dibahas disini adalah tentang
kerusakan dibagian hardware didalam laptop. Berikut adalah data yang disajikan

Contoh Perhitungan Naive Bayes Classification Untuk Mendeteksi Kerusakan Laptop


Data kerusakan laptop :

K1 = IC Charger Rusak

K2 = IC Power Rusak

K3 = Resistor Rusak

K4 = Kapasitor Rusak

K5 = Mofset Rusak

K6 = Embeded Controller Rusak

Data gejala yang timbul :

G1 = Indikator pengisian baterai nyala tapi laptop tidak bisa dinyalakan.

G2 = Indikaor pengisian baterai mati, laptop tidak bisa dinyalakan.

G3 = Indikaor pengisian baterai nyala, bisa dinyalakan tapi tidak tampil pada layar.

G4 = Input seperti USB tidak berfungsi

Keterangan :

K = Kerusakan

G = Gejala

Selanjutnya dari data gejala dan kerusakan diatas kita menentukan tabel kebutusan antara
kerusakan dan gejala yang timbul. Tabel keputusan berfungsi untuk menentukan laptop tersebut
mengalami kerusakan apa, berdasarkan gejala yang timbul. Berikut adalah tabel keputusan yang
sudah ditentukan.
Keternangan:

1 = Gejala muncul

0 = Tidak ada gejala yang muncul

Contoh Kasus :

Misalnya gejala yang tampak pada laptop ada dua gejala yaitu :

G1 : Indikator pengisian baterai nyala tapi laptop tidak bisa dinyalakan, dan

G3 : Indikator pengisian baterai nyala, bisa dinyalakan tapi tidak tampil pada layar.

Berdasarkan gejala yang muncul tersebut maka langkah perhitungannya adalah sebagai berikut :

Langkah 1 : menentukan penyakit yang muncul berdasarkan tabel keputusan

Berdasarkan gejala yang muncul G1 dan G3 , maka bisa dilihat dari tabel keputusan indikasi
kerusakan yang akan di prediksi yaitu K1 dan K3. karena pada K1 terdapat G1 dan G3 yang
bernilai 1 dan pada K3 terdapat G3 yang bernilai 1.

Maka untuk tahap selanjutnya yang di hitung menggunakan algoritma naive bayes adalah
menghitung nilai probabilitas gejala dari K1 dan K3.

Langkah 2 : menghitung nilai probabilitas kerusakan dan gejala.


Pada langkah 1 sudah di dapatkan indikasi penyakit yang di prediksi berdasarkan gejala yang
timbul, sesuai tabel keputusan. Langkah selanjutnya yaitu menghitung nilai probabilias dari
masing-masing kerusakan dan gejala yang timbul.

Perhitungan Probabilitas K1 ( IC Charger Rusak )

Rumus menghitung probailitas nilai K1

Keterangan :

Angka 1 di dapatkan dari prediksi minimal kerusakan yang muncul

Angka 6 di dapatkan dari jumlah semua kerusakan yang ada pada tabel keputusan

Rumus menghitung probabilitas gejala yang muncul

G1 : Indikator pengisian baterai nyala tapi laptop tidak bisa dinyalakan.

G3 : Indikator pengisian baterai nyala, bisa dinyalakan tapi tidak tampil pada layar.

Related: Association Rules


Keterangan :

jumlah kemungkinan = jumlah gejala G1/G3 yang muncul pada K1 di tabel keputusan

jumlah kemungkinan kerusakan akibat gejala = kerusakan yang muncul yang di akibatkan gejala
dalam perhitungan kali ini didapatkan 2 kerusakan yang muncul yaitu K1 dan K3

Perhitungan Probabilitas K3 ( Resistor Rusak )

Rumus menghitung probailitas nilai K3

Keterangan :

Angka 1 di dapatkan dari prediksi minimal kerusakan yang muncul

Angka 6 di dapatkan dari jumlah semua kerusakan yang ada pada tabel keputusan

Rumus menghitung probabilitas gejala yang muncul

G1 : Indikator pengisian baterai nyala tapi laptop tidak bisa dinyalakan.

G3 : Indikator pengisian baterai nyala, bisa dinyalakan tapi tidak tampil pada layar.

Keterangan :

jumlah kemungkinan = jumlah gejala G1/G3 yang muncul pada K3 di tabel keputusan
jumlah kemungkinan kerusakan akibat gejala = kerusakan yang muncul yang di akibatkan gejala
dalam perhitungan kali ini didapatkan 2 kerusakan yang muncul yaitu K1 dan K3

Langkah 3 : Menghitung nilai bayes berdasarkan probabilitas kerusakan dan gejala yang
timbul
Dari nilai probabilitas diatas selanjutnya tahap perhitungan nilai bayes dengan rumus sebagai
berikut

Menghitung Nilai Bayes K1

Total nilai bayes dari K1 yaitu :

Total K1 = K(K1 | G1) + K(K1 | G3)

Total K1 = 0.5 + 0 = 0.5

Menghitung Nilai Bayes K3


Total nilai bayes dari K3 yaitu :

Total K3 = K(K3 | G1) + K(K3 | G3)

Total K3 = 0.5 + 0.5 = 1


Menjumlahkan hasil nilai bayes dari K1 dan K3

Hasil Total  = Total Bayes K1 + Total Bayes K3 


                     = 0.5 + 1
                     = 1.5

Langkah 4 : Menghitung presentase nilai prediksi kerusakan

Dari perhitungan hasil total didapatkan nilai 1.5 . Angka tersebut nantinya di gunakan sebagai
pembagi masing-masing nilai bayes dari K1 dan K3 untuk di ketehaui presentasenya. Berikut ini
adalah hasil yang didapatkan dari perhitungan tersebut.
Dari hasil presentase diatas maka didapatkan nilai presentase tertinggi adalah hasil kerusakan
yang didapatkan. Dengan demikian jika ada laptop yang mengalami gejala kerusakan G1
( Indikator pengisian baterai nyala tapi laptop tidak bisa dinyalakan. ) dan G3 ( Indikator
pengisian baterai nyala, bisa dinyalakan tapi tidak tampil pada layar. ). Maka laptop tersebut
mengalami kerusakan K3 ( Kerusakan Pada Resistor).

Demikian proses perhitungan naive bayes untuk kerusaan laptop, menggunakan Perhitungan
Naive Bayes Classification

3. Amatilah aplikasi e-commerce “Shopee”, kemudian temukan bentuk penerapan data mining
(minimal 1) dari sistem kerja aplikasi tersebut. Berikan penjelasannya, bila perlu disertai
screenshot

1) Metode Association Rule Mining dengan Algoritna Apriori untuk rekomendasi Promo Barang
sesuai oleh keinginan konsumen sendiri
Shopee memberikan rekomendasi promo barang untuk para user, dapat dilakukan analisis
terhadap perilaku konsumen dalam kegiatan transaksinya. Salah satu metode dalam teknik data
mining, yaitu association rule mining dapat digunakan untuk menemukan hubungan diantara data
atau bagaimana suatu kelompok data mempengaruhi suatu keberadaan data yang lain, sehingga
dapat digunakan untuk pedoman dalam membuat produk yang akan di promosikan.

2 ) Aturan Asosiasi dan Pemilhan data

Shopee juga memberikan rekomendasi barang-barang dan fitur filter untuk memudahkan user
dalam melakukan pencarian barang

Anda mungkin juga menyukai