Anda di halaman 1dari 5

JAWABAN

1. A. Apa yang dimaksud dengan dataset ?

Dataset adalah kumpulan data yang terorganisir dan terstruktur yang digunakan dalam
analisis dan pemodelan data. Dataset terdiri dari kumpulan contoh atau instan, di mana
setiap contoh mewakili satu entitas atau objek yang diamati atau diukur. Contoh-contoh ini
dapat berupa data numerik, data kategorikal, teks, gambar, suara, atau jenis data lainnya
yang sesuai dengan domain masalah yang sedang dihadapi. Dataset biasanya terdiri dari
beberapa variabel atau fitur yang menggambarkan atribut-atribut dari setiap entitas dalam
dataset.

Dataset dalam data mining berfungsi sebagai bahan mentah yang dianalisis menggunakan
teknik dan algoritma data mining untuk mengungkap pola, hubungan, atau informasi yang
berharga. Dalam proses data mining, dataset dapat dipecah menjadi subset untuk melatih
model dan subset lainnya untuk menguji dan mengevaluasi model yang dikembangkan.

Dataset dalam data mining dapat terdiri dari berbagai jenis data, seperti data numerik, data
kategorikal, data teks, data gambar, atau jenis data lainnya yang relevan dengan masalah
yang ingin diselesaikan. Contoh dataset dalam data mining termasuk kumpulan data
pelanggan, data transaksi, data sensor, data medis, data sosial media, dan banyak lagi.

B. Sebutkan tujuan dari pre-processing ?

Tujuan dari pre-processing data adalah untuk membersihkan, mengubah format, dan
mengatur dataset sehingga menjadi lebih siap untuk analisis atau pemodelan.

Tujuan dari pre-processing data dalam data mining adalah untuk mempersiapkan dataset
sebelum dilakukan analisis atau pemodelan. Pre-processing data melibatkan serangkaian
langkah untuk membersihkan, mengubah format, dan mengatur data agar lebih siap untuk
digunakan dalam proses data mining. Selain itu juga untuk memastikan kualitas data yang
baik, menghilangkan noise dan ketidakkonsistenan, serta mempersiapkan dataset agar siap
digunakan dalam proses analisis dan pemodelan yang lebih lanjut.
2. Teknik Klasifikasi dalam data mining
Teknik klasifikasi adalah salah satu metode utama dalam data mining yang digunakan untuk
mengklasifikasikan data ke dalam kelas atau kategori yang telah ditentukan sebelumnya.
Tujuan utama dari teknik klasifikasi adalah untuk membangun model atau algoritma yang
dapat mempelajari pola-pola yang ada dalam data yang diketahui dan menerapkannya pada
data yang belum diketahui untuk memprediksi kelas atau label yang sesuai.

Teknik klasifikasi melibatkan langkah langkah berikut : Pemilihan Fitur , Pembangunan


Model , Pelatihan Model , Evaluasi Model , Prediksi dan Penggunaan Model

Tujuan utama dari teknik klasifikasi adalah untuk memprediksi kelas atau label yang benar
pada data yang tidak diketahui berdasarkan pola-pola yang telah dipelajari dari data yang
diketahui. Hal ini dapat membantu dalam pengambilan keputusan, identifikasi pola-pola
yang penting dalam data, segmentasi pelanggan, deteksi penipuan, analisis risiko, dan
banyak lagi. Teknik klasifikasi juga dapat memberikan wawasan dan pemahaman yang lebih
baik tentang karakteristik data dan hubungan antara variabel yang relevan.

3. Teknik Klasifikasi (Model Naïve Bayes)


Naive Bayes merupakan metode klasifikasi yang berakar pada teorema Bayes yang memiliki
konsep dasar peluang bersyarat, memprediksi peluang di masa depan berdasarkan
pengalaman di masa sebelumnya.

Langkah langkah dalam menggunakan naïve bayes adalah sebagai berikut : Perhitungan
Probabilitas Prior -> Estimasi probabilitas fitur -> Menggunakan Teorema Bayes -> Prediksi
Kelas

Tujuan dari model Naive Bayes adalah untuk mengklasifikasikan data ke dalam kelas yang
sesuai berdasarkan probabilitas. Model ini menggunakan konsep probabilitas untuk
menentukan probabilitas terbaik bahwa suatu contoh data termasuk ke dalam setiap kelas
yang ada. Dengan menggabungkan probabilitas ini, model Naive Bayes dapat memprediksi
kelas yang paling mungkin untuk contoh data yang belum diketahui.
4. Perbedaan antara algoritma C4.5 dengan IDE3 dalam membangun pohon keputusan
(Decision tree)

IDE 3 C4.5
Dapat menghandle baik atribut diskret maupun
Hanya menghandle atribut disket
atribut kontinu.

Dapat mengatasi data yang memiliki missing


Tidak memiliki kemapuan / mekanisme bawaan
values dan memperhitungkan probabilitasnya
untuk menangani missing values dalam data
dalam mengambil keputusan

Memiliki langkah Pruning untuk mengurangi


Tidak memiliki langkah pruning overfitting dan ke kompleksan hasil dari pohon
keputusan (decision tree)

Menggunakan metode Gain Ratio yang telah


Menggunakan metode Gain Ratio untuk dimodifikasi dengan mempertimbangkan
memilih atribut terbaik dalam membagi data pengurangan kesalahan berdasarkan split (split
error reduction)

Menggunakan teknik Weighted Voting untuk


Mengasumsikan bahwa semua atribut memiliki mengatasi atribut dengan jumlah nilai kategori
jumlah nilai kategori yang sama penting yang berbeda-beda dalam perhitungan
keputusan

Dapat menangani atribut dengan banyak nilai


Biasanya memiliki kinerja yang lebih baik saat
kategori , Menggunakan teknik Weighted Voting
bekerja dengan atribut yang memiliki sedikit
yang memperhitungkan bobot masing-masing
nilai kategori
nilai kategori dalam pemilihan atribut terbaik.

Lebih mudah dipahami dan diimplementasikan Memiliki kompleksitas algoritma yang lebih
secara sederhana tinggi
5. Data Cleaning, Data Integration, Data Reduction dan Data Transformation :

A. Data Cleaning (Pembersihan Data)


Data Cleaning adalah proses pembersihan data mentah dari kesalahan, noise, dan
ketidak-konsistenan yang dapat mengganggu analisis data yang akurat.

Tujuan dari data cleaning adalah memastikan kualitas data yang baik dengan
mengidentifikasi dan mengatasi masalah seperti data yang hilang, outlier, duplikat,
kesalahan entri, atau ketidaksesuaian format data.

Langkah-langkah dalam data cleaning meliputi penghapusan data duplikat, pengisian


data yang hilang, koreksi kesalahan, normalisasi, dan pemotongan nilai yang ekstrim.

B. Data Integration (Integrasi Data)


Data integration adalah tahap atau proses menggabungkan data yang berbeda menjadi
satu kesatuan data (dataset) yang terpadu , Tujuannya adalah untuk menggabungkan
data yang terkait dan menghindari duplikasi, sehingga menghasilkan satu sumber data
yang lebih lengkap dan konsisten.

Proses ini melibatkan pemadanan atribut atau kolom, penggabungan data berdasarkan
kunci primer, menghapus atribut yang tidak dibutuhkan dari semua sumber
data ,pemilihan fitur yang relevan dan Mendeteksi nilai data yang konflik.

C. Data Reduction (Reduksi Data )


Data Reduction atau pengurangan jumlah data adalah kegiatan mereduksi atau
mengurangi sample data yang tidak perlu dalam dataset untuk meminimalisir tingkat
akurasi yang rendah ,kelebihan dimensi dan kompleksitas komputansi yang timbul
dalam dataset yang berjumlah besar

D. Data Transformation (Transformasi Data)


Data transformation adalah proses mengubah format, skala, atau representasi data
menjadi bentuk yang lebih sesuai untuk analisis atau pemodelan. Tujuannya adalah
untuk mengubah data menjadi format yang dapat dipahami dan digunakan oleh
algoritma atau metode analisis tertentu. Data transformation membantu
mengoptimalkan pemrosesan dan interpretasi data serta meningkatkan performa
algoritma dan model yang digunakan

Lima langkah yang dapat dilakukan dalam proses data transformation adalah :
Agregation ,Normalization , Feature Selection ,Discreditizationi ,Concept Hierarchy
Generation
PRAKTEK

Anda mungkin juga menyukai