Kelas : SI-W41/19
NPM : 19402038
2. Jelaskan dan berikan contoh Fragmentasi dan Replikasi, bagaimana data disimpan
- Fragmentasi terdiri dari relasi yang dibagi ke relasi atau fragmen yang lebih kecil dan
mengirim fragmen, pada beberapa tempat. Terdapat dua macam fragmentasi,
fragmentasi horizontal dan fragmentasi vertikal. Pada fragmentasi horisontal, setiap
fragmen terdiri dari sebuah subset baris dari relasi asal. Pada fragmentasi vertikal, setiap
fragment terdiri dari sebuah subset kolom dari relasi asal. Fragmentasi vertikal : koleksi
fragmen vertikal seharusnya dekomposisi lossless-join. Untuk menjamin fragmentasi
vertikal lossless-join, sistem harus menyediakan id tupel yang unik untuk setiap tupel
dalam relasi asli. Jika kita berpilir bahwa relasi asal sebagai field yang berisi tambahan
tupel-id sebagai kunci, field ini ditambahkan ke setiap fragmen vertikal. Sehingga
dekomposisi dijamin lossless-join.
- Replikasi berarti bahwa kita menyimpan beberapa copy sebuah relasi atau fragmen
relasi. Keseluruan relasi dapat direplikasi pada satu atau lebih tempat. Sebagai contoh,
jika relasi R difragmentasi ke R1, R2 dan R3, kemungkinan terdapat hanya satu copy R1,
dimana R2 adalah replikasi pada dua tempat lainnya dan R3 replikasi pada semua
tempat
- Terintegrasi
Bagi perusahaan berskala besar yang memiliki banyak data, pasti akan kesulitan jika
semua datanya tidak terintegrasi. Dari sumber data yang berbeda seperti flat
files, relational database dan online transactional, semuanya dapat terintegrasi hanya
dalam satu sistem penyimpanan sehingga dapat lebih efisien dalam pekerjaan dan
hemat waktu. Data integration dan data cleaning akan membantu dalam konvesi
penamaan data, struktur coding, data attribute dan lain-lain.
4. Jelaskan tahapan data mining berdasarkan gambar Arsitektur Data mining dibawahini
!
1. Data selection
Pemilihan (seleksi) data dari sekumpulan data operasional perlu dilakukan sebelum
tahap penggalian informasi dalam KDD dimulai. Data hasil seleksi yang digunakan untuk
proses data mining, disimpan dalam suatu berkas, terpisah dari basis data operasional.
2. Pre-processing / cleaning
Sebelum proses data mining dapat dilaksanakan, perlu dilakukan proses cleaning pada
data yang menjadi fokus KDD. Proses cleaning mencakup antara lain membuang
duplikasi data, memeriksa data yang inkonsisten, dan memperbaiki kesalahan pada
data.
3. Transformation
Coding adalah proses transformasi pada data yang telah dipilih, sehingga data tersebut
sesuai untuk proses data mining. Proses coding dalam KDD merupakan proses kreatif
dan sangat tergantung pada jenis atau pola informasi yang akan dicari dalam basis data.
4. Data mining
Data mining adalah proses mencari pola atau informasi menarik dalam data terpilih
dengan menggunakan teknik atau metode tertentu. Teknik, metode, atau algoritma
dalam data mining sangat bervariasi. Pemilihan metode atau algoritma yang tepat
sangat bergantung pada tujuan dan proses KDD secara keseluruhan.
5. Interpretation / evalution
Pola informasi yang dihasilkan dari proses data mining perlu ditampilkan dalam bentuk
yang mudah dimengerti oleh pihak yang berkepentingan. Tahap ini merupakan bagian
dari proses KDD yang disebut interpretation. Tahap ini mencakup pemeriksaan apakah
pola atau informasi yang ditemukan bertentangan dengan fakta atau hipotesis yang ada
sebelumnya.
5. Data Warehouse memiliki salah satu karakteristik Time Variant, jelaskan apa yang
dimaksud dengan time variant?
Seluruh data pada data warehouse dapat dikatakan akurat atau valid pada rentang
waktu tertentu. Data warehouse selalu menyerap apa pun yang telah di-load oleh data
warehouse dari awal terbentuknya data warehouse hingga yang paling terbaru. Semua
data akan dijadikan bahan analisis dan pengambil keputusan yang valid pada rentan
waktu tertentu, misalnya harian, mingguan, bulanan, tahunan, dan nilai waktu lainnya.
Elemen waktu pada data warehouse harus jelas untuk menjaga kevalidan data pada
rentang waktu tertentu karena record data pada data warehouse rentang waktunya
lebih besar daripada database operasional demi kepentingan analisis data secara
periodik.