0 penilaian0% menganggap dokumen ini bermanfaat (0 suara)
36 tayangan30 halaman
Dokumen tersebut membahas tentang Knowledge Discovery in Database (KDD) yang merupakan proses menemukan pola dalam data untuk memahami informasi yang berguna. Proses KDD meliputi seleksi data, pra-pemrosesan, transformasi, penambangan data, interpretasi, dan evaluasi."
Dokumen tersebut membahas tentang Knowledge Discovery in Database (KDD) yang merupakan proses menemukan pola dalam data untuk memahami informasi yang berguna. Proses KDD meliputi seleksi data, pra-pemrosesan, transformasi, penambangan data, interpretasi, dan evaluasi."
Dokumen tersebut membahas tentang Knowledge Discovery in Database (KDD) yang merupakan proses menemukan pola dalam data untuk memahami informasi yang berguna. Proses KDD meliputi seleksi data, pra-pemrosesan, transformasi, penambangan data, interpretasi, dan evaluasi."
Goldie Gunadi, S.Kom., M.Kom Definisi Knowledge Discovery in Database (KDD) Knowledge discovery in databases (KDD) adalah keseluruhan proses untuk mencari dan mengidentifikasi pola (pattern) dalam data, dimana pola yang ditemukan dapat bermanfaat dan dapat dimengerti. KDD berhubungan dengan teknik integrasi, interpretasi dan visualisasi dari pola-pola sejumlah kumpulan data. Tahapan Proses KDD Pemilihan Data (Selection) • Menciptakan himpunan data target, pemilihan himpunan data, atau memfokuskan pada subset variabel atau sampel data, dimana penemuan (discovery) akan dilakukan. • Hasil seleksi disimpan dalam suatu berkas, terpisah dari basis data operasional. Pre-processing / Cleaning • Pre-processing dan cleaning data merupakan operasi dasar yang dilakukan seperti penghapusan noise. • Proses cleaning mencakup antara lain membuang duplikasi data, memeriksa data yang inkonsisten, dan memperbaiki kesalahan pada data, seperti kesalahan cetak. • Data bisa diperkaya dengan data atau informasi ekternal yang relevan. Transformation • Merupakan proses integrasi pada data yang telah dipilih, sehingga data sesuai untuk proses data mining. • Merupakan proses yang sangat tergantung pada jenis atau pola informasi yang akan dicari dalam basis data. Data mining • Pemilihan tugas data mining merupakan pemilihan goal dari proses KDD misalnya karakterisasi, klasifikasi, regresi, clustering, asosiasi, dll. • Proses Data Mining yaitu proses mencari pola atau informasi menarik dalam data terpilih dengan menggunakan teknik, metode atau algoritma tertentu yang bervariasi. • Pemilihan teknik, metode atau algoritma yang tepat sangat bergantung pada tujuan dan proses KDD secara keseluruhan. Interpretation/ Evaluation • Yaitu penerjemahan pola-pola yang dihasilkan dari data mining. • Pola informasi yang dihasilkan perlu ditampilkan dalam bentuk yang mudah dimengerti. • Tahap ini melakukan pemeriksaan apakah pola atau informasi yang ditemukan bertentangan dengan fakta atau hipotesa yang ada sebelumnya. Data Pre-processing : Alat dan Metode • Sampling : menyeleksi subset representatif dari populasi data yang besar. • Transformation : memanipulasi data mentah untuk menghasilkan input tunggal. • Denoising : menghilangkan noise dari data • Normalization : mengorganisasi data untuk pengaksesan yang lebih spesifik • Feature Extraction : membuka spesifikasi data yang signifikan dalam konteks tertentu. Data Reduction • Data reduction merupakan teknik yang digunakan untuk mentransformasi dari data mentah ke bentuk format data yang lebih berguna. Sebagai contoh groupping, counting, summing dan averaging data. • Data reduction dilakukan untuk mengatasi ukuran data yang terlalu besar yang dapat menimbulkan ketidakefisienan proses dan peningkatan biaya pemrosesan. Definisi Data Warehouse Data Warehouse adalah pusat informasi yang mampu memberikan database berorientasi subyek untuk informasi yang bersifat historis yang mendukung DSS (Decision Support System) dan EIS (Executive Information System). Tujuan Data Warehouse Meningkatkan kualitas dan akurasi informasi bisnis dan mengirimkan informasi ke pemakai dalam bentuk yang dimengerti dan dapat diakses dengan mudah. Arsitektur Data Warehouse Kegunaan Data Warehouse • Pembuatan Laporan Dapat menghasilkan laporan per periode. • Menganalisis data (OLAP) Melakukan analisis bisnis untuk menyelidiki kecenderungan pasar dan faktor penyebabnya. • Data Mining Mencari pola dan hubungan data untuk mengambil keputusan • Proses Informasi Eksekutif Mencari informasi kunci yang penting Ciri-ciri Data Warehouse • Subject Oriented ▫ Data disusun dan dikelompokkan berdasarkan subyek yang berisi hanya informasi yang penting bagi pemrosesan decision support. ▫ Subyek dirangkum ke dalam dimensi, misalnya : periode waktu, produk, wilayah, dsb,. Ciri-ciri Data Warehouse (2) • Integrated ▫ Jika data terletak pada berbagai aplikasi yang terpisah,encoding data sering tidak seragam sehinggga bila data dipindahkan ke data warehouse maka coding akan diasumsikan sama • Time-variant ▫ Data warehouse adalah tempat untuk storing data selama 5 sampai 10 tahun atau lebih • Non Volatile ▫ Data tidak dapat diperbaharui atau dirubah tetapi hanya dapat dilihat. ETL (Extraction, Transformation, Loading) Proses ETL (Extraction, Transformation, Loading) merupakan proses yang harus dilalui dalam pembentukan data warehouse (Kimball, 2004). Ekstraksi Data (Extract) Ekstraksi data adalah proses dimana data diambil atau diekstrak dari berbagai sistem operasional, baik menggunakan query, atau aplikasi ETL. Terdapat beberapa fungsi ekstraksi data, yaitu :
• Ekstraksi data secara otomatis dari aplikasi sumber.
• Penyaringan atau seleksi data hasil ekstraksi. • Pengiriman data dari berbagai platform aplikasi ke sumber data. • Perubahan format layout data dari format aslinya. • Penyimpanan dalam file sementara untuk penggabungan dengan hasil ekstraksi dari sumber lain. Transformasi Data (Transformation) Transformasi adalah proses dimana data mentah (raw data) hasil ekstraksi disaring dan diubah sesuai dengan kaidah bisnis yang berlaku. Langkah-langkah dalam transformasi data adalah sebagai berikut :
• Memetakan data input dari skema data aslinya ke skema data
warehouse. • Melakukan konversi tipe data atau format data. • Pembersihan serta pembuangan duplikasi dan kesalahan data. • Penghitungan nilai-nilai derivat atau mula-mula. • Penghitungan nilai-nilai agregat atau rangkuman. • Pemerikasaan integritas referensi data. • Pengisian nilai-nilai kosong dengan nilai default. • Penggabungan data. Pengisian Data (Loading) Proses terakhir yang perlu dilakukan adalah proses pemuatan data yang didapatkan dari hasil transformasi ke dalam data warehouse. Cara untuk memuat data adalah dengan menjalankan SQL script secara periodik. Arsitektur ETL Definisi Data Mart • Data Mart adalah subset dari data warehouse yang mendukung kebutuhan informasi dari departemen atau fungsi bisnis tertentu. • Data Mart adalah struktur data yang cakupannya lebih kecil dari data warehouse dimana data dibagi berdasarkan kebutuhan informasi setiap departemen. Arsitektur Data Mart OLAP OLAP (Online Analitycal Processing) adalah teknologi yang memproses data di dalam database dalam struktur multidimensi, menyediakan jawaban yang cepat untuk query dan analisis yang kompleks. Data yang disajikan biasanya merupakan suatu fungsi agregasi seperti summary, max, min, average dan lain-lain. Arsitektur OLAP Database Multidimensi Database multidimensi utama digunakan untuk analisis dan aplikasi data mining. Database multidimensi adalah suatu bentuk database di mana data disimpan dalam cell dan posisi setiap cell didefinisikan oleh sejumlah hierarki disebut dimensi. Setiap cell merupakan event bisnis, dan nilai dimensi menunjukkan kapan dan di mana event tersebut terjadi. Struktur menyimpan nilai-nilai agregat serta nilai-nilai dasar, biasanya dalam format terkompresi array multidimensi, bukan di tabel RDBMS. Nilai agregat adalah ringkasan precomputed dari nilai-nilai dasar. Keuntungan Database Multidimensi • Database multidimensi biasanya digunakan untuk intelijen bisnis (BI), terutama untuk pengolahan analisis online (OLAP) dan data mining (DM). • Keuntungan menggunakan database multidimensi untuk OLAP dan DM daripada database relasional seperti menyimpan data dimensi (DSS) adalah bahwa mereka menggunakan sedikit ruang disk dan memiliki kinerja yang lebih baik. • Database multidimensi melakukan lebih baik pada operasi OLAP karena agregat precalculated dan karena cara data disimpan secara fisik (terkompresi Format array multidimensi dengan posisi offset) meminimalkan jumlah operasi IO (membaca disk), dibandingkan dengan menyimpan tabel dalam RDBMS. Data Warehouse / Data Mart VS OLTP Data Warehouse / Data Mart OLTP Menyimpan data historis Menyimpan data saat ini
Menyimpan detailed, lightly, highly, Menyimpan detailed data
summary data
Data bersifat statis Data bersifat dinamis
Mengarah pada analisis Mengarah pada transaksi
Berorientasi pada subjek Berorientasi pada aplikasi
Mendukung keputusan strategi Mendukung keputusan sehari-hari
Pemakai manajerial dalam tingkat Pemakai operasional dalam jumlah
yang relatif rendah yang besar OLTP vs OLAP OLTP OLAP Tujuan Mengotomatisasi bisnis Mengoptimalkan bisnis Penggunaan Proses transaksi Pelaporan, Analisis, Modeling, Perencanaan
Skema Dua dimensi, Normalisasi Multi Dimensi, Hirarki
Navigasi Didasarkan pada langkah kerja Didasarkan pada cara user transaksi menganalisis
n saling silang, Perumusan, Prosedural Implementas Lambat dalam penyebaran, dan Cepat dalam penyebaran, adan i mudah untuk diubah datanya susah untuk diubah datanya