Pendahuluan
Data Fakta Informasi Knowledge/pengetahuan : kumpulan kode alfanumerik. : data yang terbukti kebenarannya. : data yang memiliki nilai tambah. : informasi yang terorganisir
Data Engineering(DE, rekayasa data),menangani masalah masalah terstruktur yang langsung bisa dikoneksikan dari data yang diketahui. Knowledge Engineering(KE, rekayasa pengetahuan), menangani masalah-masalah yang semi dan tak terstruktur.Informasi yang diketahui tidak bisa dikoneksikan secara langsung namun membutuhkan knowledge. Sehingga tujuan dari keduanya disebut dengan Knowledge and Data Engineering (KDE).
Masalah terstruktur
Basis data (BD) sendiri sudah punya value (nilai), sehingga dapat diekstraks langsung.Tapi pada kelas enterprise (yang melibatkan data multidimensi), data normalisasi yang akan diproyeksikan ke data multimedia membutuhkan tools OLAP. Maka dari sini lahirlah Data Warehousing (DW). Jadi DW lahir dari masalah-masalah yang terstruktur, bukan yang semi atau tak terstruktur. Masalah semi dan tak terstruktur Knowledge memodelkan sebab akibat, maka membutuhkan proses inferencing. Tidak ada hubungan kuantitatif antara masukan dengan keputusan yang dihasilkan. Kalau hubungan kualitatif pasti selalu ada hubungannya.Fokus pada basis pengetahuan. Metodologi yang dikembangkan di atas knowledge ini disebut dengan knowledge engineering.Yang namanya engineering (rekayasa) optimasi.
3 operasi dasar : 1. Data Entry -> add, edit, delete 2. Data Organisation -> search 3. Report Generation
Tahapannya: Memilih antara skema: Star atau Snowflake atau gabungan keduanya Mewujudkan dimensi-dimensi Membentuk cube/kubus, dimana di dalamnya terdapat teknik Pivoting yang akan divisualisasi melalui software OLAP
Metodologi Teknologi
Eksplorasi data
Denormalisasi kata kunci DW Query lebih cepat, karena tabelnya lebih sedikit Banyak data yang redundan Analisis
Baru desain, belum aplikasi. Kalau aplikasi misal: OLAP dan Data Mining
Menyimpan pertanyaan Who dan What untuk data di masa lalu Menyimpan data dalam repository Di saat SQL sudah tak bisa menyelesaikan persoalan
OLTP
Pemrosesan berorientasi pada transaksional yang memiliki penekanan pada normalisasi dan minimisasi redundansi serta penanganan referential integrity constraints. Relational : Cepat dalam pemodelannya Tak ada redundansi Yang penting konsisten Fokus : Teknologi basis data RDBMS (misal: instance dan databasenya)
OLTP
Data dari DB (Data Base) dan dapat memberikan umpan balik secara online Transaksi sederhana dan pada bagian kecil
Tabelnya kecil, terpisah-pisah. Sedangkan untuk Data Warehousing tabel tunggal yang sudah Dioptimasi Redundansinya sedikit Query relatif lebih lambat Operasional Tak mendukung multidimensi, dimana hal itu didukung oleh OLAP Bertumpu pada database relasional terdistribusi Pengaturan aplikasi yang berorientasi transaksi Beberapa layer
Tabel-tabel ternormalisasi
Sumber data untuk Data Mining dan OLAP Sejenis dengan Data Warehousing
OLTP
Ada 4 layer : 1. Data tier
Bagian dari pengenalan pola (pattern recognition) yang merupakan metodologi yang mengekstraksi pengetahuan dari seperangkat informasi
Beberapa hal penting dalam Data Mining : Denormalisasi Membolehkan redundansi Segera mendapatkan data dengan cepat dalam hal waktu dan cepat dalam hal pendapatan/pengembalian nilai (value) Untuk masalah yang semi terstruktur dan yang tak terstruktur (kalau yang terstruktur menggunakan OLAP Query-nya bebas, jadi tak ada pembatasan dalam hal query untuk mendapatkan informasi yang diinginkan. Evaluasi
Signifikasi hasil terhadap cost/biaya yang dikeluarkan Asosiasi Sequence analysis Classification Clustering Forecasting Digunakan pada bidang Matematika, Cybernetics, Algoritma Genetika, dan Customer Relationship Management (CRM)
- How To, bagaimana memperlakukan data agar memuaskan customer. - Pola -> relasi -> model -> keputusan.Pola juga berasal dari data. - Prediksi eksplisit 4 operasi penting:
1. Predictive modeling -> pembelajaran. 2. Database segmentation > clustering. 3. Link analysis -> hubungan antar record. 4. Deviation detection -> memperkuat kebenaran
Aplikasi DM yang efektif: 1. Identifikasi masalah 3. Membangun sebuah model - Evaluasi dan interpretasi. 2. Persiapan data: - Gathering pengumpulan data. - Penilaian masalah. - Penggabungan data & validasi. - Pemilihan data. - Transformasi data. 5. Pengawasan. - Masuk bagian pengenalan pola (pattern recognition). - Data berasal dari database umum, misal: peta.
- Validasi eksternal
4. Penggunaan model.
OLAP
Merupakan teknik visualisasi dan pemodelan pada data multidimensi.Seperti ES (Expert System) yang mampu memberikan analisis. Membutuhkan pakar dalam bidang pengembangan tertentu. Sedangkan data multidimensi itu sendiri berasal dari Data
Untuk masalah yang semi terstruktur dan yang tak terstruktur menggunakan Data Mining Untuk masalah yang terstruktur menggunakan OLAP RDBMS dulunya tak mendukung OLAP, tapi sekarang mendukung; misal: Oracle Cepat
Analisis
Shared Multidimensional
AND dan OR banyak SQL 92 tidak mendukung lagi perkembangan yang terjadi Time series dan fungsi statistik, sedikit atau tak didukung
Tindakan: text indexing, analisis masalah, analisis relevansi. Proses pada data: identifikasi teks, memisahkan bagian-bagian dari teks. Punya kaitan dengan Search.
Metodologi untuk memodelkan persoalan keputusan Kemampuan dan jangkauan manajer bisa meningkat. Agar berhasil:
Mengambil, menyimpulkan, menganalisis: keputusan (data) Model keputusan -> strategi SPK - Terstruktur OLAP (melibatkan: data)
- Sederhana
- Kuat
- Mudah dikontrol - Adaptif - Lengkap - Komunikatif
Keuntungan:
Mampu mencari jawaban dari masalah yang kompleks. Waktunya cepat. Strategi berbeda pada konfigurasi berbeda.