LATAR BELAKANG
DATAMINING
❑Mengapa melakukan data mining?
❑ Apa itu data mining?
❑ Pahami Kecerdasan Buatan dalam organisasi modern
❑ Pahami struktur, komponen, dan proses Kecerdasan
Buatan
Mengapa data mining?
❖Masalah ledakan Data
Alat pengumpulan data otomatis dan teknologi basis
data yang matang menghasilkan data dalam jumlah besar
yang disimpan dalam basis data, gudang data, dan
repositori informasi lainnya.
❖Tenggelam dalam data, tetapi kelaparan karena
pengetahuan!
Data mining adalah studi yang mengumpulkan, membersihkan,
mengolah, menganalisis, dan memperoleh manfaat wawasan dari
data. Variasi yang luas ada dalam hal domain masalah, aplikasi,
formulasi, dan representasi data yang ditemukan dalam aplikasi
nyata.
Karena itu, "Data mining" adalah istilah umum yang digunakan untuk
menggambarkan berbagai aspek pengolahan data. Di zaman modern,
hampir semua sistem otomatis menghasilkan beberapa bentuk data
untuk tujuan diagnostik atau analisis. Ini telah menghasilkan banjir
data, yang telah terjadi mencapai urutan petabytes atau exabytes.
Beberapa contoh dari berbagai jenis data adalah sebagai berikut:
• World Wide Web: Jumlah dokumen di Web yang diindeks sekarang
dalam urutan miliaran, dan Web yang tak terlihat jauh lebih besar.
Pengguna mengakses dokumen-dokumen tersebut membuat log akses
Web di server dan profil perilaku pelanggan di situs komersial.
1960 1980
1970
Pengumpulan DBRDBMS, model 1990
Pengumpulan Data,
Data, pembuatan data lanjutan Mining Data
pembuatan basis
basis data, (extended- mining dan
data, jaringan DBMS
jaringan DBMS relational, OO, dll.) pergudangan
Model Model data Dan DBMS data, database
Model Model
relasional, berorientasi multimedia, dan
data relasional,
implementasi DBMS aplikasi (spasial, teknologi Web
implementasi
relasional ilmiah, teknik, dll.)
DBMS relasional
Teknik Data Mining
1. Estimation (Estimasi):
Linear Regression, Neural Network, Support Vector Machine, etc
2. Prediction/Forecasting (Prediksi/Peramalan):
Linear Regression, Neural Network, Support Vector Machine, etc
3. Classification (Klasifikasi):
Naive Bayes, K-Nearest Neighbor, C4.5, ID3, CART, Linear Discriminant Analysis,
Logistic Regression, etc
4. Clustering (Klastering):
K-Means, K-Medoids, Self-Organizing Map (SOM), Fuzzy C-Means, etc
5. Association (Asosiasi):
FP-Growth, A Priori, Coefficient of Correlation, Chi Square, etc
1. Estimation (Estimasi):
A. Support vector Machines (SVM)
❖ Secara alami didefinisikan untuk klasifikasi biner numerik data. Masalah
kelas biner dapat digeneralisasi ke kasus multiclass dengan menggunakan
varietas trik.
❖ Variabel fitur kategorikal juga bias ditangani dengan mengubah atribut
kategorikal ke data biner dengan binarisasi pendekatan.
❖ Diasumsikan bahwa label kelas diambil dari {−1, 1}. Seperti semua model
linier, SVM menggunakan hyperplanes yang memisahkan sebagai batas
keputusan antara kedua kelas. Di dalam kasus SVM, masalah optimisasi
untuk menentukan pesawat hiper ini sudah diaturdengan gagasan margin.
❖ Secara intuitif, hyperplane margin maksimum adalah yang bersih
memisahkan dua kelas, dan yang wilayah (atau margin) besar ada di setiap
sisi batas tanpa poin data pelatihan di dalamnya. Untuk memahami
konsep ini, sangat special kasus di mana data dapat dipisahkan secara
linear akan dibahas terlebih dahulu.
2. Prediction/Forecasting (Prediksi/Peramalan):
B. Neural Networks
❑ (Jaringan saraf) adalah model simulasi sistem saraf manusia. Manusia gelisah sistem
terdiri dari sel-sel, yang disebut sebagai neuron. Neuron biologis terhubung dengan
satu lain pada titik kontak, yang disebut sebagai sinapsis.
❑ Neuron ini adalah unit perhitungan yang menerima input dari beberapa neuron lain,
membuat perhitungan pada input ini, dan memasukkannya ke yang lain neuron.
Figure The perceptron algorithm
Pendekatan:
Untuk mengenali kata-kata yang sering muncul dalam tiap
dokumen. Dari suatu pengukuran similaritas yang didasarkan
pada frekuensi term yang berbeda. Gunakan pengukuran ini
untuk membentuk klaster-klaster.
Pencapaian:
Information retrieval dapat dimanfaatkan untuk menghubungkan
suatu dokumen baru atau mencari term ke dokumen-dokumen
yang diklaster
5. Association (Asosiasi):
Asosiasi pola penambangan awalnya diusulkan dalam konteks
aturan asosiasi pertambangan, di mana langkah tambahan
dimasukkan berdasarkan ukuran yang dikenal sebagai
kepercayaan aturan. Misalnya, pertimbangkan dua set item A dan
B.
Keyakinan aturan
❑ A ⇒ B didefinisikan sebagai fraksi transaksi yang mengandung
A, yang juga mengandung B.
❑ Dengan kata lain, kepercayaan diperoleh dengan membagi
dukungan pola A∪B dengan dukungan pola A.
❑ Kombinasi dukungan dan kepercayaan diri digunakan untuk
mendefinisikan hubungan aturan
Tiga contoh sampel asosiasi yang bervariasi kompleksitas di bawah ini:
1. Solusi sederhana adalah dengan menggunakan aturan asosiasi
penambangan di tingkat dukungan tertentu dankepercayaan. Untuk pelanggan
tertentu, aturan yang relevan adalah aturan yang mengatur semua item di sisi
kiri sebelumnya dibeli oleh pelanggan ini. Item yang muncul sering di sisi kanan
peraturan yang relevan dilaporkan.
2. Solusi sebelumnya tidak menggunakan kesamaan di berbagai pelanggan
untuk membuat rekomendasi. Solusi kedua adalah menentukan baris yang
paling mirip dengan target pelanggan, dan kemudian merekomendasikan
barang paling umum yang terjadi dan serupa.
3. Solusi terakhir adalah dengan menggunakan pengelompokan untuk
membuat segmen pelanggan yang serupa. Dalam setiap segmen yang serupa,
penambangan pola asosiasi dapat digunakan untuk membuat rekomendasi.
Aplikasi Potensial Data Mining
➢Penjualan
➢Perbankan
➢Manajemen Kartu Kredit
➢Asuransi
➢Telekomunikasi
➢Pemasaran
➢Manajemen Sumber Daya Manusia
Penambangan Data
Kecerdasan Bisnis adalah bidang yang luas dan dipandang berbeda oleh orang
yang berbeda.
Agreement Perjanjian umum tentang komponen utama:
❑Gudang data yang terpusat dan gudang data
❑Serangkaian alat pengguna akhir untuk membuat laporan dan pertanyaan
dari data dan informasi dan untuk menganalisis data, informasi, dan laporan,
analitik bisnis
❑Untuk menemukan hubungan yang tidak jelas antara sejumlah besar data
>>data mining, untuk teks >>text mining, untuk web >>web mining
❑Manajemen Kecerdasan Bisnis untuk menetapkan tujuan sebagai metrik dan
standar dan memantau dan mengukur kinerja dengan menggunakan
metodologi Kecerdasan Bisnis .
Drivers Kecerdasan Bisnis
❑Organisasi dipaksa untuk menangkap, memahami, dan
memanfaatkan data mereka untuk mendukung pengambilan
keputusan untuk meningkatkan operasi bisnis
❑Waktu siklus bisnis sekarang sangat terkompresi; Karena itu,
pengambilan keputusan yang lebih cepat, lebih banyak
informasi, dan lebih baik merupakan keharusan kompetitif
❑Manajer memerlukan informasi yang tepat pada waktu yang
tepat dan di tempat yang tepat
Nilai Bisnis dari Kecerdasan Bisnis
Fungsi Data Mining
1. Asosiasi
❑ Dari asosiasi, korelasi, hingga kausalitas
❑ Menemukan aturan seperti A -> B
2. Klasifikasi dan Prediksi
❑Klasifikasi data berdasarkan nilai-nilai dalam atribut klasifikasi
❑Memprediksi beberapa nilai atribut yang tidak diketahui atau hilang
berdasarkan informasi yang lain
3. Analisis cluster
Kelompokkan data untuk membentuk kelas baru, mis Rumah cluster untuk
menemukan pola distribusi
4.Analisis data outlier dan pengecualian
5. Analisis deret waktu (tren dan penyimpangan)
Analisis tren dan deviasi: regresi, pola sekuensial, urutan serupa mis. Analisis
stok
Mandat Undang-Undang Sarbanes-Oxley tahun 2002
Mendorong satu perusahaan untuk menerapkan sistem
manajemen kinerja keuangan baru, yang mampu memenuhi
persyaratan baru untuk:
✓Melakukan analisis sempurna dan kompilasi ribuan transaksi
dan entri jurnal.
✓Seimbangkan lebih banyak akses ke data dengan kebutuhan
untuk mengontrol akses ke informasi orang dalam yang sensitif.
✓ Kirim laporan ke SEC dalam waktu yang tepat.
Lanjutan …
Di dalam sasaran menyeluruh untuk mencapai kepatuhan
pelaporan keuangan, sasaran-sasaran ini meliputi:
✓ Dapatkan lebih banyak perhatian pada data dan KPI dan
membangun kontrol keamanan yang ketat
✓ Menyediakan laporan langsung yang memungkinkan orang
untuk menelusuri hingga ke tingkat terendah detail transaksi
Menjelajahi basis data keuangan untuk mencari anomali secara
proaktif, menggunakan pemicu varians
✓Kumpulkan semua data keuangan ke dalam basis data
yang kohesif
✓ Melengkapi aplikasi akuntansi dan penganggaran untuk
pelaporan yang fleksibel, investigasi bentuk bebas, dan
analisis data otomatis.
✓Kecerdasan Bisnis dapat secara proaktif memperingatkan
individu tertentu kapan saja
Proses Knowledge Discovery in Databases (KDD)
Langkah-langkah proses KDD