Prastika indriyanti
PRASTIKA INDRIYANTI SKom, MCS.,
081387873919
Prastika@mercubuana.ac.id
Prast.tika@gmail.com
@prasttika
Absensi
meet :
ijin + tugas
Ketua Kelas :
TB 1
indefitikasi permasalahan data mining
Kontrak TB2
TB1++
perkuliahan UAS
TB 1+TB2++
Project Data Mining (dataset nya ga bole yg ada di situs belajar data science
contoh kagle| basic daset =iris dataset/ heart deseasest dataset
Enviroment :
python > Google Colab
Rapid Miner, Tablue,
R
what is Data ??
Introduction
mengolah data untuk menjadi sebuah informasi
Data Mining
Inroduction Data mining is the process of discovering insightful, interesting, and
novel patterns, as well as descriptive, understandable and predictive
Data Mining models from large-scale data.
Deskripsi
Deskripsi bertujuan untuk mengidentifikasi pola yang muncul
secara berulang pada suatu data dan mengubah pola tersebut
Proses Data menjadi aturan dan kriteria yang dapat mudah dimengerti oleh para
ahli pada domain aplikasinya.
Mining Prediksi
Prediksi memiliki kemiripan dengan klasifikasi, akan tetapi data
diklasifikasikan berdasarkan perilaku atau nilai yang diperkirakan
pada masa yang akan datang
Estimasi
Estimasi hampir sama dengan prediksi, kecuali variabel target estimasi
lebih ke arah numerik dari pada ke arah kategori. Model dibangun
menggunakan record lengkap yang menyediakan nilai dari variabel
target sebagai nilai prediksi
Proses data Klasifikasi
mining proses menemukan sebuah model atau fungsi yang
mendeskripsikan dan membedakan data ke dalam kelas-kelas.
Klasifikasi melibatkan proses pemeriksaan karakteristik dari objek
dan memasukkan objek ke dalam salah satu kelas yang sudah
didefinisikan sebelumnya.
Clustering
Process Data pengelompokan data tanpa berdasarkan kelas data tertentu ke dalam
kelas objek yang sama
mining Asosiasi
menemukan atribut yang muncul dalam suatu waktu.
Tahapan Data
Mining
Database
data yang suda terorganisir
Data Warehouse
sudah berQuery, suda tertata
Dataset
sekumpulan data yg akan di olah atau di gunakan
1. Data selection
Pemilihan (seleksi) data dari sekumpulan data operasional perlu
dilakukan sebelum tahap penggalian informasi dalam KDD dimulai.
2. Pre-processing / cleaning
Sebelum proses data mining dapat dilaksanakan, perlu dilakukan
Tahapan Data proses cleaning pada data yang menjadi fokus KDD. Proses cleaning
mencakup antara lain membuang duplikasi data, memeriksa data
Mining yang inkonsisten, dan memperbaiki kesalahan pada data.
3. Transformation
Coding adalah proses transformasi pada data yang telah dipilih,
sehingga data tersebut sesuai untuk proses data mining. Proses
coding dalam KDD merupakan proses kreatif dan sangat tergantung
pada jenis atau pola informasi yang akan dicari dalam basis data.
4. Data mining
Data mining adalah proses mencari pola atau informasi menarik
dalam data terpilih dengan menggunakan teknik atau metode
tertentu. Teknik, metode, atau algoritma dalam data mining sangat
Tahapan Data bervariasi. Pemilihan metode atau algoritma yang tepat sangat
bergantung pada tujuan dan proses KDD secara keseluruhan.
Mining 5. Interpretation / evalution
Pola informasi yang dihasilkan dari proses data mining perlu
ditampilkan dalam bentuk yang mudah dimengerti oleh pihak yang
berkepentingan. Tahap ini merupakan bagian dari proses KDD yang
disebut interpretation.
Sequence Mining
Sequence mining adalah suatu proses pengelompokan data,
dimana data yang dikelompokkan merupakan suatu pola berurut
dan feature dalam data yang muncul sebelumnya menentukan
probabilitas dari kemunculan feature berikutnya.
Introduction In essence, there are really two types of data that can be mined:
operational and organizational
Data Mining
The number of instances n is referred to as the size of the
data, whereas the number of attributes d is called the
dimensionality of the data
rows may also be referred to
as entities, instances,
examples, records,
transactions, objects, points,
feature-vectors, tuples and
Classfiifcation
Clustering is the task of partitioning the points into natural groups
called clusters, such that points within a group are very similar,
whereas points across clusters are as dissimilar as possible.
The classification task is to predict the label or class for a given
unlabeled point.
Clustering
K-Means Clustering
Agglomerative Hierarchical Clustering
Classfiifcation
databases? data warehouses? data sets?