Anda di halaman 1dari 25

Data mining LANJUT

Prastika indriyanti
 PRASTIKA INDRIYANTI SKom, MCS.,
 081387873919
 Prastika@mercubuana.ac.id
 Prast.tika@gmail.com
 @prasttika
 Absensi
 meet :
 ijin + tugas
 Ketua Kelas :
 TB 1
 indefitikasi permasalahan data mining
Kontrak  TB2
 TB1++
perkuliahan  UAS
 TB 1+TB2++
 Project Data Mining (dataset nya ga bole yg ada di situs belajar data science
contoh kagle| basic daset =iris dataset/ heart deseasest dataset
 Enviroment :
 python > Google Colab
 Rapid Miner, Tablue,
 R
 what is Data ??

Intro to Data > yang bisa di olah


> informasi
Mining > sekumpulan fakta
 What is data mining?

Introduction
mengolah data untuk menjadi sebuah informasi
Data Mining
Inroduction Data mining is the process of discovering insightful, interesting, and
novel patterns, as well as descriptive, understandable and predictive
Data Mining models from large-scale data.
 Deskripsi
Deskripsi bertujuan untuk mengidentifikasi pola yang muncul
secara berulang pada suatu data dan mengubah pola tersebut
Proses Data menjadi aturan dan kriteria yang dapat mudah dimengerti oleh para
ahli pada domain aplikasinya.
Mining  Prediksi
 Prediksi memiliki kemiripan dengan klasifikasi, akan tetapi data
diklasifikasikan berdasarkan perilaku atau nilai yang diperkirakan
pada masa yang akan datang
 Estimasi
Estimasi hampir sama dengan prediksi, kecuali variabel target estimasi
lebih ke arah numerik dari pada ke arah kategori. Model dibangun
menggunakan record lengkap yang menyediakan nilai dari variabel
target sebagai nilai prediksi
Proses data  Klasifikasi
mining proses menemukan sebuah model atau fungsi yang
mendeskripsikan dan membedakan data ke dalam kelas-kelas.
Klasifikasi melibatkan proses pemeriksaan karakteristik dari objek
dan memasukkan objek ke dalam salah satu kelas yang sudah
didefinisikan sebelumnya.
 Clustering
Process Data pengelompokan data tanpa berdasarkan kelas data tertentu ke dalam
kelas objek yang sama
mining  Asosiasi
menemukan atribut yang muncul dalam suatu waktu.
Tahapan Data
Mining
 Database
 data yang suda terorganisir
 Data Warehouse
 sudah berQuery, suda tertata

 Dataset
 sekumpulan data yg akan di olah atau di gunakan
1. Data selection 
Pemilihan (seleksi) data dari sekumpulan data operasional perlu
dilakukan sebelum tahap penggalian informasi dalam KDD dimulai.
2. Pre-processing / cleaning 
Sebelum proses data mining dapat dilaksanakan, perlu dilakukan
Tahapan Data proses cleaning pada data yang menjadi fokus KDD. Proses cleaning
mencakup antara lain membuang duplikasi data, memeriksa data
Mining yang inkonsisten, dan memperbaiki kesalahan pada data.
3. Transformation 
Coding adalah proses transformasi pada data yang telah dipilih,
sehingga data tersebut sesuai untuk proses data mining. Proses
coding dalam KDD merupakan proses kreatif dan sangat tergantung
pada jenis atau pola informasi yang akan dicari dalam basis data.
4. Data mining 
Data mining adalah proses mencari pola atau informasi menarik
dalam data terpilih dengan menggunakan teknik atau metode
tertentu. Teknik, metode, atau algoritma dalam data mining sangat
Tahapan Data bervariasi. Pemilihan metode atau algoritma yang tepat sangat
bergantung pada tujuan dan proses KDD secara keseluruhan.
Mining 5. Interpretation / evalution 
Pola informasi yang dihasilkan dari proses data mining perlu
ditampilkan dalam bentuk yang mudah dimengerti oleh pihak yang
berkepentingan. Tahap ini merupakan bagian dari proses KDD yang
disebut interpretation.
Sequence Mining
Sequence mining adalah suatu proses pengelompokan data,
dimana data yang dikelompokkan merupakan suatu pola berurut
dan feature dalam data yang muncul sebelumnya menentukan
probabilitas dari kemunculan feature berikutnya.
Introduction  In essence, there are really two types of data that can be mined:
operational and organizational
Data Mining
The number of instances n is referred to as the size of the
data, whereas the number of attributes d is called the
dimensionality of the data
rows may also be referred to
as entities, instances,
examples, records,
transactions, objects, points,
feature-vectors, tuples and

Matrix data columns may also be called


attributes, properties,
features, dimensions,
variables, fields, and so on.

x1 = (5.9, 3.0, 4.2, 1.5, Iris-versicolor)


 Numeric Attributes A numeric attribute is one that has a real-
valued or integer valued domain
 Interval-scaled: For these kinds of attributes only differences
Matrix data (addition or subtraction) make sense. For example, attribute
temperature measured in ◦C or ◦F is interval-scaled.
 Ratio-scaled: Here one can compute both differences as well as
ratios between values. For example, for attribute Age,
 Data: Algebraic and Geometric View
Matrix data
 Clustering

 Classfiifcation
 Clustering is the task of partitioning the points into natural groups
called clusters, such that points within a group are very similar,
whereas points across clusters are as dissimilar as possible.
 The classification task is to predict the label or class for a given
unlabeled point.
 Clustering
 K-Means Clustering
 Agglomerative Hierarchical Clustering
 Classfiifcation
 databases? data warehouses? data sets?

Anda mungkin juga menyukai