Anda di halaman 1dari 24

Manusia memproduksi beragam

data yang jumlah dan ukurannya


sangat besar.
• Astronomi
• Bisnis
• Kedokteran
• Ekonomi
• Olahraga
• Cuaca
• Financial
•…
Astronomi
kilobyte (kB) 103
• Sloan Digital Sky Survey
megabyte (MB) 106
• New Mexico, 2000
gigabyte (GB) 109
• 140TB over 10 years
• Large Synoptic Survey Telescop terabyte (TB) 1012
• Chile, 2016 petabyte (PB) 1015
• Will acquire 140TB every five exabyte (EB) 1018
days zettabyte (ZB) 1021
yottabyte (YB) 1024
Biologi dan Kedokteran
• European Bioinformatics Institute
(EBI)
• 20PB of data (geonomic data
doubles in size each year)
• A single sequenced human
genome can be around 140GB in
size
• Data harus kita olah menjadi pengetahuan supaya bisa bermanfaat bagi
manusia

Dengan pengetahuan tersebut, manusia dapat:


• Melakukan estimasi dan prediksi apa yang terjadi di depan
• Melakukan analisis tentang asosiasi, korelasi dan pengelompokan antar
data dan atribut
• Membantu pengambilan keputusan dan pembuatan kebijakan
Data Mining: Disiplin ilmu yang mempelajari
metode untuk mengekstrak pengetahuan atau
menemukan pola dari suatu data yang besar
1. Text Mining
• Mengolah data tidak terstruktur dalam bentuk text, web,
social media, dsb
• Menggunakan metode text processing untuk mengkonversi
data tidak terstruktur menjadi terstruktur.
• Kemudian diolah dengan data mining

2. Data Mining
• mengolah data terstruktur dalam bentuk tabel yang
memiliki atribut dan kelas
• Menggunakan metode data mining, yang terbagi menjadi
metode estimasi, forecasting, klasifikasi, klastering atau
asosiasi
• Yang dasar berpikirnya menggunakan konsep statistika
atau heuristik ala machine learning.
• Termasuk dalam metode learning Supervised Learning
• Variabel yang menjadi label/kelas berupa bilangan
numeric/angka
• Algoritma yang dapat digunakan antara lain: Linear
Regression, Neural Network, Support Vector Machine, dsb
• Termasuk dalam metode learning Supervised
Learning
• Variabel yang menjadi label/kelas berupa bilangan
numeric/angka pada data yang berupa time
series/data rentet waktu
• Algoritma yang dapat digunakan antara lain: Linear
Regression, Neural Network, Support Vector Machine, dsb
• Klasifikasi merupakan suatu pekerjaan menilai objek data
untuk memasukkannya ke dalam kelas tertentu dari
sejumlah kelas yang tersedia.
• Dalam klasifikasi ada dua pekerjaan utama yang
dilakukan, yaitu:
* Pembangunan model sebagai prototipe untuk disimpan
sebagai memori
* Penggunaan model tersebut untuk melakukan
pengenalan/klasifikasi/prediksi dari suatu objek data lain
agar diketahui di kelas mana objek data tersebut dalam
model yang sudah disimpan.
• Analisis kelompok adalah pekerjaan mengelompokkan data
(objek) yang didasarkan hanya pada informasi yang
ditemukan dalam data yang menggambarkan objek
tersebut dan hubungan di antaranya.
• Klasteringbertujuan agar objek-objek yang bergabung
dalam sebuah kelompok merupakan objek-objek yang
mirip satu sama lain dan berbeda dengan objek dalam
kelompok lain.
• Hasil
pengelompokan pada proses klastering tidak serta
merta dapat dianggap sebagai suatu hasil akhir yang pasti
• Asosiasi digunakan untuk menggali
pola/pengetahuan/aturan asosiasi yang terjadi
antaritem yang ada pada data transaksi.
• Asosiasi identik dengan data transaksi.
Silahkan Kerjakan Kuis di http://sunan.umk.ac.id dengan
ketentuan :
Soal Pilihan Ganda
Waktu Pengerjaan 30 Menit
Kesempatan Pengerjaan 1 Kali
Nilai Maksimal Kuis 4

Anda mungkin juga menyukai