Anda di halaman 1dari 2

 Pengertian data science

Data science : suatu ilmu yang menggabungkan data, analisis data,


dan metode ilmiah yang dituangkan ke dalam bentuk pemrograman
untuk menghasilkan nilai dari sebuah data

 Konsep alur proses data mining


1. Seleksi
Bertujuan mentransformasikan data mentah ke format yang sesuai untuk
analisis. Terdiri atas proses seleksi fitur, reduksi dimensionalitas, normalisasi
dan subsetting data. Proses penyeleksian atau segmentasi data menurut beberapa
criteria. Misal, Orang – orang yang mempunyai mobil.
2. Preprocessing
Bertujuan untuk menjamin bahwa hasil proses data mining yang
diintegrasikan pada system penunjang keputusan, benar-benar hasil yang
valid. Proses pembersihan data, dimana informasi yang tidak dibutuhkan
dibuang. Misal, Jenis kelamin pasien untuk analisis kehamilan.
3. Transformasi
Proses transformasi sehingga data menjadi berguna dan dapat ditelusuri
4. Data Mining
Proses yg berfokus pada ekstraksi pola-pola data. Pola dapat didefinisikan
sebagai sekumpulan fakta-fakta (data) F, bahasa L, dan beberapa measure
of certainty (pengukuran kepastian) C.
Suatu pola dinyatakan S dalam L menggambarkan keterhubungan antara
subset Fs dari F dengan kepastian c dimana S adalah simpel dibandingkan
perhitungan semua fakta dalam Fs.
5. Interpretasi & Evaluasi

Pola diidentifikasi sistem, lalu diinterpretasikan sebagai pengetahuan yg


dapat digunakan untuk mendukung pengambilan keputusan manusia,
contoh :

 Tugas, prediksi & klasifikasi.


 Meringkas konten suatu database.
 Menjelaskan fenomena yang diamati.

 Perbedaan supervised dan unsupervised learning


1. Algoritma supervised learning merupakan algoritma machine learning yang
proses pembelajarannya di bawah pengawasan guru atau supervisor.
Algoritma ini memerlukan data berlabel untuk membangun sebuah model
yang tingkat akurasinya bisa ditingkatkan dari waktu ke waktu. Semakin
banyak model tersebut mengolah data, maka tingkat keakurasiannya juga
akan semakin tinggi. Dalam algoritma supervised learning, terdapat dua
variabel, yaitu variabel input yang biasa disebut variabel X dan variabel
output yang biasa disebut variabel Y. Tujuan algoritma supervised learning
adalah untuk mempelajari fungsi pemetaan dari variabel X ke variabel Y.
Rumus umum pemetaan variabel X dan Y adalah Y = f(X). Tujuan akhir dari
algoritma supervised learning adalah untuk memperkirakan fungsi
pemetaan (f) agar kita dapat memprediksi variabel Y ketika kita memiliki
data input (variabel X) yang baru.
Contoh : - Linear Regression
- Random Forest
- Gradient Boosting
- Support Vector Sysitem
2. Algoritma unsupervised learning adalah proses pembelajaran yang diawasi
oleh guru, sedangkan dalam algoritma unsupervised learning, proses
pembelajaran lebih bebas karena tidak ada pengawasan. Algoritma
unsupervised learning lebih bebas dalam proses eksplorasi data karena
tidak memiliki data label dan bisa mencari karakteristik data yang
tersembunyi. Algoritma ini menggunakan titik data sebagai referensi untuk
menemukan struktur dan pola yang ada di dalam data set. 
Contoh : - Clustering
- K-means
- DBSCAN
- Hierarchical Clustering
- Anomaly Detection

Anda mungkin juga menyukai