Data science : suatu ilmu yang menggabungkan data, analisis data,
dan metode ilmiah yang dituangkan ke dalam bentuk pemrograman untuk menghasilkan nilai dari sebuah data
Konsep alur proses data mining
1. Seleksi Bertujuan mentransformasikan data mentah ke format yang sesuai untuk analisis. Terdiri atas proses seleksi fitur, reduksi dimensionalitas, normalisasi dan subsetting data. Proses penyeleksian atau segmentasi data menurut beberapa criteria. Misal, Orang – orang yang mempunyai mobil. 2. Preprocessing Bertujuan untuk menjamin bahwa hasil proses data mining yang diintegrasikan pada system penunjang keputusan, benar-benar hasil yang valid. Proses pembersihan data, dimana informasi yang tidak dibutuhkan dibuang. Misal, Jenis kelamin pasien untuk analisis kehamilan. 3. Transformasi Proses transformasi sehingga data menjadi berguna dan dapat ditelusuri 4. Data Mining Proses yg berfokus pada ekstraksi pola-pola data. Pola dapat didefinisikan sebagai sekumpulan fakta-fakta (data) F, bahasa L, dan beberapa measure of certainty (pengukuran kepastian) C. Suatu pola dinyatakan S dalam L menggambarkan keterhubungan antara subset Fs dari F dengan kepastian c dimana S adalah simpel dibandingkan perhitungan semua fakta dalam Fs. 5. Interpretasi & Evaluasi
Pola diidentifikasi sistem, lalu diinterpretasikan sebagai pengetahuan yg
dapat digunakan untuk mendukung pengambilan keputusan manusia, contoh :
Tugas, prediksi & klasifikasi.
Meringkas konten suatu database. Menjelaskan fenomena yang diamati.
Perbedaan supervised dan unsupervised learning
1. Algoritma supervised learning merupakan algoritma machine learning yang proses pembelajarannya di bawah pengawasan guru atau supervisor. Algoritma ini memerlukan data berlabel untuk membangun sebuah model yang tingkat akurasinya bisa ditingkatkan dari waktu ke waktu. Semakin banyak model tersebut mengolah data, maka tingkat keakurasiannya juga akan semakin tinggi. Dalam algoritma supervised learning, terdapat dua variabel, yaitu variabel input yang biasa disebut variabel X dan variabel output yang biasa disebut variabel Y. Tujuan algoritma supervised learning adalah untuk mempelajari fungsi pemetaan dari variabel X ke variabel Y. Rumus umum pemetaan variabel X dan Y adalah Y = f(X). Tujuan akhir dari algoritma supervised learning adalah untuk memperkirakan fungsi pemetaan (f) agar kita dapat memprediksi variabel Y ketika kita memiliki data input (variabel X) yang baru. Contoh : - Linear Regression - Random Forest - Gradient Boosting - Support Vector Sysitem 2. Algoritma unsupervised learning adalah proses pembelajaran yang diawasi oleh guru, sedangkan dalam algoritma unsupervised learning, proses pembelajaran lebih bebas karena tidak ada pengawasan. Algoritma unsupervised learning lebih bebas dalam proses eksplorasi data karena tidak memiliki data label dan bisa mencari karakteristik data yang tersembunyi. Algoritma ini menggunakan titik data sebagai referensi untuk menemukan struktur dan pola yang ada di dalam data set. Contoh : - Clustering - K-means - DBSCAN - Hierarchical Clustering - Anomaly Detection