Anda di halaman 1dari 6

Machine Learning With Python for Beginner|by DQLab

Su
mber : Google

Machine Learning adalah teknik dimana komputer dapat mengekstraksi atau mempelajari pola
dari suatu data, kemudian dengan pola yang telah dipelajari dari data historis, komputer mampu
mengenali dan memprediksi trend, hasil atau kejadian di masa mendatang atau dari observasi
baru tanpa perlu diprogram secara eksplisit. 

Dalam pembuatan model machine learning tentunya dibutuhkan data. Sekumpulan data yang
digunakan dalam machine learning disebut DATASET, yang kemudian dibagi/di-split menjadi
training dataset dan test dataset.

TRAINING DATASET digunakan untuk membuat/melatih model machine learning, sedangkan


TEST DATASET digunakan untuk menguji performa/akurasi dari model yang telah dilatih/di-
training.

Teknik atau pendekatan yang digunakan untuk membangun model disebut ALGORITHM
seperti Decision Tree, K-NN, Linear Regression, Random Forest, dsb. Output atau hasil dari
proses melatih algorithm dengan suatu dataset disebut MODEL.

Umumnya dataset disajikan dalam bentuk tabel yang terdiri dari baris dan kolom. Bagian Kolom
adalah FEATURE atau VARIABEL data yang dianalisa, sedangkan bagian baris adalah DATA
POINT/OBSERVATION/EXAMPLE.

Hal yang menjadi target prediksi atau hal yang akan diprediksi dalam machine learning disebut
LABEL/CLASS/TARGET. Dalam statistika/matematika, LABEL/CLASS/TARGET ini
dinamakan dengan Dependent Variabel, dan FEATURE adalah Independent Variabel.
Sumber : DQL
ab

Dari gambar terlihat bahwa nomor 1 menunjukkan sebuah dataset, nomor 2 menunjukkan
feature, nomor 3 menunjukkan Label, dan nomor 4 menunjukkan Data point. Selanjutnya akan
diberi kasus sebagai berikut. 

Senja dan Aksara akan membuat suatu model Machine Learning yang dapat memprediksi
apakah customer akan melakukan pembelian setelah mengunjungi beberapa halaman e-
commerce. Target adalah 1 jika customer melakukan pembelian dan 0 jika tidak ada pembelian.
Berikut, 10 baris pertama dari dataset yang digunakan oleh Senja dan Aksara. Kolom manakah
yang dapat digunakan oleh Senja dan Aksara sebagai predictor variable atau feature?

Sum
ber : DQLab

Kolom yang dapat digunakan sebagai predictor variable atau feature adalah kolom
ProductRelated, BouncedRates, ExitRates, dan Weekend.
Kita pasti bertanya-tanya, bagaimana sebenarnya cara kerja Machine Learning? 

Algoritme Machine Learning dilatih menggunakan training dataset untuk membuat model. Saat
data input baru diperkenalkan ke algoritme ML, maka data tersebut akan dibuat prediksi
berdasarkan model. Kemudian, prediksi dievaluasi keakuratannya dan jika akurasinya dapat
diterima, algoritme ML akan diterapkan. Namun, jika keakuratannya tidak dapat diterima,
algoritme ML akan dilatih berulang kali dengan training dataset yang ditambah. Ini hanyalah
contoh tingkat tinggi karena ada banyak faktor dan langkah lain yang terlibat.

Sumber : https://www.edureka.co/blog/what-is-machine-learning/

Machine Learning itu terbagi menjadi 2 tipe yaitu supervised dan unsupervised Learning. Jika
LABEL/CLASS dari dataset sudah diketahui maka dikategorikan sebagai supervised learning,
dan jika Label belum diketahui maka dikategorikan sebagai unsupervised learning.

Penting untuk diingat bahwa tidak ada ML algorithm yang cocok atau fit untuk diaplikasikan di
semua problem. Oleh karena itu, proses ini terkadang memerlukan trial & error seperti research,
bahkan experienced data scientist pun tidak akan tahu apakah algorithm itu akan tepat atau tidak
jika tidak mencoba. Biasanya, data scientist akan mencoba beberapa algorithm dan
membandingkan performansi dari algorithm — algorithm tersebut. Algorithm dengan
performansi yang paling baiklah yang dipilih sebagai model.

Selain itu untuk supervised learning, jika LABEL dari dataset kalian berupa numerik atau
kontinu variabel seperti harga, dan jumlah penjualan, kita memilih metode REGRESI dan jika
bukan numerik atau diskrit maka digunakan metode KLASIFIKASI. Untuk unsupervised
learning, seperti segmentasi customer, kita menggunakan metode CLUSTERING.
Sumber : DQLab

Eksplorasi Data: Memahami Data dengan Statistik — Part 1

Ada tahapan yang penting yang harus dilakukan untuk dapat menghasilkan model yang baik.
Kita akan memanfaatkan Pandas library. Pandas cukup powerful untuk digunakan dalam
menganalisa, memanipulasi dan membersihkan data. 

Langkah pertama yang harus kita lakukan adalah mengecek dimensi data kita terlebih dahulu.
Untuk itu kita akan load datanya dan gunakan .shape, .head(), .info(), dan .describe() untuk
mengeksplorasi dataset secara berurut. 

Dataset yang akan dipakai adalah data pembeli online yang mengunjungi website dari suatu e-
commerce selama setahun. Data tersebut dapat diperoleh dari ‘https://dqlab-dataset.s3-ap-
southeast-1.amazonaws.com/pythonTutorial/online_raw.csv’.

Maka output yang dihasilkan adalah sebagai berikut.


Berdasarkan output yang diperoleh kita dapat mengetahui dimensi dari data yaitu jumlah baris
dan kolom, sehingga kita bisa mengetahui apakah data kita terlalu banyak atau justru sangat
sedikit. Jika data terlalu banyak, waktu melatih model akan lebih lama, sedangkan jika data
terlalu sedikit, performansi model yang kita hasilkan mungkin tidak cukup bagus, karena tidak
mampu mengenali pola dengan baik. 

Anda mungkin juga menyukai