1
Sistem Informasi, Universitas Tarumanagara
Email: ivan.825180032@stu.untar.ac.id
2
Sistem Informasi, Universitas Tarumanagara
Email: ari.825180019@stu.untar.ac.id
3
Sistem Informasi, Universitas Tarumanagara
Email: febrian.825180043@stu.untar.ac.id
4
Sistem Informasi, Universitas Tarumanagara
Email:azzahra.825180076@stu.untar.ac.id
ABSTRACT
This study aims to find out how to make Machine Learning in Python using the Lazada Indonesian
Reviews dataset. This research is a study in 2 datasets, namely; data set items, and dataset reviews. The
research sample has 9 columns and 10 942 rows on the items dataset, and 15 columns and 203787 rows
on the dataset reviews. The use of libraries in python is various, namely; matplotlib, pandas, numpy,
seaborn, regular expression, and operation system. Then the data were analyzed using descriptive
statistical analysis. The results showed that the product brand name in the items dataset had a lot of
total reviews for each product brand name itself with a value of> 10, namely the Sharp brand, followed
by the average value in the histogram which had a value of> 1.00. In order to find out some dirty or
corrupt data, we make data cleaning on the items dataset and the dataset reviews. To find out some of
the total missing values in items and reviews, we have added them together in the Kaggle.com links.
Missing values based on NaN, nan, and null. So we made the missing values '0' and created outliers that
could delete or replace the values. Our research used a bar plot visualization, and a pie chart. Based on
the results of this study, it can be concluded that there are differences in brand names in each rating of
the brand rating from the results of the total review which has a very significant difference from the
customer reviews dataset using the Lazada Indonesia application.
1
1. PENDAHULUAN
Latar Belakang
Machine Learning merupakan cabang aplikasi dari Artifical Intelligence yang berfokus kepada
pengembangan suatu system yang mampu belajar secara individu tanpa diprogram berulang kali.
Pemograman python seringkali membuat ambigu pengguna sehingga terkadang berbeda dengan
bahasa pemograman lainnya,contohnya : c++, c#, dan java.
Machine Learning tanpa kita sadari telah ada dalam sekitar kita,hampir seluruh kegiatan yang
kita lakukan dalam dunia digital sudah dilengkapi dengan machine learning.
Untuk itu, kita dapat melihat beberapa produk yang disukai para customer penggunaan aplikasi
Lazada dengan python Machine Learning.Dengan adanya solusi ini, diharapkan para pembaca
bisa menggunakan beberapa Library dalam Machine Learning, sehingga semua pembaca dapat
menanalisis dataset yang mereka miliki.
Rumusan Masalah
Perkembangan zaman menjadi banyak penggunaan teknologi seperti smartphone, komputer , dan
aplikasi toko online. Machine Learning membawa manusia dan mesin bekerja sama dengan
pendekatan manusia “ mengajar “ mesin. Mesin dapat belajar dengan memproses Latihan yang
memuatkan fitur-fitur penting untuk menyesuaikan ke algoritma. Algoritma tersebut menjadikan
mesin mampu mengeksekusi pekerjaan speksifik, seperti klasifikasi email dan filter spam pada
email.
Tetapi manfaat yang kita rasakan adalah lebih jauh dari klasifikasi email yang sudah ada
beberapa tahun lalu. Saat ini kita merasakan machine learning yang lebih nyata dalam beberapa
aspek kehidupan, contohnya adalah sebuah drone yang dapat memetakan benda-benda di jalan
raya, mengukur luat jembatan dengan akurasi yang tinggi, serta menilai wilayah rekonstruksi
dengan cepat dan tepat.
Terkadang Machine Learning memiliki dampak yang tidak hanya positif saja. Melain banyak
yang dampak negatif yang terjadi. Contohnya adalah AI dapat memiliki data dan informasi yang
tersimpan secara digital atau online, dan menghilangkan pekerjaan setiap manusia. Ketika AI
digunakan untuk urusan adminstrasi di sekolah, tidak menutup kemungkinan akan
menghilkangkan peran tata usaha di sekolahan yang digantikan dengan AI.
2
2. METODE PENELITIAN
Tahap Penelitian dan metode
Penelitian kuantitatif yang diusulkan oleh penulis dilakukan dalam tiga tahapan.Tahapan pertama
dalah persiapan library yang digunakan dalam python machine learning, penggunaan dataframes,
dan penggunaan data cleaning, penggunaan missing values, dan visualisasi.
Berdasarkan data yang kami gunakan pada Kaggle.com tentang Lazada Indonesian Reviews,
Lazada memiliki 2 dataset yaitu; items, dan reviews. Masing-masing memiliki data mencapai
>10.000 baris, kolom pada dataset items memiliki 9 kolom dan kolom pada dataset reviews
memiliki 15 kolom. Penilitian kali ini kami sudah menyiapkan beberapa library data yang akan
digunakan atau diperlukan untuk penilitian ini. Membuat dataframe pada dataset csv, dan
membuat beberapa shape dan describe sebuah kedua dataset. Menghasilkan df_items sebanyak 9
buah, dan baris sebanyak 10942 buah. Pada kolom price, harga tertinggi yaitu 275000000, harga
terendah 1000, dan rata-rata harganya 3020219. rating tertinggi adalah 5 dan rating terendah
adalah 1 total review memiliki rata-rata sebesar 27, terendah sebesar 1, dan tertinggi sebesar
9631.
3
Data Cleaning adalah merupakan suatu proses mendeteksi dan memperbaiki (atau menghapus)
suatu record yang missing values 'corrupt' atau tidak akurat berdasarkan sebuah record set, tabel,
atau database. Berfungsi untuk mengindentifikasi bagian data mana yang tidak lengkap, tidak
tepat , tidak akurat atau tidak relevan, yang untuk data-data "kotor" tersebut akan diganti,
dimodifikasi, atau dihapus.
Tahap terakhir kami membuat visualisasi yang berhubungan dengan pelanggan customer Lazada
yang mencari beberapa produk nama brand televisi. Berikut adalah Tabel dan gambar hasil
penilitian kami.
Tabel 1. Hasil deskripsi dataframe items
Sumber tabel: https://www.kaggle.com/ivansutedjo/uts-kelompok-ivan-sutedjo
itemId Price averageRating totalReviews
count 1.094200e+04 1.094200e+04 10942.000000 10942.000000
Mean 2.936823e+08 3.020219e+06 4.171632 27.369494
Std 2.090568e+08 6.681453e+06 1.032055 260.253817
Min 6.068000e+03 1.000000e+03 1.000000 1.000000
25% 1.082924e+08 7.920000e+04 4.000000 1.000000
50% 3.540792e+08 1.095000e+06 4.000000 2.000000
75% 4.527141e+08 3.959000e+06 5.000000 7.000000
max 7.242170e+08 2.750000e+08 5.000000 9631.000000
Gambar 1. Hasil visualisasi Piechart Rating rata-rata pelanggan menilai nama product
Sumber Gambar:Screenshoot https://www.kaggle.com/ivansutedjo/uts-kelompok-ivan-sutedjo
4
4. KESIMPULAN DAN SARAN
1.Kesimpulan
Berdasarkan penilitian diatas dapat disimpulkan bahwa makalah kegiatan Machine Learning
Lazada Indonesian Reviews yaitu kegiatan meneliti dengan kuantitatif yang menggunakan
dataset items dan reviews untuk mengetahui penggunaan pelanggan/customer Lazada menyukai
produk nama brand apa saja.
2.Saran
Penulis menyadari bahwa Machine Learning adalah suatu teknologi yang akan membantu sebuah
aplikasi seperti e-commerce, dan dapat mengetahui informasi sebuah user dalam pencarian yang
diinginkan user dalam sebuah smartphone atau komputer. Penulis pun menyadari sepenuhnya
jika makalah ini masih banyak kesalahan dan jauh dari sempurna. Oleh karena,itu untuk
memperbaiki makalah tersebut penulis meminta kritik yang membangun dari para pembaca.
REFERENSI
https://medium.com/@yasirabd/pengenalan-numpy-pandas-matplotlib-b90bafd36c0
https://www.dqlab.id/belajar-pandas-untuk-tingkatkan-kompetensi-python
https://www.pythonindo.com/regular-expression/
https://www.kaggle.com/grikomsn/lazada-indonesian-reviews
https://ngodingdata.com/python-pandas-dataframe/
https://nzlul.medium.com/data-cleansing-using-python-case-imdb-dataset-eac5aaee293e
https://ngodingdata.com/visualisasi-matplotlib-dengan-pandas/
https://blog.kejarcita.id/7-dampak-positif-dan-negatif-penerapan-artificial-intelligence-dalam-
pembelajaran/
https://algorit.ma/blog/data-science/industri-manfaatkan-machine-learning/
LINK KAGGLE.COM:
https://www.kaggle.com/ivansutedjo/uts-kelompok-ivan-sutedjo