Anda di halaman 1dari 6

See discussions, stats, and author profiles for this publication at: https://www.researchgate.

net/publication/366230758

ANALISIS DATASET GOOGLE PLAYSTORE MENGGUNAKAN METODE


EXPLORATORY DATA ANALYSIS Analysis of Google Playstore Datasets Using
Exploratory Data Analysis Methods

Conference Paper · December 2022

CITATIONS READS
0 103

3 authors, including:

Intan Larasati Anisa Rahma


Universitas Jember
1 PUBLICATION 0 CITATIONS

SEE PROFILE

All content following this page was uploaded by Intan Larasati Anisa Rahma on 13 December 2022.

The user has requested enhancement of the downloaded file.


ANALISIS DATASET GOOGLE PLAYSTORE MENGGUNAKAN
METODE EXPLORATORY DATA ANALYSIS

Analysis of Google Playstore Datasets Using Exploratory Data


Analysis Methods
Intan Larasati Anisa Rahma1, Shafira Nurin Qolbi2, Aishaa Saffanah Zahra3
Program Studi Sistem Informasi, Fakultas Ilmu Komputer, Universitas Jember123
Jl. Kalimantan Tegalboto No.37, Krajan Timur, Kec. Sumbersari, Kabupaten Jember, Jawa Timur 123
212410101051@mail.unej.ac.id1, 212410101004@mail.unej.ac.id2, 212410101026@mail.unej.ac.id3

ABSTRAK: Pengembang aplikasi dapat menghadapi kendala terutama ketika mereka tidak
mengetahui indikator apa saja yang dapat mempengaruhi postingan ulasan, peringkat, dan jumlah
unduhan pada aplikasi yang dikembangkan. Hal ini dapat menjadi hambatan bagi pengembang
aplikasi dalam penentuan estimasi tujuan yang harus dicapai ketika mengembangkan aplikasi dan
dapat menimbulkan efek buruk ketika mendapatkan peringkat/ulasan yang buruk. Tujuan penelitian ini
untuk menemukan pola serta indikator yang dapat mempengaruhi postingan ulasan, peringkat, dan
jumlah unduhan aplikasi untuk membantu pengembang aplikasi menetapkan target dengan
menggunakan metode Exploratory Data Analysis dan Visualisasi Data. Hasil menunjukkan bahwa
aplikasi dengan nama yang lebih pendek, dengan ukuran lebih kecil, dan gratis memiliki peluang lebih
tinggi untuk diunduh oleh masyarakat. Sehingga, penulis menyarankan agar pengembang aplikasi
berfokus pada indikator yang mempengaruhi peringkat, ulasan, dan jumlah unduhan agar
pengembang aplikasi memiliki gambaran tentang aplikasi yang kemungkinan besar akan diterima oleh
pengguna aplikasi dan mendapatkan postingan ulasan yang bagus serta peringkat dan jumlah
unduhan yang tinggi.

Kata kunci: Exploratory Data Analysis, Google Playstore, Aplikasi.

ABSTRACT: Application developers can face obstacles, especially when they don't know what
indicators can affect review posts, ratings, and the number of downloads of the application being
developed. This can be an obstacle for application developers in determining the estimated goals that
must be achieved when developing applications and can have an adverse effect when getting bad
ratings/reviews. This research aims to find patterns and indicators that can affect review postings,
ratings, and the number of application downloads to help application developers set targets through
this research using Exploratory Data Analysis and Data Visualization methods. The results show that
apps with a shorter name, with a smaller size, and for free have a higher chance of being downloaded
by the public. Thus, the authors suggest that developers should focus on indicators that affect ratings,
reviews, and the number of downloads so that the developers have a representation of the applications
that are most likely to be received by application users and get a good review as well as high as ratings
and the number of downloads.

Keywords: Exploratory Data Analysis, Google Playstore, Application.


ratusan ribu aplikasi android dari smartphone (Wira
PENDAHULUAN Hadi dkk., 2020). Dari seluruh aplikasi app store,
Smartphone terus mendapatkan popularitas rata-rata orang akan memilih Google Play Store
dengan cepat selama beberapa tahun terakhir. dikarenakan popularitasnya yang meningkat dan
Menurut data dari databoks, menunjukkan bahwa pertumbuhannya yang cepat akhir-akhir ini
Indonesia merupakan salah satu negara dengan (Schnack, 2014). Hal tersebut dikarenakan fakta
pengguna smartphone terbanyak dengan peringkat bahwa sekitar 96% aplikasi yang tersedia pada
ke empat di dunia (Pusparisa, 2021). Fitur yang Google Playstore pada tahun 2022 yakni gratis
diberikan pada smartphone pun beragam, salah (Ceci, 2022). Oleh karena itu, pengguna
satunya yaitu menyediakan aplikasi app store. App smartphone cenderung untuk memilih Google
Store merupakan platform distribusi aplikasi Playstore sebagai platform unduhan aplikasi
difungsikan sebagai tempat untuk mengunduh dibandingkan dengan aplikasi app store yang lain.
Google Playstore menyediakan fitur posting METODOLOGI PENELITIAN
ulasan, peringkat, dan jumlah unduhan yang dapat
dilihat oleh calon pengguna aplikasi lainnya di A. Metode Penelitian
Google Playstore. Tinggi rendahnya peringkat Dalam penelitian ini metode yang digunakan
dapat memberikan pemahaman kepada pengguna untuk menganalisis dataset Google Playstore
mengenai gambaran isi dan konten aplikasi tersebut adalah metode Exploratory Data Analysis (EDA).
(Oktavian dan Budi, 2020). Penelitian oleh Menurut Taboada dan Han, EDA merupakan
Apptentive menunjukkan bahwa 50% pengguna sebuah teknik heuristic untuk mencari dan
aplikasi seluler tidak akan mempertimbangkan menemukan relasi yang signifikan antara variabel
aplikasi dengan peringkat 3 bintang. Angka itu turun dataset (Samosir, dkk., 2021). EDA berfokus untuk
menjadi 85% untuk peringkat 2 bintang melakukan investigasi secara kritis pada data dalam
(BusinessofApps, 2020). Sehingga, sebagai menemukan pola dan anomali, melakukan
pengembang aplikasi, tentu saja peringkat dan pengujian hipotesis, serta memeriksa asumsi yang
ulasan tidak dapat diabaikan dikarenakan dapat ada. EDA berfungsi untuk memahami hubungan
membangun stigma negatif bagi pengguna dan antar variabel dan menyaringnya, sehingga didapat
pengguna akan enggan untuk menggunakan variabel yang penting dan tidak
aplikasi tersebut. Mendapatkan postingan ulasan EDA juga membantu dataset dalam
yang baik dengan rating yang tinggi merupakan meringkas karaktristik statistik data dengan
harapan dari setiap pengembang aplikasi berfokus pada empat aspek kunci, seperti ukuran
dikarenakan hal tersebut dapat menjadi acuan tendensi sentral (terdiri dari rata-rata, modus, dan
apakah aplikasi tersebut banyak disukai oleh median), ukuran jangkauan perataan (spread),
mayoritas penggunanya atau tidak. Melalui ulasan distribusi, dan keberadaan outlier sebuah data
dan peringkat, pengembang aplikasi dapat (Sahoo, dkk., 2019). Hasil ringkasan statistik yang
menemukan fitur aplikasi yang perlu ditingkatkan diambil dari karakteristik data dengan
atau ditambahkan. Oleh karena itu, keberhasilan menggunakan EDA tersebut kemudian dapat
suatu aplikasi berhubungan erat dengan postingan direpresentasikan dengan bantuan grafis yang
ulasan, peringkat, dan jumlah unduhan yang ditampilkan sebagai visualisasi data. Visualisasi
diterimanya. data berfungsi untuk menggambarkan secara nyata
Pengembang aplikasi dapat menghadapi tingkatan dalam data yang bergerak baik dalam
kendala terutama ketika mereka tidak mengetahui bentuk tabel, bar chart, pie chart, line graph, map
indikator apa saja yang dapat mempengaruhi dan diagram (Mujilahwati, 2012).
postingan ulasan, peringkat, dan jumlah unduhan Dengan melakukan EDA dan
pada aplikasi yang dikembangkan. Hal ini dapat memvisualisasikan datanya, kondisi dataset yang
menjadi hambatan bagi pengembang aplikasi dianalisis dapat lebih jelas untuk dipahami,
dalam penentuan estimasi tujuan yang harus sehingga dapat memaksimalkan wawasan dan
dicapai ketika mengembangkan aplikasi. Selain itu, meminimalisir potensi kesalahan oleh manusia.
akan menimbulkan efek buruk ketika aplikasi
memiliki rating yang buruk. Efek tersebut B. Alur Penelitian
diantaranya dapat menimbulkan stigma negatif bagi Terdapat beberapa alur tahapan penelitian yang
pengguna dan enggan untuk menggunakan digunakan sebagai langkah dalam menganalisis
aplikasi. Untuk menghindari hal tersebut, Google Playstore dengan metode Exploratory Data
pengembang aplikasi perlu untuk memahami Analysis (EDA) dan visualisasi data. Alur penelitian
indikator yang dapat mempengaruhi postingan tersebut dapat dilihat pada gambar dibawah.
ulasan, peringkat, dan jumlah unduhan agar
pengembang aplikasi memiliki gambaran tentang
aplikasi yang kemungkinan besar akan diterima
oleh pengguna aplikasi dan mendapatkan
postingan ulasan yang bagus serta peringkat dan
jumlah unduhan yang tinggi. Oleh karena itu,
penulis tertarik untuk menemukan pola serta
indikator yang dapat mempengaruhi postingan
ulasan, peringkat, dan jumlah unduhan aplikasi
untuk membantu pengembang aplikasi menetapkan 1. Identifikasi Masalah
target dan tujuan dalam pembuatan dan Pada tahap ini penulis mengidentifikasi masalah
pengembangan aplikasi melalui penelitian ini yang ada pada Google Playstore sebagai bahan
menggunakan metode Exploratory Data Analysis awal dalam penulisan latar belakang. Penulis juga
dan Visualisasi Data. mengemukakan tujuan penelitian serta
memaparkan penelitian terdahulu terkait analisis
terhadap Google Playstore.
2. Teknik Pengumpulan data sama, maka variabel Genres akan dihapus.
Pada tahap ini peneliti melakukan pengumpulan Sebaliknya, variabel Category akan diteliti karena
data melalui studi literatur. Dari studi literatur lebih mudah dianalisis. Sebelum masuk ke bagian
tersebut peneliti mendapatkan bahan materi dari Analisis dan Visualisasi, peneliti perlu memastikan
penelitian terdahulu serta situs-situs internet yang format data sudah siap untuk dianalisis.
dapat menunjang wawasan dalam penelitian ini.
Pada tahap ini juga dilakukan pendalaman terkait
pemahaman materi yang digunakan.
3. Analisis kebutuhan
Pada tahap ini penulis menganalisis kebutuhan
yang diperlukan dalam penelitian, seperti tools yang
digunakan hingga mencari tahu apa saja hal yang
dibutuhkan dalam pemenuhan data.
4. Desain dan Perencanaan
Pada tahap ini peneliti merancang dan membangun
kodingan sebagai langkah dalam melaksanakan
dan menerapkan metode yang digunakan.
5. Implementasi
Pada tahap ini, dataset Google Playstore yang telah
didapat sebelumnya akan dimasukkan dan - Data Cleaning
diterapkan ke dalam kodingan yang telah dibuat.
6. Pengujian
Pada tahap ini kodingan yang telah dibangun
tersebut diuji apakah dapat menghasilkan data yang
sesuai dan telah ditentukan. Dari pengujian yang
telah dilakukan tersebut kemudian didapatkan hasil
yang akan menjadi bahan dalam menentukan
kesimpulan.

HASIL DAN PEMBAHASAN

A. Platform Penelitian
Platform yang penulis gunakan dalam penelitian ini
antara lain library Pandas dan Numpy untuk
mengolah dataset, lalu Seaborn dan Matplotlib
untuk visualisasi data. - Missing Values
B. Dataset
Penelitian ini menggunakan dataset Google
Playstore yang penulis dapatkan dari Kaggle.

Bisa dilihat bahwa banyak nilai NaN (missing) di


dataset Playstore, terutama di kolom Rating. Ada 2
metode untuk mengatasi data yang hilang:
● Menghapus data tersebut
● Mengganti data. Bergantung pada kasusnya,
kita dapat mengambil proporsi tertentu dari nilai
yang hilang, bahkan di luar itu kita bisa
menghapus variabel dari analisis. Tapi ini
bervariasi dari kasus ke kasus pada jumlah
informasi yang dimiliki oleh variabel tersebut.

C. Data Transformation Jika nilai yang terkandung dalam variabel tidak


Target utama variabel penelitian ini adalah “Installs”. terlalu tinggi, kita dapat membuang variabel
Karena variabel Category dan Genres nilainya tersebut jika memiliki lebih dari 50% nilai yang
hilang. Kita dapat melihat bahwa dari 10.000 baris
data Playstore, hampir 1500 baris memiliki nilai null
pada bagian Rating. Karena itu, penulis mengambil
rata-rata kolom Rating dan mengisi nilai null.

Untuk variabel lain seperti, Type, Android Ver dll,


jumlah nilai null terlalu sedikit sehingga dapat
dibuang atau diisi. Penulis hanya menggunakan
command fillna dengan metode forward fill untuk
menghapus nilai nulll di kolom lainnya.

D. Visualisasi Data
Setelah melakukan serangkaian pengolahan data,
penulis menganalisis setiap variabel dan apakah
variabel target “Installs” bergantung padanya atau
Setelah mempelajari dataset lebih lanjut, ditemukan tidak.
bahwa ada data dengan semacam anomali aneh.
Maka penulis perlu mencari tahu baris dalam data
dan membersihkannya.

Bisa dilihat bahwa entri dataset diatas memiliki


Rating 19.0 yang jauh lebih tinggi dari peringkat Dari data diatas, menunjukkan bahwa kategori
maksimum 5.0. Selain itu, nilai di kolom Reviews teratas aplikasi yaitu Family diikuti oleh Game, Alat,
memiliki alfabet (M) yang merupakan satu-satunya Medical, dan Bisnis
entri alfabet. Karenanya, penulis menghapus baris
ini untuk mempermudah analisis. Setelah itu, kita
juga harus ubah beberapa variabel kategori menjadi
numerik untuk kemudahan analisis.

Dapat terlihat bahwa Tahun dan Harga tidak


memiliki pengaruh yang signifikan terhadap variabel
Installs. Namun Reviews dan Rating tampaknya
berdampak pada variabel target.

- Kolom Numerik dan Kategorikal


Kemudian kita masih perlu melakukan pengecekan
tipe data dari semua fitur untuk mencegah adanya
kekeliruan representasi tipe data pada fitur.
Dapat menyimpulkan bahwa variabel 'Type' tidak
berpengaruh karena sebagian besar aplikasi yang
diinstal gratis.
Desember 2022)
H. G. Schnack, M. Nieuwenhuis, N. E. van
Haren, L. Abramovic, T. W.
Scheewe, R. M. Brouwer, H. E.
Hulshoff Pol, and R. S. Kahn. (2014).
Can structural MRI aid in clinical
Kita bisa melihat variasi yang pasti dalam plot kita. classification? A machine learning
Dapat disimpulkan bahwa pengguna lebih memilih study in two independent samples of
aplikasi dengan nama yang lebih kecil (2 kata atau patients with schizophre-nia, bipolar
kurang) daripada aplikasi yang memiliki nama yang disorder and healthy subjects,”
NeuroIm-age, vol. 84, pp. 299–306.
panjang dan membosankan. Sebagai pengguna
Mujilahwati, S., 2012. Visualisasi Data Hasil
sendiri, penulis sangat setuju tentang ini.
Klasifikasi Naive Bayes Dengan
Matpolib pada Python. Prosiding
SNST Ke-11 Tahun 2021.
Oktavian R. S. & Budi, S. (2020). ANALISIS
DATASET GOOGLE PLAYSTORE
MENGGUNAKAN METODE
EXPLORATORY DATA ANALYSIS.
2(2)
Dari sini penulis dapat memprediksi dengan yakin Pusparisa, Y. (2021). Daftar Negara
bahwa semakin besar aplikasi, semakin kecil Pengguna Smartphone Terbanyak,
peluang untuk menginstalnya. Indonesia Urutan Berapa?.
Databoks.
KESIMPULAN DAN SARAN https://databoks.katadata.co.id/data
Setelah dilakukan analisis dataset pada publish/2021/07/01/daftar-negara-
aplikasi Google Playstore, penulis telah pengguna-smartphone-terbanyak-
menemukan kesimpulan sebagai berikut: indonesia-urutan-berapa (Diakses
- Peringkat dan ulasan berpengaruh pada tanggal 13 Desember 2022)
variabel target kami. Semakin tinggi Sahoo, K., Samal, A. K., Pramanik, J., Pani,
peringkatnya, semakin banyak orang yang S. K., 2019. Exploratory Data
cenderung mengunduh aplikasi. Analysis using Python. International
- Aplikasi dengan nama kurang dari 3 kata, Journal of Innovative Technology
dengan ukuran yang kecil, dan gratis and Exploring Engineer (IJITEE) 8:
memiliki peluang lebih tinggi untuk diunduh 4727. DOI:
oleh masyarakat umum. 10.35940/ijitee.L3591.1081219
Sehingga, penulis menyarankan Samosir, F. V. P., Mustamu, L. P., Anggara,
agar pengembang aplikasi berfokus pada D. E., Wiyogo, A. I., Widjaja, A. 2021.
indikator yang mempengaruhi peringkat, Exploratory Data Analysis terhadap
ulasan, dan jumlah unduhan agar Kepadatan Penumpang Kereta Rel
pengembang aplikasi memiliki gambaran Listrik. Jurnal Teknik Informatika dan
tentang aplikasi yang kemungkinan besar Sistem Informasi 7(2): 451- 452.
akan diterima oleh pengguna aplikasi dan http://dx.doi.org/10.28932/jutisi.v7i2.
mendapatkan postingan ulasan yang bagus 3700
serta peringkat dan jumlah Wira Hadi, S., Fahmi Julianto, M.,
unduhan yang tinggi. Rahmatullah, S., Gata, W., & Nusa
Mandiri, S. (2020). Bianglala
DAFTAR PUSTAKA Informatika ANALISA CLUSTER
BusinessofApps. (2020). How ratings and APLIKASI PADA APP STORE
reviews affect consumers decision to DENGAN MENGGUNAKAN
download apps. Businessofapps. METODE K-MEANS. 8(2).
https://www.businessofapps.com/ins
ights/ratings-reviews-affect-
consumer-decision-download-apps/.
(Diakses tanggal 12 Desember
2022)
Ceci L. (2022). Distribution of free and paid
Android apps 2022.
https://www.statista.com/statistics/2
66211/distribution-of-free-and-paid-
android-apps/. (Diakses tanggal 13
View publication stats

Anda mungkin juga menyukai