Anda di halaman 1dari 6

See discussions, stats, and author profiles for this publication at: https://www.researchgate.

net/publication/366230758

ANALISIS DATASET GOOGLE PLAYSTORE MENGGUNAKAN METODE


EXPLORATORY DATA ANALYSIS Analysis of Google Playstore Datasets Using
Exploratory Data Analysis Methods

Conference Paper · December 2022

CITATIONS
READS
0
103

3 authors, including:

Intan Larasati Anisa Rahma


Universitas Jember
1 PUBLICATION 0 CITATIONS

All content following this page was uploaded by Intan Larasati Anisa Rahma on 13 December 2022.

The user has requested enhancement of the downloaded file.


ANALISIS DATASET GOOGLE PLAYSTORE MENGGUNAKAN
METODE EXPLORATORY DATA ANALYSIS

Analysis of Google Playstore Datasets Using Exploratory


Data Analysis Methods
Intan Larasati Anisa Rahma1, Shafira Nurin Qolbi2, Aishaa Saffanah Zahra3 Program
Studi Sistem Informasi, Fakultas Ilmu Komputer, Universitas Jember123
Jl. Kalimantan Tegalboto No.37, Krajan Timur, Kec. Sumbersari, Kabupaten Jember, Jawa Timur 123
212410101051@mail.unej.ac.id1, 212410101004@mail.unej.ac.id2, 212410101026@mail.unej.ac.id3

ABSTRAK: Pengembang aplikasi dapat menghadapi kendala terutama ketika mereka tidak
mengetahui indikator apa saja yang dapat mempengaruhi postingan ulasan, peringkat, dan jumlah
unduhan pada aplikasi yang dikembangkan. Hal ini dapat menjadi hambatan bagi pengembang
aplikasi dalam penentuan estimasi tujuan yang harus dicapai ketika mengembangkan aplikasi dan
dapat menimbulkan efek buruk ketika mendapatkan peringkat/ulasan yang buruk. Tujuan penelitian
ini untuk menemukan pola serta indikator yang dapat mempengaruhi postingan ulasan, peringkat,
dan jumlah unduhan aplikasi untuk membantu pengembang aplikasi menetapkan target dengan
menggunakan metode Exploratory Data Analysis dan Visualisasi Data. Hasil menunjukkan bahwa
aplikasi dengan nama yang lebih pendek, dengan ukuran lebih kecil, dan gratis memiliki peluang
lebih tinggi untuk diunduh oleh masyarakat. Sehingga, penulis menyarankan agar pengembang
aplikasi berfokus pada indikator yang mempengaruhi peringkat, ulasan, dan jumlah unduhan agar
pengembang aplikasi memiliki gambaran tentang aplikasi yang kemungkinan besar akan diterima
oleh pengguna aplikasi dan mendapatkan postingan ulasan yang bagus serta peringkat dan jumlah
unduhan yang tinggi.

Kata kunci: Exploratory Data Analysis, Google Playstore, Aplikasi.

ABSTRACT: Application developers can face obstacles, especially when they don't know what
indicators can affect review posts, ratings, and the number of downloads of the application being
developed. This can be an obstacle for application developers in determining the estimated goals that
must be achieved when developing applications and can have an adverse effect when getting bad
ratings/reviews. This research aims to find patterns and indicators that can affect review postings,
ratings, and the number of application downloads to help application developers set targets through
this research using Exploratory Data Analysis and Data Visualization methods. The results show that
apps with a shorter name, with a smaller size, and for free have a higher chance of being
downloaded by the public. Thus, the authors suggest that developers should focus on indicators that
affect ratings, reviews, and the number of downloads so that the developers have a representation of
the applications that are most likely to be received by application users and get a good review as well
as high as ratings and the number of downloads.

Keywords: Exploratory Data Analysis, Google Playstore, Application.


ratusan ribu aplikasi android dari smartphone (Wira
PENDAHULUAN Hadi dkk., 2020). Dari seluruh aplikasi app store, rata-
Smartphone terus mendapatkan popularitas rata orang akan memilih Google Play Store dikarenakan
dengan cepat selama beberapa tahun terakhir. Menurut popularitasnya yang meningkat dan pertumbuhannya
data dari databoks, menunjukkan bahwa Indonesia yang cepat akhir-akhir ini (Schnack, 2014). Hal tersebut
merupakan salah satu negara dengan pengguna dikarenakan fakta bahwa sekitar 96% aplikasi yang
smartphone terbanyak dengan peringkat ke empat di tersedia pada Google Playstore pada tahun 2022 yakni
dunia (Pusparisa, 2021). Fitur yang diberikan pada gratis (Ceci, 2022). Oleh karena itu, pengguna
smartphone pun beragam, salah satunya yaitu smartphone cenderung untuk memilih Google
menyediakan aplikasi app store. App Store Playstore sebagai platform unduhan aplikasi
merupakan platform distribusi aplikasi difungsikan dibandingkan dengan aplikasi app store yang lain.
sebagai tempat untuk mengunduh
Google Playstore menyediakan fitur posting METODOLOGI PENELITIAN
ulasan, peringkat, dan jumlah unduhan yang dapat
dilihat oleh calon pengguna aplikasi lainnya di Google A. Metode Penelitian
Playstore. Tinggi rendahnya peringkat dapat Dalam penelitian ini metode yang digunakan
memberikan pemahaman kepada pengguna mengenai untuk menganalisis dataset Google Playstore adalah
gambaran isi dan konten aplikasi tersebut (Oktavian dan metode Exploratory Data Analysis (EDA). Menurut
Budi, 2020). Penelitian oleh Apptentive menunjukkan Taboada dan Han, EDA merupakan sebuah teknik
bahwa 50% pengguna aplikasi seluler tidak akan heuristic untuk mencari dan menemukan relasi yang
mempertimbangkan aplikasi dengan peringkat 3 bintang. signifikan antara variabel dataset (Samosir, dkk., 2021).
Angka itu turun menjadi 85% untuk peringkat 2 bintang EDA berfokus untuk melakukan investigasi secara kritis
(BusinessofApps, 2020). Sehingga, sebagai pengembang pada data dalam menemukan pola dan anomali,
aplikasi, tentu saja peringkat dan ulasan tidak dapat melakukan pengujian hipotesis, serta memeriksa asumsi
diabaikan dikarenakan dapat membangun stigma negatif yang ada. EDA berfungsi untuk memahami hubungan
bagi pengguna dan pengguna akan enggan untuk antar variabel dan menyaringnya, sehingga didapat
menggunakan aplikasi tersebut. Mendapatkan postingan variabel yang penting dan tidak
ulasan yang baik dengan rating yang tinggi merupakan EDA juga membantu dataset dalam meringkas
harapan dari setiap pengembang aplikasi dikarenakan karaktristik statistik data dengan berfokus pada empat
hal tersebut dapat menjadi acuan apakah aplikasi aspek kunci, seperti ukuran tendensi sentral (terdiri dari
tersebut banyak disukai oleh mayoritas penggunanya rata-rata, modus, dan median), ukuran jangkauan
atau tidak. Melalui ulasan dan peringkat, pengembang perataan (spread), distribusi, dan keberadaan outlier
aplikasi dapat menemukan fitur aplikasi yang perlu sebuah data (Sahoo, dkk., 2019). Hasil ringkasan
ditingkatkan atau ditambahkan. Oleh karena itu, statistik yang diambil dari karakteristik data dengan
keberhasilan suatu aplikasi berhubungan erat dengan menggunakan EDA tersebut kemudian dapat
postingan ulasan, peringkat, dan jumlah unduhan yang direpresentasikan dengan bantuan grafis yang
diterimanya. ditampilkan sebagai visualisasi data. Visualisasi data
Pengembang aplikasi dapat menghadapi kendala berfungsi untuk menggambarkan secara nyata tingkatan
terutama ketika mereka tidak mengetahui indikator apa dalam data yang bergerak baik dalam bentuk tabel, bar
saja yang dapat mempengaruhi postingan ulasan, chart, pie chart, line graph, map dan diagram
peringkat, dan jumlah unduhan pada aplikasi yang (Mujilahwati, 2012).
dikembangkan. Hal ini dapat menjadi hambatan bagi Dengan melakukan EDA dan
pengembang aplikasi dalam penentuan estimasi tujuan memvisualisasikan datanya, kondisi dataset yang
yang harus dicapai ketika mengembangkan aplikasi. dianalisis dapat lebih jelas untuk dipahami, sehingga
Selain itu, akan menimbulkan efek buruk ketika aplikasi dapat memaksimalkan wawasan dan meminimalisir
memiliki rating yang buruk. Efek tersebut diantaranya potensi kesalahan oleh manusia.
dapat menimbulkan stigma negatif bagi pengguna dan
enggan untuk menggunakan aplikasi. Untuk B. Alur Penelitian
menghindari hal tersebut, pengembang aplikasi perlu Terdapat beberapa alur tahapan penelitian yang
untuk memahami indikator yang dapat mempengaruhi digunakan sebagai langkah dalam menganalisis Google
postingan ulasan, peringkat, dan jumlah unduhan agar Playstore dengan metode Exploratory Data Analysis
pengembang aplikasi memiliki gambaran tentang (EDA) dan visualisasi data. Alur penelitian tersebut
aplikasi yang kemungkinan besar akan diterima oleh dapat dilihat pada gambar dibawah.
pengguna aplikasi dan mendapatkan postingan ulasan
yang bagus serta peringkat dan jumlah unduhan yang
tinggi. Oleh karena itu, penulis tertarik untuk
menemukan pola serta indikator yang dapat
mempengaruhi postingan ulasan, peringkat, dan jumlah
unduhan aplikasi untuk membantu pengembang aplikasi
menetapkan target dan tujuan dalam pembuatan dan
pengembangan aplikasi melalui penelitian ini
menggunakan metode Exploratory Data Analysis dan
Visualisasi Data. 1. Identifikasi Masalah
Pada tahap ini penulis mengidentifikasi masalah yang
ada pada Google Playstore sebagai bahan awal dalam
penulisan latar belakang. Penulis juga mengemukakan
tujuan penelitian serta memaparkan penelitian terdahulu
terkait analisis terhadap Google Playstore.
2. Teknik Pengumpulan data sama, maka variabel Genres akan dihapus. Sebaliknya,
Pada tahap ini peneliti melakukan pengumpulan data variabel Category akan diteliti karena lebih mudah
melalui studi literatur. Dari studi literatur tersebut dianalisis. Sebelum masuk ke bagian Analisis dan
peneliti mendapatkan bahan materi dari penelitian Visualisasi, peneliti perlu memastikan format data sudah
terdahulu serta situs-situs internet yang dapat menunjang siap untuk dianalisis.
wawasan dalam penelitian ini. Pada tahap ini juga
dilakukan pendalaman terkait pemahaman materi yang
digunakan.
3. Analisis kebutuhan
Pada tahap ini penulis menganalisis kebutuhan yang
diperlukan dalam penelitian, seperti tools yang
digunakan hingga mencari tahu apa saja hal yang
dibutuhkan dalam pemenuhan data.
4. Desain dan Perencanaan
Pada tahap ini peneliti merancang dan membangun
kodingan sebagai langkah dalam melaksanakan dan
menerapkan metode yang digunakan.
5. Implementasi
Pada tahap ini, dataset Google Playstore yang telah
didapat sebelumnya akan dimasukkan dan diterapkan ke
dalam kodingan yang telah dibuat. - Data Cleaning
6. Pengujian
Pada tahap ini kodingan yang telah dibangun tersebut
diuji apakah dapat menghasilkan data yang sesuai dan
telah ditentukan. Dari pengujian yang telah dilakukan
tersebut kemudian didapatkan hasil yang akan menjadi
bahan dalam menentukan kesimpulan.

HASIL DAN PEMBAHASAN

A. Platform Penelitian
Platform yang penulis gunakan dalam penelitian ini
antara lain library Pandas dan Numpy untuk mengolah
dataset, lalu Seaborn dan Matplotlib untuk visualisasi
data.
B. Dataset - Missing Values
Penelitian ini menggunakan dataset Google Playstore
yang penulis dapatkan dari Kaggle.

Bisa dilihat bahwa banyak nilai NaN (missing) di


dataset Playstore, terutama di kolom Rating. Ada 2
metode untuk mengatasi data yang hilang:
● Menghapus data tersebut
● Mengganti data. Bergantung pada kasusnya, kita
dapat mengambil proporsi tertentu dari nilai yang
hilang, bahkan di luar itu kita bisa menghapus
variabel dari analisis. Tapi ini bervariasi dari kasus
ke kasus pada jumlah informasi yang dimiliki oleh
variabel tersebut.
C. Data Transformation
Target utama variabel penelitian ini adalah “Installs”. Jika nilai yang terkandung dalam variabel tidak terlalu
Karena variabel Category dan Genres nilainya tinggi, kita dapat membuang variabel tersebut jika
memiliki lebih dari 50% nilai yang
hilang. Kita dapat melihat bahwa dari 10.000 baris data
Playstore, hampir 1500 baris memiliki nilai null pada
bagian Rating. Karena itu, penulis mengambil rata-rata
kolom Rating dan mengisi nilai null.

Untuk variabel lain seperti, Type, Android Ver dll,


jumlah nilai null terlalu sedikit sehingga dapat dibuang
atau diisi. Penulis hanya menggunakan command fillna
dengan metode forward fill untuk menghapus nilai nulll
di kolom lainnya.

D. Visualisasi Data
Setelah melakukan serangkaian pengolahan data, penulis
menganalisis setiap variabel dan apakah variabel target
“Installs” bergantung padanya atau tidak.
Setelah mempelajari dataset lebih lanjut, ditemukan
bahwa ada data dengan semacam anomali aneh. Maka
penulis perlu mencari tahu baris dalam data dan
membersihkannya.

Bisa dilihat bahwa entri dataset diatas memiliki Rating Dari data diatas, menunjukkan bahwa kategori teratas
19.0 yang jauh lebih tinggi dari peringkat maksimum aplikasi yaitu Family diikuti oleh Game, Alat,
5.0. Selain itu, nilai di kolom Reviews memiliki alfabet Medical, dan Bisnis
(M) yang merupakan satu-satunya entri alfabet.
Karenanya, penulis menghapus baris ini untuk
mempermudah analisis. Setelah itu, kita juga harus ubah
beberapa variabel kategori menjadi numerik untuk
kemudahan analisis.

Dapat terlihat bahwa Tahun dan Harga tidak memiliki


pengaruh yang signifikan terhadap variabel Installs.
Namun Reviews dan Rating tampaknya berdampak
pada variabel target.

- Kolom Numerik dan Kategorikal


Kemudian kita masih perlu melakukan pengecekan tipe
data dari semua fitur untuk mencegah adanya kekeliruan
representasi tipe data pada fitur. Dapat menyimpulkan bahwa variabel 'Type' tidak
berpengaruh karena sebagian besar aplikasi yang diinstal
gratis.
Desember 2022)
H. G. Schnack, M. Nieuwenhuis, N. E. van
Haren, L. Abramovic, T. W. Scheewe,
R. M. Brouwer, H. E. Hulshoff Pol, and
R. S. Kahn. (2014). Can structural MRI
aid in clinical classification? A machine
Kita bisa melihat variasi yang pasti dalam plot kita. learning study in two independent
Dapat disimpulkan bahwa pengguna lebih memilih samples of patients with schizophre-nia,
aplikasi dengan nama yang lebih kecil (2 kata atau bipolar disorder and healthy subjects,”
kurang) daripada aplikasi yang memiliki nama yang NeuroIm-age, vol. 84, pp. 299–306.
panjang dan membosankan. Sebagai pengguna sendiri, Mujilahwati, S., 2012. Visualisasi Data Hasil
Klasifikasi Naive Bayes Dengan
penulis sangat setuju tentang ini.
Matpolib pada Python. Prosiding
SNST Ke-11 Tahun 2021.
Oktavian R. S. & Budi, S. (2020). ANALISIS
DATASET GOOGLE PLAYSTORE
MENGGUNAKAN METODE
EXPLORATORY DATA ANALYSIS.
2(2)
Pusparisa, Y. (2021). Daftar Negara
Dari sini penulis dapat memprediksi dengan yakin Pengguna Smartphone Terbanyak,
bahwa semakin besar aplikasi, semakin kecil peluang Indonesia Urutan Berapa?.
untuk menginstalnya. Databoks.
https://databoks.katadata.co.id/data
KESIMPULAN DAN SARAN publish/2021/07/01/daftar-negara-
Setelah dilakukan analisis dataset pada aplikasi pengguna-smartphone-terbanyak-
Google Playstore, penulis telah menemukan indonesia-urutan-berapa (Diakses
kesimpulan sebagai berikut: tanggal 13 Desember 2022)
- Peringkat dan ulasan berpengaruh pada variabel Sahoo, K., Samal, A. K., Pramanik, J., Pani,
target kami. Semakin tinggi peringkatnya, S. K., 2019. Exploratory Data Analysis
semakin banyak orang yang cenderung using Python. International Journal of
mengunduh aplikasi. Innovative Technology and
- Aplikasi dengan nama kurang dari 3 kata, Exploring Engineer (IJITEE) 8: 4727.
dengan ukuran yang kecil, dan gratis memiliki DOI:
peluang lebih tinggi untuk diunduh oleh 10.35940/ijitee.L3591.1081219
masyarakat umum. Samosir, F. V. P., Mustamu, L. P., Anggara,
Sehingga, penulis menyarankan agar D. E., Wiyogo, A. I., Widjaja, A. 2021.
pengembang aplikasi berfokus pada indikator Exploratory Data Analysis terhadap
yang mempengaruhi peringkat, ulasan, dan Kepadatan Penumpang Kereta Rel
jumlah unduhan agar pengembang aplikasi Listrik. Jurnal Teknik Informatika
memiliki gambaran tentang aplikasi yang dan Sistem Informasi 7(2): 451- 452.
kemungkinan besar akan diterima oleh http://dx.doi.org/10.28932/jutisi.v7i2.
pengguna aplikasi dan mendapatkan postingan 3700
ulasan yang bagus serta peringkat dan jumlah Wira Hadi, S., Fahmi Julianto, M., Rahmatullah,
unduhan yang tinggi. S., Gata, W., & Nusa Mandiri, S.
(2020). Bianglala Informatika
DAFTAR PUSTAKA ANALISA CLUSTER APLIKASI
BusinessofApps. (2020). How ratings and PADA APP STORE DENGAN
reviews affect consumers decision to
download apps. Businessofapps. MENGGUNAKAN METODE K-
https://www.businessofapps.com/ins MEANS. 8(2).
ights/ratings-reviews-affect- consumer-
decision-download-apps/. (Diakses
tanggal 12 Desember
2022)
Ceci L. (2022). Distribution of free and paid
Android apps 2022.
https://www.statista.com/statistics/2
66211/distribution-of-free-and-paid-
android-apps/. (Diakses tanggal 13
View publication stats

Anda mungkin juga menyukai