Mata Kuliah:
Data Warehouse & Data Mining
Disusun oleh:
Fendyanto 31190038
Johanes Shane 31190042
Kosasi 31190050
Alexander C. S. P. 31190095
ii
KATA PENGANTAR
Puji syukur kami panjatkan kepada Tuhan Yang Maha Kuasa karena atas kasih karunia-
Nya, laporan yang berjudul “Laporan Studi Kasus Analisis Penerapan Data Mining pada App
Store dengan Matriks Korelasi” dapat diselesaikan. Penyusunan laporan ini diharapkan dapat
menambah wawasan yang lebih mendalam terhadap mata kuliah Data Warehouse & Data
Mining.
Dalam pembuatan laporan ini, kami mengucapkan terima kasih kepada yang terhormat
Bapak M. Fauzi Isputrawan, S.Kom., M.MSI. selaku dosen mata kuliah Data Warehouse &
Data Mining yang telah memberikan tugas yang bermanfaat bagi kami. Selain itu, ucapan
terima kasih juga kami tujukan kepada kedua orang tua dan teman-teman yang telah
memberikan doa, dorongan, serta bantuan kepada kami sehingga laporan ini dapat diselesaikan.
Demikian laporan ini kami hadirkan dengan segala kelebihan dan kekurangan. Oleh
sebab itu, kritik dan saran yang membangun demi perbaikan laporan ini, sangat diharapkan.
Semoga laporan ini dapat memberikan manfaat dan pengetahuan bagi pembaca.
Kelompok III
iii
DAFTAR ISI
ABSTRAKSI .............................................................................................................................ii
KATA PENGANTAR ............................................................................................................. iii
DAFTAR ISI............................................................................................................................. iv
DAFTAR GAMBAR ................................................................................................................ vi
DAFTAR TABEL ....................................................................................................................vii
BAB 1 PENDAHULUAN ......................................................................................................... 1
1.1. Latar Belakang Permasalahan ..................................................................................... 1
1.2. Identifikasi Masalah .................................................................................................... 2
1.3. Tujuan Studi Kasus ..................................................................................................... 2
1.4. Kegunaan Hasil Studi Kasus ....................................................................................... 2
1.5. Lokasi dan Jadwal Studi Kasus ................................................................................... 2
BAB 2 LATAR BELAKANG PERUSAHAAN ....................................................................... 3
2.1. Profil Perusahaan......................................................................................................... 3
2.2. Latar Belakang Perusahaan ......................................................................................... 3
BAB 3 LANDASAN TEORI DAN KERANGKA PEMIKIRAN ............................................ 4
3.1. Landasan Teori ............................................................................................................ 4
3.1.1. Data Mining ............................................................................................................. 4
3.1.2. Operasi Data Mining ............................................................................................... 4
3.1.3. Asosiasi .................................................................................................................... 5
3.1.4. RapidMiner .............................................................................................................. 5
3.2. Kerangka Pemikiran .................................................................................................... 6
3.2.1. Pentingnya Data Mining bagi Perusahaan ............................................................... 6
3.2.2. Keterkaitan Data Mining dengan Apple .................................................................. 6
BAB 4 TECHNICAL PROCESS .............................................................................................. 8
4.1. Business Understanding .............................................................................................. 8
4.2. Data Understanding ..................................................................................................... 8
4.3. Data Preparation ........................................................................................................ 10
4.4. Modeling ................................................................................................................... 11
4.5. Evaluation.................................................................................................................. 11
4.6. Deployment ............................................................................................................... 11
BAB 5 METODE ANALISIS DATA MINING ..................................................................... 12
iv
5.1. Pengenalan Matriks Korelasi .................................................................................... 12
5.2. Implementasi Metode Analisis Data Mining pada RapidMiner................................ 13
5.2.1. Proses Persiapan Dataset ....................................................................................... 14
5.2.2. Proses Permodelan dengan Matriks Korelasi ........................................................ 16
BAB 6 MANFAAT ANALISIS DATA SET .......................................................................... 17
6.1. Manfaat Analisis yang Berpotensi untuk Meningkatkan Pendapatan ....................... 20
6.2. Manfaat Analisis yang Tidak Berpotensi untuk Meningkatkan Pendapatan ............ 21
BAB 7 IDE DAN INOVASI PADA PERUSAHAAN ............................................................ 22
7.1. Ide .............................................................................................................................. 22
7.2. Inovasi ....................................................................................................................... 22
BAB 8 PENUTUP ................................................................................................................... 24
8.1. Kesimpulan................................................................................................................ 24
8.2. Saran .......................................................................................................................... 24
DAFTAR PUSTAKA .............................................................................................................. 25
v
DAFTAR GAMBAR
Gambar 1.1 Statistik Perbandingan Pendapatan App Store dan Google Play ........................... 1
Gambar 3.1 Statistik Pendapatan Apple .................................................................................... 7
Gambar 3.2 Kerangka Pemikiran............................................................................................... 7
Gambar 5.1 Rentang Nilai Koefisien ....................................................................................... 12
Gambar 5.2 Contoh Dataset Hasil Tes Glukosa ...................................................................... 12
Gambar 5.3 Rumus Correlation Coeficient ............................................................................. 13
Gambar 5.4 Imlementasi Metode Matriks Korelasi pada RapidMiner .................................... 13
Gambar 5.5 Pemilihan Atribut pada Dataset ........................................................................... 14
Gambar 5.6 Replace dengan Regular Expression.................................................................... 16
Gambar 6.1 Hasil Analisis Metode Data Mining dengan Matriks Korelasi ............................ 17
Gambar 7.1 BPMN Ide dan Inovasi Data Mining pada Perusahaan Apple............................. 23
vi
DAFTAR TABEL
Tabel 1.1 Jadwal Studi Kasus .................................................................................................... 2
Tabel 4.1 Sampel Dataset Aplikasi yang Terdaftar di App Store .............................................. 9
Tabel 5.1 Pemilihan Atribut ..................................................................................................... 15
Tabel 6.1 Ringkasan Koefisien Korelasi dengan Atribut cont_rating ..................................... 17
Tabel 6.2 Ringkasan Koefisien Korelasi dengan Atribut size_bytes ....................................... 18
Tabel 6.3 Ringkasan Koefisien Korelasi dengan Atribut price ............................................... 18
Tabel 6.4 Ringkasan Koefisien Korelasi dengan Atribut rating_count_tot ............................ 18
Tabel 6.5 Ringkasan Koefisien Korelasi dengan Atribut user_rating ..................................... 18
Tabel 6.6 Ringkasan Koefisien Korelasi dengan Atribut sup_device.num .............................. 19
Tabel 6.7 Ringkasan Koefisien Korelasi dengan Atribut ipadSc_urls.num ............................ 19
Tabel 6.8 Ringkasan Koefisien Korelasi dengan Atribut lang.num ........................................ 19
Tabel 6.9 Ringkasan Koefisien Korelasi dengan Atribut vpp_lic............................................ 20
vii
BAB 1
PENDAHULUAN
Saat ini pendapatan App Store lebih besar dari pada Google Play dan kenaikannya
lebih pesat setiap tahunnya. Hal ini karena adanya perilaku pembelian dan solvabilitas
dimana daya pengguna App Store lebih kuat dari pada pengguna Play Store, karena
pengguna App Store punya kemampuan finansial lebih mapan. Kemudian Play Store
berfokus pada aplikasi gratis/freemium, berbeda dengan App Store. Di mana pengguna
App Store 2,5x lebih banyak melakukan pembelian, berikutnya adanya biaya
pengembangan dimana biaya pengembangan App Store lebih efisien dari pada Play
Store, karena mengembangkan aplikasi untuk Android akan mengambil 38% lebih
banyak baris kode dan 30% lebih banyak jam kerja, yang berdasarkan riset yang telah
dilakukan. Lalu yang terakhir karena adanya pengaruh Tiongkok dimana Play Store di
blokir di Tiongkok, sehingga penggunaan App Store dapat meningkat, bahkan melebihi
di Amerika.
Melihat dari potensi App Store sebagai salah satu sumber pendapatan utama Apple,
maka diperlukan pemahaman lingkungan pasar yang baik untuk menjamin bahwa setiap
aplikasi yang terdaftar atau didaftarkan dapat memenuhi harapan penggunanya. Sehingga
1
dibutuhkan data mining untuk membantu tim app reviewer Apple dalam memberikan
rekomendasi kepada para pengembang aplikasi sesuai dengan pola perilaku pengguna
yang dihasilkan.
1.2. Identifikasi Masalah
Pada laporan ini, terdapat beberapa permasalahan yang akan diidentifikasi sebagai
berikut.
a. Bagaimana cara menerapkan teknik data mining yang tepat pada dataset App Store?
b. Bagaimana data mining dapat membantu meningkatkan pendapatan Apple melalui
App Store?
1.3. Tujuan Studi Kasus
Penulisan laporan ini bertujuan untuk melakukan studi penerapan data mining
dalam perusahaan Apple. Kemudian menentukan teknik data mining yang tepat untuk
diimplementasikan ke dalam dataset daftar aplikasi yang terdaftar pada App Store,
sehingga dapat menemukan pemahaman pengetahuan yang berguna bagi Apple.
1.4. Kegunaan Hasil Studi Kasus
Penulisan ini dapat memberikan manfaat untuk meningkatkan pendapatan Apple
dari bidang layanan melalui App Store, dengan cara memberikan rekomendasi kepada
Apple dalam hal ini diwakilkan oleh tim app reviewer berdasarkan pola data yang telah
di analisis dengan menggunakan data mining. Sehingga tim app reviewer dapat
membantu para developer aplikasi di App Store untuk mengembangkan aplikasi sesuai
dengan harapan pelanggan. Hal ini diharapkan secara tidak langsung dapat meningkatkan
pendapatan Apple.
1.5. Lokasi dan Jadwal Studi Kasus
Lokasi dan jadwal studi kasus yang dilakukan oleh kelompok ini adalah pada PT
Apple Indonesia yang berlokasi di Jl. Jend. Sudirman No.8, RT.8/RW.3, Kuningan,
Jakarta Selatan. Berikut adalah jadwal dari studi kasus pada laporan ini.
2
BAB 2
LATAR BELAKANG PERUSAHAAN
3
BAB 3
LANDASAN TEORI DAN KERANGKA PEMIKIRAN
4
4) Klastering: mengacu pada pengelompokan record, observasi, atau kasus ke
dalam kelas objek yang serupa. Klaster adalah kumpulan record yang identik
satu sama lain, dan berbeda dengan data pada record di klaster lain.
5) Asosiasi: menemukan atribut mana yang sering muncul bersamaan. Dalam
dunia bisnis, dikenal sebagai analisis afinitas atau analisis keranjang pasar,
operasi asosiasi berusaha mengungkap aturan untuk mengukur hubungan
antara dua atau lebih atribut.
3.1.3. Asosiasi
Asosiasi adalah salah satu metode data mining yang mana memiliki tujuan
untuk mencari pola yang sering muncul di antara banyak transaksi, di mana setiap
transaksi terdiri dari beberapa item (Defit, 2013).
Menurut Wahono (2020), pada dasarnya asosiasi dapat dibedakan
berdasarkan tipe data yang akan diasosiasikan, yakni numerik dan nominal.
Untuk data bersifat nominal, metode yang dapat digunakan ialah association
rules. Sedangkan untuk numerik, maka metode yang dapat digunakan ialah
matriks korelasi. Penjelasan mengenai penggunaan matriks korelasi dalam data
mining akan diberikan pada bagian 5.
3.1.4. RapidMiner
RapidMiner adalah sebuah aplikasi yang digunakan untuk melakukan
analisis terhadap data mining, text mining dan analisis prediksi. RapidMiner
menggunakan berbagai teknik deskriptif dan prediksi dalam memberikan
wawasan kepada pengguna sehingga dapat membuat keputusan yang paling baik
(Baskoro, dkk., 2013). Beberapa fitur dari RapidMiner antara lain, yakni: (1)
Banyaknya algoritma data mining, seperti decision tree dan self-organization
map, (2) Bentuk grafis yang canggih, seperti tumpang tindih diagram histogram,
tree chart dan 3D scatter plots, (3) Banyaknya variasi plugin, seperti text plugin
untuk melakukan analisis teks, (4) Menyediakan prosedur data mining dan
machine learning termasuk: ETL (extraction, transformation, loading), data
preprocessing, visualisasi, modeling dan evaluasi, (5) Proses data mining
tersusun atas operator-operator yang nestable, dideskripsikan dengan XML, dan
dibuat dengan GUI, dan (6) Mengintegrasikan proyek data mining Weka dan
statistika R.
5
3.2. Kerangka Pemikiran
Kerangka pikiran pada dasarnya adalah suatu arah penalaran untuk bisa atau dapat
memberikan jawaban sementara atas rumusan masalah yang sudah atau telah disebutkan.
Sedangkan menurut Suriasumantri dalam Sugiyono (2016, hlm. 60) yang mengatakan
bahwa, kerangka pemikiran ini merupakan penjelasan sementara terhadap gejala-gelaja
yang menjadi obyek permasalahan.
Maka, dapat disimpulkan bahawa kerangkan pemikiran merupakan rancangan atau
pola pikir yang menjelaskan hubungan antara variabel atau permasalahan yang disusun
dari berbagai teori yang telah dideskripsikan untuk dianalisis dan dipecahkan sehingga
dapat dirumuskan sebuah hipotesis.
3.2.1. Pentingnya Data Mining bagi Perusahaan
Sebelum membahas pentingnya data mining bagi perusahaan, penting
untuk diketahui bahwa data mining tidak dapat memberikan jawaban untuk setiap
permasalahan, serta juga tidak dapat kita harapkan bahwa model prediktif akan
selalu memberikan hasil yang menjadi kenyataan (Witten, dkk., 2011). Namun
data mining dapat membantu perusahaan menganalisis data untuk dijadikan pola
pengetahuan sebagai pendukung dalam pengambilan keputusan. Secara
sederhana, perusahaan dapat mengetahui fakta yang terjadi dalam operasi bisnis
mereka lewat data mining yang biasanya tidak mereka sadari bahwa terdapat
peluang atau ancaman yang terindikasi dari fakta tersebut. Salah satu contohnya
ialah Gojek yang merupakan perusahaan transportasi daring tanpa memiliki
kendaraan. Lewat data juga, Gojek mengetahui kebutuhan pelanggannya dan
lahirlah berbagai layanan yang sering kita gunakan saat ini, seperti: Go-Food, Go-
Send, Go-Mart, dan lain sebagainya. Hal ini membuktikan bahwa data sangat
berperan penting dalam mendukung perusahaan untuk mengambil keputusan
yang tepat.
3.2.2. Keterkaitan Data Mining dengan Apple
Pada gambar 3.1, dapat terlihat bahwa sumber pendapatan Apple secara
garis besar dapat dibagi menjadi lima sektor, yakni: iPhone, Mac, iPad, Aksesoris,
dan Layanan (App Store, iTunes, dan lainnya). Kemudian, layanan merupakan
sumber pendapatan terbesar kedua selama beberapa tahun ke belakang untuk
Apple.
6
Gambar 3.1 Statistik Pendapatan Apple
7
BAB 4
TECHNICAL PROCESS
Pada bagian ini, kita akan mendefinisikan pemrosesan teknik data mining dilakukan
terhadap dataset daftar aplikasi App Store. Ada berbagai teknik data mining yang dapat
digunakan organisasi untuk mendapatkan pemahaman yang lebih baik tentang pelanggan
mereka dan operasi bisnis, serta untuk memecahkan masalah organisasi yang kompleks.
Namun terdapat kendala di beberapa perusahaan, karena masing-masing perusahaan
memiliki karakteristik yang berbeda dan mereka kesulitan untuk menentukan best practice
yang dapat diterapkan. Jelas, dalam hal ini dibutuhkan standar antar industri yang bersifat
netral. Sehingga dibutuhkan Cross-Industry Standard Process for Data Mining (CRISP-DM)
yang membuat data mining dalam suatu perusahaan memiliki siklus hidup yang terdiri dari
enam langkah yaitu: business understanding, data understanding, data preparation, modeling,
evaluation, dan deployment. Sehingga dalam laporan ini, kita akan melakuakan analisis data
mining dengan berlandaskan pada CRISP-DM.
4.1. Business Understanding
Pada tahap business understanding, latar belakang dan tujuan perusahaan sangat
diperlukan untuk mengetahui cara menerapkan data mining terhadap data, antara lain
sebagai berikut.
a. Determine Business Objectives (Menentukan Tujuan Bisnis), dilakukannya studi
kasus ini untuk menemukan cara meningkatkan pendapatan Apple melalui bidang
layanan, yakni App Store.
b. Determine the Data Mining Goals (Menentukan Tujuan Data Mining), Tujuan
dilakukan data mining adalah untuk menemukan korelasi antar atribut pada seluruh
aplikasi yang terdaftar di App Store. Hal ini memungkinkan pada tim app reviewer
Apple bisa meninjau aplikasi sesuai dengan harapan pengguna, sehingga dapat
meningkatkan pendapatan Apple secara tidak langsung.
8
Tabel 4.1 Sampel Dataset Aplikasi yang Terdaftar di App Store
id track_name size_bytes currency price rating_count_tot rating_count_ver user_rating user_rating_ver ver cont_rating prime_genre sup_devices.num ipadSc_urls.num lang.num vpp_lic
281656475 PAC-MAN Premium 100788224 USD 0.99 776885 26 4 4.5 6.3.5 4+ Games 41 5 25 1
281796108 Evernote - stay organized 158578688 USD 1.99 838215 26 4 3.5 8.2.2 4+ Productivity 45 5 40 1
WeatherBug - Local
281940292 Weather, Radar, Maps, 100524032 USD 1.99 188583 2822 3.5 4.5 5.0.0 4+ Weather 37 5 3 1
Alerts
eBay: Best App to Buy,
282614216 Sell, Save! Online 128512000 USD 1.99 864021 649 4 4.5 5.10.0 12+ Shopping 47 5 33 1
Shopping
282935706 Bible 92774400 USD 0.99 920526 5320 4.5 5 7.5.1 4+ Reference 47 5 31 1
283619399 Shanghai Mahjong 10485713 USD 1.99 830874 5516 4 4 1.8 4+ Games 40 5 25 1
284035177 Pandora - Music & Radio 130242560 USD 1.99 875944 3594 4 4.5 8.4.1 12+ Music 47 4 30 1
284791396 Solitaire by MobilityWare 49618944 USD 0.99 849540 4017 4.5 4.5 4.10.1 4+ Games 48 4 31 1
284815117 SCRABBLE Premium 227547136 USD 1.99 105776 166 3.5 2.5 5.19.0 4+ Games 37 0 6 1
284882215 Facebook 389879808 USD 0.99 2974676 212 3.5 3.5 95 4+ Social Networking 37 1 29 1
285946052 iQuran 70707916 USD 1.99 843686 966 4.5 4.5 3.3 4+ Reference 45 0 30 1
9
Pada tabel 4.1, terdapat 16 atribut yang ada pada dataset aplikasi yang terdaftar
pada App Store. Berikut merupakan penjelasan dari setiap atribut yang ada.
a. id: ID aplikasi.
b. track_name: Nama aplikasi.
c. Size_bytes: Ukuran aplikasi (dalam bita).
d. currency: Tipe mata uang harga.
e. price: Harga aplikasi.
f. rating_count_tot: Jumlah rating keseluruhan.
g. rating_count_ver: Jumlah rating versi saat ini.
h. user_rating: Rata-rata rating keseluruhan.
i. user_rating_ver: Rata-rata rating versi saat ini.
j. ver: Kode versi terakhir.
k. cont_rating: Penilaian konten aplikasi.
l. prime_genre: Genre aplikasi.
m. sup_device.num: Jumlah perangkat yang didukung.
n. ipadSc_urls.num: Jumlah screenshot preview aplikasi yang ditampilkan.
o. lang.num: Jumlah Bahasa yang didukung.
p. vpp_lic: Memiliki lisensi VPP.
10
4.4. Modeling
Sebuah model dalam data mining adalah representasi komputerisasi dari
pengamatan dunia nyata. Pada laporan ini kita akan menggunakan permodelan untuk
melakukan prediksi berdasarkan asosiasi antar atribut yang dihasilkan pada
perhitungan matriks korelasi.
Sesuai dengan judul pada laporan, kita akan melakukan permodelan dengan
teknik data mining asosiasi menggunakan matriks korelasi untuk menemukan korelasi
antar atribut pada dataset yang dimiliki. Pada hasil permodelan, kita akan
menfokuskan pada korelasi antara atribut rating_count_tot dengan atribut lainnya. Hal
ini dikarenakan semakin banyak nilai rating_count_tot, berarti aplikasi tersebut
memiliki jumlah unduh yang banyak pula. Hal ini berarti aplikasi tersebut akan
mendatangkan pendapatan yang cukup besar, baik melalui pembelian aplikasi maupun
pembelian di dalam aplikasi (in-app purchase). Namun kita juga akan mencoba
menginterpretasikan korelasi pada atribut lainnya bila terdapat indikasi korelasi yang
kuat.
4.5. Evaluation
Proses evaluasi dapat dicapai dengan menggunakan sejumlah teknik, baik yang
bersifat matematis maupun logis. Di luar langkah-langkah ini, evaluasi model juga
harus mencakup aspek manusia. Ketika seseorang memperoleh pengalaman dan
keahlian di bidangnya, ia akan memiliki pengetahuan operasional yang mungkin tidak
dapat diukur dalam pengertian matematis, namun tetap sangat diperlukan dalam
menentukan nilai model data mining. Dalam hal asosiasi dengan matriks korelasi, kita
hanya dapat melakukan evaluasi dari aspek manusia, karena secara matematis tidak
dapat dilakukan.
Khusus untuk asosiasi, evaluasi yang dilakukan sesungguhnya ialah dengan cara
dilakukan survey langsung di lapangan. Hal ini dikarenakan kita hanya dapat
mengetahui bahwa adanya asosiasi dari pola yang ada, namun hal ini bisa saja berbeda
apabila kita coba perhatikan secara langsung di lapangan. Oleh karena itu, evaluasi
yang dapat dilakukan ialah dengan cara survey langsung ke lapangan.
4.6. Deployment
Konsep deployment dalam data mining berarti melakukan sesuatu dengan apa
yang telah kita pelajari dari model yang dibangun; kemudian memikirkan beberapa
tindakan yang dapat diambil berdasarkan apa yang dihasilkan oleh model kita. Bagian
ini akan dibahas lebih lanjut pada bagian 7.
11
BAB 5
METODE ANALISIS DATA MINING
Pada bagian ini, kita akan mendefinisikan secara detail metode analisis data mining
asosiasi dengan matriks korelasi pada aplikasi RapidMiner. Bagian ini akan mendefinisikan
terlebih dahulu mengenai pengenalan terhadap matriks korelasi, baru kemudian akan
membahas implementasi metode analisis data mining terhadap dataset daftar aplikasi pada App
Store sesuai dengan pembahasan pada bagian 4.
5.1. Pengenalan Matriks Korelasi
Matriks korelasi atau corelation matrix merupakan sebuah metode dalam data
mining, di mana menggunakan sebuah rentang nilai koefisien untuk menunjukan
hubungan kuat atau lemahnya antara setiap atribut secara positif (konsisten) atau negatif
(bertolak-belakang). Correlation matrix menggunakan rentang jarak koefisien antara -1
sampai dengan 1 kemudian dibagi rentangannya sebagai berikut.
- - - - - - -
Berdasarkan Gambar 5.1, secara umum rentangan nilai dibagi menjadi 4 untuk 0 –
0.4 (Tidak ada korelasi / Lemah), 0.4 – 0.6 (Terdapat Korelasi / Cukup), 0.6 – 0.8
(Korelasi Kuat), dan 0,8 – 1 (Korelasi sangat kuat). Kemudian perhitungan didalam
correlation matrix dilakukan secara bertahap dan pencarian dari koefisien hanya untuk
perbandingan 2 variabel atribut.
12
Dari data pada gambar 5.2, Pertama-tama mencari hasil perkalian nilai setiap
record (xy) kemudian, mencari hasil pangkat dua setiap nilai record disetiap variabel
atributnya (x2) dan (y2). Kemudian melakukan perhitungan total nilai record (∑x) dan
(∑y), nilai total hasil kali 2 variabel (∑xy), dan total dari pangkat dua dari setiap
variabel atributnya (∑x2) dan (∑y2). Maka dapatkan hasil yang diketahui sebagai
berikut:
n =6
∑x = 247
∑y = 486
∑xy = 20485
∑x2 = 11409
∑y2 = 40022
Kemudian hasil yang telah ditemukan tersebut akan dimasukan kedalam rumus berikut:
6ሺ20485ሻ − ሺ247ሻሺ486ሻ
𝑟=
ඥሾ6ሺ11409ሻ − ሺ247ሻ2 ሿ ሾ6ሺ40022ሻ − ሺ486ሻ2 ሿ
𝑟 = 𝟎, 𝟓𝟐𝟗𝟖
Gambar 5.3 Rumus Correlation Coeficient
13
Pada gambar 5.4, menjelaskan mengenai implementasi metode data mining dengan
matriks korelasi pada RapidMiner. Pada bagian yang disorot dengan warna kuning
adalah proses persiapan dataset sebelum dilakukan permodelan data mining. Sedangkan
pada bagian yang disorot dengan warna merah muda adalah proses permodelan dataset
yang telah dipersiapkan pada proses sebelumnya. Berikut adalah penjabarannya:
5.2.1. Proses Persiapan Dataset
Merujuk pada gambar 5.4, terdapat empat operator yang digunakan untuk
mempersiapkan dataset agar dapat gunakan untuk permodelan. Pada operator
Read CSV, kita mengimpor dataset daftar aplikasi pada App Store ke dalam
proses data mining.
Pada bab technical process, kita telah membahas bahwa jenis data yang
akan kita gunakan ialah numerik, oleh sebab itu kita perlu menyeleksi atribut yang
terdapat pada dataset, sehingga digunakanlah operator Select Attributes. Pada
operator Select Attributes, kita akan menyeleksi atribut secara subset, yang berarti
kita akan memilih secara langsung atribut yang akan digunakan yang merupakan
sebagian dari keseluruhan atribut.
14
Untuk mempermudah pemahaman Anda, berikut adalah penjelasan
terhadap setiap atribut beserta alasan mengapa atribut tersebut terpilih atau tidak
terpilih.
Tabel 5.1 Pemilihan Atribut
Atribut Terpilih Alasan
Bertipe nominal dan hanya memiliki satu nilai,
currency Tidak yakni USD, sehingga tidak memiliki keterkaitan
dengan aplikasi.
Bertipe nominal, namun dinilai berguna untuk
melihat korelasi umur pengguna dengan aplikasi.
cont_rating Ya
Selain itu atribut ini masih dapat dikonversi ke
numerik.
Bertipe numerik, namun id tidak menentukan
id Tidak
popularitas aplikasi di mata pengguna.
Bertipe nominal, di karenakan genre yang sangat
prime_genre Tidak beragam sehingga tidak dimungkinkan untuk
dikonversi menjadi numerik untuk dianalisis.
Bertipe numerik, namun rating aplikasi pada
rating_count_ver Tidak suatu versi terbaru tidak terlalu prioritas
dibandingkan dengan atribut rating_count_tot.
Bertipe numerik dan dinilai memiliki keterkaitan
ipadSc_urls_num Ya
kuat dengan popularitas aplikasi.
Bertipe nominal dan bersifat sama seperti atribut
track_name Tidak
id, yakni tidak menentukan popularitas aplikasi.
Bertipe numerik, namun rata-rata rating saat ini
user_rating_ver Tidak tidak terlalu prioritas dibandingkan dengan
atribut user_rating.
Bertipe numerik dan dinilai memiliki keterkaitan
lang.num Ya
kuat dengan popularitas aplikasi.
Bertipe numerik, namun jenis versi aplikasi
ver Tidak
dinilai tidak mempengaruhi popularitas aplikasi.
Bertipe numerik dan dinilai memiliki keterkaitan
price Ya
kuat dengan popularitas aplikasi.
Bertipe numerik dan dinilai memiliki keterkaitan
rating_count_tot Ya
kuat dengan popularitas aplikasi.
Bertipe numerik dan dinilai memiliki keterkaitan
size_bytes Ya
kuat dengan popularitas aplikasi.
Bertipe numerik dan dinilai memiliki keterkaitan
sup_device.num Ya
kuat dengan popularitas aplikasi.
Bertipe numerik dan dinilai memiliki keterkaitan
user_rating Ya
kuat dengan popularitas aplikasi.
Bertipe numerik dan dinilai memiliki keterkaitan
vpp_lic Ya
kuat dengan popularitas aplikasi.
15
cont_rating. Setiap karakter “+” dalam atribut tersebut akan dihilangkan,
misalkan “+17”, maka akan menjadi “17”. Sehingga nantinya akan dapat
dikonversikan menjadi numerik. Untuk lebih detailnya, Anda bisa
memperhatikan gambar berikut.
16
BAB 6
MANFAAT ANALISIS DATA SET
Pada bagian sebelumnya, kita telah menjelaskan mengenai proses dan cara kerja metode
analisis matriks korelasi pada kumpulan data aplikasi App Store. Di bagian ini, kita akan
mendefinisikan berbagai informasi yang telah didapatkan dari proses-proses tersebut, sehingga
kita bisa melihat manfaat yang dihasilkan dari kumpulan data tersebut yang berguna bagi
perusahaan Apple.
Gambar 6.1 Hasil Analisis Metode Data Mining dengan Matriks Korelasi
Gambar 6.1, menjelaskan hasil koefisien tersebut berbeda-beda untuk setiap korelasinya.
Atribut rating_count_tot merupakan jumlah rating telah yang diberikan oleh para pengunduh
aplikasi. Karena itu, atribut ini dapat digunakan untuk merepresentasikan jumlah pengunduh
aplikasi. Sehingga semakin tinggi nilai atribut rating_count_tot, aplikasi tersebut sangat
berpotensi memberikan pendapatan yang semakin besar pula. Untuk mempermudah
pemahaman Anda, berikut adalah tabel ringkasan hasil keseluruhan korelasi antar atribut
beserta interpretasi singkatnya.
Tabel 6.1 Ringkasan Koefisien Korelasi dengan Atribut cont_rating
17
Tabel 6.2 Ringkasan Koefisien Korelasi dengan Atribut size_bytes
Atribut yang Dikorelasikan Koefisien Korelasi Deskripsi
cont_rating 0.141 Tidak ada korelasi dengan atribut size_bytes
price -0.003 Tidak ada korelasi dengan atribut size_bytes
rating_count_tot 0.073 Tidak ada korelasi dengan atribut size_bytes
user_rating 0.066 Tidak ada korelasi dengan atribut size_bytes
sup_device.num 0.020 Tidak ada korelasi dengan atribut size_bytes
ipadsc_urls.num 0.152 Tidak ada korelasi dengan atribut size_bytes
lang.num 0.057 Tidak ada korelasi dengan atribut size_bytes
vpp_lic -.0150 Tidak ada korelasi dengan atribut size_bytes
18
Atribut yang Dikorelasikan Koefisien Korelasi Deskripsi
ipadsc_urls.num 0.265 Tidak ada korelasi dengan atribut user_rating
lang.num 0.765 Ada korelasi kuat positif dengan atribut user_rating
vpp_lic 0.070 Tidak ada korelasi dengan atribut user_rating
19
Tabel 6.9 Ringkasan Koefisien Korelasi dengan Atribut vpp_lic
Pada tabel 6.1 hingga 6.9, telah dijelaskan mengenai deskripsi singkat koefisien korelasi
setiap atribut yang telah dihasilkan dari matriks korelasi. Adapun baris yang disorot dengan
warna biru menandakan bahwa adanya korelasi antar atribut terkait, baik korelasi secara positif
maupun secara negatif. Berikutnya kita akan membahas setiap korelasi yang dinilai bermanfaat
untuk meningkatkan pendapatan (bagian 6.1) dan korelasi yang dinilai tidak terlalu bermanfaat
untuk meningkatkan pendapatan, namun dapat membantu tim app reviewer Apple untuk
mengetahui pola aplikasi seperti apa yang diharapkan oleh para pengguna App Store (bagian
6.2).
20
Dari informasi di atas, Apple jadi dapat mengetahui faktor-faktor apa saja yang
dapat menarik pengguna perangkat Apple untuk meningkatkan jumlah unduhan dalam
App Store. Dengan begitu, Apple bisa mendapatkan lebih banyak keuntungan dari
aplikasi-aplikasi yang diunduh.
6.2. Manfaat Analisis yang Tidak Berpotensi untuk Meningkatkan Pendapatan
Pada bagian ini, kita akan membahas manfaat analisis yang dinilai tidak terlalu
berpotensi untuk meningkatkan pendapatan, namun masih bermanfaat untuk digunakan
sebagai bahan rekomendasi untuk mengembangkan aplikasi sesuai dengan harapan
pengguna di App Store.
Untuk korelasi user_rating dengan sup_device.num berada di 0,528 menandakan
adalah cukup dan positif, untuk korelasi ini mungkin di mana semakin tinggi dari rata-
rata rating akan membuat total perangkat yang akan mendukung juga lebih banyak,
begitupun sebaliknya. Lalu user_rating dengan lang.num berada di 0,705 menandakan
adalah kuat positif, korelasi ini dimana rata-rata rating user semakin tinggi menandakan
karena total bahasa yang tersedia di aplikasi lebih banyak sehingga membantu pengguna
juga yang memiliki perbedaan bahasa. Kemudian korelasi user_rating dengan price
berada di -0,398 menandakan adalah lemah negatif, korelasi ini dimana dengan tingginya
user_rating bisa saja karena harga dari aplikasi tersebut rendah, namun tidak terindikasi
sering terjadi. Untuk korelasi lang.num dengan sup_device.num berada di 0,670
menandakan cukup dan positif, korelasi ini berarti apabila bahasa yang digunakan
semakin banyak maka tentunya perangkat yang akan didukung bisa semakin banyak
juga. Untuk beberapa korelasi ada yang sama dengan yang sebelumnya tentu akan
memberi kesimpulan yang sama. Sementara itu terdapat pula korelasi antara price dengan
cont_rating yang berada di 0,635 menandakan cukup dan positif, korelasi ini berarti
bahwa semakin tinggi batasan usia suatu aplikasi, maka semakin tinggi harga dari sebuah
aplikasi ini.
Melalui berbagai hasil analisis di atas, diharapkan dapat memberikan manfaat
kepada Apple, walaupun tidak berpotensi secara langsung untuk meningkatkan
pendapatan. Namun hal ini dapat membantu para pengembang aplikasi untuk mengetahui
pola aplikasi seperti apa yang diharapkan para pengguna.
21
BAB 7
IDE DAN INOVASI PADA PERUSAHAAN
Pada bagian ini, kita akan merumuskan ide dan inovasi yang dapat direkomendasikan
kepada Apple berdasarkan beberapa tahapan yang telah dilalui sebelumnya. Pada dasarnya
setiap atribut yang saling berkorelasi memiliki manfaat bagi perusahaan Apple, karena lewat
hasil data mining tersebut, kita dapat mengetahui pola yang ada di dalam daftar aplikasi pada
App Store. Untuk mempermudah pemahaman, berikut adalah skema ide dan inovasi.
7.1. Ide
Ide yang mendasari implementasi data mining pada perusahaan Apple ialah bahwa
saat ini layanan (App Store, iTunes, dan lainnya) merupakan sumber pemasukan terbesar
kedua bagi Apple dalam beberapa tahun belakangan. Saat ini App Store telah menjadi
rumah bagi sekitar lebih dari 17.000 aplikasi, penulis melihat setiap data yang melekat
pada aplikasi, seperti jumlah ulasan, harga, hingga rata-rata rating bukanlah hanya data
semata sebagai informasi untuk para pengguna. Melainkan penulis melihatnya sebagai
peluang untuk melihat pola bagaimana sebuah aplikasi bisa menjadi populer dan
digemari oleh para pengguna. Sehingga secara tidak langsung dapat meningkatkan
pendapatan Apple.
7.2. Inovasi
Untuk mendukung ide tersebut, maka diperlukanlah inovasi yang harus dilakukan.
Setelah melalui berbagai penelitian dari sejumlah sumber terpercaya. Penulis
merumuskan sebuah inovasi untuk pemanfaatan teknik data mining asosiasi dengan
metode matriks korelasi untuk melihat pola yang terdapat dalam dataset aplikasi yang
terdaftar pada App Store.
Perlu diketahui bahwa setiap aplikasi yang diajukan atau sudah terdapat di App
Store akan di-review oleh tim app reviewer secara berkala untuk menjamin keamanan
dan kualitas sebuah aplikasi. Setiap keputusan apakah suatu aplikasi bisa dipublikasi,
bertahan, atau dilarang berada ditangan ERB (Executive Review Board) di bawah
naungan divisi marketing.
Oleh sebab itu, kita bisa melihat bahwa adanya keterkaitan antara ide dan inovasi.
Di mana dalam hal ini tim app reviewer Apple bisa menggunakan hasil analisis data
mining yang telah diolah oleh tim data scientist Apple sebagai pendukung keputusan
untuk menentukan atau merekomendasikan suatu hal terhadap aplikasi yang mereka
tinjau.
22
Untuk mempermudah pemahaman Anda, berikut adalah analogi sederhana berupa
BPMN mengenai bagaimana keterkaitan ide dan inovasi data mining dapat berjalan pada
perusahaan Apple.
Tim Data Science
Mulai proses
data mining
Peninjauan aplikasi
selesai
Apple Developer
Aplikasi Mengembangkan
Mengajukan aplikasi
ditolak aplikasi
Gambar 7.1 BPMN Ide dan Inovasi Data Mining pada Perusahaan Apple
Pada gambar 7.1. menjelaskan mengenai model proses bisnis inovasi data mining pada
perusahaan Apple yang melibatkan tim data science, tim app reviewer, dan Apple developer.
Berikut adalah pemerinciannya:
1) Proses dimulai oleh tim data science yang akan mengimpor data daftar aplikasi dari basis
data App Store. Kemudian melakukan proses data mining dengan metode matriks korelasi,
lalu membuat laporan hasil data mining untuk kemudian diberikan kepada tim app
reviewer sebagai bahan pendukung untuk menentukan atau merekomendasikan suatu hal
terhadap aplikasi yang mereka tinjau. (lanjut ke langkah 2).
2) Sesudah tim app reviewer menerima laporan, selanjutnya mereka aka meninjau aplikasi,
lalu kemudian memberikan hasil tinjauan kepada Apple developer. Hingga saat ini, proses
pada pool perusahaan Apple untuk meninjau aplikasi sudah selesai. (lanjut ke langkah 3).
3) Hasil tinjauan yang telah diterima seorang Apple developer, tentunya terdapat dua
keadaan, yakni apakah aplikasi diterima atau tidak. Apabila aplikasi diterima maka proses
pengajuan aplikasi telah selesai. Apabila aplikasi ditolak, maka Apple developer akan
mengembangkan aplikasinya untuk diajukan kembali kepada tim app reviewer Apple.
23
BAB 8
PENUTUP
8.1. Kesimpulan
Berdasarkan hasil kitaan yang dilakukan, berikut merupakan beberapa kesimpulan
yang dapat diambil:
a. Data mining memungkinkan perusahaan untuk menemukan dan menafsirkan pola
dari data yang mereka miliki, membantu mereka membuat keputusan yang lebih baik
dan melayani pelanggan mereka dengan lebih baik. Data mining memiliki berbagai
teknik yang tiap-tiap tekniknya memiliki fungsi dan tujuannya masing-masing.
Dalam implementasinya kita membutuhkan suatu proses yang terstandarisasi agar
data mining dapat berjalan efektif. Dalam laporan ini, penulis menggunakan CRISP-
DM sebagai standar proses teknik data mining asosiasi dengan matriks korelasi
untuk lintas industri.
b. Hasil analisis data mining dengan matriks korelasi menunjukan terdapat pola yang
berpotensi untuk meningkatkan pendapatan App Store, yakni: user_rating (0,785).
sup_device.num (0,719), dan lang.num (0,918). Atribut ini menjadi potensi terbesar
untuk mengembangkan popularitas sebuah aplikasi, sehingga berpotensi
meningkatkan pendapatan.
c. Hasil analisis data mining dengan matriks korelasi juga menunjukan terdapat pola
yang tidak berpotensi meningkatkan pendapatan, namun dapat membantu Apple
developer untuk mengembangkan aplikasinya sesuai dengan harapan pengguna,
beberapa diantaranya, yakni: user_rating dengan sup_device.num berada di 0,528,
user_rating dengan lang.num berada di 0,705, lang.num dengan sup_device.num
berada di 0,670, dan price dengan cont_rating yang berada di 0,635.
8.2. Saran
Berdasarkan hasil studi kasus yang dilakukan, adapun saran yang diberikan adalah
data mining juga menimbulkan kekhawatiran dalam hal privasi. Karena tidak selamanya
data sah/legal yang digunakan untuk data mining adalah etis. Oleh sebab itu, pemahaman
data mining tidak hanya didasarkan pada teori dan standar proses tertentu saja, namun
harus disertai pemahaman terhadap kode etiknya. Kita dapat melindungi privasi dengan
menggabungkan data, menganonimkan pengamatan melalui penghapusan nama dan
informasi pengenal pribadi, dan dengan menyimpannya di lingkungan yang aman dan
terlindungi. Kita harus belajar untuk peka terhadap perasaan dan hak seseorang.
24
DAFTAR PUSTAKA
C., D. A., Baskoro, D. A., Ambarwati, L., & Wicaksana, I. S. (2013). Belajar Data Mining
dengan RapidMiner. Jakarta.
Defit, S. (2013). Penggunaan Algoritma Apriori dalam Menganalisa Perilaku Mahasiswa
dalam Memilih Mata Kuliah. Studi Kasus : Fkip Upi, 31-42.
Larose, D. T. (2005). Discovering Knowledge in Data : An Introduction to Data Mining. New
Jersey: John Wiley & Sons.
North, M. (2012). Data Mining for the Masses. Athens: Global Text Project.
Sharda, R. D. (2014). Business Intelligence: A Managerial Perspective on Analytics. London:
Pearson.
Sharda, R., Delen, D., & Turban, E. (2015). Business Intelligence and Analytics: Systems for
Decision Support, 10th Edition. London: Pearson.
Suriasumantri, S. (2007). Filsafat Ilmu: Sebuah Pengantar Populer. Jakarta: Pustaka Sinar
Harapan.
Wahono, R. S. (2020). Data Mining. Retrieved from RomiSatriaWahono:
https://romisatriawahono.net/dm/
Witten, I. H., E., F., & Hall, M. A. (2011). Data Mining Practical Machine Learning Tools
and Techniques (3rd ed). Massachusetts: Morgan Kaufmann.
25