Anda di halaman 1dari 32

LAPORAN STUDI KASUS ANALISIS

PENERAPAN DATA MINING PADA APP STORE


DENGAN MATRIKS KORELASI

Mata Kuliah:
Data Warehouse & Data Mining

Dosen Mata Kuliah:


M. Fauzi Isputrawan, S.Kom., M.MSI

Disusun oleh:
Fendyanto 31190038
Johanes Shane 31190042
Kosasi 31190050
Alexander C. S. P. 31190095

FAKULTAS TEKNOLOGI DAN DESAIN


UNIVERSITAS BUNDA MULIA KAMPUS SERPONG
TANGERANG
2020/2021
ABSTRAKSI

LAPORAN STUDI KASUS ANALISIS PENERAPAN DATA MINING PADA APP


STORE DENGAN MATRIKS KORELASI
Oleh: Kelompok III

Apple adalah perusahaan teknologi multinasional yang berpusat di Cupertino, California,


yang merancang, mengembangkan, dan menjual barang elektronik konsumen, perangkat lunak
komputer, dan layanan daring. Sumber pendapatan Apple secara garis besar dapat dibagi
menjadi lima sektor, yakni: iPhone, Mac, iPad, Aksesoris, dan Layanan (App Store, iTunes,
dan lainnya). Berdasarkan data statistik, layanan merupakan sumber pendapatan terbesar kedua
selama beberapa tahun ke belakang untuk Apple.
Melihat dari fakta tersebut penulis mendapatkan ide untuk melakukan operasi data
mining terhadap dataset aplikasi yang terdaftar pada App Store untuk menemukan pola dan
inovasi yang dapat ditawarkan terhadap perusahaan.
Dengan menggunakan teknik data mining asosiasi dengan metode matriks korelasi,
penulis menemukan adanya pola dari data yang menunjukan adanya korelasi antar atribut yang
berpotensi untuk meningkatkan pendapatan Apple melalui App Store.

Kata kunci : data mining, association, correlations matrix

ii
KATA PENGANTAR

Puji syukur kami panjatkan kepada Tuhan Yang Maha Kuasa karena atas kasih karunia-
Nya, laporan yang berjudul “Laporan Studi Kasus Analisis Penerapan Data Mining pada App
Store dengan Matriks Korelasi” dapat diselesaikan. Penyusunan laporan ini diharapkan dapat
menambah wawasan yang lebih mendalam terhadap mata kuliah Data Warehouse & Data
Mining.
Dalam pembuatan laporan ini, kami mengucapkan terima kasih kepada yang terhormat
Bapak M. Fauzi Isputrawan, S.Kom., M.MSI. selaku dosen mata kuliah Data Warehouse &
Data Mining yang telah memberikan tugas yang bermanfaat bagi kami. Selain itu, ucapan
terima kasih juga kami tujukan kepada kedua orang tua dan teman-teman yang telah
memberikan doa, dorongan, serta bantuan kepada kami sehingga laporan ini dapat diselesaikan.
Demikian laporan ini kami hadirkan dengan segala kelebihan dan kekurangan. Oleh
sebab itu, kritik dan saran yang membangun demi perbaikan laporan ini, sangat diharapkan.
Semoga laporan ini dapat memberikan manfaat dan pengetahuan bagi pembaca.

Tangerang, 06 Juni 2021

Kelompok III

iii
DAFTAR ISI

ABSTRAKSI .............................................................................................................................ii
KATA PENGANTAR ............................................................................................................. iii
DAFTAR ISI............................................................................................................................. iv
DAFTAR GAMBAR ................................................................................................................ vi
DAFTAR TABEL ....................................................................................................................vii
BAB 1 PENDAHULUAN ......................................................................................................... 1
1.1. Latar Belakang Permasalahan ..................................................................................... 1
1.2. Identifikasi Masalah .................................................................................................... 2
1.3. Tujuan Studi Kasus ..................................................................................................... 2
1.4. Kegunaan Hasil Studi Kasus ....................................................................................... 2
1.5. Lokasi dan Jadwal Studi Kasus ................................................................................... 2
BAB 2 LATAR BELAKANG PERUSAHAAN ....................................................................... 3
2.1. Profil Perusahaan......................................................................................................... 3
2.2. Latar Belakang Perusahaan ......................................................................................... 3
BAB 3 LANDASAN TEORI DAN KERANGKA PEMIKIRAN ............................................ 4
3.1. Landasan Teori ............................................................................................................ 4
3.1.1. Data Mining ............................................................................................................. 4
3.1.2. Operasi Data Mining ............................................................................................... 4
3.1.3. Asosiasi .................................................................................................................... 5
3.1.4. RapidMiner .............................................................................................................. 5
3.2. Kerangka Pemikiran .................................................................................................... 6
3.2.1. Pentingnya Data Mining bagi Perusahaan ............................................................... 6
3.2.2. Keterkaitan Data Mining dengan Apple .................................................................. 6
BAB 4 TECHNICAL PROCESS .............................................................................................. 8
4.1. Business Understanding .............................................................................................. 8
4.2. Data Understanding ..................................................................................................... 8
4.3. Data Preparation ........................................................................................................ 10
4.4. Modeling ................................................................................................................... 11
4.5. Evaluation.................................................................................................................. 11
4.6. Deployment ............................................................................................................... 11
BAB 5 METODE ANALISIS DATA MINING ..................................................................... 12

iv
5.1. Pengenalan Matriks Korelasi .................................................................................... 12
5.2. Implementasi Metode Analisis Data Mining pada RapidMiner................................ 13
5.2.1. Proses Persiapan Dataset ....................................................................................... 14
5.2.2. Proses Permodelan dengan Matriks Korelasi ........................................................ 16
BAB 6 MANFAAT ANALISIS DATA SET .......................................................................... 17
6.1. Manfaat Analisis yang Berpotensi untuk Meningkatkan Pendapatan ....................... 20
6.2. Manfaat Analisis yang Tidak Berpotensi untuk Meningkatkan Pendapatan ............ 21
BAB 7 IDE DAN INOVASI PADA PERUSAHAAN ............................................................ 22
7.1. Ide .............................................................................................................................. 22
7.2. Inovasi ....................................................................................................................... 22
BAB 8 PENUTUP ................................................................................................................... 24
8.1. Kesimpulan................................................................................................................ 24
8.2. Saran .......................................................................................................................... 24
DAFTAR PUSTAKA .............................................................................................................. 25

v
DAFTAR GAMBAR
Gambar 1.1 Statistik Perbandingan Pendapatan App Store dan Google Play ........................... 1
Gambar 3.1 Statistik Pendapatan Apple .................................................................................... 7
Gambar 3.2 Kerangka Pemikiran............................................................................................... 7
Gambar 5.1 Rentang Nilai Koefisien ....................................................................................... 12
Gambar 5.2 Contoh Dataset Hasil Tes Glukosa ...................................................................... 12
Gambar 5.3 Rumus Correlation Coeficient ............................................................................. 13
Gambar 5.4 Imlementasi Metode Matriks Korelasi pada RapidMiner .................................... 13
Gambar 5.5 Pemilihan Atribut pada Dataset ........................................................................... 14
Gambar 5.6 Replace dengan Regular Expression.................................................................... 16
Gambar 6.1 Hasil Analisis Metode Data Mining dengan Matriks Korelasi ............................ 17
Gambar 7.1 BPMN Ide dan Inovasi Data Mining pada Perusahaan Apple............................. 23

vi
DAFTAR TABEL
Tabel 1.1 Jadwal Studi Kasus .................................................................................................... 2
Tabel 4.1 Sampel Dataset Aplikasi yang Terdaftar di App Store .............................................. 9
Tabel 5.1 Pemilihan Atribut ..................................................................................................... 15
Tabel 6.1 Ringkasan Koefisien Korelasi dengan Atribut cont_rating ..................................... 17
Tabel 6.2 Ringkasan Koefisien Korelasi dengan Atribut size_bytes ....................................... 18
Tabel 6.3 Ringkasan Koefisien Korelasi dengan Atribut price ............................................... 18
Tabel 6.4 Ringkasan Koefisien Korelasi dengan Atribut rating_count_tot ............................ 18
Tabel 6.5 Ringkasan Koefisien Korelasi dengan Atribut user_rating ..................................... 18
Tabel 6.6 Ringkasan Koefisien Korelasi dengan Atribut sup_device.num .............................. 19
Tabel 6.7 Ringkasan Koefisien Korelasi dengan Atribut ipadSc_urls.num ............................ 19
Tabel 6.8 Ringkasan Koefisien Korelasi dengan Atribut lang.num ........................................ 19
Tabel 6.9 Ringkasan Koefisien Korelasi dengan Atribut vpp_lic............................................ 20

vii
BAB 1
PENDAHULUAN

1.1. Latar Belakang Permasalahan


Melihat dari banyaknya produk bisnis yang dimiliki Apple, tentunya kita tahu
bahwa Apple memiliki sangat banyak kompetitor, baik kompetitor dalam satu bidang
atau pun kompetitor yang juga memiliki cakupan produk bisnis yang hampir serupa
seperti Apple, contohnya adalah Apple dengan App Store dan Google dengan Play Store.

Gambar 1.1 Statistik Perbandingan Pendapatan App Store dan


Google Play

Saat ini pendapatan App Store lebih besar dari pada Google Play dan kenaikannya
lebih pesat setiap tahunnya. Hal ini karena adanya perilaku pembelian dan solvabilitas
dimana daya pengguna App Store lebih kuat dari pada pengguna Play Store, karena
pengguna App Store punya kemampuan finansial lebih mapan. Kemudian Play Store
berfokus pada aplikasi gratis/freemium, berbeda dengan App Store. Di mana pengguna
App Store 2,5x lebih banyak melakukan pembelian, berikutnya adanya biaya
pengembangan dimana biaya pengembangan App Store lebih efisien dari pada Play
Store, karena mengembangkan aplikasi untuk Android akan mengambil 38% lebih
banyak baris kode dan 30% lebih banyak jam kerja, yang berdasarkan riset yang telah
dilakukan. Lalu yang terakhir karena adanya pengaruh Tiongkok dimana Play Store di
blokir di Tiongkok, sehingga penggunaan App Store dapat meningkat, bahkan melebihi
di Amerika.
Melihat dari potensi App Store sebagai salah satu sumber pendapatan utama Apple,
maka diperlukan pemahaman lingkungan pasar yang baik untuk menjamin bahwa setiap
aplikasi yang terdaftar atau didaftarkan dapat memenuhi harapan penggunanya. Sehingga

1
dibutuhkan data mining untuk membantu tim app reviewer Apple dalam memberikan
rekomendasi kepada para pengembang aplikasi sesuai dengan pola perilaku pengguna
yang dihasilkan.
1.2. Identifikasi Masalah
Pada laporan ini, terdapat beberapa permasalahan yang akan diidentifikasi sebagai
berikut.
a. Bagaimana cara menerapkan teknik data mining yang tepat pada dataset App Store?
b. Bagaimana data mining dapat membantu meningkatkan pendapatan Apple melalui
App Store?
1.3. Tujuan Studi Kasus
Penulisan laporan ini bertujuan untuk melakukan studi penerapan data mining
dalam perusahaan Apple. Kemudian menentukan teknik data mining yang tepat untuk
diimplementasikan ke dalam dataset daftar aplikasi yang terdaftar pada App Store,
sehingga dapat menemukan pemahaman pengetahuan yang berguna bagi Apple.
1.4. Kegunaan Hasil Studi Kasus
Penulisan ini dapat memberikan manfaat untuk meningkatkan pendapatan Apple
dari bidang layanan melalui App Store, dengan cara memberikan rekomendasi kepada
Apple dalam hal ini diwakilkan oleh tim app reviewer berdasarkan pola data yang telah
di analisis dengan menggunakan data mining. Sehingga tim app reviewer dapat
membantu para developer aplikasi di App Store untuk mengembangkan aplikasi sesuai
dengan harapan pelanggan. Hal ini diharapkan secara tidak langsung dapat meningkatkan
pendapatan Apple.
1.5. Lokasi dan Jadwal Studi Kasus
Lokasi dan jadwal studi kasus yang dilakukan oleh kelompok ini adalah pada PT
Apple Indonesia yang berlokasi di Jl. Jend. Sudirman No.8, RT.8/RW.3, Kuningan,
Jakarta Selatan. Berikut adalah jadwal dari studi kasus pada laporan ini.

Tabel 1.1 Jadwal Studi Kasus


NO Aktivitas Waktu Mulai Waktu Selesai
1 Analisis tujuan bisnis dan kebutuhan data mining 28 Mei 29 Mei
2 Analisis dan pengumpulan data 30 Mei 31 Mei
3 Analisis metode dan evaluasi data mining 01 Juni 03 Juni
4 Interpretasi hasil data mining 04 Juni 05 Juni
Merumuskan rekomendasi tindakan berdasarkan
5 06 Juni 07 Juni
hasil data mining.

2
BAB 2
LATAR BELAKANG PERUSAHAAN

2.1. Profil Perusahaan


Perusahaan Appe berkantor pusat di Apple Park Way, Cupertino, California, A.S.
Didirikan pada 1 April 1976 oleh Steve Jobs, Steve Wozniak, dan Ronald Wayne. Alamat
website resmi Apple dapat kita kunjungi di www.apple.com.
2.2. Latar Belakang Perusahaan
Apple Inc. adalah perusahaan teknologi multinasional yang merancang,
mengembangkan, dan menjual barang elektronik konsumen, perangkat lunak komputer,
dan layanan daring. Perangkat keras yang diproduksi Apple meliputi telepon pintar
iPhone, komputer tablet iPad, komputer pribadi Mac, pemutar media portabel iPod, jam
pintar Apple Watch, pemutar media digital Apple TV, dan pengeras suara pintar
HomePod. Perangkat lunak yang diproduksi Apple meliputi sistem operasi macOS dan
iOS, pemutar media iTunes, penjelajah web Safari, dan perangkat kreativitas dan
produktivitas iLife dan iWork, serta berbagai aplikasi profesional seperti Final Cut Pro,
Logic Pro, dan Xcode. Layanan daringnya meliputi iTunes Store, iOS App Store dan
Mac App Store, Apple Music, dan iCloud.
Selama lebih dari dua dekade, Apple Computer adalah sebagian besar produsen
yang memenuhi komputer pribadi, termasuk Apple II, Macintosh, dan Mac Power, tetapi
akhirnya menghadapi penjualan yang sulit dan pangsa pasar rendah selama tahun 1990-
an. Steve Jobs, yang telah keluar dari perusahaan Apple pada tahun 1985, kembali
menjadi CEO Apple pada tahun 1996 dan membawa sebuah filosofi perusahaan baru
dengan produk yang dikenali dan desain yang sederhana. Dengan diperkenalkannya
pemutar musik iPod yang sukses di tahun 2001, Apple menempatkan dirinya sebagai
pemimpin dalam industri elektronik konsumen, ditambah lagi setelah merilis iPhone dan
iPad. Saat ini, Apple adalah perusahaan teknologi terbesar di dunia, dengan pendapatan
kuartalannya di 2020 mencapai $ 111,4 miliar.

3
BAB 3
LANDASAN TEORI DAN KERANGKA PEMIKIRAN

3.1. Landasan Teori


3.1.1. Data Mining
Data mining adalah proses melakukan ekstraksi untuk mendapatkan
informasi penting yang sifatnya implisit dan sebelumnya tidak diketahui, dari
suatu data (Witten, dkk., 2011).
Menurut Han, dkk (2011), data mining merupakan ekstraksi pola atau
pengetahuan yang menarik (non-trivial, implisit, sebelumnya tidak diketahui dan
berpotensi berguna) dari sejumlah besar data.
Bila disimpulkan, data mining merupakan disiplin ilmu yang mempelajari
metode untuk mengekstrak data menjadi pengetahuan atau menemukan pola dari
suatu data. Untuk memahami ekstrasi pengetahuan dari sebuah data, berikut
adalah perbedaan antara data, informasi dan pengetahuan.
1) Data merupakan fakta yang terekam dan tidak membawa arti.
2) Informasi merupakan rekap, rangkuman, penjelasan dan statistik dari data.
3) Pengetahuan merupakan pola, rumus, aturan atau model yang muncul dari
data.
3.1.2. Operasi Data Mining
Menurut Larose (2005), terdapat beberapa operasi umum yang dapat
dilakukan data mining sebagai berikut.
1) Estimasi: serupa dengan klasifikasi namun dengan tipe variabel target
bernilai numerik. Model dibangun menggunakan data historis "lengkap",
yang memberikan nilai variabel target serta prediktor. Kemudian, untuk
pengamatan baru, dibuat estimasi nilai variabel target, berdasarkan nilai
prediktor.
2) Prediksi: serupa dengan klasifikasi dan estimasi, kecuali untuk prediksi,
hasilnya terletak di masa depan.
3) Klasifikaasi: menentukan sebuah record data baru ke dalam salah satu dari
beberapa kelas (kategori) yang telah didefinisikan sebelumnya, biasa juga
disebut sebagai “supervised learning”.

4
4) Klastering: mengacu pada pengelompokan record, observasi, atau kasus ke
dalam kelas objek yang serupa. Klaster adalah kumpulan record yang identik
satu sama lain, dan berbeda dengan data pada record di klaster lain.
5) Asosiasi: menemukan atribut mana yang sering muncul bersamaan. Dalam
dunia bisnis, dikenal sebagai analisis afinitas atau analisis keranjang pasar,
operasi asosiasi berusaha mengungkap aturan untuk mengukur hubungan
antara dua atau lebih atribut.
3.1.3. Asosiasi
Asosiasi adalah salah satu metode data mining yang mana memiliki tujuan
untuk mencari pola yang sering muncul di antara banyak transaksi, di mana setiap
transaksi terdiri dari beberapa item (Defit, 2013).
Menurut Wahono (2020), pada dasarnya asosiasi dapat dibedakan
berdasarkan tipe data yang akan diasosiasikan, yakni numerik dan nominal.
Untuk data bersifat nominal, metode yang dapat digunakan ialah association
rules. Sedangkan untuk numerik, maka metode yang dapat digunakan ialah
matriks korelasi. Penjelasan mengenai penggunaan matriks korelasi dalam data
mining akan diberikan pada bagian 5.
3.1.4. RapidMiner
RapidMiner adalah sebuah aplikasi yang digunakan untuk melakukan
analisis terhadap data mining, text mining dan analisis prediksi. RapidMiner
menggunakan berbagai teknik deskriptif dan prediksi dalam memberikan
wawasan kepada pengguna sehingga dapat membuat keputusan yang paling baik
(Baskoro, dkk., 2013). Beberapa fitur dari RapidMiner antara lain, yakni: (1)
Banyaknya algoritma data mining, seperti decision tree dan self-organization
map, (2) Bentuk grafis yang canggih, seperti tumpang tindih diagram histogram,
tree chart dan 3D scatter plots, (3) Banyaknya variasi plugin, seperti text plugin
untuk melakukan analisis teks, (4) Menyediakan prosedur data mining dan
machine learning termasuk: ETL (extraction, transformation, loading), data
preprocessing, visualisasi, modeling dan evaluasi, (5) Proses data mining
tersusun atas operator-operator yang nestable, dideskripsikan dengan XML, dan
dibuat dengan GUI, dan (6) Mengintegrasikan proyek data mining Weka dan
statistika R.

5
3.2. Kerangka Pemikiran
Kerangka pikiran pada dasarnya adalah suatu arah penalaran untuk bisa atau dapat
memberikan jawaban sementara atas rumusan masalah yang sudah atau telah disebutkan.
Sedangkan menurut Suriasumantri dalam Sugiyono (2016, hlm. 60) yang mengatakan
bahwa, kerangka pemikiran ini merupakan penjelasan sementara terhadap gejala-gelaja
yang menjadi obyek permasalahan.
Maka, dapat disimpulkan bahawa kerangkan pemikiran merupakan rancangan atau
pola pikir yang menjelaskan hubungan antara variabel atau permasalahan yang disusun
dari berbagai teori yang telah dideskripsikan untuk dianalisis dan dipecahkan sehingga
dapat dirumuskan sebuah hipotesis.
3.2.1. Pentingnya Data Mining bagi Perusahaan
Sebelum membahas pentingnya data mining bagi perusahaan, penting
untuk diketahui bahwa data mining tidak dapat memberikan jawaban untuk setiap
permasalahan, serta juga tidak dapat kita harapkan bahwa model prediktif akan
selalu memberikan hasil yang menjadi kenyataan (Witten, dkk., 2011). Namun
data mining dapat membantu perusahaan menganalisis data untuk dijadikan pola
pengetahuan sebagai pendukung dalam pengambilan keputusan. Secara
sederhana, perusahaan dapat mengetahui fakta yang terjadi dalam operasi bisnis
mereka lewat data mining yang biasanya tidak mereka sadari bahwa terdapat
peluang atau ancaman yang terindikasi dari fakta tersebut. Salah satu contohnya
ialah Gojek yang merupakan perusahaan transportasi daring tanpa memiliki
kendaraan. Lewat data juga, Gojek mengetahui kebutuhan pelanggannya dan
lahirlah berbagai layanan yang sering kita gunakan saat ini, seperti: Go-Food, Go-
Send, Go-Mart, dan lain sebagainya. Hal ini membuktikan bahwa data sangat
berperan penting dalam mendukung perusahaan untuk mengambil keputusan
yang tepat.
3.2.2. Keterkaitan Data Mining dengan Apple
Pada gambar 3.1, dapat terlihat bahwa sumber pendapatan Apple secara
garis besar dapat dibagi menjadi lima sektor, yakni: iPhone, Mac, iPad, Aksesoris,
dan Layanan (App Store, iTunes, dan lainnya). Kemudian, layanan merupakan
sumber pendapatan terbesar kedua selama beberapa tahun ke belakang untuk
Apple.

6
Gambar 3.1 Statistik Pendapatan Apple

Semakin banyak pengguna iPhone, maka pengguna layanan Apple (App


Store) akan semakin banyak. Sehingga Apple tentunya perlu untuk memastikan
aplikasi di dalam App Store berkualitas di tengah pengguna yang semakin luas
dan beragam yang dijamin oleh tim reviewer Apple. Hal ini dikarenakan Apple
mendapatkan 30% komisi untuk setiap transaksi pembelian layanan aplikasi dan
pembelian di dalam aplikasi. Oleh sebab itu, perlu untuk memastikan aplikasi
yang dihadirkan App Store sesuai dengan pola yang diharapkan para pengguna.
Sehingga secara tidak langsung dapat meningkatkan pendapatan Apple, ketika
pelanggan merasa puas dengan aplikasi yang dihadirkan.
Berikut adalah skema kerangka pemikiran yang terdapat dalam laporan ini:

Gambar 3.2 Kerangka Pemikiran

7
BAB 4
TECHNICAL PROCESS

Pada bagian ini, kita akan mendefinisikan pemrosesan teknik data mining dilakukan
terhadap dataset daftar aplikasi App Store. Ada berbagai teknik data mining yang dapat
digunakan organisasi untuk mendapatkan pemahaman yang lebih baik tentang pelanggan
mereka dan operasi bisnis, serta untuk memecahkan masalah organisasi yang kompleks.
Namun terdapat kendala di beberapa perusahaan, karena masing-masing perusahaan
memiliki karakteristik yang berbeda dan mereka kesulitan untuk menentukan best practice
yang dapat diterapkan. Jelas, dalam hal ini dibutuhkan standar antar industri yang bersifat
netral. Sehingga dibutuhkan Cross-Industry Standard Process for Data Mining (CRISP-DM)
yang membuat data mining dalam suatu perusahaan memiliki siklus hidup yang terdiri dari
enam langkah yaitu: business understanding, data understanding, data preparation, modeling,
evaluation, dan deployment. Sehingga dalam laporan ini, kita akan melakuakan analisis data
mining dengan berlandaskan pada CRISP-DM.
4.1. Business Understanding
Pada tahap business understanding, latar belakang dan tujuan perusahaan sangat
diperlukan untuk mengetahui cara menerapkan data mining terhadap data, antara lain
sebagai berikut.
a. Determine Business Objectives (Menentukan Tujuan Bisnis), dilakukannya studi
kasus ini untuk menemukan cara meningkatkan pendapatan Apple melalui bidang
layanan, yakni App Store.
b. Determine the Data Mining Goals (Menentukan Tujuan Data Mining), Tujuan
dilakukan data mining adalah untuk menemukan korelasi antar atribut pada seluruh
aplikasi yang terdaftar di App Store. Hal ini memungkinkan pada tim app reviewer
Apple bisa meninjau aplikasi sesuai dengan harapan pengguna, sehingga dapat
meningkatkan pendapatan Apple secara tidak langsung.

4.2. Data Understanding


Untuk menganalisis data aplikasi, harus dimulai dengan pengumpulan data awal
agar dapat ditemukan masalah data/mendeteksi subset unik untuk membentuk suatu
hipotesis data yang dimiliki. Untuk itu dikumpulkanlah data aplikasi yang terdaftar di
App Store melalui situs Kaggle yang dapat diakses pada tautan berikut “klik”. Pada
tabel 4.1, dapat terlihat setiap sampel dari dataset tersebut.

8
Tabel 4.1 Sampel Dataset Aplikasi yang Terdaftar di App Store

id track_name size_bytes currency price rating_count_tot rating_count_ver user_rating user_rating_ver ver cont_rating prime_genre sup_devices.num ipadSc_urls.num lang.num vpp_lic

281656475 PAC-MAN Premium 100788224 USD 0.99 776885 26 4 4.5 6.3.5 4+ Games 41 5 25 1

281796108 Evernote - stay organized 158578688 USD 1.99 838215 26 4 3.5 8.2.2 4+ Productivity 45 5 40 1
WeatherBug - Local
281940292 Weather, Radar, Maps, 100524032 USD 1.99 188583 2822 3.5 4.5 5.0.0 4+ Weather 37 5 3 1
Alerts
eBay: Best App to Buy,
282614216 Sell, Save! Online 128512000 USD 1.99 864021 649 4 4.5 5.10.0 12+ Shopping 47 5 33 1
Shopping
282935706 Bible 92774400 USD 0.99 920526 5320 4.5 5 7.5.1 4+ Reference 47 5 31 1

283619399 Shanghai Mahjong 10485713 USD 1.99 830874 5516 4 4 1.8 4+ Games 40 5 25 1

PayPal - Send and request


283646709 227795968 USD 1.99 765107 879 4 4.5 6.12.0 4+ Finance 40 0 39 1
money safely

284035177 Pandora - Music & Radio 130242560 USD 1.99 875944 3594 4 4.5 8.4.1 12+ Music 47 4 30 1

PCalc - The Best


284666222 49250304 USD 0.99 788951 4 4.5 5 3.6.6 4+ Utilities 43 5 36 1
Calculator

284736660 Ms. PAC-MAN 70023168 USD 0.99 999595 40 4 4 4.0.4 4+ Games 44 0 38 1

284791396 Solitaire by MobilityWare 49618944 USD 0.99 849540 4017 4.5 4.5 4.10.1 4+ Games 48 4 31 1

284815117 SCRABBLE Premium 227547136 USD 1.99 105776 166 3.5 2.5 5.19.0 4+ Games 37 0 6 1

Google – Search made


284815942 179979264 USD 6.99 479440 203 3.5 4 27 17+ Utilities 37 4 33 1
just for mobile
Bank of America - Mobile
284847138 160925696 USD 1.99 119773 2336 3.5 4.5 7.3.8 4+ Finance 37 0 2 1
Banking
284862767 FreeCell 55153664 USD 0.99 769940 668 4.5 4.5 4.0.3 4+ Games 41 5 36 1

TripAdvisor Hotels Flights


284876795 207907840 USD 0.99 996490 87 4 3.5 21.1 4+ Travel 40 1 31 1
Restaurants

284882215 Facebook 389879808 USD 0.99 2974676 212 3.5 3.5 95 4+ Social Networking 37 1 29 1

Yelp - Nearby Restaurants,


284910350 167407616 USD 0.99 808038 3726 4 4.5 11.15.0 12+ Travel 48 5 35 1
Shopping & Services
Shazam - Discover music,
284993459 147093504 USD 1.99 951240 136 4 4.5 11.0.3 12+ Music 44 3 27 1
artists, videos & lyrics
Crash Bandicoot Nitro Kart
285005463 10735026 USD 0.99 791387 4178 4 3.5 1.0.0 4+ Games 46 0 36 1
3D

285946052 iQuran 70707916 USD 1.99 843686 966 4.5 4.5 3.3 4+ Reference 45 0 30 1

285994151 :) Sudoku + 6169600 USD 0.99 788701 781 5 5 5.2.6 4+ Games 46 5 25 1

9
Pada tabel 4.1, terdapat 16 atribut yang ada pada dataset aplikasi yang terdaftar
pada App Store. Berikut merupakan penjelasan dari setiap atribut yang ada.
a. id: ID aplikasi.
b. track_name: Nama aplikasi.
c. Size_bytes: Ukuran aplikasi (dalam bita).
d. currency: Tipe mata uang harga.
e. price: Harga aplikasi.
f. rating_count_tot: Jumlah rating keseluruhan.
g. rating_count_ver: Jumlah rating versi saat ini.
h. user_rating: Rata-rata rating keseluruhan.
i. user_rating_ver: Rata-rata rating versi saat ini.
j. ver: Kode versi terakhir.
k. cont_rating: Penilaian konten aplikasi.
l. prime_genre: Genre aplikasi.
m. sup_device.num: Jumlah perangkat yang didukung.
n. ipadSc_urls.num: Jumlah screenshot preview aplikasi yang ditampilkan.
o. lang.num: Jumlah Bahasa yang didukung.
p. vpp_lic: Memiliki lisensi VPP.

4.3. Data Preparation


Persiapan data melibatkan sejumlah kegiatan. Proses ini mungkin termasuk
menggabungkan dua atau lebih kumpulan data bersama-sama, mengurangi kumpulan
data menjadi hanya variabel-variabel yang menarik dalam data mining,
membersihkan data dari anomali seperti pengamatan outlier atau data yang hilang,
atau memformat ulang data untuk tujuan konsistensi. Proses persiapan data, akan
dilakukan dengan bantuan aplikasi RapidMiner.
Secara teknis, kita perlu mengetahui bahwa teknik data mining asosiasi dengan
matriks korelasi hanya dapat diterapkan pada atribut yang bernilai numerik. Oleh
sebab itu kita hanya akan menfokuskan analisis pada atribut dengan tipe numerik.
Apabila terdapat atribut yang bertipe nominal yang memang dibutuhkan, maka kita
harus melakukan konversi tipe atribut. Hal ini akan dijelaskan lebih detail pada bagian
5.

10
4.4. Modeling
Sebuah model dalam data mining adalah representasi komputerisasi dari
pengamatan dunia nyata. Pada laporan ini kita akan menggunakan permodelan untuk
melakukan prediksi berdasarkan asosiasi antar atribut yang dihasilkan pada
perhitungan matriks korelasi.
Sesuai dengan judul pada laporan, kita akan melakukan permodelan dengan
teknik data mining asosiasi menggunakan matriks korelasi untuk menemukan korelasi
antar atribut pada dataset yang dimiliki. Pada hasil permodelan, kita akan
menfokuskan pada korelasi antara atribut rating_count_tot dengan atribut lainnya. Hal
ini dikarenakan semakin banyak nilai rating_count_tot, berarti aplikasi tersebut
memiliki jumlah unduh yang banyak pula. Hal ini berarti aplikasi tersebut akan
mendatangkan pendapatan yang cukup besar, baik melalui pembelian aplikasi maupun
pembelian di dalam aplikasi (in-app purchase). Namun kita juga akan mencoba
menginterpretasikan korelasi pada atribut lainnya bila terdapat indikasi korelasi yang
kuat.
4.5. Evaluation
Proses evaluasi dapat dicapai dengan menggunakan sejumlah teknik, baik yang
bersifat matematis maupun logis. Di luar langkah-langkah ini, evaluasi model juga
harus mencakup aspek manusia. Ketika seseorang memperoleh pengalaman dan
keahlian di bidangnya, ia akan memiliki pengetahuan operasional yang mungkin tidak
dapat diukur dalam pengertian matematis, namun tetap sangat diperlukan dalam
menentukan nilai model data mining. Dalam hal asosiasi dengan matriks korelasi, kita
hanya dapat melakukan evaluasi dari aspek manusia, karena secara matematis tidak
dapat dilakukan.
Khusus untuk asosiasi, evaluasi yang dilakukan sesungguhnya ialah dengan cara
dilakukan survey langsung di lapangan. Hal ini dikarenakan kita hanya dapat
mengetahui bahwa adanya asosiasi dari pola yang ada, namun hal ini bisa saja berbeda
apabila kita coba perhatikan secara langsung di lapangan. Oleh karena itu, evaluasi
yang dapat dilakukan ialah dengan cara survey langsung ke lapangan.
4.6. Deployment
Konsep deployment dalam data mining berarti melakukan sesuatu dengan apa
yang telah kita pelajari dari model yang dibangun; kemudian memikirkan beberapa
tindakan yang dapat diambil berdasarkan apa yang dihasilkan oleh model kita. Bagian
ini akan dibahas lebih lanjut pada bagian 7.
11
BAB 5
METODE ANALISIS DATA MINING

Pada bagian ini, kita akan mendefinisikan secara detail metode analisis data mining
asosiasi dengan matriks korelasi pada aplikasi RapidMiner. Bagian ini akan mendefinisikan
terlebih dahulu mengenai pengenalan terhadap matriks korelasi, baru kemudian akan
membahas implementasi metode analisis data mining terhadap dataset daftar aplikasi pada App
Store sesuai dengan pembahasan pada bagian 4.
5.1. Pengenalan Matriks Korelasi
Matriks korelasi atau corelation matrix merupakan sebuah metode dalam data
mining, di mana menggunakan sebuah rentang nilai koefisien untuk menunjukan
hubungan kuat atau lemahnya antara setiap atribut secara positif (konsisten) atau negatif
(bertolak-belakang). Correlation matrix menggunakan rentang jarak koefisien antara -1
sampai dengan 1 kemudian dibagi rentangannya sebagai berikut.

- - - - - - -

Korelasi sangat Tidak ada Tidak ada Korelasi sangat


Korelasi kuat Ada korelasi Ada korelasi Korelasi kuat
kuat korelasi korelasi kuat

Gambar 5.1 Rentang Nilai Koefisien

Berdasarkan Gambar 5.1, secara umum rentangan nilai dibagi menjadi 4 untuk 0 –
0.4 (Tidak ada korelasi / Lemah), 0.4 – 0.6 (Terdapat Korelasi / Cukup), 0.6 – 0.8
(Korelasi Kuat), dan 0,8 – 1 (Korelasi sangat kuat). Kemudian perhitungan didalam
correlation matrix dilakukan secara bertahap dan pencarian dari koefisien hanya untuk
perbandingan 2 variabel atribut.

Gambar 5.2 Contoh Dataset Hasil Tes Glukosa

12
Dari data pada gambar 5.2, Pertama-tama mencari hasil perkalian nilai setiap
record (xy) kemudian, mencari hasil pangkat dua setiap nilai record disetiap variabel
atributnya (x2) dan (y2). Kemudian melakukan perhitungan total nilai record (∑x) dan
(∑y), nilai total hasil kali 2 variabel (∑xy), dan total dari pangkat dua dari setiap
variabel atributnya (∑x2) dan (∑y2). Maka dapatkan hasil yang diketahui sebagai
berikut:
n =6
∑x = 247
∑y = 486
∑xy = 20485
∑x2 = 11409
∑y2 = 40022

Kemudian hasil yang telah ditemukan tersebut akan dimasukan kedalam rumus berikut:

6ሺ20485ሻ − ሺ247ሻሺ486ሻ
𝑟=
ඥሾ6ሺ11409ሻ − ሺ247ሻ2 ሿ ሾ6ሺ40022ሻ − ሺ486ሻ2 ሿ
𝑟 = 𝟎, 𝟓𝟐𝟗𝟖
Gambar 5.3 Rumus Correlation Coeficient

Setelah semuanya terhitung maka didapatkanlah hasil koefisien korelasi (r)


sebesar 0,5298 (Terdapat korelasi /cukup positif).
5.2. Implementasi Metode Analisis Data Mining pada RapidMiner
Untuk mengimplementasikan metode analisis data mining dengan matriks korelasi
pada RapidMiner diperlukan beberapa langkah sebagai berikut.

Gambar 5.4 Imlementasi Metode Matriks Korelasi pada RapidMiner

13
Pada gambar 5.4, menjelaskan mengenai implementasi metode data mining dengan
matriks korelasi pada RapidMiner. Pada bagian yang disorot dengan warna kuning
adalah proses persiapan dataset sebelum dilakukan permodelan data mining. Sedangkan
pada bagian yang disorot dengan warna merah muda adalah proses permodelan dataset
yang telah dipersiapkan pada proses sebelumnya. Berikut adalah penjabarannya:
5.2.1. Proses Persiapan Dataset
Merujuk pada gambar 5.4, terdapat empat operator yang digunakan untuk
mempersiapkan dataset agar dapat gunakan untuk permodelan. Pada operator
Read CSV, kita mengimpor dataset daftar aplikasi pada App Store ke dalam
proses data mining.
Pada bab technical process, kita telah membahas bahwa jenis data yang
akan kita gunakan ialah numerik, oleh sebab itu kita perlu menyeleksi atribut yang
terdapat pada dataset, sehingga digunakanlah operator Select Attributes. Pada
operator Select Attributes, kita akan menyeleksi atribut secara subset, yang berarti
kita akan memilih secara langsung atribut yang akan digunakan yang merupakan
sebagian dari keseluruhan atribut.

Gambar 5.5 Pemilihan Atribut pada Dataset

14
Untuk mempermudah pemahaman Anda, berikut adalah penjelasan
terhadap setiap atribut beserta alasan mengapa atribut tersebut terpilih atau tidak
terpilih.
Tabel 5.1 Pemilihan Atribut
Atribut Terpilih Alasan
Bertipe nominal dan hanya memiliki satu nilai,
currency Tidak yakni USD, sehingga tidak memiliki keterkaitan
dengan aplikasi.
Bertipe nominal, namun dinilai berguna untuk
melihat korelasi umur pengguna dengan aplikasi.
cont_rating Ya
Selain itu atribut ini masih dapat dikonversi ke
numerik.
Bertipe numerik, namun id tidak menentukan
id Tidak
popularitas aplikasi di mata pengguna.
Bertipe nominal, di karenakan genre yang sangat
prime_genre Tidak beragam sehingga tidak dimungkinkan untuk
dikonversi menjadi numerik untuk dianalisis.
Bertipe numerik, namun rating aplikasi pada
rating_count_ver Tidak suatu versi terbaru tidak terlalu prioritas
dibandingkan dengan atribut rating_count_tot.
Bertipe numerik dan dinilai memiliki keterkaitan
ipadSc_urls_num Ya
kuat dengan popularitas aplikasi.
Bertipe nominal dan bersifat sama seperti atribut
track_name Tidak
id, yakni tidak menentukan popularitas aplikasi.
Bertipe numerik, namun rata-rata rating saat ini
user_rating_ver Tidak tidak terlalu prioritas dibandingkan dengan
atribut user_rating.
Bertipe numerik dan dinilai memiliki keterkaitan
lang.num Ya
kuat dengan popularitas aplikasi.
Bertipe numerik, namun jenis versi aplikasi
ver Tidak
dinilai tidak mempengaruhi popularitas aplikasi.
Bertipe numerik dan dinilai memiliki keterkaitan
price Ya
kuat dengan popularitas aplikasi.
Bertipe numerik dan dinilai memiliki keterkaitan
rating_count_tot Ya
kuat dengan popularitas aplikasi.
Bertipe numerik dan dinilai memiliki keterkaitan
size_bytes Ya
kuat dengan popularitas aplikasi.
Bertipe numerik dan dinilai memiliki keterkaitan
sup_device.num Ya
kuat dengan popularitas aplikasi.
Bertipe numerik dan dinilai memiliki keterkaitan
user_rating Ya
kuat dengan popularitas aplikasi.
Bertipe numerik dan dinilai memiliki keterkaitan
vpp_lic Ya
kuat dengan popularitas aplikasi.

Selanjutnya digunakan operator Replace untuk mengubah atribut


cont_rating menjadi dapat dikonversikan ke bentuk numerik. Pada operator ini
kita akan melakukan proses replace berdasarkan regular expression pada atribut

15
cont_rating. Setiap karakter “+” dalam atribut tersebut akan dihilangkan,
misalkan “+17”, maka akan menjadi “17”. Sehingga nantinya akan dapat
dikonversikan menjadi numerik. Untuk lebih detailnya, Anda bisa
memperhatikan gambar berikut.

Gambar 5.6 Replace dengan Regular


Expression

Selanjutnya digunakan operator Parse Numbers untuk merubah jenis


atribut cont_rating yang saat ini bertipe nominal menjadi numerik. Sehingga
atribut cont_rating dapat digunakan untuk analisis data mining menggunakan
matriks korelasi. Kemudian pada bagian selanjutnya akan dijelaskan mengenai
permodelan dataset yang telah dipersiapkan dengan matriks korelasi.
5.2.2. Proses Permodelan dengan Matriks Korelasi
Sesudah dataset daftar aplikasi App Store dipersiapkan, kita menggunakan
operator Correlation Matrix untuk melakukan permodelan data mining. Hal
utama yang perlu diperhatikan ialah dengan menerapkan parameter normalized
weight pada operator tersebut untuk menskalakan nilai agar sesuai dengan rentang
tertentu (0 hingga 1). Misalkan pada atribut cont_rating dengan nilai antara 4
hingga 17 dengan atribut user_rating yang bernilai antara 0-5,0. Bila diperhatikan
perbedaan kontras rentang nilai pada suatu atribut akan membuat model yang
dibangun menjadi tidak efektif, oleh sebab itu kita wajib menerapkan parameter
normalized weigth.
Pada bagian selanjutnya akan dijelaskan mengenai hasil permodelan
beserta manfaat analisis dataset-nya.

16
BAB 6
MANFAAT ANALISIS DATA SET

Pada bagian sebelumnya, kita telah menjelaskan mengenai proses dan cara kerja metode
analisis matriks korelasi pada kumpulan data aplikasi App Store. Di bagian ini, kita akan
mendefinisikan berbagai informasi yang telah didapatkan dari proses-proses tersebut, sehingga
kita bisa melihat manfaat yang dihasilkan dari kumpulan data tersebut yang berguna bagi
perusahaan Apple.

Gambar 6.1 Hasil Analisis Metode Data Mining dengan Matriks Korelasi

Gambar 6.1, menjelaskan hasil koefisien tersebut berbeda-beda untuk setiap korelasinya.
Atribut rating_count_tot merupakan jumlah rating telah yang diberikan oleh para pengunduh
aplikasi. Karena itu, atribut ini dapat digunakan untuk merepresentasikan jumlah pengunduh
aplikasi. Sehingga semakin tinggi nilai atribut rating_count_tot, aplikasi tersebut sangat
berpotensi memberikan pendapatan yang semakin besar pula. Untuk mempermudah
pemahaman Anda, berikut adalah tabel ringkasan hasil keseluruhan korelasi antar atribut
beserta interpretasi singkatnya.
Tabel 6.1 Ringkasan Koefisien Korelasi dengan Atribut cont_rating

Atribut yang Dikorelasikan Koefisien Korelasi Deskripsi


size_bytes 0.141 Tidak ada korelasi dengan atribut cont_rating
price 0.635 Ada korelasi kuat positif dengan atribut cont_rating
rating_count_tot -0.060 Tidak ada korelasi dengan atribut cont_rating
user_rating -0.098 Tidak ada korelasi dengan atribut cont_rating
sup_device.num -0.031 Tidak ada korelasi dengan atribut cont_rating
ipadsc_urls.num -0.108 Tidak ada korelasi dengan atribut cont_rating
lang.num -0.052 Tidak ada korelasi dengan atribut cont_rating
vpp_lic -0.045 Tidak ada korelasi dengan atribut cont_rating

17
Tabel 6.2 Ringkasan Koefisien Korelasi dengan Atribut size_bytes
Atribut yang Dikorelasikan Koefisien Korelasi Deskripsi
cont_rating 0.141 Tidak ada korelasi dengan atribut size_bytes
price -0.003 Tidak ada korelasi dengan atribut size_bytes
rating_count_tot 0.073 Tidak ada korelasi dengan atribut size_bytes
user_rating 0.066 Tidak ada korelasi dengan atribut size_bytes
sup_device.num 0.020 Tidak ada korelasi dengan atribut size_bytes
ipadsc_urls.num 0.152 Tidak ada korelasi dengan atribut size_bytes
lang.num 0.057 Tidak ada korelasi dengan atribut size_bytes
vpp_lic -.0150 Tidak ada korelasi dengan atribut size_bytes

Tabel 6.3 Ringkasan Koefisien Korelasi dengan Atribut price

Atribut yang Dikorelasikan Koefisien Korelasi Deskripsi


cont_rating 0.635 Ada korelasi kuat positif dengan atribut price
size_bytes -0.003 Tidak ada korelasi dengan atribut price
rating_count_tot -0.380 Hampir tidak ada korelasi dengan atribut price
user_rating -0.398 Hampir tidak ada korelasi dengan atribut price
sup_device.num -0.259 Tidak ada korelasi dengan atribut price
ipadsc_urls.num -0.212 Tidak ada korelasi dengan atribut price
lang.num -0.363 Hampir tidak ada korelasi dengan atribut price
vpp_lic -0.056 Tidak ada korelasi dengan atribut price

Tabel 6.4 Ringkasan Koefisien Korelasi dengan Atribut rating_count_tot

Atribut yang Dikorelasikan Koefisien Korelasi Deskripsi


cont_rating -0.060 Tidak ada korelasi dengan atribut rating_count_tot
size_bytes 0.073 Tidak ada korelasi dengan atribut rating_count_tot
Hampir Tidak ada korelasi dengan atribut
price -0.380
rating_count_tot
Ada korelasi kuat positif dengan atribut
user_rating 0.785
rating_count_tot
Ada korelasi kuat positif dengan atribut
sup_device.num 0.719
rating_count_tot
ipadsc_urls.num 0.246 Tidak ada korelasi dengan atribut rating_count_tot
Ada korelasi sangat kuat positif dengan atribut
lang.num 0.918
rating_count_tot
vpp_lic 0.060 Tidak ada korelasi dengan atribut rating_count_tot

Tabel 6.5 Ringkasan Koefisien Korelasi dengan Atribut user_rating

Atribut yang Dikorelasikan Koefisien Korelasi Deskripsi


cont_rating -0.098 Tidak ada korelasi dengan atribut user_rating
size_bytes 0.056 Tidak ada korelasi dengan atribut user_rating
price -0.398 Hampir ada korelasi dengan atribut user_rating
rating_count_tot 0.785 Ada korelasi kuat positif dengan atribut user_rating
sup_device.num 0.528 Ada korelasi positif dengan atribut user_rating

18
Atribut yang Dikorelasikan Koefisien Korelasi Deskripsi
ipadsc_urls.num 0.265 Tidak ada korelasi dengan atribut user_rating
lang.num 0.765 Ada korelasi kuat positif dengan atribut user_rating
vpp_lic 0.070 Tidak ada korelasi dengan atribut user_rating

Tabel 6.6 Ringkasan Koefisien Korelasi dengan Atribut sup_device.num

Atribut yang Dikorelasikan Koefisien Korelasi Deskripsi


cont_rating -0.031 Tidak ada korelasi dengan atribut sup_device.num
size_bytes 0.020 Tidak ada korelasi dengan atribut sup_device.num
price -0.259 Tidak ada korelasi dengan atribut sup_device.num
Ada korelasi kuat positif dengan atribut
rating_count_tot 0.719
sup_device.num
user_rating 0.528 Ada korelasi positif dengan atribut sup_device.num
ipadsc_urls.num 0.156 Tidak ada korelasi dengan atribut sup_device.num
Ada korelasi kuat positif dengan atribut
lang.num 0.670
sup_device.num
vpp_lic 0.032 Tidak ada korelasi dengan atribut sup_device.num

Tabel 6.7 Ringkasan Koefisien Korelasi dengan Atribut ipadSc_urls.num

Atribut yang Dikorelasikan Koefisien Korelasi Deskripsi


cont_rating -0.108 Tidak ada korelasi dengan atribut ipadsc_urls.num
size_bytes 0.152 Tidak ada korelasi dengan atribut ipadsc_urls.num
price -0.212 Tidak ada korelasi dengan atribut ipadsc_urls.num
rating_count_tot 0.246 Tidak ada korelasi dengan atribut ipadsc_urls.num
user_rating 0.265 Tidak ada korelasi dengan atribut ipadsc_urls.num
sup_device.num 0.156 Tidak ada korelasi dengan atribut ipadsc_urls.num
lang.num 0.241 Tidak ada korelasi dengan atribut ipadsc_urls.num
vpp_lic 0.072 Tidak ada korelasi dengan atribut ipadsc_urls.num

Tabel 6.8 Ringkasan Koefisien Korelasi dengan Atribut lang.num

Atribut yang Dikorelasikan Koefisien Korelasi Deskripsi


cont_rating -0.062 Tidak ada korelasi dengan atribut lang.num
size_bytes 0.057 Tidak ada korelasi dengan atribut lang.num
price -0.363 Tidak ada korelasi dengan atribut lang.num
Ada korelasi sangat kuat dan positif dengan atribut
rating_count_tot 0.918
lang.num
user_rating 0.765 Ada korelasi kuat dan positif dengan atribut lang.num
sup_device.num 0.670 Ada korelasi kuat dan positif dengan atribut lang.num
ipadsc_urls.num 0.241 Tidak ada korelasi dengan atribut lang.num
vpp_lic 0.057 Tidak ada korelasi dengan atribut lang.num

19
Tabel 6.9 Ringkasan Koefisien Korelasi dengan Atribut vpp_lic

Atribut yang Dikorelasikan Koefisien Korelasi Deskripsi


cont_rating -0.045 Tidak ada korelasi dengan atribut vpp_lic
size_bytes -0.150 Tidak ada korelasi dengan atribut vpp_lic
price -0.056 Tidak ada korelasi dengan atribut vpp_lic
rating_count_tot 0.060 Tidak ada korelasi dengan atribut vpp_lic
user_rating 0.070 Tidak ada korelasi dengan atribut vpp_lic
sup_device.num 0.032 Tidak ada korelasi dengan atribut vpp_lic
ipadsc_urls.num 0.072 Tidak ada korelasi dengan atribut vpp_lic
lang.num 0.067 Tidak ada korelasi dengan atribut vpp_lic

Pada tabel 6.1 hingga 6.9, telah dijelaskan mengenai deskripsi singkat koefisien korelasi
setiap atribut yang telah dihasilkan dari matriks korelasi. Adapun baris yang disorot dengan
warna biru menandakan bahwa adanya korelasi antar atribut terkait, baik korelasi secara positif
maupun secara negatif. Berikutnya kita akan membahas setiap korelasi yang dinilai bermanfaat
untuk meningkatkan pendapatan (bagian 6.1) dan korelasi yang dinilai tidak terlalu bermanfaat
untuk meningkatkan pendapatan, namun dapat membantu tim app reviewer Apple untuk
mengetahui pola aplikasi seperti apa yang diharapkan oleh para pengguna App Store (bagian
6.2).

6.1. Manfaat Analisis yang Berpotensi untuk Meningkatkan Pendapatan


Dari matriks dan beberapa tabel deskripsi tersebut, dapat dilihat beberapa korelasi
kuat positif antara atribut ini dengan atribut lain seperti sup_devices.num (0,719) yang
merupakan jumlah perangkat Apple yang mendukung suatu aplikasi dan lang.num
(0,918) yang merupakan jumlah bahasa dalam suatu aplikasi. Kedua atribut ini
memberikan informasi bahwa semakin banyak perangkat yang didukung dan bahasa
yang didukung akan meningkatkan jumlah unduhan suatu aplikasi. Atribut user_rating
yang merupakan rating rata-rata aplikasi juga memberikan informasi bahwa aplikasi
dengan rating yang tinggi lebih menarik pengguna sehingga meningkatkan jumlah
unduhan. Kemudian korelasi antara price dengan dengan rating_count_tot didapatkan
koefisien sebesar -0,380 yang berarti lemah dalam arah negatif yang mengindikasikan
tingginya price suatu aplikasi maka akan menyebabkan rendahnya rating_count_tot
(semakin tinggi harga aplikasi, maka akan bisa menyebabkan total unduhan menjadi
cukup rendah) namun karena korelasi tersebut dibawah 0,4 keterkaitan tersebut
menunjukan jarang terjadi.

20
Dari informasi di atas, Apple jadi dapat mengetahui faktor-faktor apa saja yang
dapat menarik pengguna perangkat Apple untuk meningkatkan jumlah unduhan dalam
App Store. Dengan begitu, Apple bisa mendapatkan lebih banyak keuntungan dari
aplikasi-aplikasi yang diunduh.
6.2. Manfaat Analisis yang Tidak Berpotensi untuk Meningkatkan Pendapatan
Pada bagian ini, kita akan membahas manfaat analisis yang dinilai tidak terlalu
berpotensi untuk meningkatkan pendapatan, namun masih bermanfaat untuk digunakan
sebagai bahan rekomendasi untuk mengembangkan aplikasi sesuai dengan harapan
pengguna di App Store.
Untuk korelasi user_rating dengan sup_device.num berada di 0,528 menandakan
adalah cukup dan positif, untuk korelasi ini mungkin di mana semakin tinggi dari rata-
rata rating akan membuat total perangkat yang akan mendukung juga lebih banyak,
begitupun sebaliknya. Lalu user_rating dengan lang.num berada di 0,705 menandakan
adalah kuat positif, korelasi ini dimana rata-rata rating user semakin tinggi menandakan
karena total bahasa yang tersedia di aplikasi lebih banyak sehingga membantu pengguna
juga yang memiliki perbedaan bahasa. Kemudian korelasi user_rating dengan price
berada di -0,398 menandakan adalah lemah negatif, korelasi ini dimana dengan tingginya
user_rating bisa saja karena harga dari aplikasi tersebut rendah, namun tidak terindikasi
sering terjadi. Untuk korelasi lang.num dengan sup_device.num berada di 0,670
menandakan cukup dan positif, korelasi ini berarti apabila bahasa yang digunakan
semakin banyak maka tentunya perangkat yang akan didukung bisa semakin banyak
juga. Untuk beberapa korelasi ada yang sama dengan yang sebelumnya tentu akan
memberi kesimpulan yang sama. Sementara itu terdapat pula korelasi antara price dengan
cont_rating yang berada di 0,635 menandakan cukup dan positif, korelasi ini berarti
bahwa semakin tinggi batasan usia suatu aplikasi, maka semakin tinggi harga dari sebuah
aplikasi ini.
Melalui berbagai hasil analisis di atas, diharapkan dapat memberikan manfaat
kepada Apple, walaupun tidak berpotensi secara langsung untuk meningkatkan
pendapatan. Namun hal ini dapat membantu para pengembang aplikasi untuk mengetahui
pola aplikasi seperti apa yang diharapkan para pengguna.

21
BAB 7
IDE DAN INOVASI PADA PERUSAHAAN

Pada bagian ini, kita akan merumuskan ide dan inovasi yang dapat direkomendasikan
kepada Apple berdasarkan beberapa tahapan yang telah dilalui sebelumnya. Pada dasarnya
setiap atribut yang saling berkorelasi memiliki manfaat bagi perusahaan Apple, karena lewat
hasil data mining tersebut, kita dapat mengetahui pola yang ada di dalam daftar aplikasi pada
App Store. Untuk mempermudah pemahaman, berikut adalah skema ide dan inovasi.
7.1. Ide
Ide yang mendasari implementasi data mining pada perusahaan Apple ialah bahwa
saat ini layanan (App Store, iTunes, dan lainnya) merupakan sumber pemasukan terbesar
kedua bagi Apple dalam beberapa tahun belakangan. Saat ini App Store telah menjadi
rumah bagi sekitar lebih dari 17.000 aplikasi, penulis melihat setiap data yang melekat
pada aplikasi, seperti jumlah ulasan, harga, hingga rata-rata rating bukanlah hanya data
semata sebagai informasi untuk para pengguna. Melainkan penulis melihatnya sebagai
peluang untuk melihat pola bagaimana sebuah aplikasi bisa menjadi populer dan
digemari oleh para pengguna. Sehingga secara tidak langsung dapat meningkatkan
pendapatan Apple.
7.2. Inovasi
Untuk mendukung ide tersebut, maka diperlukanlah inovasi yang harus dilakukan.
Setelah melalui berbagai penelitian dari sejumlah sumber terpercaya. Penulis
merumuskan sebuah inovasi untuk pemanfaatan teknik data mining asosiasi dengan
metode matriks korelasi untuk melihat pola yang terdapat dalam dataset aplikasi yang
terdaftar pada App Store.
Perlu diketahui bahwa setiap aplikasi yang diajukan atau sudah terdapat di App
Store akan di-review oleh tim app reviewer secara berkala untuk menjamin keamanan
dan kualitas sebuah aplikasi. Setiap keputusan apakah suatu aplikasi bisa dipublikasi,
bertahan, atau dilarang berada ditangan ERB (Executive Review Board) di bawah
naungan divisi marketing.
Oleh sebab itu, kita bisa melihat bahwa adanya keterkaitan antara ide dan inovasi.
Di mana dalam hal ini tim app reviewer Apple bisa menggunakan hasil analisis data
mining yang telah diolah oleh tim data scientist Apple sebagai pendukung keputusan
untuk menentukan atau merekomendasikan suatu hal terhadap aplikasi yang mereka
tinjau.
22
Untuk mempermudah pemahaman Anda, berikut adalah analogi sederhana berupa
BPMN mengenai bagaimana keterkaitan ide dan inovasi data mining dapat berjalan pada
perusahaan Apple.
Tim Data Science

Mengimport Melakukan Membuat laporan


Memberikan laporan
dataset data mining hasil data mining
Perusahaan Apple

Mulai proses
data mining

Basis Data App


Store
Laporan Hasil Data Mining
Tim App Reviewer

Memberikan hasil tinjauan

Menerima laporan Meninjau aplikasi

Peninjauan aplikasi
selesai
Apple Developer

Aplikasi Mengembangkan
Mengajukan aplikasi
ditolak aplikasi

Menerima hasil Pengajuan aplikasi


tinjauan Aplikasi selesai
diterima

Gambar 7.1 BPMN Ide dan Inovasi Data Mining pada Perusahaan Apple

Pada gambar 7.1. menjelaskan mengenai model proses bisnis inovasi data mining pada
perusahaan Apple yang melibatkan tim data science, tim app reviewer, dan Apple developer.
Berikut adalah pemerinciannya:
1) Proses dimulai oleh tim data science yang akan mengimpor data daftar aplikasi dari basis
data App Store. Kemudian melakukan proses data mining dengan metode matriks korelasi,
lalu membuat laporan hasil data mining untuk kemudian diberikan kepada tim app
reviewer sebagai bahan pendukung untuk menentukan atau merekomendasikan suatu hal
terhadap aplikasi yang mereka tinjau. (lanjut ke langkah 2).
2) Sesudah tim app reviewer menerima laporan, selanjutnya mereka aka meninjau aplikasi,
lalu kemudian memberikan hasil tinjauan kepada Apple developer. Hingga saat ini, proses
pada pool perusahaan Apple untuk meninjau aplikasi sudah selesai. (lanjut ke langkah 3).
3) Hasil tinjauan yang telah diterima seorang Apple developer, tentunya terdapat dua
keadaan, yakni apakah aplikasi diterima atau tidak. Apabila aplikasi diterima maka proses
pengajuan aplikasi telah selesai. Apabila aplikasi ditolak, maka Apple developer akan
mengembangkan aplikasinya untuk diajukan kembali kepada tim app reviewer Apple.

23
BAB 8
PENUTUP

8.1. Kesimpulan
Berdasarkan hasil kitaan yang dilakukan, berikut merupakan beberapa kesimpulan
yang dapat diambil:
a. Data mining memungkinkan perusahaan untuk menemukan dan menafsirkan pola
dari data yang mereka miliki, membantu mereka membuat keputusan yang lebih baik
dan melayani pelanggan mereka dengan lebih baik. Data mining memiliki berbagai
teknik yang tiap-tiap tekniknya memiliki fungsi dan tujuannya masing-masing.
Dalam implementasinya kita membutuhkan suatu proses yang terstandarisasi agar
data mining dapat berjalan efektif. Dalam laporan ini, penulis menggunakan CRISP-
DM sebagai standar proses teknik data mining asosiasi dengan matriks korelasi
untuk lintas industri.
b. Hasil analisis data mining dengan matriks korelasi menunjukan terdapat pola yang
berpotensi untuk meningkatkan pendapatan App Store, yakni: user_rating (0,785).
sup_device.num (0,719), dan lang.num (0,918). Atribut ini menjadi potensi terbesar
untuk mengembangkan popularitas sebuah aplikasi, sehingga berpotensi
meningkatkan pendapatan.
c. Hasil analisis data mining dengan matriks korelasi juga menunjukan terdapat pola
yang tidak berpotensi meningkatkan pendapatan, namun dapat membantu Apple
developer untuk mengembangkan aplikasinya sesuai dengan harapan pengguna,
beberapa diantaranya, yakni: user_rating dengan sup_device.num berada di 0,528,
user_rating dengan lang.num berada di 0,705, lang.num dengan sup_device.num
berada di 0,670, dan price dengan cont_rating yang berada di 0,635.
8.2. Saran
Berdasarkan hasil studi kasus yang dilakukan, adapun saran yang diberikan adalah
data mining juga menimbulkan kekhawatiran dalam hal privasi. Karena tidak selamanya
data sah/legal yang digunakan untuk data mining adalah etis. Oleh sebab itu, pemahaman
data mining tidak hanya didasarkan pada teori dan standar proses tertentu saja, namun
harus disertai pemahaman terhadap kode etiknya. Kita dapat melindungi privasi dengan
menggabungkan data, menganonimkan pengamatan melalui penghapusan nama dan
informasi pengenal pribadi, dan dengan menyimpannya di lingkungan yang aman dan
terlindungi. Kita harus belajar untuk peka terhadap perasaan dan hak seseorang.
24
DAFTAR PUSTAKA

C., D. A., Baskoro, D. A., Ambarwati, L., & Wicaksana, I. S. (2013). Belajar Data Mining
dengan RapidMiner. Jakarta.
Defit, S. (2013). Penggunaan Algoritma Apriori dalam Menganalisa Perilaku Mahasiswa
dalam Memilih Mata Kuliah. Studi Kasus : Fkip Upi, 31-42.
Larose, D. T. (2005). Discovering Knowledge in Data : An Introduction to Data Mining. New
Jersey: John Wiley & Sons.
North, M. (2012). Data Mining for the Masses. Athens: Global Text Project.
Sharda, R. D. (2014). Business Intelligence: A Managerial Perspective on Analytics. London:
Pearson.
Sharda, R., Delen, D., & Turban, E. (2015). Business Intelligence and Analytics: Systems for
Decision Support, 10th Edition. London: Pearson.
Suriasumantri, S. (2007). Filsafat Ilmu: Sebuah Pengantar Populer. Jakarta: Pustaka Sinar
Harapan.
Wahono, R. S. (2020). Data Mining. Retrieved from RomiSatriaWahono:
https://romisatriawahono.net/dm/
Witten, I. H., E., F., & Hall, M. A. (2011). Data Mining Practical Machine Learning Tools
and Techniques (3rd ed). Massachusetts: Morgan Kaufmann.

25

Anda mungkin juga menyukai