Disusun oleh :
ABSTRAK
Data mining adalah teknik yang memanfaatkan data dalam jumlah yang besar untuk
memperoleh informasi berharga yang sebelumnya tidak diketahui dan dapat
dimanfaatkan untuk pengambilan keputusan penting. Pada penelitian ini, penulis
menambang data pelanggan PT. Telekomunikasi Indonesia, TBK yang mengalami
gangguan 1035 dan gangguan 1054. Gangguan 1035 terjadi karena data pelanggan belum
memiliki service internet, service voice, maupun belum memiliki service IPTV, penyebab
lain terjadinya gangguan 1035 yakni karena adanya peralihan atau migrasi dari
sebelumnya menggunakan Cooper menjadi Fiber Optic. Sedangkan gangguan 1054
terjadi karena ketidaksesuaian perangkat aktif pelanggan di sistem.
Naive Bayes Classifier merupakan salah satu metode pada probabilistic reasoning.
Algoritma Naive Bayes Classifier bertujuan untuk melakukan klasifikas i data pada kelas
tertentu, kemudian hasil dari klasifikasi dapat digunakan sebagai penyelesaian dari
penghitungan gangguan yang sering terjadi, khususnya ganggua n 1035 dan gangguan
1054 yang terjadi di PT. Telekomunikasi Indonesia, TBK.
i
ii
KATA PENGANTAR
puji syukur kehadiran Allah SWT yang telah melimpahkan segala rahmat dan hidayah-Nya,
sehingga proposal skripsi dengan judul “Analisis Data Gangguan Jaringan Pada
Pelanggan IndiHome PT. Telekomunikasi Indonesia Tbk. Menggunakan Metode
Naive Bayes Classifier” dapat penulis selesaikan dengan baik.
Penyusunan proposal skripsi ini merupakan salah satu Projek Ulangan Tengah
Semester pada Mata Kuliah Bahasa Indonesia 1 di Sekolah Tinggi Manajemen
Informatika dan Komputer Bani Saleh.
Penulis sungguh sangat menyadari, bahwa penulisan proposal skripsi ini tidak akan
terwujud tanpa adanya dukungan dan bantuan do’a dari berbagai pihak yang ikut
mendoa’akan dan memotivasi penulis, sehingga dapat menyelesaikan proposal skripsi ini.
Maka, dalam kesempatan ini penulis juga mengucapkan terima kasih yang sebesar-
besarnya kepada:
1. Bapak Drs. Taufiq Maulana, MBA, selaku Ketua Sekolah Tinggi Manajemen
dan Komputer (STMIK) Bani Saleh Bekasi.
2. Ibu Puji Rahayu, M.Pd, dosen mata kuliah Bahasa Indonesia 1 STMIK Bani
Saleh, sebagai dosen pengajar dan pembimbing yang telah memberikan penulis
kesempatan membuat proposal skripsi ini.
3. Bapak dan Ibu Dosen STMIK Bani Saleh Bekasi yang telah mendidik penulis.
4. Seluruh Staff dan Karyawan STMIK Bani Saleh Bekasi yang telah memberikan
bantuan serta fasilitas lainnya.
5. Orang Tua penulis yang telah memberikan doa dan dukungannya baik moril dan
materil.
6. Rekan – rekan mahasiswa/i STMIK Bani Saleh khususnya Jurusan Teknik
Informatika angkatan 2016-2017 yang telah memberikan dukungan dan kerja
samanya selama ini.
7. Semua pihak yang ikut terlibat dalam penulisan proposal skripsi ini yang tidak
disebutkan dengan tidak mengurangi rasa hormat. Semoga bantuan dan
kebaikannya dibalas oleh Allah SWT dengan kebaikan yang berlipat ganda dan
melimpah. Penulis berharap semoga
ii
iii
proposal skripsi ini dapat bermanfaat bagi penulis maupun pembaca untuk
menambah pengetahuan.
Penulis
iii
iv
DAFTAR ISI
ABSTRAK ...................................................................................................... i
KATA PENGANTAR .................................................................................... ii
DAFTAR ISI ................................................................................................... iv
BAB I PENDAHULUAN
1.1 Latar Belakang .......................................................................................... 1
1.2 Identifikasi Masalah .................................................................................. 1
1.3 Batasan Masalah......................................................................................... 1
1.4 Tujuan Penelitian ...................................................................................... 1
1.5 Manfaat Penelitian .................................................................................... 1
BAB 11 LANDASAN TEORI
2.1 Landasan Teori ........................................................................................... 1
2.1.1 Data Mining .................................................................................... 1
2.1.2 Tahapan Data Mining ..................................................................... 1
2.1.3 Pengelompokan Data Mining ......................................................... 1
2.1.3.1 Deskripsi ............................................................................. 1
2.1.3.2 Estimasi .............................................................................. 1
2.1.3.3 Prediksi ............................................................................... 1
2.1.3.4 Klasifikasi ........................................................................... 1
2.1.3.5 Pengklusteran ..................................................................... 1
2.1.3.6 Asosiasi ............................................................................... 1
2.1.4 Definisi PHP ................................................................................... 1
2.1.5 Pengertian Sistem ............................................................................ 1
2.1.6 Pengertian Sistem Informasi ........................................................... 1
2.1.7 Pengertian XAMPP ......................................................................... 1
2.1.8 Pengertian Web ............................................................................... 1
2.1.9 Pengertian Bootsrap ........................................................................ 1
2.1.10 Pengetian BlackBox Testing .......................................................... 1
2.2 Clustering .................................................................................................. 1
2.3 Naïve Bayes Classifier .............................................................................. 1
iv
v
v
1
BAB I
PENDAHULUAN
1
2
karakteristik populasi berdasarkan data yang didapatkan dari sampel. Naive Bayes
Classifier merupakan salah satu algoritma pembelajaran induktif yang paling efektif
dan efisien untuk machine learning dana data mining. Performa Naive Bayes yang
kompetitif dalam proses klasifikasi walaupun menggunakan asumsi keindependena n
atribut (tidak ada kaitan antar atribut). Naive Bayes Classifier merupkan
pengklasifikasian dengan metode probabilitas dan statistik yang dikemukakan oleh
ilmuwan Inggris Thomas Bayes, yaitu memprediksi peluang di masa depan berdasarkan
pengalaman di masa sebelumnya sehingga dikenal dengan teorema bayes. Keuntungan
penggunaan Naive Bayes Classifier adalah bahwa metode ini hanya membutuhkan
jumlah data pelatihan (Traning Data) yang kecil untuk menentukan estimasi parameter
yang diperlukan dalam proses pengklasifikasian.
PT. Telekomunikasi Indonesia Tbk (Telkom), adalah salah satu perusahaan
yang menyelenggarakan jasa telekomunikasi di Indonesia, Telkom STO Kranji, Kota
Bekasi, Provinsi Jawa Barat merupakan salah satu cabang perusahaan Telkom di
Bekasi-Jawa Barat. Produk dari Telkom yang melayani masyarakat salah satunya
adalah IndiHome, IndiHome adalah akses internet dengan menggunakan kabel LAN
(Local Area Network) atau UTP (Ushielded Twisted Pair) yang disambungkan ke
telepon rumah dan dibantu oleh perangkat pendukung lainnya seperti modem, kabel
jaringan yakni Twisted Pair (UTP dan STP), coaxial, fiber optic, Network Interface
Card (NIC), konektor RJ-45, BNC/T, ST, Hub, Switch dan Router. Sedangkan
konsep dari layanan IndiHome merupakan salah satu produk layanan dari Telkom
Group berupa paket layanan yang terpadu dalam satu paket triple play meliputi
layanan komunikasi, data dan entertainment seperti telepon rumah, internet (Internet
on Fiber atau High Speed Internet) dan layanan televis i interaktif dengan teknologi
IPTV (UseeTV). IndiHome juga dilengkap i dengan beragam layanan tambahan
(add-on) yang bisa dipilih sesuai kebutuhan dan keinginan pelanggan seperti Telepon
Mania, wifi.id seamless, TrenMicro Antivirus, IndiHome View (online surveillance
camera). kesimpulan mengenai karakteristik populasi berdasarkan data yang
didapatkan dari sampel. Naive Bayes Classifier merupakan salah satu algoritma
pembelajaran induktif yang paling efektif dan efisien untuk machine learning dana
data mining. Performa Naive Bayes yang kompetitif dalam proses klasifikasi
2
3
3
4
apa saja yang sering terjadi pada perangkat IndiHome serta bagaimana
penanganannya. Dengan latar belakang terebut penulis mengambil judul “Analisis
Data Gangguan Jaringan Pada Pelanggan Indihome PT. Telekomunikasi
Indonesia Tbk. Menggunakan Metode Naïve Bayes Classifier”
4
5
5
6
BAB II
LANDASAN TEORI
6
7
7
8
2.1.3.1 Deskripsi
Deskripsi merupakan cara untuk menggambarkan pola dan
kecenderungan yang terdapat dalam data yang dimiliki.
2.1.3.2 Estimasi
Estimasi hampir sama dengan klasifikasi, kecuali variable target estimasi
lebih ke arah numerik dari pada ke arah kategori. Model yang dibangun
menggunakan record lengkap yang menyediakan nilai variable target
sebagai nilai prediksi.
8
9
2.1.3.3 Prediksi
Prediksi menerka sebuah nilai yang belum diketahui dan juga
memperkirakan nilai untuk masa mendatang.
2.1.3.4 Klasifikasi
Dalam klasifikasi terdapat target variable kategori, misal penggolongan
pada hasil penggajian dapat dipisahkan dalam tiga kategori, yaitu tinggi,
sedang, dan rendah.
2.1.3.5 Pengklusteran
Pengklusteran merupakan pengelompokan record, pengamatan atau
memperhatikan dan membentuk kelas objek-objek yang memiliki
kemiripan.
2.1.3.6 Asosiasi
Asosiasi bertugas menemukan atribut yang muncul dalam satu waktu.
Dalam dunia bisnis lebih umum disebut analisis keranjang belanja.
9
10
10
11
11
12
gunakan baik di desktop, tablet ataupun mobile device. Dengan bootstrap kita
juga bisa membangun web dinamis ataupun statis.
2.3 Clustering
Clustering merupakan pengelompokan data tanpa berdasarkan kelas data
tertentu ke dalam kelas objek yang sama. Sebuah cluster adalah kumpulan record
yang memiliki kemiripan satu dengan yang lainnya dan memiliki ketidakmiripan
dengan record dalam cluster lain. Tujuannya adalah untuk menghasilkan
pengelompokan objek yang mirip satu sama lain dalam kelompok-kelompok.
Dengan menggunakan klasterisasi, metode ini dapat mengidentifikas i daerah
yang padat, menemukan pola-pola distribusi secara keseluruhan, dan menemukan
keterkaitan yang menarik antar atribut-atribut data. Dalam data mining, usaha
difokuskan pada metode-metode penemuan untuk klaster pada basis data berukuran
besar secara efektif dan efisien. Kebutuhan klasterisasi dalam data mining meliputi
skalabilitas, kemampuan untuk menangani tipe atribut yang berbeda, mampu
menangani dimensionalitas yang tinggi, mengangani data yang mempunyai noise,
dan dapat diterjemahkan dengan mudah.
Menurut Widodo (2013) Clustering atau klasifikasi adalah metode yang
digunakan untuk membagi rangkaian data menjadi beberapa group berdasarkan
kesamaan-kesamaan yang telah ditentukan sebelumnya. Cluster adalah sekolompok
atau sekumpulan objek-objek data yang similar satu sama lain dalam cluster yang
sama dan disimilar terhadap objek-objek yang berbeda cluster. Objek akan
dikelompokkan ke dalam satu atau lebih cluster sehingga objek-objek yang berada
12
13
dalam satu cluster akan mempunyai kesamaan yang tinggi antara satu dengan yang
lainnya.
Secara garis besar, terdapat beberapa metode klasterisasi data. Pemelihan
metode klasterisasi tergantung pada tipe data dan tujuan klasterisasi itu sendiri.
Metode-metode beserta algoritmanya termasuk didalamnya meliputi:
a. Partitioning Method
Membuat berbagai partisi dan kemudian mengevaluasi partisi tersebut dengan
beberapa kriteria. Yang termasuk ke dalam metode ini meliputi algortima K-
Means, K-Medoid, Proclus, Clara, Clarans, dan PAM.
b. Hierarichal Method
Membuat suatu penguraian secara hierarikal dari himpunan data dengan
menggunakan beberapa kriteria. Metode ini terdiri atas dua macam, yaitu
Agglomerative yang menggunakan strategi Bottom-up dan Devisive yang
menggunakan strategi Top-down. Metode ini melip uti algoritma Birch, Agnes,
Diana, Cure, dan Chamaleon.
c. Density-based Method
Metode ini berdasarkan konektivitas dan fungsi densitas. Metode ini meliputi
algoritma Dbscan, Optics, dan Denclu.
d. Grid-base Method
Metode ini berdasarkan suatu struktur granularitas multi level. Metode klasterisasi
ini meliputi algortima Sting, WaveCluster, dan Clique.
e. Model-base Method
Suatu model dihipotesiskan untuk masing- masing kluster dan ide untuk mencari
best fit dari model model tersebut untuk masing- mas ing yang lain. Metode
klusterisasi ini meliputi pendekatan statistic, yaitu algoritma Cobweb dan jaringan
syaraf tiruan yaitu SOM.
13
14
Keterangan:
X : Data kelas yang belum diketahui.
H : Hipotesis dari data X yaitu suatu kelas spesifik.
P(H| X) : Probabilitas Hipotesis H berdasarkan kondisi X.
P(H) : Probabilitas Hipotesis H
P(X | H) : Probabilitas X berdasarkan kondisi H
P(X) : Probabilitas X
Pada rumus di atas dapat dijelaskan bahwa teorema naive bayes dibutuhkan sebuah petunjuk
sebagai proses penentu kelas yang sesuai dengan sampel. Sehingga dibutuhkan kesesuaian
terhadap teorema bayes sebagai berikut:
Keterangan:
C : Sebagai kelas
F1…Fn : Petunjuk atau syarat kondisi
14
15
BAB III
METODE PENELITIAN
15
16
Keterangan:
X : Data kelas yang belum diketahui.
H : Hipotesis dari data X yaitu suatu kelas spesifik.
P(H | X) : Probabilitas Hipotesis H berdasarkan kondisi X.
P(H) : Probabilitas Hipotesis H.
P(X | H) : Probabilitas X berdasarkan kondisi H.
P(X) : Probabilitas X
Pada rumus diatas dapat dijelaskan bahwa teorema Naive Bayes
dibutuhkan sebuah petunjuk sebagai proses penentu kelas yang sesuai dengan
sampel. Sehingga dibutuhkan kesesuaian terhadap teorema Bayes sebagai
berikut:
16
17
Keterangan:
C : Sebagai kelas.
F1…Fn : Petunjuk atau syarat kondisi.
Dengan demikian rumus diatas menjelaskan bahwa peluang masuknya
sampel karakteristik tertentu dalam kelas C (Posterior) merupakan peluang
munculnya kelas C (sebelum adanya sampel) dikalikan peluamg munculnya
kriteria sampel pada kelas C yang kemudian dibagi dengan peluang munculnya
kriteria sampel secara keseluruhan, sehingga rumus diatas juga bisa dituliskan
sebagai berikut:
Dimana nilai evidence selalu tetap pada tiap-tiap kelas dalam sebuah
sampel. Sedangkan nilai dari posterior adalah perbandinga n nilai antar
posterior. Sehingga rumus tersebut dapat dijabarkan sebagai berikut:
(C|F1…Fn) = P (C).P (F1…Fn|C)
= P (C).P (F1|C) P (F2…Fn|C, F1)
= P (C).P (F1|C) P (F2|C, F1) P (F3…Fn|C, F1, F2)
= P (C).P(F1|C) P (F2|C, F1) P (F3|C, F1, F2) P (F4…Fn|C, F1, F2,F3)
= P (C).P (F1|C) P (F2|C, F1) P (F3|C, F1, F2)…P (Fn|C, F1, F2, F3…Fn-1)
Hasil penjabaran rumus diatas menjelaskan bahwa jika syarat-syarat dalam
kelas semakin banyak maka semakin banyak pula nilai probabilitasnya. Hal
tersebut sangat tidak memungkinkan jika dilakukan analisis manual
satu persatu karena perhitungannya akan semakin sulit. Sehingga dapat
digunakan rumus sebagai berikut:
17
18
Untuk menghitung jumlah kasus yang sama dengan class yang sama adalah
sebagai berikut:
a. P (Internet not found | Y = Gangguan 1035) =
219/500 P (Voice not found | Y = Gangguan 1035)
= 278/500 P (IPTV not found | Y = Gangguan
1035) = 3/500
18
19
= 0,0015
b. P (GPON 00 | 1054) * P (GPON 01 | 1054) * P (GPON 02 | 1054) * P
(GPON 03 | 1054) * P (GPON 04 | 1054) * P (GPON 05 | 1054)
= 15/500 * 19/500 * 158/500 * 127/500 * 144/500 * 37/500
= 0,03 * 0,038 * 0,316 * 0,254 * 0,288 * 0,074
= 1,9501
Kesimpulan penghitungan dapat dinyatakan bahwa nilai probabilitas
tertinggi yakni ada pada kelas Gangguan 1035 terdapat pada klasifikasi
Voice Not Found (278/500), sedangkan pada kelas Gangguan 1054 nilai
probabilitas tertinggi terdapat pada klasifikasi GPON 02 (127/500).
19
20
20
21
b. Interview
Mencoba berbagai modul yang telah dipersiapkan dari hasil literature serta
mendiskusikan hasilnya dengan dosen pembimbing dan pakar lain.
c. Pengujian BlackBox
Pengujian yang digunakan dalam penelitianini adalah BlackBox Testing.
Pengujian BlackBox berfokus pada persyaratan fungsional perangkat lunak, dengan
demikian pengujian BlackBox memungkinkan perekayasa perangkat lunak
mendapatkan serangkaian kondisi input yang sepenuhnya menggunakan semua
persyaratan fungsional untuk semua program. Kebenaran perangkat lunak yang diuji
hanya dilihat dari data atau kondisi masukan yang diberikan untuk fungsi yang ada
tanpa melihat bagaimana proses untuk mendapatkan keluaran tersebut. Dari keluaran
yang dihasilkan kemampuan program dalam memenuhi kebutuhan pemakai dapat
diukur sekaligus dapat diketahui kesalahan-kesalahannya.
21