Kinerja Algoritma Kmeans++ Pada Pengelompokkan Dokumen Teks Pendek Pada Abstrak Di Jurusan Teknik Elektro Fakultas Teknik UNJ

See discussions, stats, and author profiles for this publication at: https://www.researchgate.
net/publication/343448801
Kinerja Algoritma Kmeans++ pada Pengelompokkan Dokumen Teks Pendek

pada Abstrak di Jurusan Teknik Elektro Fakultas Teknik UNJ
Article in PINTER Jurnal Pendidikan Teknik Informatika dan Komputer · June 2018

DOI: 10.21009/pinter.2.1.6
CITATIONS READS
0 79
3 authors, including:
Widodo Widodo
Jakarta State University
54 PUBLICATIONS 87 CITATIONS
SEE PROFILE
All content following this page was uploaded by Widodo Widodo on 01 September 2020.
The user has requested enhancement of the downloaded file.

e-ISSN: 2597- 4475
http://doi.org/10.21009/pinter.2.1.6
VOL 2. NO.1 JUNI 2018
Kinerja Algoritma Kmeans++ Pada Pengelompokkan Dokumen Teks

Pendek pada Abstrak di Jurusan Teknik Elektro Fakultas Teknik UNJ
Catur Rahma Sistiani, Widodo2, Bambang Prasetya Adhi3
1
Mahasiswa Prodi Pendidikan Teknik Informatika dan Komputer, Teknik Elektro, FT – UNJ
2,3
Dosen Prodi Pendidikan Teknik Informatika dan Komputer, Teknik Elektro, FT – UNJ
1
caturrahmasistiani@gmail.coml, 2 widodo03@yahoo.com, 3 bambangpadhi7@gmail.com
_________________________________________________________________________________________
Abstrak
Pengelompokkan pada dokumen teks pendek masih sulit ini dikarenakan di sparsity kata.
Tujuan penelitian ini adalah untuk mengetahui kinerja algoritma k-means++ pada teks
pendek dan untuk mengetahui proses pengelompokkan algoritma k-means++ pada teks
pendek di abstrak skripsi Jurusan Teknik Elektro Fakultas Teknik UNJ dilaksanakan pada
semester genap tahun ajaran 2014-2015. Penelitian ini menggunakan metode penelitian
eksperimen. Data abstrak yang digunakan sebanyak 200 abstrak. Penelitian meneliti 4 data
yaitu Data pertama adalah abstrak ilmiah di jurusan Teknik Elektro, Universitas Negri
Jakarta pada paragraf 1 sampai paragraf 3. Data kedua adalah paragraf 1 pada abstrak
ilmiah di jurusan Teknik Elektro, Universitas Negri Jakarta. Data ketiga adalah paragraf 2
pada abstrak ilmiah di jurusan Teknik Elektro, Universitas Negri Jakarta. Data keempat
adalah paragraf 3 pada abstrak ilmiah di jurusan Teknik Elektro, Universitas Negri Jakarta.
Pengujian kinerja algoritma k-means++ menggunakan matrix confusion. Berdasarkan hasil
penelitian, didapatkan kesimpulan bahwa keakurasian pada abstrak, paragraf 1 di abstrak,
paragraf 2 di abstrak, dan paragraf 3 di abstrak mencapai lebih dari 80% . Didapatkan juga
kesesuaian antar data yang diprediksi dengan hasil yang benar dari data yang
sebenarnya(presisi) pada abstrak, paragraf 1 di abstrak, paragraf 2 di abstrak, dan paragraf 3 di
abstrak mencapai lebih dari 50% . Didapatkan juga peluang munculnya data relevan yang
diambil sesuai dengan query (recall) pada abstrak, paragraf 1 di abstrak, paragraf 2 di abstrak,
dan paragraf 3 di abstrak mencapai lebih dari 80%.
Kata kunci : Algoritma kmenas++, Teks Pendek, Matrix Confusion

_________________________________________________________________________________________
1. Pendahuluan menurut IEEE ICDM pada tahun 2006. Tetapi

k-means ini mempunyai kekurangan yang
Banyaknya dokumen teks yang tersimpan sangat tergantung dengan kondisi inisialisasi
dalam komputer membuat pencarian informasi awal clustering. Pada algoritma k-means,
menjadi sulit. Clustering menjadi salah satu pemilihan kondisi inisialisasi awal di lakukan
solusi untuk mengelompokkan dokumen yang secara acak, jika inisialisasi kurang baik, maka
berjumlah besar sehingga membantu proses waktu proses pengelompokkan yang dihasilkan
pencarian informasi yang dibutuhkan. pun menjadi kurang optimal. maka algoritma k-
Clustering ini adalah metode means ini perlu pengembangan untuk
pengelompokkan data yang menemukan inisialisasi pada cluster awal.
kelompoknya berdasarkan kemiripan atau Pada tahun 2007 David Arthur dan Sergei
kesamaan secara natural. Ada banyak sekali Vassilvitskii mengembangkan algoritma k-
macam-macam clustering contohnya algoritma means++ untuk mengatasi masalah kekurangan
k-means yang paling banyak dikenal, mudah pada proses pengelompokkan yang kurang
diterapkan dan juga algoritma k-means menjadi optimal, yang terdapat pada algoritma k-means.
salah satu 10 top algoritma pada data mining
39
Avalaiable at:
http://journal.unj.ac.id/unj/index.php/pinter/article/view/9772
Tipe teks yang berjenis teks panjang mudah 3. Ulang langkah ke 2, hingga sejumlah k
saat proses pengelompokannya dan sering digunakan centroids telah terpilih
untuk penelitian, tetapi pengelompokkan untuk teks 4. Lalu di lanjutkan dengan algoritma K-
pendek masih jarang. Pengelompokkan teks pendek Means, yaitu
masih dianggap sulit secara statistik dan teks pendek A. Hitung jarak antar centroid dengan
ini mempunyai masalah di sparsity (keterbatasan) menggunakan rumus sebagai berikut:
kata-kata dan teks pendek ini mengandung tidak ( , ) = ( − yi) + ( − yi)
lebih dari 100 kata. Keterangan:
d= titik dokumen
2. Clustering x=data record
y=data centroid
Menurut Berkhin, Pavel diacu dalam Sri B. Kelompokkan setiap data berdasarkan
Andayani (2007), clustering adalah membagi jarak terpendek antar centroid dengan
data ke dalam group‐group yang mempunyai dokumen, untuk menentukkan posisi
obyek yang karakteristiknya sama. Menurut cluster suatu dokumen. Misalnya
Garcia‐Molina Et al., diacu dalam Sri Andayani dokumen A mempunyai jarak yang
(2007), clustering adalah mengelompokkan item paling dekat dengan centroid 1
data ke dalam sejumlah kecil grup sedemikian dibanding dengan yang lain maka
sehingga masing‐Masing grup mempunyai dokumen A masuk ke kelompok 1.
sesuatu persamaan yang esensial. Clustering C. Hitung kembali posisi centroid baru
adalah pengelompokkan objek yang mirip satu untuk tiap tiap centroid (Ci...j) dengan
sama lain dan objek yang berbeda tergabung cara menghitung nilai rata rata dokumen
dengan kelompok lain (Max Bramer,2007). yang masuk pada cluster awal (Gi...j).
Berdasarkan definisi di atas dapat disimpulkan rumus sebagai berikut:
bahwa clustering adalah pengelompokkan data + +
yang menemukan kelompokkannya dengan ()=
∑
karakteristik yang sama dan objek yang berbeda Keterangan:
akan tergabung dengan kelompok yang lain. X1= nilai data record ke-1
X2= nilai data record ke-2
3. Algoritma kmeans++ Xn= nilai data record ke-n
∑ = jumlah data record
Metode clustering ada banyak salah satunya D. Ulangi langkah a,b,c hingga posisi
adalah k-means++, telah dikembangkan dari centroid tidak berubah
algoritma k-means di mana salah satu metode
clustering menggunakan pendekatan yang
didasari pada partisi (D.Arthur,2007). K-means 4. Dokumen Teks Pendek
menentukan nilai awal centroid secara acak Jenis jenis dokumen menurut sifatnya ada 2
yang kadang-kadang memerlukan waktu yaitu dokumen tekstual dengan dokumen
pemrosesan lebih lama. Oleh karena itu, k- nontekstual. Dokumen tekstual adalah
means++ digunakan untuk mengurangi menyajikan informasi dalam bentuk tulisan,
kelemahan k-means dari pemrosesan waktu contohnya jurnal, majalah, buku, dan
yang lama. Algoritma k-means++ merupakan sebagainya. Dokumen teks pendek termasuk
algoritma pengelompokan secara partisi yang jenis dokumen tekstual. Menurut, dokumen teks
merupakan pengembangan dari algoritma k- pendek adalah dokumen yang berisi tidak lebih
means (Wayan Surya Prianta,dkk., 2011). dari 100 kata, contohnya pada setiap paragraf
Berdasarkan pendapat beberapa ahli di atas, abstrak ilmiah, dan tweet pada twitter (Mika
dapat di simpulkan bahwa k-means++ adalah Timonen,dkk., 2012). Menurut buku pedoman
pengembangan dari algoritma kmeans untuk skripsi Jurusan Teknik Elektro Fakultas Teknik
mengurangi kelemahan k-means yang kadang- UNJ(2012), abstrak merupakan tulisan singkat
kadang memerlukan waktu pemrosesan menyeluruh dari isi skripsi/KI/komprehensif
clustering lebih lama. Berikut ini adalah sehingga dengan membaca abstrak pembaca
algoritma k-means++ dapat menilai isi nya dengan cepat karena
1. Menentukan satu centroid awal pada abstrak berisi pokok masalah, tujuan, metode
seluruh data dokumen secara acak penelitian, hasil penelitian dan kesimpulan.
2. Tambahkan sebuah center baru ci dari Panjang abstak maksimal 1 halaman berjumlah
semua data yang belum terpilih sebagai 200 kata (lebih kurang 20 kalimat).
centroid, dengan menggunakan weighted
propability distribution dimana data yang
dipilih dengan probabilitas tertinggi dengan
( )
menggunakan rumus : ∑ ( )
∈
40
Avalaiable at:
5. Metodologi of-words di sebut juga stopword . Contoh
stopword adalah dan, atau, yang, adalah,
Metode penelitian yang digunakan adalah yaitu.
metode eksperimen. E. Membuat Vector Space Model
Langkah langkah penelitian Setelah menghilangkan stopword pada
A. Pengumpulan Data setiap dokumen, kemudian tahap
pengelompokkan abstrak berdasarkan berikutnya membuat vector space model.
kelompok ini akan dipakai 4 data yang Pembuatan vector space model, yaitu
berbeda. Data pertama adalah abstrak mengumpulkan kata pada semua
ilmiah di jurusan Teknik Elektro, dokumen, kemudian mencari document
Universitas Negri Jakarta pada paragraf 1 frequency setiap kata pada document,
sampai paragraf 3. Data kedua adalah kemudian menghitung invers document
paragraf 1 pada abstrak ilmiah di jurusan frequency dengan cara menggunakan
Teknik Elektro, Universitas Negri Jakarta. rumus sebagai berikut:
Data ketiga adalah paragraf 2 pada abstrak
=
ilmiah di jurusan Teknik Elektro,
Universitas Negri Jakarta. Data keempat
adalah paragraf 3 pada abstrak ilmiah di kemudian mencari term frequency setiap
jurusan Teknik Elektro, Universitas Negri kata per document, term frequency ini
Jakarta. Setelah itu data diubah format nya didapatkan dari banyaknya per kata per
menjadi .txt. dokumen,
B. Pengelompokkan Secara Manual = ℎ
Setelah data dibagi bagi maka data di
kelompokkan dahulu sacara manual setelah itu mencari TFIDF(Term
dengan berdasarkan 2 cluster yaitu Frequency Invers Document Frequency)
pendidikan dan non pendidikan. dengan cara menggunakan rumus
Pengelompokkan berdasarkan pendidikan sebagai berikut:
N
memiliki keyword yang dapat TFIDF (w, d) = TF(w, d) × (1 + (log ( )))
memudahkan untuk proses DF(w)
pengelompokkan secara manual.
Setelah melakukan tahap pembutan
Keywordnya seperti siswa/peserta didik,
vector space model maka normalkan
pembelajaran, pengajar/guru. Kalau
dengan cara persamaan sebagai
pengelompokkan berdasarkan non
pendidikan juga memiliki keyword dan berikut
()
keywordnya adalah selain dari keyword ()=
() + ( + 1) + ⋯ + ( + )
pengelompokkan pendidikan. Setelah di
kelompokkan maka mendapatkan hasil 66
data pendidikan dan 134 data non F. Mengurangi Dimensi
pendidikan. Setelah data sudah dinormalkan
C. Pra Proses Data maka data terlebih dahulu di
Tahapan pra proses data, meliputi: PCA(Principal Componen Analysis),
1. toLowerCase untuk mendapatkan principal component
Pada tahap toLowerCase, mengubah pada matlab adalah dengan menggunakan
semua kata yang ada di setiap fungsi princomp yang telah disiapkan pada
dokumen menjadi huruf kecil statics toolbox. Pada fungsi princomp akan
2. Tokenisasi menghitung eigen function dari covarians
Pada tahap tokenisasi ini, penguraian dan menghasilkan tiga buah variabel, yaitu
deskripsi yang semula berupa kalimat- coeffisien, score dan latent.
kalimat menjadi kata-kata dan
menghilangkan delimiter-delimiter [ ]= ( )
seperti tanda (.), koma(,), spasi dan Keterangan
karakter angka yang ada pada kata Coeffisien : menyimpan nilai koefisien dari
tesebut. Setiap dokumen dan query principal component
direpresentasikan dengan model bag- Latent : menyimpan varians dari
of-words principal component
Score : data principal componen dari
D. Feature Selection data yang di input yang telah di urutkan
Setelah selesai dengan tahap pra proses dari baris pertama sampai baris terakhir,
data maka kata kata yang tidak deskriptif dimana baris pertama mengandung
dapat dihilangkan dalam pendekatan bag- informasi data (principal component) yang
41
Avalaiable at:
paling penting pertama , kemudian paling Berdasarkan tabel 4.5 ,didapatkan data berupa
penting nomor 2 berada di baris kedua dan matriks untuk mengukur nilai akurasi, presisi dan
seterusnya hingga baris terakhir yang recall pada abstrak setiap kategori. Perhitungan
merupakan data yang kurang berarti. untuk akurasi, presisi dan recall adalah
Setelah di princomp ambil 2 data Akurasi= = 0,90
pertama dari hasil coeffisien. Kemudian
dikali dengan data yang yang sudah Presisi Non Pendidikan = = 0,99
dinormalkan. Presisi Pendidikan = = 0,70
G. Algoritma Kmeans++ Recall Non Pendidikan = = 0,87

Recall Pendidikan = = 0,98
Setelah tahap mengurasi dimensi
kemudian selanjutnya langkah berikutnya
data dapat di cluster dengan Tabel 6.2 Pengukuran pada paragraf 1 abstak
menggunakan algoritma k-means++.
Predicted Class
Langkah langkah clustering dengan Actual Non Pendidikan Pendidikan
TOTAL
algoritma k-means++ sebagai berikut Class Non Pendidikan 127 18 145

Pendidikan 7 48 55
A. Memilih centroid awal dengan cara TOTAL 134 66 200
memilih secara acak setelah itu
memilih dengan cara Berdasarkan tabel 4.6 ,didapatkan data berupa
menggunakan weighted propability matriks untuk mengukur nilai akurasi paragraf 1
distribution, dengan menggunakan pada abstrak , presisi dan recall paragraf 1 pada
( )
rumus : ∑ ( )
Setelah itu cari data abstrak setiap kategori. Perhitungan untuk akurasi,
∈
presisi dan recall adalah
dengan probabilitas tertinggi, sampai
sejumlah k centroids telah terpilih. Akurasi= = 0,88
B. Kemudian hitung iterasi dengan Presisi Non Pendidikan = = 0,95
menggunakan rumus sebagai berikut:
Presisi Pendidikan = = 0,73
( , ) = ( −y ) +( −y )
Keterangan: Recall Non Pendidikan = = 0,88
d= titik dokumen Recall Pendidikan = = 0,87
x=data record
y=data centroid
Tabel 6.3 Pengukuran pada paragraf 2 abstrak
C. Kelompokkan setiap data berdasarkan
jarak terpendek antar centroid dengan Predicted Class
TOTAL
Non Pendidikan Pendidikan
dokumen, untuk menentukkan posisi Actual
Class Non Pendidikan 133 32 165
cluster suatu dokumen. Pendidikan 1 34 35
TOTAL 134 66 200
D. Hitung kembali posisi centroid baru
untuk tiap-tiap centroid (Ci...j) dengan
cara menghitung nilai rata rata Berdasarkan tabel 4.7 ,didapatkan data berupa
dokumen yang masuk pada cluster matriks untuk mengukur nilai akurasi, presisi dan
awal (Gi...j). rumus sebagai berikut: recall paragraf 2 pada abstrak setiap kategori.
1 + 2 + …+ Perhitungan untuk akurasi, presisi dan recall
()= adalah
∑
Keterangan: Akurasi= = 0,84
X1= nilai data record ke-1 Presisi Non Pendidikan = = 0,99
X2= nilai data record ke-2
∑ = jumlah data record Presisi Pendidikan = = 0,51
E. Ulangi langkah b,c,d hingga posisi Recall Non Pendidikan = = 0,81
centroid tidak berubah, yaitu titik
centroid sama dengan titik
sebelumnya.
Tabel 6.4 Pengukuran pada paragraf 3 abstrak
6. Hasil dan Analisis Predicted Class
TOTAL
Actual Non Pendidikan Pendidikan
Tabel 6.1 Pengukuran pada abstrak Class Non Pendidikan 132 17 149
Predicted Class Pendidikan 2 49 51
Total TOTAL 134 66 200
Actual Non Pendidikan Pendidikan
Class Non Pendidikan 133 20 153
Pendidikan 1 46 47
TOTAL 134 66 200 Berdasarkan tabel 4.8 ,didapatkan data berupa
matriks untuk mengukur nilai akurasi, presisi dan
recall paragraf 3 pada abstrak setiap kategori.
42
Avalaiable at:
Perhitungan untuk akurasi, presisi dan recall Adiningsih,E.S.; Mahmud; Effendi,I.
adalah (2004). Aplikasi Analisis Komponen
Akurasi= = 0,91 Utama Dalam Pemodelan Penduga
Presisi Non Pendidikan = = 0,99 Lengas Tanah Dengan Data Satelit
Presisi Pendidikan = = 0,74 Multi Spektral. Matematika dan Sains
Recall Non Pendidikan = = 0,89
, 215-222.
Amalia Indranandita, d. (2008). Sistem
Klasifikasi dan Pencarian Jurnal
dengan Menggunakan Metode Naive
7. Kesimpulan dan Saran
7.1. KESIMPULAN Bayes dan Vector Space Model.
Berdasarkan hasil penelitian, Informatika , 9-18.
didapatkan akurasi pada abstrak sebesar Amin, f. (2011). Implementasi Search
90%, akurasi pada paragraf 1 di abstrak Engine(mesin pencari) Menggunakan
sebesar 88%, akurasi pada paragraf 2 di
Metode Vector Space Model.
abstrak sebesar 84%, akurasi pada
paragraf 3 di abstrak sebesar 91%. Jadi Dinamika Teknik , 45-58.
tingkat akurasi yang baik adalah pada
paragraf 3 di abstrak skripsi Jurusan Andayani, S. (2007). Pembentukan Cluster
Teknik Elektro Fakultas Teknik UNJ dalam Knowledge Discovery in
sebesar 91%. Walaupun menurut
Database dengan Algoritma k-means.
D.manning and Hinrich schutze
mengatakan kemunculan kata hanya 1 Arthur, D., & Vassilvitskii. (2007). K-
kali disebut hapax legomena. Pada menas++:The advantages of Careful
penelitian ini terjadi di setiap dokumen Seeding.
kemunculan kata hanya 1 kali dan itulah Brammer, M. (2007). Principlesd of Data
kekurangan dari dokumen teks pendek Mining. londong: Springer.
akan tetapi dengan algoritma kmeans++
untuk pengelompokkan teks pendek Christopher, D. M., & Hinrich, S. (1999).
mempunyai keakurasian diatas 80% dan Foundations of Statistical Natural
presisi diatas 50% dan recall diatas 80%. Language Processing. London:
Jadi pengelompokkan teks pendek Cambridge University Press.
mempunyai akurasi, presisi dan recall
Dragut, E., Fang, F., Sistla, P., Yu, S., &
yang tinggi. Maka kesimpulannya,
pengelompokkan pada dokumen teks Meng, w. (2009). Stop Word and
pendek dengan menggunakan algoritma Rekated Problem in WebInterfac
kmeans++ baik untuk 2 cluster yaitu Integration.
pendidikan dan non pendidikan untuk Feldman, R., & Sanger, J. (2007). The Text
hanya di Jurusan Teknik Elektro Fakultas Mining Handbook. New York:
Teknik UNJ.
7.2 SARAN cambridge University Press.
Berdasarkan penelitian dapat Han, J., & Kamber, M. (2006). Data
dikemukkan saran, yaitu memperhatikan Mining Concept and Tehniques. San
cara penulisan pada abstrak skripsi di Fransisco: Morgan Kauffman.
Jurusan Teknik Elektro Fakultas Teknik Intan,R.&Defeng,A.2006.HARD:Subject
UNJ, untuk penelitian selanjutnya dapat
menambahkan k nya dan jika k ingin Based Search Engine Menggunakan
ditambah maka data harus di tambah dan TFIDF dan Jaccard’s
jika penelitian ini dilanjutkan maka harus Coefficient.https://puslit.petra.ac.id/jo
menggunakan algoritma lain dalam proses urnals/pdf.php
pengelompokkannya.
Ismail Djakaria, d. (2010). Visualisasi Data
Iris Menggunakan Analisis
Daftar Pustaka: Komponen Utama dan Analisis
Komponen Utama Kernel. Ilmu
Adi Wibowo, d. (2013). Implementasi Dasar.
Generalized Vector Space Model
Menggunakan WordNet.
43
Avalaiable at:
Istiany, Ari.(2012).Buku Pedoman Skripsi Timonen, M., Toivanen, T., Kasari, M.,
Jurusan Teknik Elektro Fakultas Teng, Y., Cheng, C., & He, L. (2012).
Teknik UNJ. Jakarta: UNJ. Keyword Extraction from Short
Karandikar, A. (2010). Clustering Short Documents Using Three Levels of
Status Message A Topuc Model Word Evaluation. knowledge
BAsed Approach. Discovery, Knowledge Engineering
Kumar, R., & Mathur, R. P. (2014). Short and Knowledge Management , 130-
Text Clustering Using Numeric Data 146.
Based on N-gram. IEEE , 274-276. Wayan surya priantara, d. (2011).
Kurniawan,B; Effendi,S; Sitompul,O.S. Implementasi Deteksi Penjiplakan
(2012). Klasifikasi Konten Berita dengan Algoritma Winnowing pada
dengan Metode Text Mining. Dunia Dokumen Terkelompok. Seminar
Teknologi Informasi , 14-19. Tugas Akhir , 1-9.
Manning, C., Raghavan, p., & Schutze, H. Wibowo. 2007. Manajemen Kinerja :
(2008). Introduction of Information Jakarta : Raja Grafindo Persada.
Retrieval . New York: Cambridge Weiss, S., Indurkhya, n., zhang, T., &
University Press. Damerau, F. (2005). Text Mining:
Predictive Methode to Analyzing
Oktafia, D., dan Pardede, D.L.C., 2010, Unstructed Information. New York:
Perbandingan Kinerja Algoritma Springer
Decision Tree dan Naïve Bayes
dalam Prediksi Kebangkrutan,
Proceeding Seminar Ilmiah Nasional
KOMMIT 2010, Universitas
Gunadarma
Poerwadarminta, W. (2007). Kamus Umum
Bahasa Indonesia.
RENIER, G.J (1997). History its purpose
and Method. Yogyakarta: Pustaka
Pelajar.
Santoso, B. (2007). Data Mining: Teknik
PemamfaatanData untuk Keperluan
Bisnis. Yogyakarta: Graha Ilmu.
Simanjuntak, P.J. 2005. Manajemen dan
Evaluasi Kerja. Lembaga Penerbit
FEUI, Jakarta.
Setiawan, E. (2012). Kamus Besar Bahasa
Indonesia Online. KEMDIKBUD.
Shrestha, P., Jacquin, C., & Daille, B.
(2012). Clustering Short Text and Its
Evaluation. A. Gelbukh (Ed.):
CICLing , 169-180.
Smith,L.I.A Tutorial on Principal
Component Analysis.Internet:
http://www.csotago.ac.nz/cosc453/stu
dent_tutorials/principal_component.p
df,[19 Juni 2015]
Swastina, L. (2013). Penerapan Algoritma
C4.5 Untuk Penentuan Jurusan
Mahasiswa. Gema Aktualita , 93-98.
44
Avalaiable at:
View publication stats

Kinerja Algoritma Kmeans++ Pada Pengelompokkan Dokumen Teks Pendek Pada Abstrak Di Jurusan Teknik Elektro Fakultas Teknik UNJ

Diunggah oleh

Informasi Dokumen

Deskripsi Asli:

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Kinerja Algoritma Kmeans++ Pada Pengelompokkan Dokumen Teks Pendek Pada Abstrak Di Jurusan Teknik Elektro Fakultas Teknik UNJ

Diunggah oleh

Hak Cipta:

Format Tersedia

See discussions, stats, and author profiles for this publication at: https://www.researchgate.

Kinerja Algoritma Kmeans++ pada Pengelompokkan Dokumen Teks Pendek

Article in PINTER Jurnal Pendidikan Teknik Informatika dan Komputer · June 2018

The user has requested enhancement of the downloaded file.

Kinerja Algoritma Kmeans++ Pada Pengelompokkan Dokumen Teks

Catur Rahma Sistiani, Widodo2, Bambang Prasetya Adhi3

Kata kunci : Algoritma kmenas++, Teks Pendek, Matrix Confusion

1. Pendahuluan menurut IEEE ICDM pada tahun 2006. Tetapi

G. Algoritma Kmeans++ Recall Non Pendidikan = = 0,87

algoritma k-means++ sebagai berikut Class Non Pendidikan 127 18 145

Anda mungkin juga menyukai