JURNAL Vera M0509074 PDF

perpustakaan.uns.ac.id digilib.uns.ac.
id
CLUSTERING DOKUMEN MENGGUNAKAN ALGORITMA SELF-

ORGANIZING MAP (SOM)
(STUDI KASUS : DOKUMEN SKRIPSI DI FAKULTAS PERTANIAN UNS)
Vera Suryaningsih Sari Widya Sihwi Meiyanto Eko Sulistyo

Informatika, Fakultas MIPA, Informatika, Fakultas MIPA, Informatika, Fakultas MIPA,
Universitas Sebelas Maret Universitas Sebelas Maret Universitas Sebelas Maret
Jl. Ir. Sutami No 36 A Surakarta Jl. Ir. Sutami No 36 A Surakarta Jl. Ir. Sutami No 36 A Surakarta
veve.rava@gmail.com sari.widya.sihwi@gmail.com mekosulistyo@uns.ac.id
ABSTRAK ada beberapa tema skripsi yang dapat dijadikan kolaborasi antar
prodi. Oleh karena itu, perlu dilakukan mining terhadap
Fakultas Pertanian Universitas Sebelas Maret telah
kumpulan dokumen skripsi tersebut. Text mining merupakan
menghasilkan banyak dokumen penelitian khususnya berupa
variasi dari data mining dimana data yang diolah berupa teks.
skripsi. Jika kumpulan dokumen skripsi tersebut diolah,
Text mining dapat didefinisikan secara luas sebagai proses
dimungkinkan akan ditemukan suatu pola yang bermanfaat bagi
mengekstrak informasi yang berguna dari sumber data teks
pihak fakultas. Oleh karena itu, perlu dilakukan text mining
melalui identifikasi dan eksplorasi pola yang menarik [1].
terhadap kumpulan dokumen skripsi.
Munculnya text mining didasarkan pada kenyataan bahwa
Penelitian ini akan melakukan clustering pada semakin banyak dokumen yang tersimpan dalam bentuk teks
dokumen skripsi di fakultas Pertanian UNS tahun 2008 sampai dan kadang dokumen tersebut hanya dibiarkan begitu saja.
2013 dengan menggunakan algoritma Self-Organizing Map. Padahal jika kumpulan dokumen tersebut diolah lebih lanjut,
Sebelum dilakukan proses clustering, abstrak terlebih dahulu akan didapatkan suatu informasi yang mungkin berguna bagi
diolah melalui tahap text preprocessing dan pembobotan TF- instansi atau pemiliknya.
IDF. Pada penelitian ini menggunakan inputan cluster sebanyak Salah satu bentuk dari text mining adalah clustering.
81, iterasi sebanyak 1000 dan lerarning rate sebesar 0,1. Clustering merupakan kegiatan pemecahan data ke dalam
Hasil penelitian menunjukkan bahwa ada beberapa sejumlah kelompok atau cluster menurut karakteristik tertentu
cluster yang dimungkinkan tema pada cluster tersebut yang kemudian diberi label sesuai keinginan pemiliknya [2].
berpotensi untuk dikolaborasikan dengan beberapa maupun Oleh karena itu, clustering dokumen dapat didefinisikan sebagai
semua prodi. Ada juga cluster yang dimungkinkan tema pada suatu kegiatan pengelompokan dokumen menjadi beberapa
cluster tersebut memang tidak bisa dilakukan kolaborasi, karena cluster. Dalam proses pengelompokan tersebut, dokumen yang
hanya prodi tertentu yang pernah melakukan penelitian pada berada dalam kelompok yang sama akan memiliki kesamaan
tema cluster tersebut. Namun bisa jadi, prodi lain memang yang tinggi, begitu pula sebaliknya.
belum mencoba untuk melakukan penelitian pada tema tersebut. Ada beberapa algoritma dalam clustering, salah satunya
Jurusan Agribisnis memiliki penyebaran tren tema yang adalah algoritma Self-Organizing Map. Self-Organizing Map
bervariasi ditiap tahunnya. Sedangkan pada prodi (SOM) merupakan algoritma dengan teknik pelatihan jaringan
Agroteknologi, prodi ITP, serta prodi Peternakan tema yang syaraf tiruan yang pertama kali diperkenalkan oleh Kohonen.
banyak diambil ditiap tahunnya hanya di beberapa tema saja. SOM menggunakan basis winner takes all, dimana hanya
neuron pemenang yang akan diperbaharui bobotnya [2]. Metode
pembelajaran pada SOM adalah unsupervised learning, dimana
Kata kunci : Text Mining, Text Preprocessing, TF-IDF, tidak ada target kelas yang ditetapkan untuk setiap inputan.
Clustering, Self-Organizing Map Penelitian terkait dengan clustering dokumen maupun
clustering dengan menggunakan algoritma SOM sudah banyak
1. PENDAHULUAN dilakukan. Salah satunya adalah penelitian oleh Yiheng Chen
Fakultas Pertanian Universitas Sebelas Maret (UNS) telah dan kawan-kawan [3] yang membandingkan algoritma SOM
menghasilkan banyak penelitian, khususnya penelitian berupa dengan algoritma K-Means dalam kasus clustering dokumen.
skripsi yang dilakukan oleh mahasiswa S1. Selain tersimpan Pada penelitian tersebut teridentifikasi bahwa secara
dalam bentuk buku, dokumen skripsi tersebut juga tersimpan keseluruhan kinerja algoritma SOM lebih bagus dari pada
dalam bentuk dokumen pdf maupun database. Namun algoritma K-Means untuk kasus clustering dokumen. SOM
kumpulan dokumen skripsi tersebut hanya dibiarkan menumpuk tidak sensitif terhadap inisialisasi awal, ditunjukkan dengan
begitu saja. Padahal jika diolah, dimungkinkan akan ditemukan f-meansure yang stabil selama dua puluh kali percobaan.
suatu pola atau tren yang bermanfaat bagi pihak fakultas. Sedangkan K-Means tidak stabil terhadap inisialisasi awal.
Selama ini, belum ada pihak yang pernal melakukan Sealin itu jumlah iterasi pada K-Means juga berbeda setiap kali
penelitian terhadap dokumen - dokumen skripsi yang adacommitdi to user percobaan.
dilakukan
UNS khususnya di fakultas Pertanian. Padahal dimungkinkan Ambarwati serta Edi Winarko [9] juga pernah melakukan
pola penelitiannya sama ditiap tahunnya, atau dimungkinkan penelitian dengan judul “Pengelompokan Berita Indonesia
1
perpustakaan.uns.ac.id digilib.uns.ac.id
Berdasarkan Histogram Kata Menggunakan Self-Organizing pentingnya suatu term [6]. Perhitungan TF-IDF adalah
Map”. Pada penelitian tersebut didapatkan hasil bahwa dari perkalian antara TF dan IDF. Berikut ini merupaka rumus dari
tahun 2007 sampai dengan tahun 2009 hasil proses clustering TF- IDF [1] :
memiliki kecenderungan yang berbeda. Pada tahun 2007 Dan
2009 mempunyai kecenderungan berita yang sama yaitu berita W (i, j) = tfi,j * (log ...................................(1)
tentang ekonomi, pada tahun 2008 mempunyai kecenderungan
berita kriminal dan teknologi. Keterangan :
Berdasarkan penelitian-penelitian tersebut, penulis akan
mencoba menerapkan metode text mining menggunakan W (i, j) = bobot suatu term i terhadap dokumen j
algoritma SOM untuk clustering dokumen skripsi yang ada di tfij = frekuensi kata i pada dokumen j
fakultas Pertanian UNS. Penelitian ini bertujuan untuk melihat N = jumlah keseluruhan dokumen
pola skripsi yang ada di fakultas Pertanian UNS yang DF (i) = jumlah dokumen yang mengandung term i
sebelumnya telah dilakukan proses clustering. Diharapkan
dengan dilakukannya penelitian ini dapat memberi masukan dan 2.4 DF Feature Selection
bahan evaluasi bagi pihak fakultas Pertanian UNS. Feature selection merupakan langkah memilih beberapa
fitur (misalnya kata-kata atau istilah) yang akan digunakan
ketika melakukan klasifikasi maupun clustering [10] . Fitur
2. DASAR TEORI
yang terpilih dapat digunakan untuk mewakili semua fitur yang
2.1 Text Mining ada pada dokumen. Permasalahan mendasar pada clustering
Text mining dapat didefinisikan secara luas sebagai proses maupun klasifikasi dokumen adalah tingginya dimensi data,
mengekstrak informasi yang berguna dari sumber data teks sehingga perlu dilakukan feature selection untuk mengurangi
melalui identifikasi dan eksplorasi pola yang menarik [1]. dimensi tersebut [5]. Salah satu metode pada feature selection
Permasalahan yang dihadapi pada saat melakukan proses text yang banyak digunakan adalah DF (Document Frequency) [10]
mining adalah jumlah data yang besar, dimensi yang tinggi, dan DF (Document Frequency) adalah jumlah dokumen yang
terdapat banyak term yang tidak penting [5]. Pada text mining, mengandung suatu term tertentu [10]. Jika nilai DF berada
data yang digunakan umumnya unstructure data, atau minimal diatas atau dibawah nilai threshold yang telah ditentukan, maka
semistructure data [9]. Hal ini menyebabkan struktur teks yang term tersebut akan dibuang [5]. Asumsi bahwa term yang
tidak jelas, serta bahasa yang berbeda. Oleh karena itu perlu muncul dalam sedikit dokumen menunjukkan bahwa term
dilakukan tahap text preprocessing untuk mempersiapkan teks tersebut tidak memiliki pengaruh yang besar dalam proses
menjadi data yang dapat diolah lebih lanjut. clustering dokumen. Sedangkan jika term t muncul dalam
banyak dokumen, maka tingkat kepentingan term tersebut
2.2 Text Preprocessing menjadi kecil karena term yang banyak muncul di berbagai
Text Preprocessing adalah tahap mengubah suatu dokumen dapat dianggap sebagai term umum (common term).
dokumen ke dalam format yang sesuai agar dapat diproses oleh Sebagai contoh term “database” mungkin cenderung kurang
algoritma clustering [4]. Berikut ini tahapan pada text penting jika terdapat di banyak dokumen pada kumpulan jurnal
preprocessing [5]: yang membahas tentang sistem database.
1. Case Floding, merupakan proses mengubah semua huruf
yang ada pada dokumen menjadi huruf kecil. Serta 2.5 Min Max Normalization
menghilangkan karakter selain huruf „a‟ sampai „z‟. Normalisasi dapat meningkatkan akurasi dan efisiensi
2. Tokenizing, merupakan tahap penguraian string teks algoritma data mining yang melibatkan pengukuran jarak [6].
menjadi term atau kata. Salah satu metode normalisasi data adalah Min Max
3. Filtering, merupakan tahap pengambilan kata-kata Normalization. Min Max Normalizatio melakukan transformasi
penting dari hasil token. Bisa menggunakan algoritma linear pada data asli [6]. Misalkan minA dan maxA adalah nilai
stoplist (membuang kata yang kurang penting) atau minimum dan maksimum dari sebuah atribut, Min Max
wordlist (menyimpan kata penting). Normalization memetakan sebuah nilai v dari A menjadi v‟
4. Stemming, merupakan tahap pengubahan suatu kata dalam range nilai minimal dan maksimal yang baru, new_minA
menjadi akar katanya dengan menghilangkan imbuhan dan new_maxA [6]. Berikut ini merupakan rumus Min-max
awalan atau akhiran dari tiap kata hasil filtering. Normalization [6]:
v’ = (new_maxA – new_minA)+new_minA...........(2)
2.3 TF-IDF
TF-IDF berasal dari kata Term Frequency (TF) dan
Inverse Document Frequency (IDF). Term Frequency (TF) 2.6 Clustering
merupakan frekuensi kemunculan term dalam sebuah dokumen Clustering merupakan kegiatan pemecahan data ke dalam
[6]. Semakin sering suatu term muncul dalam dokumen tertentu, sejumlah kelompok atau cluster menurut karakteristik tertentu
maka nilai tf-nya akan lebih tinggi dibandingkan term yang yang kemudian diberi label sesuai keinginan pemiliknya [2].
jarang muncul dalam dokumen tersebut. Sedangkan Inverse
commit to user
Data yang berada dalam satu cluster memiliki nilai kemiripan
Dokumen Frequency (IDF) didefinisikan sebagai tingkat yang tinggi, sedangkan data yang berada pada cluster lain
2
memiliki tingkat kemiripan yang rendah dengan data tersebut 𝜆 = jumlah iterasi / radius map ................................(6)
[2].
Persamaan 3a Bobot baru pada neuron
2.7 Self-Organizing Map (SOM) wij (t+1) = wij (t) + Θ(t)L(t) ( xj – wij (t)) ..................(7)
Self-Organizing Map (SOM) merupakan algoritma
dengan teknik pelatihan jaringan syaraf tiruan yang pertama kali Persamaan 3b Learning rate
diperkenalkan oleh Kohonen. SOM menggunakan basis winner L(t) = L0 ......................................................(8)
takes all, dimana hanya neuron pemenang yang akan
diperbaharui bobotnya [2]. Pada SOM, suatu lapisan yang berisi Persamaan 3c Distance of BMU
neuron-neuron akan menyusun dirinya sendiri berdasarkan
input nilai tertentu dalam suatu cluster [2]. Selama proses Θ (t) = ................................(9)
penyusunan tersebut, cluster yang memiliki jarak paling dekat merupakan jarak antara neuron dengan neuron
akan terpilih menjadi pemenang [2]. Neuron yang menjadi pemenang yang dapat dicari dengan rumus :
pemenang akan memperbaiki nilai bobotnya beserta neruon- (c,i) = |rc - ri|2
neuron tetangganya [2]. Arsitektur SOM dapat dilihat pada = ( rc(x) - ri(x)) 2 + ( rc(y) - ri(y)) 2 ............(10)
Gambar.1.
2
Jika (c,i) ≤ σ(t) , berarti bahwa neuron i berada
pada radius BMU, maka bobot pada neuron tersebut
diperbaharui.
Untuk menginisialisasi bobot pada setiap cluster,
digunakan rumus midpoint (Demuth and Beale). Berikui ini
merupakan rumus midpoint (Demuth and Beale) :
Wij = ..................................................... (11)
Gambar 1. Arsitektur SOM [8]. Penjelasan simbol :

t = iterasi saat ini
Berikut ini merupakan algoritma dari SOM [7]:
Θ = distance of BMU
1. Inisialisasi jumlah cluster (width x height), jumlah iterasi,
L = learning rate
learning rate, radius ketetanggaan, dan bobot pada setiap
w = bobot pada setiap node
neuron (random dengan nilai kecil).
x = vektor inputan
2. Memilih salah satu vektor input dan disajikan ke jaringan.
n = dimensi data
3. Setiap neuron pada jaringan diuji untuk menghitung bobot
T = jumlah iterasi
neuron mana yang paling mirip dengan vektor input.
σ = radius
Neuron pemenang sering disebut dengan Best Matching
𝜆 = time constan
Unit (BMU) (Persamaan 1).
rc(x) = letak neuron pemenang pada sumbu x
4. Menghitung radius ketetanggan dari BMU. Dimulai
ri(x) = letak neuron i pada sumbu x
dengan nilai yang besar kemudian berkurang setiap kali
rc(y) = letak neuron pemenang pada sumbu y
iterasi (Persamaan 2a, 2b).
ri(y) = letak neuron i pada sumbu y
5. Setiap neuron yang berada pada radius BMU disesuaikan
MinPi = nilai terkecil pada variabel input ke i
agar mereka lebih mirip dengan vektor input (Persamaan
3a,3b). Semakin dekat neuron dengan BMU, maka MaxPi = nilai terbesar pada variabel input ke 3.
semakin bobot itu diubah (Persamaan 3c).
3. Metodologi Penelitian
6. Ulangi langkah 2 unuk N iterasi.
Persamaan yang digunakan dalam algoritma adalah

sebagai berikut:
Persamaan 1 Menghitung BMU
DistFromInput2 ......................(3)
Persamaan 2a Radius Ketetanggaan

σ(t) = σ0 .......................................................(4)
Untuk menentukan σ0 dapat dicari dengan rumus :
commit
σ0 = max(width, height) / 2......................................(5) to user Gambar 3. Metodologi Penelitian
Persamaan 2b Time Constant
3
3.1 Studi Literatur 3.3.2 Tahap Pembobotan TF-IDF

Studi literatur dilakukan untuk mengumpulkan bahan Tahap pembobotan TF-IDF diawali dengan menghitung
referensi melalui pencarian di internet, jurnal-jurnal penelitian, TF dengan cara menghitung frekuensi kemunculan term t
serta buku pendukung yang relevan dan berhubungan dengan dalam sebuah dokumen d pada hasil filtering hasil stemming.
permasalahan, analisis, dan implementasi sistem. Selain itu juga Kemudian dicari nilai DF yaitu banyaknya dokumen yang
untuk memperkuat pengetahuan dasar dan teori yang digunakan mengandung term t. Lalu dilakukan feature selection pada term
dalam penelitian ini. tersebut berdasarkan threshold batas maksimal dan minimal
yang diberikan. Selanjutnya dilakukan perhitungan IDF dimana
hasil DF akan dijadikan sebagai input-an. Barulah didapatkan
3.2 Pengumpulan Data bobot TF-IDF dengan mengalikan hasil TF dengan IDF. Setelah
Penelitian ini menggunakan data sekunder yaitu dokumen bobot TF-IDF didapat, kemudian dilakukan normalisasi Min
skripsi yang ada di fakultas Pertanian UNS dengan tahun
Max.
pembuatan 2008 sampai 2013. Data diperoleh dengan cara
meminta secara langsung kepada pihak perpustakaan UNS.
Data yang akan digunakan untuk masukan pada proses 3.3.3 Tahap Clustering
clustering adalah bagian abstrak dokumen yang berbahasa Setelah dilakukan pembobotan TF-IDF, tahap selanjutnya
Indonesia saja. yaitu melakukan proses clustering dengan menggunakan
Sebelum dilakukan proses clustering, dokumen yang telah algoritma SOM. Bobot yang di hasilkan pada tahap TF-IDF
terkumpul akan dilakukan pemilahan. Dokumen dengan abstrak digunakan sebagai input-an. Setelah itu, menginisialiasasi
yang tidak berbahasa Indonesia atau memiliki keterangan
kurang lengkap (tidak ada tahun pembuatan, prodi, atau abstrak) topologi SOM, jumlah iterasi, laju pembelajaran (learning rate),
akan dihapus. Selanjutnya, data akan disimpan ke dalam radius ketetanggan, serta width dan heighnya. Kemudian,
database menggunakan MySQL database. menginisialisasi bobot awal dengan matriks bobot berukuran i x
j (Wij), dimana i adalah jumlah term yang telah dihilangkan
duplikasinya dan j adalah jumlah cluster (perkalian dari widht
3.3 Penerapan Metode
dan height). Kemudian diolah menggunakan algoritma SOM
Pada tahap ini akan dilakukan implementasi sistem agar
yang telah dijelaskan pada dasar teori. Hasil akhir dari tahap ini
dapat memudahkan dalam tahap analisis terhadap hasil
adalah masing-masing dokumen akan masuk kedalam cluster
clustering dokumen penelitian di UNS. Seluruh fungsi yang
tertentu dimana satu dokumen hanya akan masuk ke dalam satu
dibutuhkan diterjemahkan ke dalam rangkaian kode dengan
cluster.
menggunakan bahasa pemrograman PHP.
3.3.1 Tahap Text Preprocessing 3.4 Tahap Analisis

Tahapan text preprocessing meliputi casse folding, Pada tahap ini akan dilakukan analisis terhadap hasil
tokenizing, filtering, stemming, serta filtering hasil stemming. clustering dokumen skripsi di fakultas Pertanian UNS. Analisis
pertama yaitu analisis mengenai tema pada setiap clusternya.
Case Folding Analisis kedua yaitu analisis mengenai pola yang terbentuk dari
Input : abstrak dokumen hasil clustering. Pola pertama yaitu merepresentasikan hasil
Output : abstrak dengan huruf kecil semua dan
cluster antar prodi. Sedangkan pola kedua, merepresentasikan
hanya ada karakter huruf „a‟ sampai „z‟
hasil clustering setiap prodi pertahunnya.
Tokenizing
Input : hasil case folding 3.5 Tahap Validasi
Output : kata-kata yang telah terurai Untuk mengevaluasi apakah hasil clustering yang
diperoleh sudah sesuai atau tidak, maka perlu dilakukan validasi
Filtering kepada pihak yang lebih mengerti terhadap data tersebut.
Input : hasil tokenizing
Validasi pada penelitian ini akan dilakukan dengan cara
Output : kata-kata yang bukan termasuk stoplist
bertanya secara langsung kepada Pembantu Dekan 1 (PD 1)
fakultas Pertanian UNS. Alasan kenapa memilih PD 1 sebagai
Stemming pihak validator adalah karena PD 1 merupakan penanggung
Input : hasil filtering
Output : kata dasar
jawab bagian akademik dan pendidikan fakultas.
menggunakan kamus kata dasar dan
algoritma Nazief dan Adriani 4 PEMBAHASAN
4.1 Deskripsi Data
Filtering hasil Stemming Pada penelitian ini data yang digunakan berupa dokumen
Input : hasil stemming
Output : kata-kata yang bukan skripsi yang ada di fakultas Pertanian UNS pada tahun 2008
termasuk stoplist sampai 2013. Bagian dokumen yang digunakan dalam
melakukan clustering adalah bagian abstrak. Setelah dilakukan
Gambar 4. Proses Text Preprocessing commit to user terhadap 1.385 dokumen yang terkumpul, didapat
pemilahan
1.291 dokumen yang siap dilakukan proses selanjutnya.
4
Kemudian data disimpan ke dalam database menggunakan Berdasarkan proses text preprocessing diatas, diketahui
MySQL database. bahwa dokumen sampel mengalami pengurangan kata pada
proses case folding, filtering dan filtering-stemming.
4.2 Text Preprocessing Sebelumnya dokumen tersebut mempunyai kata sebanyak 380,
Pada kasus ini, akan mengambil salah satu dokumen untuk lalu pada tahap case folding turun menjadi 376 kata, pada tahap
dijadikan sebagai contoh. Abstrak pada dokumen tersebut filtering menjadi 168 kata, dan pada tahap filtering-stemming
mempunyai 380 kata dan beberapa karakter seperti titik, koma, menjadi 139 kata. Pengurangan kata tersebut bermanfaat pada
dan lain-lain. Setelah itu dilakukan proses case folding dengan saat tahap clustering, karena dapat memperkecil dimensi yang
cara mengubah semua huruf menjadi huruf kecil serta membuat waktu komputasi lebih cepat.
membuang karakter selain huruf „a‟ sampai „z‟. Setelah melalui
proses case folding, jumlah kata sedikit berkurang dan tersisa 4.3 Proses TF-IDF
376 kata. Kemudian dilakukan proses tokenizing. Pada proses Hasil dari text preprocessing diubah ke dalam bentuk
ini tidak ada pengurangan kata, karena hanya melakukan proses vektor m x n, dimana m adalah jumlah term dan n adalah
pemecahan kata saja. jumlah dokumen. Kemudian dilakukan pembobotan terhadap
term/kata tersebut. Proses pembobotan kata/term weigthing
Selanjutnya dilakukan proses filtering dengan membuang
berfungsi untuk memberikan nilai pada sebuah kata. Untuk
kata-kata yang cocok dengan kamus stopwords. Pada proses ini, proses pembobotan kata akan digunakan perhitungan term
terjadi pengurangan kata dari sebelumnya 376 kata menjadi 168 frequency – inverse document frequency (TF-IDF). Tabel 1
kata. Hal ini berarti pada abstrak dokumen tersebut terdapat 208 merupakan sampel dokumen yang telah melalui proses text
kata yang tidak penting atau stopwords. Proses selanjutnya preprocessing. D1 merupakan dokumen pertama dengan
adalah stemming dengan menggunakan menggunakan algoritma keyword tani, tindak, agroindustri, basis, agraris, dan padi, dan
Nazief & Adriani. Tidak ada pengurangan kata pada proses ini, seterusnya.
karena hanya merubah bentuk kata menjadi kata dasar.
Tabel 1. Contoh dokumen untuk perhitungan TF-IDF
Meskipun sebelumnya sudah dilakukan proses filtering,
Dok Key1 Key 2 Key 3 Key 4 Key 5 Key
tapi terkadang ada kata yang setelah dicari kata dasarnya 6
ternyata terdeteksi stopword. Hal ini disebabkan keterbatasan D1 tani tindak agroindustri basis agraris padi
kamus pada stopword. Sehingga perlu dilakukan proses filtering D2 tani sayur komoditas sayur kebun
lagi terhadap hasil stemming. Setelah dilakukan filtering lagi D3 padi komoditas pokok produksi tanam padi
terhadap hasil stemming, terjadi pengurangan kata dari D4 tanam karet komoditas kebun ekspor hujan
sebelumnya 168 kata menjadi 139 kata. Hal ini berarti masih
ada 29 kata yang belum terdeteksi stopword pada proses Langkah pertama pada proses pembobotan TF-IDF adalah
menghitung nilai TF dengan cara menghitung kemunculan term
filtering sebelumnya. Gambar 5 merupakan alur dari text
pada dokumen tertentu. Langkah kedua menghitung nilai
preprocessing terhadap cuplikan dokumen contoh. Document Frequency-nya (DF) yaitu jumlah dokumen yang
mengandung term tersebut. Hasil dari perhitungan TF serta DF
dapat dilihat pada Tabel 2.
Tabel 2 Hasil dari perhitungan TF serta DF yang belum

mengalami proses feature selection
Term D1 D2 D3 D4 DF
tani 1 1 0 0 2
tindak 1 0 0 0 1
agroindustri 1 0 0 0 1
basis 1 0 0 0 1
agraris 1 0 0 0 1
sayur 2 0 0 0 1
komoditas 0 1 1 1 3
padi 1 0 2 0 2
pokok 0 0 1 0 1
produksi 0 0 1 0 1
Lalu term yang sudah dicari nilai DF-nya diseleksi

berdasarkan nilai threshold. Jika nilai DF berada di bawah min
threshold atau di atas max threshold yang telah ditentukan,
maka term tersebut akan dibuang. Pada contoh ini hanya
diberikan min threshold yaitu 2, dalam arti bahwa term dengan
nilai DF dibawah 2 akan dibuang. Lihat hasilnya pada Tabel 3
kolom DF.
Berdasarkan hasil seleksi kata dengan feature selection
commit to
DF,user
terjadi pengurangan kata dari 15 kata menjadi 5. Kata yang
dibuang antara lain tindak, agroindustri, basis, agraris, sayur,
Gambar 5 Proses text preprocessing pokok, produksi, karet, ekspor, dan hujan. Untuk kasus feature
5
selection pada dokumen skripsi fakultas Pertanian UNS Lampiran Tabel 1 merupakan perkiraan tema pada setiap
menggunakan min threshold 6 dan max threshold 300. Oleh cluster. Sel yang diberi warna hitam merupakan cluster yang
karena itu kata dengan DF dibawah 6 dan kata dengan DF diatas tidak diisi oleh dokumen. Berdasarkan Lampiran Tabel 1
300 akan dihapus. Dari proses tersebut dihasilkan pengurangan
terlihat bahwa terdapat beberapa cluster yang memiliki
kata dari awalnya 7.902 kata menjadi 1.413 kata. Pengurangan
kata ini sangat berpengaruh pada waktu komputasi proses kecenderungan tema umum yang sama. Selain itu, cluster yang
selanjutnya. memiliki kecenderungan tema umum yang sama adalah cluster
Langkah ketiga yaitu perhitungan IDF menggunakan yang berada saling berdekatan. Hal ini disebabkan karena pada
rumus : (log , dimana N adalah jumlah keseluruhan algoritma SOM, bobot yang diperbaharui adalah neuron
pemenang serta neuron yang terletak didekat neuron pemenang.
dokumen dan adalah nilai DF yang sudah dihitung pada
proses sebelumnya. Langkah terakhir dalam perhitungan Oleh karena itu, cluster yang saling berdekatan memiliki
pembobotan adalah perhitungan TF-IDF dengan cara kecenderungan tema yang mirip. Sebagai contoh pada tema
mengalikan hasil TF dengan hasil IDF. Lihat Tabel 3 untuk pupuk, berada pada cluster 1, 2, 10, 11, 12, dan 19 yang
melihat semua hasil dari proses TF, DF, IDF dan TF-IDF. letaknya saling berdekatan. Selain itu, terlihat bahwa letak
cluster C3 berada didekat cluster C2, C11, serta C12 dimana
Tabel 3 Hasil perhitungan TF, DF, IDF, dan TF-IDF pada cluster tersebut terdapat beberapa dokumen yang juga
membahas mengenai pupuk. Disamping itu, ada juga beberapa
cluster yang memiliki tema kurang sama antara satu dokumen
dengan dokumen lain, seperti pada cluster C14, C23, C34, C42,
C43, C44, C51, C53 dan C60. Hal ini dimungkinkan karena
bagian dokumen yang diolah hanya bagian abstrak saja,
sehingga kurang dapat merepresentasikan isi keseluruhan
dokumen.
Kemudian dilakukan normalisasi data dengan Algoritma Min
Analisis kedua yaitu analisis mengenai pola yang
Max Normalization dan didapatkan hasil seperti pada Tabel 4
terbentuk pada pemetaan distribusi frekuensi hasil clustering
antar prodi. Tabel 6 merupakan distribusi frekuensi cluster pada
Tabel 4 Hasil normalisasi dengan Algoritma Min Max
Normalization tiap prodi. Pada baris pertama A adalah prodi Agribisnis, B
adalah prodi Agroteknologi, C adalah prodi Ilmu dan Teknologi
Pangan (ITP), dan D adalah prodi Peternakan.
Tabel 6 Distribusi Frekuensi Cluster per Prodi

CLUSTER A B C D Jumlah
C1 - 15 - - 15
C2 - 15 - - 15
C3 - 16 - - 16
C4 - 10 - - 10
4.4 Proses Clustering C5 - 23 - - 23
C7 21 - - - 21
Setelah dilakukan pembobotan TF-IDF terhadap term, C9 18 - - - 18
tahap selanjutnya yaitu melakukan proses clustering. Langkah C10 - 16 - - 16
pertama yaitu menentukan jumlah iterasi, learning rate, radius C11 - 20 - - 20
ketetanggan, width dan height (cluster = width x height). Pada C12 - 10 - - 10
C13 - 19 - - 19
penelitian ini ditetapkan jumlah iterasi sebesar 1000, - 2 - -
C14 2
learningrate 0.1, serta width dan heigh 9x9. Pemilihan jumlah C15 - 11 - - 11
cluster, learningrate serta width dan height sudah melalui C17 18 - - - 18
beberapa kali percobaan. Kemudian sistem secara otomatis akan C18 10 - - - 10
membuat bobot secara dengan algoritma Midpoint dengan C19 - 16 - - 16
C20 6 10 - - 16
dimensi m x n, dimana m adalah jumlah cluster dan n adalah C21 6 21 - - 27
jumlah term. Setelah itu dilakukan proses clustering SOM C22 3 7 - - 10
dengan cara seperti pada dasar teori. C23 1 18 - - 19
C24 - 8 - - 8
C25 20 - - - 20
4.5 Analisis Hasil Clustering C26 10 - - - 10
C27 26 - - 1 27
Setelah dilakukan clustering, dokumen yang memiliki C29 30 - - - 30
banyak kemiripan keyword akan mengelompok menjadi satu. C30 7 - - - 7
C31 3 15 - - 18
Setelah itu, dilakukan analisis perkiraan tema pada setiap - 2 - -
C32 2
cluster.Gambar 4.11 merupakan contoh tampilan hasil pada C33 3 24 - - 27
cluster C1 yang berisi cluster, id dokumen, judul, prodi, tahun, C34 10 7 - - 17
C35 26 - - - 26
serta 10 top keyword. Pada cluster C1, kebanyakan dokumen C36 14 - - - 14
membahas mengenai pupuk yang berfokus pada pengaruh C37 18 - - 2 20
C38 1 - - - 1
pupuk terhadap ketersediaan maupun serapan suatu unsur. Hasil
commit to user
C39 23 1 - 1 25
perkiraan tema dapat dilihat pada Lampiran Tabel 1. C40 3 - 1 - 4
C41 5 14 6 - 25
C42 1 7 4 - 12
6
Tabel 6 Distribusi Frekuensi Cluster per Prodi (Lanjutan) prodi. Atau bisa jadi, prodi lain memang belum mencoba untuk
melakukan penelitian pada tema tersebut.
CLUSTER A B C D Jumlah
C43 13 35 9 - 57
C44 30 4 1 - 35 Tabel 7 Distribusi Frekuensi Cluster Pertahun
C45 26 - - - 26 Pada Prodi Agribisnis
C46 3 - - 1 4 CLUSTER ‘08 ‘09 ‘10 ‘11 ‘12 ‘13 Jumlah
C47 - - - 11 11 C1 0
C48 2 - 2 2 6 C2 0
C49 2 - 3 12 17 C3 0
C50 - 7 5 - 12 C4 0
C5 0
C51 1 7 11 9 28 3 3 4 8 1 2
C7 21
C52 5 7 7 2 21 C9 6 4 8 18
C53 8 16 - 3 27 C10 0
C54 20 - - - 20 C11 0
C55 3 - - 18 21 C12 0
C56 - - - 3 3 C13 0
C14 0
C57 - - - 21 21
C15 0
C58 - - - 7 7 C17 1 6 4 7 18
C59 3 1 13 2 19 C18 3 1 3 2 1 10
C60 - - 19 - 19 C19 0
C61 1 1 10 10 22 C20 2 1 2 1 6
C62 10 - - - 10 C21 1 2 2 1 6
C22 1 2 3
C63 23 1 - 1 25
C23 1 1
C64 - - - 10 10 C24 0
C65 - - - 13 13 C25 2 2 4 8 2 2 20
C66 - - - 8 8 C26 3 1 1 3 1 1 10
C67 - - - 15 15 C27 4 2 4 9 5 2 26
C68 - 4 6 - 10 C29 1 4 2 5 7 11 30
C69 2 7 11 - 20 C30 5 1 1 7
C31 2 1 3
C70 - - 11 - 11
C32 0
C71 18 - 2 - 20 C33 2 1 3
C72 18 - - - 18 C34 2 1 4 2 1 10
C73 - - - 18 18 C35 6 3 9 7 1 26
C74 - - - 15 15 C36 2 3 7 2 14
C75 - - - 18 18 C37 3 1 6 3 5 18
C38 1 1
C76 - - - 16 16
C39 2 3 7 4 3 4 23
C77 - - - 5 5 C40 1 1 1 3
C78 1 - 25 2 28 C41 1 2 2 5
C79 3 - 14 1 18 C42 1 1
C80 3 - - - 3 C43 1 2 2 5 3 13
C81 29 - - - 29 C44 4 2 2 7 8 7 30
Jumlah 507 397 160 227 1291 C45 3 4 8 3 2 6 26
C46 1 1 1 3
C47 0
C48 1 1 2
C49 1 1 2
Berdasarkan Tabel 6, dapat dilihat bahwa ada beberapa C50 0
C51 1 1
cluster yang pernah dilakukan penelitian skripsi oleh beberapa C52 1 1 1 2 5
maupun semua prodi. Hal ini dimungkinkan tema pada cluster C53 1 1 3 3 8
C54 2 1 7 4 2 4 20
tersebut berpotensi untuk dilakukan kolaborasi oleh beberapa C55 1 2 3
maupun semua prodi. Sebagai contoh pada cluster C20 yang C56 0
C57 0
pernah dilakukan penelitian skripsi oleh enam mahasiswa prodi C58 0
C59 1 1 1 3
Agribisnis dan 16 mahasiswa prodi Agroteknologi dengan tema C60 0
umum mengenai pupuk. Pada prodi Agribisnis membahas C61 1 1
C62 2 2 2 3 1 10
mengenai analisis faktor produksi luas lahan, benih, pupuk, dan C63 1 2 10 3 4 3 23
C64 0
tenaga kerja, sedangkan pada prodi Agroteknologi membahas C65 0
mengenai pengaruh pemberian pupuk terhadap tanaman. C66 0
C67 0
Dimungkinkan tema pada cluster tersebut berpotensi untuk C68 0
dilakukan kolaborasi antara prodi Agribisnis dan prodi C69 1 1 2
C70 0
Agroteknologi. Contoh lain yaitu pada cluster C59 dengan tema C71 2 4 4 1 5 2 18
“pemanfaatan ekstrak jahe maupun agribisnis jahe”, dimana C72
C73
1 5 6 3 3 18
0
semua prodi pernah melakukan penelitian skripsi dengan C74 0
C75 0
mengambil tema pada cluster tersebut. Dimungkinkan tema C76 0
pada cluster tersebut berpotensi untuk dilakukan kolaborasi C77 0
C78 1 1
dengan semua prodi. C79 1 1 1 3
C80 1 1 1 3
Disamping itu, ada juga cluster yang hanya pernah C81 1 2 6 5 10 5 29
dilakukan penelitian oleh satu prodi tertentu. Sebagai contoh Jumlah 52 62 107 106 85 95 507
Rata-rata 2 2 4 3 3 3
pada cluster C1 sampai C5 yang sebagian besar membahas
mengenai pupuk dan hanya pernah dilakukan penelitian skripsicommit to user Analisis ketiga yaitu analisis mengenai pola yang
oleh mahasiswa pada jurursan Agribisnis. Dimungkinkan tema
terbentuk pada pemetaan distribusi frekuensi hasil clustering
pada cluster tersebut tidak bisa dilakukan kolaborasi antar
setiap prodi pertahunnya. Tabel 7 merupakan pemetaan
7
distribusi frekuensi cluster pertahun pada prodi Agribisnis. Tabel 8 Distribusi Frekuensi Cluster Pertahun Pada Prodi
Bagian tabel yang ditandai dengan warna abu, menunjukkan Agroteknologi (Lanjutan)
bahwa pada sel tersebut memiliki jumlah dokumen diatas rata-
CLUSTER 2008 2009 2010 2011 2012 2013 Jumlah
rata. Rata-rata pertahun dapat dilihat pada tabel baris terakhir. C58 0
Hasil rata-rata berupa bilangan bulat karena menyatakan jumlah C59 1 1
C60 0
dokumen. Pada kasus ini rata-rata dihitung dengan rumus: C61 1 1
C62 0
C63 1 1
C64 0
C65 0
C66 0
C67 0
C68 2 2 4
Pada Tabel 7, terlihat bahwa sel yang memiliki jumlah C69 3 3 1 7
C70 0
dokumen diatas rata-rata menyebar di beberapa cluster di tiap C71 0
tahunnya. Artinya bahwa tema skripsi yang banyak diambil oleh C72 0
C73 0
mahasiswa prodi Agribisnis di tiap tahunnya memang tidak C74 0
C75 0
hanya berfokus pada suatu tema tertentu. Tema yang lumayan C76 0
diminati di tiap tahunnya yaitu pada cluster C29, C35, C39, C77 0
C78 0
C44, C45, dan C81 dimana pada cluster tersebut diminati oleh C79 0
mahasiswa selama empat tahun dengan tahun yang berbeda. C80 0
C81 0
Apabila Tabel 7 disinkronkan dengan Lampiran Tabel 1 maka Jumlah 58 39 72 84 91 53 397
Rata-rata 3 2 3 3 4 3
akan terlihat bahwa tema yang ada di jurusan Agribisnis
memang beragam.
Tabel 8 merupakan representasi hasil clustering
Tabel 8 Distribusi Frekuensi Cluster Pertahun Pada Prodi pertahun pada prodi Agroteknologi. Bagian tabel yang ditandai
Agroteknologi dengan warna abu-abu, menunjukkan jumlah dokumen yang
berada diatas rata-rata. Nilai rata-rata dihitung seperti pada
CLUSTER ‘08 ‘09 ‘10 ‘11 ‘12 ‘13 Jumlah penjelasan sebelumnya. Berdasarkan Table 8, sel yang memiliki
C1 1 1 10 3 15
C2 4 2 4 1 2 2 15 jumlah dokumen diatas rata-rata menyebar di tiap tahunnya.
C3 2 2 5 6 1 16
C4 3 2 3 1 1 10
Namun apabila disinkronkan dengan Lampiran Tabel 1
C5 4 1 8 3 6 1 23 mengenai analisis perkiraan tema, sebagian besar tema yang
C7 0
C9 0 diambil pada prodi Agroteknologi adalah mengenai pupuk. Hal
C10 3 1 1 8 3 16 ini berarti tema yang banyak diambil oleh mahasiswa prodi
C11 1 3 5 8 3 20
C12 2 1 2 1 1 3 10 Agroteknologi di tiap tahunnya adalah kajian mengenai pupuk.
C13 1 4 5 5 2 2 19
C14 1 1 2
C15 5 2 4 11 Tabel 9 Distribusi Frekuensi Cluster Pertahun Pada Prodi ITP
C17 0
C18 0
C19 2 6 4 4 16 CLUSTER ‘08 ‘09 ‘10 ‘11 ‘12 ‘13 Jumlah
C20 6 1 1 1 1 10 C1 0
C21 1 2 3 11 4 21 C2 0
C22 2 1 1 3 7 C3 0
C23 1 4 2 3 8 18 C4 0
C24 4 1 2 1 8 C5 0
C25 0 C7 0
C26 0 C9 0
C27 0 C10 0
C29 0 C11 0
C30 0 C12 0
C31 1 3 3 8 15 C13 0
C32 1 1 2 C14 0
C33 8 4 6 4 1 1 24 C15 0
C34 2 3 1 1 7 C17 0
C35 0 C18 0
C36 0 C19 0
C37 0 C20 0
C38 0 C21 0
C39 1 1 C22 0
C40 0 C23 0
C41 3 1 1 3 3 3 14 C24 0
C42 1 2 4 7 C25 0
C43 2 3 8 13 9 35 C26 0
C44 1 2 1 4 C27 0
C45 0 C29 0
C46 0 C30 0
C47 0 C31 0
C48 0 C32 0
C49 0 C33 0
C50 3 1 3 7 C34 0
C51 1 2 2 2 7 C35 0
C52 2 2 3 7 C36 0
C53
C54
2 1 4 6 3
commit to user
16
0
C37
C38
0
0
C55 0 C39 0
C56 0 C40 1 1
C57 0 C41 1 2 1 2 6
8
Tabel 9 Distribusi Frekuensi Cluster Pertahun Pada Prodi ITP Tabel 4.11 Distribusi Frekuensi Cluster Pertahun Pada
Prodi Peternakan (Lanjutan)
CLUSTER ‘08 ‘09 ‘10 ‘11 ‘12 ‘13 Jumlah
C42 2 1 1 4
C43 3 1 5 9 CLUSTER ‘08 ‘09 ‘10 ‘11 ‘12 ‘13 Jumlah
C44 1 1 C23 0
C45 0 C24 0
C46 0 C25 0
C47 0 C35 0
C48 1 1 2 C36 0
C49 2 1 3 C37 2 2
C50 1 3 1 5 C38 0
C51 4 1 1 1 4 11 C39 1 1
C52 2 2 2 1 7 C40 0
C53 0 C41 0
C54 0 C42 0
C55 0 C43 0
C56 0 C44 0
C57 0 C45 0
C58 0 C46 1 1
C59 1 3 3 2 4 13 C47 2 4 3 1 1 11
C63 0 C48 2 2
C64 0 C49 6 3 1 2 12
C65 0 C50 0
C66 0 C51 7 2 9
C67 0 C52 2 2
C68 4 2 6 C53 3 3
C69 1 1 5 4 11 C54 0
C70 1 3 7 11 C55 1 2 1 10 4 18
C71 1 1 2 C56 2 1 3
C72 0 C57 3 1 6 3 5 3 21
C73 0 C58 1 2 4 7
C74 0 C59 1 1 2
C75 0 C60 0
C76 0 C61 2 6 2 10
C77 0 C62 0
C78 2 8 5 1 9 25 C63 1 1
C79 1 6 4 2 1 14 C64 8 1 1 10
C80 0 C65 3 1 4 2 2 1 13
C81 0 C66 4 1 2 1 8
Jumlah 18 15 55 27 18 27 160 C67 3 4 1 2 1 4 15
Rata-rata 1 2 4 2 2 3 2,077922 C68 0
C69 0
C70 0
C71 0
Tabel 9 merupakan representasi hasil clustering pertahun C72 0
pada prodi Ilmu dan Teknologi Pangan (ITP). Pada tabel tersebut, C73 2 6 9 1 18
C74 7 4 3 1 15
cluster yang lumayan diminati tiap tahunnya adalah cluster C78 C75 8 5 3 2 18
C76 4 6 6 16
dengan tema mengenai tepung yang berfokus pada kajian C77 4 1 5
karakteristik fiiskokimia tepung maupun pemanfaatan tepung. C78 2 2
C79 1 1
Pada Tabel 9 sel yang memiliki jumlah diatas rata-rata memang C80 0
hanya dibeberapa cluster saja. Hal ini dimungkinkan karena C81 0
Jumlah 51 31 50 25 40 30 227
dokumen skripsi yang ada diprodi ITP masih lumayan sedikit Rata-rata 4 3 4 2 3 2
dibandingkan dengan prodi lainnya.
Tabel 10 merupakan representasi hasil clustering pertahun
Tabel 10 Distribusi Frekuensi Cluster Pertahun Pada Prodi pada prodi Peternakan. Berdasarkan tabel tersebut, terlihat bahwa
Peternakan cluster yang memiliki sel dengan jumlah dokumen diatas rata-
rata di tiap tahunnya terletak dibeberapa cluster. Namun apabila
CLUSTER ‘08 ‘09 ‘10 ‘11 ‘12 ‘13 Jumlah dilihat lagi pada Tabel 4.6 mengenai perkiraan tema, terdapat
C1 0
C2 0 13 cluster yang membahas mengenai tema umum ransum
C3 0
C4 0
dengan berbagai objek maupun perlakuan. Hal ini menunjukkan
C5 0 bahwa tema yang banyak diambil oleh mahasiswa prodi
C7 0
C9 0 Peternakan di tiap tahunnya adalah mengenai ransum.
C10 0
C11 0
C12
C13
0
0
4.6 Validasi
C14 0 Untuk mengevaluasi apakah hasil clustering yang
C15 0
C17 0 diperoleh sudah sesuai atau tidak, maka dilakukan validasi
C18 0 kepada pihak yang lebih mengerti terhadap data tersebut.
C19 0
C26 0 Validasi pada penelitian ini dilakukan dengan cara bertanya
C27 1 1
C29 0
secara langsung kepada Prof. Dr Samanhudi, SP, Msi selaku
C30 0 Pembantu Dekan 1 fakultas Pertanian UNS. Beliau menyatakan
C31 0
C32 0 bahwa hasil analisis penelitian ini sesuai dengan kondisi
C33 0 sebenarnya. Untuk tema pada prodi Agribisnis memiliki
C34 0 commit to user
penyebaran tren tema yang bervariasi karena lingkup bidang
C20 0
C21 0
C22 0
kajiannya memang cukup luas. Sedangkan pada prodi
9
Agroteknologi , prodi ITP serta prodi Peternakan kurang Nasional Teknologi Informasi & Komunikasi Terapan,
bervariasi karena lingkup bidang kajiannya lebih sempit. Beliau Isbn 979-26-0255-0
juga menyampaikan bahwa hasil penelitian ini dapat dijadikan [5] Langgeni, D. P., Baizal, ZK. and Firdaus, A.W. 2010.
sebagai dasar pengembangan penelitian di prodi Agroteknologi, Clustering Artikel Berita Berbahasa Indonesia
ITP serta Peternakan agar kedepannya dapat lebih bervariasi Menggunakan Unsupervised Feature Selection. Seminar
lagi. Nasional Informatika 2010 (semnasIF 2010) ISSN: 1979-
2328. Yogyakarta
[6] Han, J. & Kamber, M. (2006). Data Mining: Concepts
5 PENUTUP and Techniques. San Francisco: Morgan Kaufman
5.1 Kesimpulan [7] Guthikonda, S. M. 2005. “Kohonen Self-Organizing
Berdasarkan hasil penelitian, dapat disimpulkan bahwa Maps”, shyamguth ATgmail.com Wittenberg University
ada beberapa cluster yang pernah dilakukan penelitian skripsi [8] Kristanto, A. (2004). Jaringan Syaraf Tiruan (Konsep
oleh beberapa maupun semua prodi. Hal ini dimungkinkan tema Dasar, Algoritma dan Aplikasi). Yogyakarta : Gava
pada cluster tersebut berpotensi untuk dilakukan kolaborasi oleh Media.
beberapa maupun semua prodi.. Disamping itu, ada juga cluster [9] Lyonnais, H. 2013.Aplikasi Algoritma Atringmatching
yang hanya pernah dilakukan penelitian oleh satu prodi tertentu. pada Analisa Teks (Test Analysis) untuk Decision Support
Dimungkinkan tema pada cluster tersebut tidak bisa dilakukan System.
kolaborasi antar prodi. Namun bisa jadi, prodi lain memang
belum mencoba untuk melakukan penelitian pada tema tersebut.
Prodi Agribisnis memiliki penyebaran tren tema yang
bervariasi ditiap tahunnya. Sedangkan pada prodi
Agroteknologi, prodi ITP, serta prodi Peternakan tema yang
banyak diambil tiap tahunnya hanya di bebetapa cluster. Pada
prodi Agroteknologi, tema yang paling banyak diambil adalah
tentang pupuk. Pada prodi Peternakan banyak mengambil tema
mengenai ransum. Sedangkan pada prodi Ilmu dan Teknologi
Pangan tema yang banyak diambil adalah mengenai kajian
karakteristik atau pemanfaatan tepung, kajian karakteristik
fisikokimia dan sensoris.
5.2 Saran
Pada penelitian ini, terdapat beberapa cluster yang
memiliki tema sama, atau terdapat beberapa cluster yang
memiliki tema yang tidak terdefinisi (tema kurang sama antara
satu dokumen dengan dokumen lain). Hal ini dimungkinkan
karena pemilihan jumlah cluster yang kurang optimal. Oleh
karena itu, dapat ditambahkan suatu metode yang dapat
menentukan jumlah optimal cluster-nya. Atau dimungkinkan
karena bagian dokumen yang dilakukan proses clustering hanya
pada bagian abstrak saja, dimana abstrak hanya merupakan
gambaran kecil dari penelitian.Oleh karena itu untuk penelitian
yang akan datang bisa menambahkan bagian dokumen lainnya,
seperti BAB I.
6 DAFTAR PUSTAKA
[1] Feldman, R. & Sanger, J. 2007. The Text Mining
Handbook. New York: Cambridge University Press.
[2] Prasetyo, E. 2012. DATA MINING : Konsep dan Aplikasi
menggunakan MATLAB. Yogyakarta : ANDI
[3] Chen, Y., Qin, B., Liu, T., Liu, Y., Li, S. 2010. The
Comparison of SOM and K-means for Text Clustering.
Computer and Information Science. Vol. 3, No. 2
[4] Affandy & Supriyanto, C. 2011. Kombinasi Teknik Chi
Square Dan Singular Value Decomposition Untuk commit to user
Reduksi Fitur Pada Pengelompokan Dokumen. Seminar
10
LAMPIRAN
Tabel 1 Perkiraan tema pada setiap cluster C1 – C81

(3) (4) (7) (9)
(1) (2) Pengaruh media, Pengaruh media, (5) Analisis peran atau
nutrisi, pupuk nutrisi, pupuk pada Konsentrasi IBA, strategi komoditi Analisis ketahanan pangan
Pupuk Pupuk pada tanaman tanaman, tunas tunas, kalus 6 pertanian 8 rumah tangga
(13)
Pengaruh berbagai (18)
(10) (11) (12) perlakuan terhadap (14) (15) (17) Analisis kebutuhan rumah
Pupuk Pupuk Pupuk tanaman - Seresah, nitrifikasi 16 Persepsi petani tangga
(20)
Pupuk, dalam hal (27)
analisis faktor (24) Analisis petani dalam
produksi maupun (22) Padi, terutama pada adopsi inovasi budidaya
(19) pengaruh pupuk (21) pembudidayaan (23) keragaman genotipe dan (25) (26) tanaman, maupun teknologi
Pupuk terhadap tanaman Bawang bunga - fenotipe Sikap petani, formal Evaluasi petani pertanian
(30) (32) (36)
Analisis Identifikasi (33) Partisipasi petani maupun
(29) keterpaduan (31) morfologi Kajian mengenai lahan (34) (35) masyarakat dalam berbagai
28 Analisis usahatani pasar Tumpangsari tanaman maupun tanah - Penyuluhan petani kegiatan
(39) (45)
(37) (38) analisis sikap (40) Analisis kinerja,
Analisis analisis sikap atau atau perilaku analisis sikap atau (41) (42) (43) (44) pengembangan, serta
pemasaran perilaku konsumen konsumen perilaku konsumen Buah - - - peranan sektor pertanian
(50)
Pengaruh (52) (54)
pemberian Sebagian besar Analisis penawaran/
(46) (47) (48) (49) ekstrak dalam (51) membahas mengenai (53) permintaan, analisis
Sapi Ransum Daging Telur berbagai hal - beras - komparatif usaha
(56) (59)
Pengaruh (58) Jahe, mengenai
penggunaan pakan Pengaruh pemanfaatan
suplemen terhadap Suplementasi ekstrak jahe (62)
(55) keseimbangan (57) Betain dalam maupun (60) (61) Analisis kinerja (63)
Sapi nitrogen sapi Ransum Ransum agribisnis jahe - Susu, yoghurt keuangan KUD Analisis usaha industri
(64) (65) (68) (71)
Pengaruh berbagai Pengaruh berbagai Temulawak, Analisis (72)
perlakuan ransum perlakuan ransum mengenai (69) (70) Pengendalian Pengembangan
terhadap performa terhadap performa (66) (67) Pemanfaatan Ubi, mengenai pemanfaatan Perlakuan terhadap Persediaan Bahan agroindustri, analisis Break
hewan hewan Ransum Ransum temulawak dan pengolahan bumbu masak Baku Even Point
(78) (79) (80)
Tepung, kajian karakteristik Tempe, mengenai Strategi (81)
(73) (74) (75) (76) (77) fiiskokimia tepung, karakteristik fisikokimia pengembangan Strategi pengembangan
Ransum Ransum Ransum Ransum Ransum pemanfaatan tepung serta pengolahan industri tempe agroindustri
commit to user
11

JURNAL Vera M0509074 PDF

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

JURNAL Vera M0509074 PDF

Diunggah oleh

Hak Cipta:

Format Tersedia

perpustakaan.uns.ac.id digilib.uns.ac.

CLUSTERING DOKUMEN MENGGUNAKAN ALGORITMA SELF-

Vera Suryaningsih Sari Widya Sihwi Meiyanto Eko Sulistyo

Gambar 1. Arsitektur SOM [8]. Penjelasan simbol :

Persamaan yang digunakan dalam algoritma adalah

Persamaan 2a Radius Ketetanggaan

Persamaan 2b Time Constant

3.1 Studi Literatur 3.3.2 Tahap Pembobotan TF-IDF

3.3.1 Tahap Text Preprocessing 3.4 Tahap Analisis

Tabel 2 Hasil dari perhitungan TF serta DF yang belum

Lalu term yang sudah dicari nilai DF-nya diseleksi

Tabel 6 Distribusi Frekuensi Cluster per Prodi

Tabel 1 Perkiraan tema pada setiap cluster C1 – C81

Anda mungkin juga menyukai