Selamat datang di Scribd!

Latihan 1

Diunggah oleh

0% menganggap dokumen ini bermanfaat (0 suara)

8 tayangan2 halaman

Teks menjelaskan tahapan-tahapan dalam text mining untuk memproses dokumen teks meliputi case folding, tokenizing, filtering, dan analyzing untuk menentukan keterkaitan kata-kata di antara dokumen. Tahapan tersebut meliputi mengubah huruf menjadi kecil, memotong kalimat menjadi kata, menghilangkan kata tidak penting, serta menghitung frekuensi kata di setiap dokumen.

Deskripsi Asli:

Hak Cipta

Format Tersedia

DOCX, PDF, TXT atau baca online dari Scribd

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Laporkan Dokumen Ini

Hak Cipta:

Format Tersedia

Unduh sebagai DOCX, PDF, TXT atau baca online dari Scribd

Tandai sebagai konten tidak pantas

0% menganggap dokumen ini bermanfaat (0 suara)

8 tayangan2 halaman

Latihan 1

Diunggah oleh

RYAD HELMI FADILA informatika kelas a

Hak Cipta:

Format Tersedia

Unduh sebagai DOCX, PDF, TXT atau baca online dari Scribd

Tandai sebagai konten tidak pantas

Lompat ke Halaman

Anda di halaman 1dari 2

Cari di dalam dokumen

Latihan 1

Pendahuluan

Text Mining (penambangan teks) merupakan salah satu cara yang

biasa digunakan pada Data Mining (penambangan data). Text Mining adalah
salah satu teknik penambangan untuk jenis data yang berupa teks, dimana
sumber data biasanya didapatkan dari dokumen, dan tujuannya adalah mencari
kata-kata yang dapat mewakili isi dari dokumen sehingga dapat dilakukan
analisa keterhubungan antar dokumen. Pada text mining terdapat tahapan-
tahapan yang dilakukan untuk memisahkan katakata menjadi kata dasar dari
sebuah kalimat yang disebut dengan tahapan pre-processing (Mitchell 1997).
Tahapan-tahapan pre-processing tersebut adalah sebagai berikut:
 Case Folding Case Folding adalah tahapan untuk mengubah
semua huruf dalam dokumen menjadi huruf kecil. Hanya huruf “a” sampai
dengan “z” saja yang dapat diterima. Semua huruf besar pada bagian
“sebelum case folding” dirubah menjadi huruf kecil. Hasilnya seperti pada
bagian “hasil case folding”.
 Tokenizing Tokenizing adalah tahapan dimana adanya
pemotongan string masukan berdasarkan kata yang menyusunnya. Semua
kata pada bagian “sebelum tokenizing” dipotong-potong sesuai panjang
huruf dalam setiap kata yang ditandai dengan tab spasi. Hasilnya adalah
seperti pada bagian “Hasil tokenizing”.

 Filtering Filtering adalah tahapan mengambil kata-kata yang penting

dari hasil token sebelumnya. Di dalam tahapan ini dapat digunakan
algoritma pembuangan kata yang kurang penting (stoplist) atau menyimpan
kata penting (wordlist).
Semua kata yang tidak penting pada bagian “sebelum filtering” dibuang
(kata dan). Hasilnya adalah seperti pada bagian “Hasil filtering”. Kata yang
tidak penting (stoplist) disimpan dalam satu tempat khusus untuk digunakan
pada saat proses perbandingan kata dalam dokumen uji dilakukan. Apabila
dalam dokumen uji terdapat kata yang sama dengan kata yang tersimpan
dalam stoplist, maka kata tersebut dibuang. Kata yang tidak ada dalam
stoplist dijadikan kata “hasil filtering”.
 Analyzing Analyzing merupakan tahap penentuan seberapa jauh
keterhubungan antar kata-kata pada dokumen yang ada. Tabel pertama
menampilkan jumlah kemunculan kata dalam dokumen. Contoh table 1.1.
Dalam dokumen 1 terdapat 1 kata program, 1 kata studi, 1 kata ilmu, 2 kata
computer, 3 kata informatika Tabel kedua menampilkan jumlah dokumen
yang mengandung kata kunci. Contoh table 1.2., kata tumpang muncul
dalam 1 dokumen, kata tindih muncul dalam 2 dokumen, kata tugas muncul
dalam 1 dokumen, kata jalan muncul dalam 4 dokumen, kata penyatuan
muncul dalam 1 dokumen, dan kata sistem muncul dalam 3 dokumen.
Pada implementasinya, tahapan di atas tidak selalu digunakan seluruhnya,
bergantung kepada kebutuhan dari output yang ingin dihasilkan. Rumus
yang digunakan adalah : 2(3+x)+15 = 2y.

Anda mungkin juga menyukai

It Ends with Us: A Novel
Dari Everand
It Ends with Us: A Novel
Colleen Hoover
Penilaian: 4.5 dari 5 bintang
4.5/5 (5836)
The Subtle Art of Not Giving a F*ck: A Counterintuitive Approach to Living a Good Life
Dari Everand
The Subtle Art of Not Giving a F*ck: A Counterintuitive Approach to Living a Good Life
Mark Manson
Penilaian: 4 dari 5 bintang
4/5 (5813)
The Perfect Marriage: A Completely Gripping Psychological Suspense
Dari Everand
The Perfect Marriage: A Completely Gripping Psychological Suspense
Jeneva Rose
Penilaian: 4 dari 5 bintang
4/5 (1131)
The 7 Habits of Highly Effective People
Dari Everand
The 7 Habits of Highly Effective People
Stephen R. Covey
Penilaian: 4 dari 5 bintang
4/5 (353)
The Art of War: A New Translation
Dari Everand
The Art of War: A New Translation
Sun Tzu
Penilaian: 4 dari 5 bintang
4/5 (3045)
The Subtle Art of Not Giving a F*ck: A Counterintuitive Approach to Living a Good Life
Dari Everand
The Subtle Art of Not Giving a F*ck: A Counterintuitive Approach to Living a Good Life
Mark Manson
Penilaian: 4.5 dari 5 bintang
4.5/5 (20096)
The Handmaid's Tale
Dari Everand
The Handmaid's Tale
Margaret Atwood
Penilaian: 4 dari 5 bintang
4/5 (13228)
Pride and Prejudice: Bestsellers and famous Books
Dari Everand
Pride and Prejudice: Bestsellers and famous Books
Jane Austen
Penilaian: 4.5 dari 5 bintang
4.5/5 (20479)
Remarkably Bright Creatures: A Novel
Dari Everand
Remarkably Bright Creatures: A Novel
Shelby Van Pelt
Penilaian: 4.5 dari 5 bintang
4.5/5 (5710)
Good Omens: A Full Cast Production
Dari Everand
Good Omens: A Full Cast Production
Neil Gaiman
Penilaian: 4.5 dari 5 bintang
4.5/5 (10941)
Never Split the Difference: Negotiating As If Your Life Depended On It
Dari Everand
Never Split the Difference: Negotiating As If Your Life Depended On It
Chris Voss
Penilaian: 4.5 dari 5 bintang
4.5/5 (3310)
And Then There Were None
Dari Everand
And Then There Were None
Agatha Christie
Penilaian: 4.5 dari 5 bintang
4.5/5 (8977)
The Hobbit
Dari Everand
The Hobbit
J. R. R. Tolkien
Penilaian: 4.5 dari 5 bintang
4.5/5 (25199)
Art of War: The Definitive Interpretation of Sun Tzu's Classic Book of Strategy
Dari Everand
Art of War: The Definitive Interpretation of Sun Tzu's Classic Book of Strategy
Stephen F. Kaufman
Penilaian: 4 dari 5 bintang
4/5 (3321)
Freakonomics Rev Ed
Dari Everand
Freakonomics Rev Ed
Steven D. Levitt
Penilaian: 4 dari 5 bintang
4/5 (7866)
The 7 Habits of Highly Effective People: The Infographics Edition
Dari Everand
The 7 Habits of Highly Effective People: The Infographics Edition
Stephen R. Covey
Penilaian: 4 dari 5 bintang
4/5 (2487)
The Hobbit
Dari Everand
The Hobbit
J. R. R. Tolkien
Penilaian: 4.5 dari 5 bintang
4.5/5 (24588)
Habit 1 Be Proactive: The Habit of Choice
Dari Everand
Habit 1 Be Proactive: The Habit of Choice
Stephen R. Covey
Penilaian: 4 dari 5 bintang
4/5 (2559)
Habit 6 Synergize: The Habit of Creative Cooperation
Dari Everand
Habit 6 Synergize: The Habit of Creative Cooperation
Stephen R. Covey
Penilaian: 4 dari 5 bintang
4/5 (2499)
The 7 Habits of Highly Effective People
Dari Everand
The 7 Habits of Highly Effective People
Stephen R. Covey
Penilaian: 4 dari 5 bintang
4/5 (2571)
Habit 3 Put First Things First: The Habit of Integrity and Execution
Dari Everand
Habit 3 Put First Things First: The Habit of Integrity and Execution
Stephen R. Covey
Penilaian: 4 dari 5 bintang
4/5 (2507)
American Gods: The Tenth Anniversary Edition
Dari Everand
American Gods: The Tenth Anniversary Edition
Neil Gaiman
Penilaian: 4 dari 5 bintang
4/5 (12954)
American Gods [TV Tie-In]: A Novel
Dari Everand
American Gods [TV Tie-In]: A Novel
Neil Gaiman
Penilaian: 4 dari 5 bintang
4/5 (12556)
Good Omens
Dari Everand
Good Omens
Neil Gaiman
Penilaian: 4.5 dari 5 bintang
4.5/5 (12042)
How To Win Friends And Influence People
Dari Everand
How To Win Friends And Influence People
Dale Carnegie
Penilaian: 4.5 dari 5 bintang
4.5/5 (6538)
The Iliad: A New Translation by Caroline Alexander
Dari Everand
The Iliad: A New Translation by Caroline Alexander
Homer
Penilaian: 4 dari 5 bintang
4/5 (5734)
Wuthering Heights (Seasons Edition -- Winter)
Dari Everand
Wuthering Heights (Seasons Edition -- Winter)
Emily Brontë
Penilaian: 4 dari 5 bintang
4/5 (9974)