MULTIMEDIA
Teks adalah data yang terdiri dari karakter-karakter yang menyatakan kata-kata atau
lambang-lambang untuk berkomunikasi oleh manusia dalam bentuk tulisan.
Di dalam sistem komputer, teks ini dikodekan dalam suatu standarisasi, seperti ASCII,
dimana pada kode tersebut terdapat nilai numerik maupun angka maupun tanda baca,
serta simbol lainnya.
Teks ini digunakan oleh sistem komputer untuk penyimpanan maupun dalam proses
pengiriman datanya.
Teks sendiri dibedakan berdasarkan nilai biner yang diolah sedemikian rupa oleh
komputer. Contoh dari teks ini adalah karakter yang diperlakukan sebagai karakter abjad
yang anda baca. misalnya pada lembar kerja, rumus, dll.
mengadung berbagai informasi berkaitan dengan sifat dan karakter dari teks,
seperti teks yang mengadung informasi font, Link, image dan lainnya.
Teks dalam hal ini adalah kode ASCII (American Standard Code for Information
Interchange) dan ASCII extension seperti UNICODE murni. Tiap-tiap karakter
direpresentasikan oleh 7 bit binary digit (desimal = 0-127).
Cicero'sIN Catilinam
(greeking)
Meskipun termasuk ke dalam kelas dokumen teks terformat, format RTF ini tetap
menggunakan standar pengodean ANSI ASCII, PC-8, Macintosh, Unicode atau IBM PC
Character Set untuk mengontrol representasi dan pemformatan dari sebuah dokumen,
baik itu ketika ditampilkan di layar ataupun ketika dicetak di atas kertas. Meskipun
hanya berisi teks biasa, format ini dapat mendukung grafik dan tabel dalam sebuah
dokumen, meski jika dalam dokumen terdapat gambar, ukurannya jauh lebih besar jika
dibandingkan dengan format biner seperti format dokumen biner semacam Microsoft
Word (*.doc) atau StarOffice Writer (*.sxw).
Beberapa aplikasi yang dapat membuat dan membuka format dokumen ini antara lain:
Microsoft Word, mulai dari versi Microsoft Word 95 (versi 7.0) hingga yang terbaru.
Microsoft WordPad, yang merupakan versi Microsoft Word yang dipangkas di sanasini.
WordPerfect
0
0
0
0
0
0
0
0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
0
0
0
1
1
0
0
0
0
0
0
0
0
0
0
0
1
1
0
1
0
0
0
0
0
0
0
0
0
1
1
1
0
0
0
0
0
0
0
0
0
0
1
1
0
0
1
0
0
0
0
0
0
0
1
1
1
0
0
0
0
1
0
0
0
0
0
0
1
1
1
1
1
1
1
0
1
0
0
0
0
0
0
0
0
1
1
1
1
1
1
1
0
0
1
0
0
0
0
0
0
0
1
1
1
1
1
1
1
1
0
0
0
0
0
0
0
0
0
0
1
1
1
1
1
0
0
0
0
0
0
0
0
0
0
0
0
1
1
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
HYPERTEXT.
Istilah hypertext pertama kali diperkenalkan pada tahun 1965 oleh Ted Nelson.
Hypertext dapat diartikan sebagai teks yang memiliki fasilitas embedded
information berupa lingking, contoh hypertext :
HTML : HyperText Mark-up Language
Merupakan standard bahasa yang digunakan untuk menampilkan document web.
Yang bisa kita lakukan dengan HTML yaitu:
Menambahkan object-object seperti image, audio, video dan juga java applet
dalam document HTML.
Mendukung link (sebuah hubungan dari satu dokumen ke dokumen lain) antar
dokumen. Link pada umunya berwarna biru, dan jika sudah pernah diklik
berwarna ungu.
XML dirancang untuk transportasi dan menyimpan data, dengan fokus pada apa
data.
HTML dirancang untuk menampilkan data, dengan fokus pada bagaimana data
terlihat.
TEXT MINING
Text mining merupakan penerapan konsep dan teknik data mining untuk mencari pola
dalam teks. proses penganalisisan teks guna menyarikan informasi yang bermanfaat untuk
tujuan tertentu.
Proses data mining untuk data dokumen atau teks memerlukan lebih banyak tahapan,
mengingat data teks memiliki karakteristik yang lebih kompleks daripada data biasa.
KARAKTERISTIK DOKUMEN TEKS.
Menurut Loreta Auvil dan Duane Searsmith dari University of Illinois, karakteristik
dokumen teks:
Memiliki dimensi yang tinggi, yakni satu kata merupakan satu dimensi,
Mengandung kumpulan kata yang saling terkait (frase) dan antara kumpulan
Dokumen email merupakan dokumen yang tidak memiliki struktur bahasa yang
TOKENISASI
Tokenisasi secara garis besar memecah sekumpulan karakter dalam suatu teks ke dalam
satuan kata.
Sebagai contoh karakter whitespace, seperti enter, tabulasi, spasi dianggap sebagai
pemisah kata.
Namun untuk karakter petik tunggal ('), titik (.), semikolon (;), titk dua (:) atau
lainnya, dapat memiliki peran yang cukup banyak sebagai pemisah kata.
Pekerjaan tokenisasi ini akan semakin sulit jika juga harus memperhatikan struktur
bahasa (grammatikal).