Anda di halaman 1dari 14

Web Mining

Disusun Oleh : Sarah Nabillah


Dosen : IR. Magit Fitroni, M.Kom.
DATA MINING

Data Mining merupakan prinsip dasar dalam mengurutkan data dalam jumlah yang
sangat banyak dan mengambil informasi – informasi yang berkaitan dengan apa yang
diperlukan seperti apa yang biasa dilakukan oleh seorang analis. Dengan bertambah
banyaknya jumlah data yang ada dalam model bisnis yang kita lakukan dalam perusahaan
ini, maka peran analis untuk menganalisa data secara manual perlu digantikan dengan
aplikasi yang berbasis komputer yang dapat menganalisa data secara otomatis
menggunakan alat yang lebih kompleks dan canggih.

Data mining dapat mengidentifikasi tren yang terdapat dalam sekumpulan


data. Melalui algoritma yang rumit, kita akan memiliki kemampuan untuk menentukan kunci
utama dari sebuah proses bisnis atau menemukan kesempatan baru. Beberapa teknik yang
sering digunakan dalam data mining :
 Artificial Neural Network : model prediksi non linear yang melakukan
pembelajaran melalui latihan dan menyerupai struktur jaringan
nerual yang terdapat pada mahluk hidup.
 Decision Tree : struktur yang berbentuk pohon yang menggambarkan
kumpulan keputusan. Decision tree ini akan membentuk aturan klasifikasi
dari kumpulan data.
 Genetic Algorithms : teknik optimasi yang menggunakan proses
seperti kombinasi genetik, mutasi dan seleksi alam sebagai pola berdasarkan
konsep evolusi
 Nearest Neighbor Method : teknik yang mengklasifikasi setiap rekord
dalam kumpulan data berdasarkan kombinasi dari klas kumpulan rekord yang
mirip dalam kumpulan data historis.
 Rule Induction : ekstraksi aturan sebab-akibat dari data secara
statistik
Tahap – tahap yang dilakukan dalam data mining :

 Pembersihan data untuk menghilangkan data yang tidak konsisten


dan noise
 Integrasi data dari berbagai sumber
 Transformasi data menjadi bentuk yang sesuai untuk dilakukan mining
 Aplikasi teknis data mining
 Evaluasi pola yang ditemukan untuk menemukan pola yang menarik
atau bernilai
 Presentasi pengetahuan dengan teknik visualisasi
 Data Mining berkaitan dengan cukup banyak bidang ilmu lain: Matematika
(terutama Optimasi), Computer Science [SI/TI], Kecerdasan Buatan [Machine
Learning/Artificial Intelligence], Image Prosesing, Text Mining, NLP, Information
Retrieval, dll. Data Mining (terkadang sering juga di asosiasikan dengan Data
Science) menggunakan pengetahuan di bidang database dan data warehouse di SI,
pemrograman parallel/HPC [High Performance Computing] di TI,
Pencarian pattern [Pola] di Machine Learning/Artificial Inteeligence/Image
Processing, dan sebagainya. Secara konseptual keterkaitan berbagai bidang ilmu di
datamining dapat dilihat pada bagan berikut:

 Keterkaitan Bidang Ilmu di Data Mining (Science). Picture sources: [1] & [2]
 Perbedaan Data Mining dan Statistika berdasarkan besar dan format datanya dapat
juga diilustrasikan dengan tabel berikut [pengertian data terstruktur dan tidak
terstruktur akan dijelaskan pada tulisan lain].

 Data Mining dan Statistik dilihat dari bentuk dan besar data. Source of Picture: [3]
 *Data Mining terkadang sering disebut juga sebagai KDD [Knowledge Discovery in
Database] sebuah istilah yang umum digunakan di bidang kecerdasan buatan [AI-
Artificial Intelligence].
 Data Mining berusaha untuk mengatasi masalah data yang besar dengan
mengembangkan algoritma atau model terkini agar pengolahan data yang besar
tetap dapat dilakukan. Beberapa model di Data Mining sama
dengan Statistika tradisional, mulai dari Regresi, Cluster [pengelompokan], maupun
model-model klasifikasi. Akan tetapi model-model tersebut menjadi berbeda proses
perhitungan dan interpretasinya mengingat domain data dan algoritma
perhitungannya juga berbeda.
 [3]. Hipotesis
Perbedaan lain yang belum dijelaskan antara Statistika dan Data Mining adalah
hipotesis (dugaan) yang akan di teliti. Di Statistik biasanya sejak awal sudah memiliki
(sebuah) hipotesis yang jelas, lalu kemudian menentukan populasi, mengambil
sample, lalu mengolah datanya dengan sebuah atau beberapa model Statistika untuk
kemudian diambil kesimpulan.
 Berbeda dengan Statistika, para Data Miner ‘biasanya’ tidak disodori atau diawali
dengan suatu hipotesis di awal, tapi seonggok data yang biasanya besar, terkadang
tidak terstruktur (bukan tabular), noisy, dan berformat yang beragam. Para data
miner “bersama” client kemudian mempelajari “domain knowledge” data tersebut
dan mencoba menyusun “beberapa” hipotesis. Kemudian karena datanya jarang
sekali “siap saji” (tabular), sebuah proses panjang ‘pre-processing‘ data biasanya
dilakukan. Mulai dari transformasi data, noise removal, dimension reduction, atau
proses-proses lainnya. Pre-processing data seringnya memakan waktu paling lama
dari keseluruhan proses data mining. Di dalamnya termasuk merubah gambar, suara,
log, xml, json, dokumen, dll ke bentuk data yang bisa digunakan oleh model statistik
yang umum (tabular/tabel-tabel).
 Setelah data siap untuk diolah, “model-model statistika*” digunakan untuk menguji
semua hipotesis-hipotesis yang disusun sebelumnya untuk mendapatkan sebanyak-
banyaknya informasi yang berguna/bermanfaat untuk client. Proses ini seringnya
repetitive, artinya setelah mendapatkan hasil, terkadang data miner harus kembali
merevisi dugaan/hipotesis awal, lalu melakukan pemodelan ulang.
 Proses data mining tersebut diatas biasa dikenal sebagai CRISP-DM (Cross Industry
Standard Process for Data Mining). Gambar berikut merupakan salah satu ilustrasi
yang paling sering digunakan untuk menjelaskan proses data mining ini.

 CRISP-DM, image source: [4]
 Sebagaimana layaknya Statistika yang terbagi menjadi Statistik
Deskriptif dan Inferensi, maka Data Mining juga terbagi menjadi beberapa sub
task/tipe. Dalam Data Mining terdapat proses EDA [Exploratory Data
Analysis], Descriptive Modelling, Predictive Modelling [Regresi & Klasifikasi],
Pencarian Patterns and Rules, dan Content Retrieval.

TEXT MINING

Text mining adalah salah satu bidang khusus dari data mining. Sesuai dengan
buku The Text Mining Handbook, text mining dapat didefinisikan sebagai suatu proses
menggali informasi dimana seorang user berinteraksi dengan sekumpulan dokumen
menggunakan tools analisis yang merupakan komponenkomponen dalam data mining yang
salah satunya adalah kategorisasi. Tujuan dari text mining adalah untuk mendapatkan
informasi yang berguna dari sekumpulan dokumen.Jadi, sumber data yang digunakan
pada text mining adalah kumpulan teks yang memiliki format yang tidak terstruktur atau
minimal semi terstruktur. Adapun tugas khusus dari text mining antara lain yaitu
pengkategorisasian teks (text categorization) dan pengelompokan teks (text clustering).

Text mining bisa dianggap subjek riset yang tergolong baru. Text mining dapat
memberikan solusi dari permasalahan seperti pemrosesan, pengorganisasian /
pengelompokkan dan menganalisa unstructured text dalam jumlah besar.Dalam
memberikan solusi, text mining mengadopsi dan mengembangkan banyak teknik dari
bidang lain, seperti Data mining, Information Retrieval, Statistik dan Matematik, Machine
Learning, Linguistic, Natural Languange Processing, dan Visualization. Kegiatan riset untuk
text mining antara lain ekstraksi dan penyimpanan text, preprocessing akan konten text,
pengumpulan data statistik dan indexing dan analisa konten.

Permasalahan yang dihadapi pada text mining sama dengan permasalahan yang terdapat
pada data mining, yaitu jumlah data yang besar, dimensi yang tinggi, data dan struktur yang
terus berubah, dan data noise. Perbedaan di antara keduanya adalah pada data yang
digunakan. Pada data mining, data yang digunakan adalah structured data, sedangkan pada
text mining, data yang digunakan text mining pada umumnya adalah unstructured data,
atau minimal semistructured. Hal ini menyebabkan adanya tantangan tambahan pada text
mining yaitu struktur text yang complex dan tidak lengkap, arti yang tidak jelas dan tidak
standard, dan bahasa yang berbeda ditambah translasi yang tidak akurat.

Text Mining: Konsep dan Definisi

Era informasi dimana kita sekarang jalani dicirikan dengan pertumbuhan data dan informasi
yang banyak dan cepat yang dikumpulkan, disimpan, dan disediakan di media elektronik.
Sebagian besar data bisnis disimpan dalam bentuk dokumen teks yang secara virtual sama
sekali tidak terstruktur. Menurut kajian dari Merrill Lynch dan gartner, 85 hingga 90 persen
dari semua data korporat diambil dan disipan dalam bentuk data tak-terstruktur (McKnight,
2005). Dalam kajian yang sama juga dituliskan bahwa data takterstruktur ini selalu menjadi
dua kali lipat dalam hal size setiap 18 bulansekali. Karena knowledge adalah power dalam
dunia bisnis saat ini, dan knowledge diturunkan dari data dan informasi, organisasi bisnis
yang bisa secar efektif dan efisien masuk ke beragam sumber data teks mereka akan
memiliki knowledge yang diperlukan untuk membuat keputusan yang lebiih baik, yang
membawa ke keuntungan kompetitif atas berbagai bisnis yang sedang ketinggalan di
belakang. Inilah yang mengakibatkan kebutuhan terhadap text mining cocok dengan
gambaran besar bisnis hari ini.

Text mining (juga disebut dengan text data mining, atau knowledge discovery in textual
database) adalah proses semi-otomatis dalam mengekstrak berbagai pola data (informasi
dan database yang bermanfaat) dari sumber data tak-terstruktur. Perlu diingat bahwa data
mining adalah suatu proses untuk mengidentifikasi pola-pola yang valid, baru, berpotensi
bermanfaat, dan akhirnya bisa dipahami yang ada di dalam data yang disimpan dalam
database terstruktur, dimana data dikelola secara terstruktur berdasarkan atribut atau
variable-variabel categorical, ordinal, atau continuous. Text mining sama dengan data
mining dalam arti dia punya maksud yang sama dan menggunakan proses yang sama, tetapi
dalam text mining input terhadap proses adalah file-file data tak-terstruktur (atau kurang
terstruktur) seperti dokumen word, file-file pdf, kutipan-kutipan text, file-file XML, dan
seterusnya. Pada dasarnya, text mining bisa dipikir sebagai suatu proses (dengan dua
langkah utama) yang mulai dengan memaksakan struktur ke berbagai sumber data berbasis
teks yang diikuti dengan mengektrak informasi dan knowledge yang relevan dari data
berbasis teks yang sudah terstruktur tersebut dengan menggunakan berbagai tool dan
teknik data mining.

WEB MINING

Web mining adalah ekstraksi pola-pola penting dan bermanfaat namun tersimpan
secara implisit pada kumpulan data yang relatif besar pada layanan world wide web. Web
mining teridiri atas tiga bagian yaitu: web content mining, web structure mining, dan web
usage mining.

Web content mining adalah suatu proses otomatis untuk menemukan informasi yang
berguna dari dokumen atau data. Pada prinsipnya teknik ini mengekstraksi kata kunci yang
terkandung pada dokumen. Isi data web antara lain dapat berupa teks, citra, audio, video,
metadata, dan hyperlink. Ada dua strategi yang umum digunakan: pertama langsung
melakukan miningterhadap data, dan kedua melakukan pencarian serta mengimprove hasil
pencarian seperti layaknya search engine.

Web struncture mining dikenal juga sebagai web log mining adalah teknik yang
digunakan untuk menemukan struktur link dari hyperlink dan membangun rangkuman
website dan halaman web. Salah satu manfaatnya adlah untuk menentukanpagerank pada
suatu halaman web.

Web usage mining adalah teknik untuk mengenali perilaku pelanggan dan struktur
web melalui informasi yang diperoleh dari log, click stream, cookies, dan query. Berbagai
tool yang sudah ada antara lain WebLogMiner yang melakukan mining terhadap data log.
Teknik yang lebih canggih digunakan untuk melakukan OLAP. Manfaat web usage
mining adalah untuk kustomosasi halaman berdasarkan profil pengguna, menentukan
ketertarikan pelanggan terhadap produk tertentu, dan menentukan target market yang
sesuai.

Web Mining

Web mining adalah ekstraksi pola-pola penting dan bermanfaat namun tersimpan secara
implisit pada kumpulan data yang relatif besar pada layanan world wide web. Web mining
teridiri atas tiga bagian yaitu: web content mining, web structure mining, dan web usage
mining.

Web content mining adalah suatu proses otomatis untuk menemukan informasi yang
berguna dari dokumen atau data. Pada prinsipnya teknik ini mengekstraksi kata kunci yang
terkandung pada dokumen. Isi data web antara lain dapat berupa teks, citra, audio, video,
metadata, dan hyperlink. Ada dua strategi yang umum digunakan: pertama langsung
melakukan mining terhadap data, dan kedua melakukan pencarian serta mengimprove hasil
pencarian seperti layaknya search engine.

Web struncture mining dikenal juga sebagai web log mining adalah teknik yang digunakan
untuk menemukan struktur link dari hyperlink dan membangun rangkuman website dan
halaman web. Salah satu manfaatnya adlah untuk menentukan pagerank pada suatu
halaman web.

Web usage mining adalah teknik untuk mengenali perilaku pelanggan dan struktur web
melalui informasi yang diperoleh dari log, click stream, cookies, dan query. Berbagai tool
yang sudah ada antara lain WebLogMiner yang melakukan mining terhadap data log. Teknik
yang lebih canggih digunakan untuk melakukan OLAP. Manfaat web usage mining adalah
untuk kustomosasi halaman berdasarkan profil pengguna, menentukan ketertarikan
pelanggan terhadap produk tertentu, dan menentukan target market yang sesuai.

Web Mining
Web Mining bertujuan untuk menemukan informasi atau
pengetahuan dari

Web hyperlink structure

contoh:

menemukan halaman web terpenting

menemukan komunitas pemakai yang berbagi
ketertarikan topik yang sama

page content

usage data
.

contoh:

menemukan pola akses pemakai terhadap web,
melalaui click stream.

World Wide Web atau singkatnya Web saja memiliki tempat penyimpanan data dan
informasi yang sangat besar sekali yang bisa dibayangkan oleh seseorang tentang segala hal
secara virtual. Web barangkali adalah tempat penyimpanan data dan teks terbesar di dunia,
dan jumlah informasi di web terus menerus tumbuh setiap hari. Banyak sekali informasi
menarik bisa ditemukan di dunia online: homepage siapa di link ke halaman-halaman lain
mana, berapa banyak orang memiliki link ke halaman web tertentu, dan bagaimana situs
tertentu diorganisir.

Selain itu, setiap pengunjung yang datang ke web, setiap pencarian pada search engine,
setiap klik pada suatu link, dan setiap transaksi pada situs e-commerce selalu menciptakan
data baru. Meskipun data teks yang tak-terstruktur di web dikodekan dalam bentuk HTML
atau XML merupakan konten web yang paling dominan, tetapi infrastruktur web juga berisi
informasi tentang hyperlink (koneksi-koneksi ke berbagai halaman web lain) dan informasi
tentang penggunaan web (log tentang interaksi pengunjung dengan situs), semuanya
memberikan kekayaan data yang bisa membawa ke suatu penemuan pengetahuan
(knowledge discovery).

Analisa dari informasi ini bisa membantu kita untuk memperbaiki penggunaan situs dan juga
membantu kita untuk meningkatkan hubungan dan nilai untuk para pengunjung pada situs
kita.

Namun begitu, menurut Han dan Kamber (pakar data mining), web juga memberikan
tantangan besar untuk penemuan pengetahuan yang efisien dan efektif:

 Web terlalu besar untuk melakukan data mining yang efektif. Web sangat besar
dan tumbuh dengan sangat cepat sehingga sangat sulit bahkan untuk sekedar diukur.
Karena ukuran size nya yang unik, maka tidak lah layak untuk membuat data warehouse
untuk me-replikasi,menyimpan, dan mengintegrasikan semua data yang ada di web, yang
akhirnya membuat pengumpulan dan integrasi data menjadi suatu tantangan tersendiri.
 Web sangatlah kompleks. Kompleksitas halaman web jauh lebih besar disbanding
dengan suatu halaman dalam koleksi dokumen teks tradisional. Halaman-halaman web
kurang terpadu strukturnya. Halaman-halaman web mengandung gaya penulisian dan
variasi konten yang jauh lebih banyak disbanding dengan buku, artikel atau dokumen teks
tradisional lainnya.

 Web terlalu dinamis. Web adalah sumber informasi yang sangat dinamis. Tidak
hanya tumbuh dengan cepat, tetapi kontennya juga terus di-update secara konstan. Blog,
artikel berita, pasar saham, laporan cuaca, skor olah raga, harga, iklan-iklan perusahaan, dan
banyak jenis informasi lainnya di-update secara regular di web.

 Web tidaklah spesifik pada suatu domain tertentu. Web menyajikan keragaman
komunitas yang sangat luas dan menghubungkan miliaran computer. Para pengguna web
memiliki latar belakang yang berbeda-beda, minat yang berbeda, dan tujuan penggunaan
web yang berbeda. Kebanyakan pengguna mungkin tidak memiliki mengetahuan yang baik
mengenai struktur jaringan informasi dan mugngkin tidak sadar tentang biaya besar dalam
pencarian tertentu yang mereka lakukan.

 Web memiliki segalanya. Hanya sebagian kecil informasi di web yang benar-benar
relevan atau bermanfaat bagi seseorang (atau untuk suatu tugas). Menurut laporan bahwa
99 persen informasi di web sama sekali tidak berguna bagi 99 persen pengguna web.
Meskipun hal ini kelihatannya kurang jelas, memanng benar bahwa orang tertentu pada
umumnya tertarik hanya pada sebagian kecil saja dari web, sedangkan sisanya di web berisi
informasi yang tidak menarik bagi pengguna tersebut dan mungkin membanjiri hasil-hasil
yang diinginkan. Menemukan porsi web yang benar-benar relevan terhadap seseorang dan
tugas yang sedang dilakukan adalah isu yang sedang menonjol dalam riset yang terkait web.

Berbagai tantangan ini telah mendorong banyak usaha riset untuk meningkatkan ke-efektif-
an dan efisiensi untuk menyingkap dan menggunakan asset-aset data di web. Berbagai
mesin pencari web berbasis –index secara konstan terus mencari wend an meng-index
halaman-halaman web dengan kata kunci tertentu. Dengan menggunakan mesin pencari,
seorang pengguna yang berpengalaman bisa mencari dokumen dengan memasukkan kata-
kata kunci atau frasa dengan berbagai konstrain yang padat dan tepat. Namun demikian,
mesin pencari yang berbasis kata kunci sederhana masih memiliki berbagai kekurangan.
Pertama, suatu topik yang sangat luas bisa berisi ratusan atau ribuan dokumen. Hal ini bisa
mengakibatkan banyak sekali entri dokumen yang dihasilkan oleh mesin pencari, dimana
sebagian besar tidak akan relevan dengan topic yang diinginkan. Kedua, banyak dokumen
yang sangat relevan dengan suatu topik yang mungkin tidak berisi kata kunci yang tepat
yang bisa membatasi pencarian. Dibandingkan dengan dengan pencarian web berbasis kata
kunci, web mining (penambangan web) merupakan pendekatan yang menonjol (dan lebih
menantang) yang bisa digunakan untuk meningkatkan secara substansial kemampuan mesin
pencari web karena web mining bisa mengidentifikasi halaman-halaman web yang
authoritative, mengklasifikasikan dokumen web, dan menyelesaikan berbagai ambiguitas
dan seluk beluk lembut yang yang ada di search engine web berbasis kata kunci.
Web mining (atau data mining web) adalah proses menemukan hubungan intrinsic
(misalkan, informasi yang menarik dan bermanfaat) dari data web, yang disajikan dalam
bentuk teks, link, atau informasi penggunaan. Istilah web mining pertama kali digunakaan
oleh Etzioni pada tahun 1996 (pakar data mining); saat ini, banyak konferensi, jurnal, dan
buku berfokus pada data mining web. Ini memang area teknologi dan praktik bisnis yang
berevolusi secara kontinyu. Gambar di bawah ini adalah tiga area utama web mining:
konten web, struktur web, dan penggunaan web.

TEORI DASAR GRAF

Dalam matematika dan ilmu komputer, teori graf adalah cabang kajian yang mempelajari
sifat-sifat graf. Secara informal, suatu graf adalah himpunan benda-benda yang
disebut simpul (vertex atau node) yang terhubung oleh sisi (edge) atau busur (arc). Biasanya
graf digambarkan sebagai kumpulan titik-titik (melambangkan simpul) yang dihubungkan
oleh garis-garis (melambangkan sisi) atau garis berpanah (melambangkan busur). Suatu sisi
dapat menghubungkan suatu simpul dengan simpul yang sama. Sisi yang demikian
dinamakan gelang (loop).

Banyak sekali struktur yang bisa direpresentasikan dengan graf, dan banyak masalah yang
bisa diselesaikan dengan bantuan graf. Jaringan persahabatan pada Facebook bisa
direpresentasikan dengan graf, yakni simpul-simpulnya adalah para pengguna Facebook dan
ada sisi antar pengguna jika dan hanya jika mereka berteman.
Perkembanganalgoritma untuk menangani graf akan berdampak besar bagi ilmu komputer.
Dalam matematika dan ilmu komputer, teori graf adalah cabang kajian yang mempelajari
sifat-sifat graf. Secara informal, suatu graf adalah himpunan benda-benda yang
disebut simpul (vertex atau node) yang terhubung oleh sisi (edge) atau busur (arc). Biasanya
graf digambarkan sebagai kumpulan titik-titik (melambangkan simpul) yang dihubungkan
oleh garis-garis (melambangkan sisi) atau garis berpanah (melambangkan busur). Suatu sisi
dapat menghubungkan suatu simpul dengan simpul yang sama. Sisi yang demikian
dinamakan gelang (loop).

Banyak sekali struktur yang bisa direpresentasikan dengan graf, dan banyak masalah yang
bisa diselesaikan dengan bantuan graf. Jaringan persahabatan pada Facebook bisa
direpresentasikan dengan graf, yakni simpul-simpulnya adalah para pengguna Facebook dan
ada sisi antar pengguna jika dan hanya jika mereka berteman.
Perkembanganalgoritma untuk menangani graf akan berdampak besar bagi ilmu komputer.

Sebuah struktur graf bisa dikembangkan dengan memberi bobot pada tiap sisi. Graf
berbobot dapat digunakan untuk melambangkan banyak konsep berbeda. Sebagai contoh
jika suatu graf melambangkan jaringan jalan maka bobotnya bisa berarti panjang jalan
maupun batas kecepatan tertinggi pada jalan tertentu. Ekstensi lain pada graf adalah
dengan membuat sisinya berarah, yang secara teknis disebut graf
berarah atau digraf (directed graph). Digraf dengan sisi berbobot disebut jaringan.

Jaringan banyak digunakan pada cabang praktis teori graf yaitu analisis jaringan. Perlu
dicatat bahwa pada analisis jaringan, definisi kata "jaringan" bisa berbeda, dan sering berarti
graf sederhana (tanpa bobot dan arah).
[sunting]Sedikit lebih formal

Suatu graph G dapat dinyatakan sebagai . Graph G terdiri atas himpunan V


yang berisikan simpul pada graf tersebut dan himpunan dari E yang berisi sisi pada graf
tersebut. Himpunan E dinyatakan sebagai pasangan dari simpul yang ada dalam V. Sebagai
contoh definisi dari graf pada gambar di atas
adalah : dan
Gambar dengan node yang sama dengan yang di atas, tapi merupakan digraf.
Pada digraf maka pasangan-pasangan ini merupakan pasangan terurut. Untuk menyatakan
digraf (gambar kedua yang menggunakan tanda panah) kita dapat menggunakan
himpunan edge sebagai berikut :

Sebuah struktur graf bisa dikembangkan dengan memberi bobot pada tiap sisi. Graf
berbobot dapat digunakan untuk melambangkan banyak konsep berbeda. Sebagai contoh
jika suatu graf melambangkan jaringan jalan maka bobotnya bisa berarti panjang jalan
maupun batas kecepatan tertinggi pada jalan tertentu. Ekstensi lain pada graf adalah
dengan membuat sisinya berarah, yang secara teknis disebut graf
berarah atau digraf (directed graph). Digraf dengan sisi berbobot disebut jaringan.

Jaringan banyak digunakan pada cabang praktis teori graf yaitu analisis jaringan. Perlu
dicatat bahwa pada analisis jaringan, definisi kata "jaringan" bisa berbeda, dan sering berarti
graf sederhana (tanpa bobot dan arah).
[sunting]Sedikit lebih formal

Suatu graph G dapat dinyatakan sebagai . Graph G terdiri atas himpunan V


yang berisikan simpul pada graf tersebut dan himpunan dari E yang berisi sisi pada graf
tersebut. Himpunan E dinyatakan sebagai pasangan dari simpul yang ada dalam V. Sebagai
contoh definisi dari graf pada gambar di
atasadalah : dan

Gambar dengan node yang sama dengan yang di atas, tapi merupakan digraf.
Pada digraf maka pasangan-pasangan ini merupakan pasangan terurut. Untuk menyatakan
digraf (gambar kedua yang menggunakan tanda panah) kita dapat menggunakan
himpunan edge sebagai berikut :

Graph sering digunakan untuk merepreesntasikan sebuah objek dan hubungannya dengan
objek lain. Sejarah teori graph bermula saat ahli matematika Swiss Leonhard
Euler memecahkan masalah jembatan Königsberg . Masalah jembatan Königsberg adalah
teka-teki lama mengenai kemungkinan menemukan jalan setapak di tujuh jembatan yang
membentang di sepanjang sebuah sungai bercabang yang melewati sebuah pulau tapi
dengan tanpa melewati jembatan dua kali. Euler berpendapat bahwa tidak ada jalan
semacam itu. Buktinya hanya mengacu pada susunan fisik jembatan, namun intinya dia
membuktikan teorema pertama dalam teori graph (Carlson, 2017).

Seperti yang digunakan dalam teori grafik, grafik istilah tidak mengacu pada grafik data,
seperti grafik garis atau grafik batang. Sebaliknya, ini mengacu pada sekumpulan simpul
(yaitu titik atau simpul) dan tepi (atau garis) yang menghubungkan simpul. Bila dua simpul
digabungkan lebih dari satu tepi, grafiknya disebut multi graph. Grafik tanpa loop dan paling
banyak satu tepi antara dua simpul disebut grafik sederhana. Kecuali dinyatakan lain, grafik
diasumsikan mengacu pada grafik sederhana. Bila setiap simpul dihubungkan oleh ujung ke
setiap titik lainnya, grafik disebut grafik lengkap. Bila sesuai, arah dapat diberikan ke masing-
masing ujung untuk menghasilkan apa yang dikenal sebagai grafik terarah, atau digraf
(Carlson, 2017).

Graph pada dasarnya mempunyai komponen berupa simpul dan sisi dan pada graph
tersebut sehingga membentuk graph terbuka dan graph tertutup sehingga membentuk
sejumlah lintasan dan sirkuit. Sehingga pada teorema graph telah dapat menyelesaikan
tanda tanya dalam penyelesaian teka-teki jembatan Konigsberg dan dengan solusi masalah
yang sama (Wirdasari, 2011).
1. Masalah di Konigsberg (7 crossing point on progel river)
Euler adalah seorang ahli matematika yang mencoba untuk memecahkan teka-teki tersebut
dan lebih dikenal dengan masalah Jembatan Konigsberg (Wirdasari, 2011). Terdapat 7
(tujuh) buah jembatan yang dapat menghubungkan 2 (dua) pulau dan juga sebuah sungai,
seperti yang ditunjukkan pada Gambar 1 .

Gambar 1. Jembatan Konigsberg (Wirdasari, 2011)

1. Urban planning problem


Dalam mecari solusi tersebut euler seorang matematika tersebut mencoba metode dari
masalah ini adalah dengan membentuk model dari jembatan Konigsberg yang dikenal
dengan multigraph, diperlihatkan pada Gambar 2. Pada multigraph tersebut memiliki 2
(dua) elemen yaitu himpunan verteks (titik/node) dan himpunan edge (garis) yang saling
menghubungkan garis antar verteks (Wirdasari, 2011).

Gambar 2. Representasi Multigraph Jembatan Konigsberg (Wirdasari, 2011)

Titik-titik yang diberi label X, Y, Z, dan W pada Gambar 2 itulah yang disebut verteks dan
dengan garis saling menghubungkan antar titik itulah yang disebut dengan edge.
Pada semua multigraph euler telah membuat sebuah aturan yang dapat dipakai dalam
mencari solusi pada jembatan Konigsberg, sehingga aturan ini disebut dengan
sebutan Eulerian path, yang berbunyi:
“Andai kita mempunyai sebuah multigraph untuk beberapa pasang verteks sehingga akan
terdapat sebuah path (lintasan) diantara verteks-verteks tersebut. Multigraph tersebut
memiliki eulerian path dan jika terdapat 0 datau 2 verteks tersebut maka banyak edge yang
meninggalkan verteks tersebut akan berjumlah ganjil”

Pada Multigraph jembatan Konigsberg tersebut memiliki empat verteks dan pada ke-
empat vertekstersebut memiliki edge sehingga meninggalkan verteks yang berjumlah ganjil.
Maka Eulirian path tersebut tidak dimiliki
pada multigraph jembatan Konigsberg. Multigraph yang ditunjukkan pada Gambar 3 tidak
memiliki panah, sehingga disebut dengan undirected graph (graph tak berarah). Sehingga
disebut dengan directed graph (graph berarah) adalah multigraph yang memiliki panah
yang ditujukan pada gambar 4.

Definisi 1. Sebuah simple graph (undirected graph) adalah pasangan dari G = (V , E) dimana:
V = himpunan berhingga dari elemen yang disebut verteks
E = sebuah relasi yang irrefleksif dan simetri pada V.
Pasangan berurutan pada E disebut edge dari graph yang berurutan . Lebih spesifik, jika e =
(u, v) Î E , dikatakan bahwa edge e adalah antara u dan v (dan juga antara v dan u ), dan
dikatakan bahwa u adjacent ke v . Lebih jauh, dapat dikatakan bahwa e incident ke u (dan
juga v ). Karena E simetri, maka kita dapat menotasikan e sebagai pasangan tak berurut
{u, v}.

Web

Usage Mining
Definisi yang banyak diterima mengenai
web usage mining
adalah definisi yang dikemukakandalam (Cooley, et al., 1999), yaitu “
the application of data mining techniques to large web datarepositories in order to extract
usage patterns
”. Seperti diketahui bahwa
web
sangat berkaitan eratdengan sebuah
web

server
, yaitu suatu
software

server
yang memiliki tugas utama melayani danmemenuhi permintaan halaman
web
oleh
client
(pengguna). Selain itu,
web server
juga akan mencatatsetiap aktivitas yang dilakukan oleh
client
(pengguna) tersebut ke dalam sebuah
file
yang seringdisebut
web

access log
. Hasil catatan aktivitas tersebut yang menjadi sumber
data
utama dalam
webusage mining
. Dari sebuah
web access log
, dapat diketahui beberapa informasi mengenai pola aksesdan kelakuan (
behaviour
) pengguna dalam mengakses halaman
web
.
Web access log
atau
web log file
memiliki format yang standar, sehingga dapat mempermudahdalam proses
mining
. Format standar dari sebuah
web access log
(Consortium, 1995) adalah[remotehost rfc931 authuser [date] "request" status bytes], dimana:

remotehost adalah nama


host
atau alamat
IP client
(
user
).

rfc931 adalah nama


log
dari
user