Anda di halaman 1dari 18

Analiza linkova

Web mining

Miroslav Manovi 12956 Elektronski fakultet, Ni 2011.

Sadraj
ta je to web mining? Mining web strukture analiza linkova Potreba za linkovima Pretraivanje informacija Algoritmi za analizu linkova -HITS -PageRank Pitanja, komentari?

ta je to Web mining?

Web mining je moda i najznaajnija oblast data mining-a, jer je Internet moan izvora informacija. Data mining je proces rovarenja(rudarenja) po sirovim informacijama uz pomo kompjutera i vaenja njihovog znaenja. Bavi se analizom podataka iz raznih perspektiva i pronalaenjem veza i odnosa izmeu naizgled nepovezanih informacija.

ta je to Web mining?
Web mining je izvlaenje interesantnih i korisnih ablona i implicitnih informacija iz aktivnosti vezanih za WWW (World Wide Web). Glavni zadatak koji obavlja web mining je dobavljanje web dokumenata, selekcija i obrada informacija sa interneta, pronalaenje i analiza ablona na sajtovima ili izmeu sajtova.

Mining web strukture analiza linkova

Web mining moe biti kategorizovan u tri oblasti -Mining web sadraja, -Mining web strukture i -Mining korienja web-a.

Mining web strukture analiza linkova

Mining web stukture ima za cilj pronalaenje znanja u strukturi internet prezentacija, a ne pretraivanje samog teksta i podataka koji se nalaze na toj prezentaciji. Pokuava da istrai strukture koje postoje izmeu dokumenata i internet prezentacije, kao to su hiper-linkovi ili neke druge vrste linkova. Na primer, linkovi koje sadre jedan dokument pokazuju njegovu popularnost, kompleksnost i raznovrsnost tema koje pokriva.

Potreba za linkovima

Zbog ega svakom sajtu trebaju linkovi?


Pretraivai gledaju na linkove kao na glasove. Generalno gledano, to vie glasova to bolje.

Potreba za linkovima
U svetu interneta ne vlada ba potpuna demokratija, jer svi glasovi (linkovi) ne vrede isto. Linkovi sa jakih sajtova, a to su oni koji imaju visoki PageRank vrede vie od linkova koji dolaze sa slabih sajtova bez PageRank-a.

Pretraivanje informacija

Neke stranice su korisnije za nastavak prelistavanja od drugih jer obezbeuju dobro organizovan skup izlaznih veza ka drugim stranicama koje pokrivaju datu temu. Te stranice se nekad zovu koncentratori (hub). S druge strane, stranice koje imaju mnogo dolaznih veza nazivaju se autoriteti (authorities) jer postavljanje veze ka nekoj stranici je nain priznavanja vrednosti te stranice.

Pretraivanje informacija

Ako poetni upit ne vrati neke vrlo relevantne stranice, tj. stranicu koja je autoritet za datu temu, moda e vratiti stranicu koja je koncentrator i koja e uputiti ka nekoj vrlo relevantnoj stranici.

Authority Hub typical Web page Algoritam za otkrivanje autoriteta i koncentratora je HITS algoritam Hyperlink-Induced Topic Search a njegov autor je priznati profesor raunarstva Jon Kleinberg.

Algoritmi za analizu linkova


HITS PageRank

Algoritmi za analizu linkova HITS

HITS algoritam Hyperlink-Induced Topic Search je algoritam za analizu linkova koji rangira Web stranice. To je bila pretea PageRank-a. ema dodeljuj dve ocene za svaku stranicu: njen autoritet, koji procenjuje vrednost sadraja stranice, i njenu ,,hub vrednost, koja procenjuje vrednost svojih linkova ka drugim stranicama.

Algoritmi za analizu linkova HITS

U HITS algoritmu, prvi korak je da preuzmemo skup rezultata upita za pretragu. Obraun se vri samo na taj skup rezultata, a ne preko svih Web strana. Autoritet i ,,hub(koncentrator vrednosti) su definisani u smislu jedno drugom u zajednikoj rekurziji. Autoritet vrednosti se izraunava kao zbir razmera centara vrednosti koje ukazuju na tu stranicu Hub vrednost je zbir razmera autoratitivnih vrednosti stranica na koje ukazuju.

Algoritmi za analizu linkova PageRank

PageRank je koncept dizajniran od strane Sergeja Brina i Lorenca Pejda - osnivaa Googlea - sa ciljem odreivanja relativne jaine neke pojedinane stranice na internetu u odnosu na sve ostale.
PageRank se izraunava na osnovu strukture linkova na internetu. Yahoo.com, na primer, ima preko 300 miliona linkova, i mnogi od ovih linkova dolaze od izuzetnih sajtova (New York Times, i slini). Zbog ovoga, PageRank formula e sajtu Yahoo.com dodeliti jako visok PageRank - PR9.

Poto novi sajtovi otpoinju svoj ivot bez ikakvih linkova, u osnovi nemaju nikakav PageRank. PageRank se kree u rasponu od 0 do 10, pa tako svi novi sajtovi, odnosno njihove stranice, imaju PR0 sve dok ne prikupe odreeni broj kvalitetnih linkova.

Algoritmi za analizu linkova PageRank

Sajtovi sa Veim PageRankom Donose Vei PageRank? -Potpuno novi PR0 sajt. Samo jedan link sa poetne strane Yahoo.com (PR9) ka poetnoj strani naeg novog sajta e toj strani doneti PR7 ili PR8. - Nekoliko miliona PR0 linkova je potrebno da bi smo PageRank naeg novog sajta pogurali do PR8, ili alternativno, 10,000 do 100,000 PR5 linkova. Ovo je samo gruba procena, pravi brojevi mogu biti znatno vei ili znatno manji. -Za poveavanje PageRanka neke stranice naeg sajta potrebno je da poveamo broj web stranica koje linkuju ka njoj. -Mala grupa linkova vieg PR-a, ili uz pomo velike grupe linkova nieg PR-a.

Algoritmi za analizu linkova PageRank


Kako funkcionie algoritam?

Pretpostavimo da se na univerzum sastoji od etiri stranice: A, B, C i D. Na poetku pretpostavimo da su sve stranice podjednako vane, pa im se dodeljuje PR (PageRank) = 0.25 (Sve stranice zajedno imae uvek vrednost 1). Ako sve stranice (dakle, B, C i D) pokazuju samo stranicu A, onda e sve tri stranice doprineti rangu stranica A sa svojih 0.25. Bie, dakle,
PR(A) = PR(B)+PR(C)+PR(D) = 0.75

Ako stranica C pokazuje samo stranicu A, stranica B pokazuje C i A, a stranica D pokazuje sve tri stranice, onda se vrednost doprinosa veze deli na sve veze koje izlaze sa te stranice. Bie, dakle,
PR(A) = PR(B)/2+PR(C)/1+PR(D)/3 = 0.125 + 0.25 + 0.083

Algoritmi za analizu linkova PageRank

Drugim reima, PageRank koji ostvaruje jedna spoljanja veza je jednak vrednosti PageRank same te strance kada se podeli sa normalizovanim brojem spoljanjih veza te stranice L( ) (pretpostavlja se da se veze ka nekom odreenom URL raunaju samo jednom po dokumentu): PR(A) = PR(B)/L(B)+PR(C)/L(C)+PR(D)/L(D) Ili, u optem sluaju:

tj. PageRank vrednost za stranicu u zavisi od vrednosti koju ima PageRank za sve stranice v iz skupa Bu (ovaj skup sadri sve stranice koje pokazuju ka u) podeljen sa brojem L(v) veza koje polaze iz stranice v.

Pitanja, komentari

Anda mungkin juga menyukai