Fabio Brivio
~
Seguici su Twitter @apogeonline
Introduzione
La prima edizione del libro che avete tra le mani nasceva nel 2005. Si trattava di un
progetto molto pi compatto, di sole 72 pagine, introduttivo alluso di Google. Lidea
era quella di creare una semplice guida per imparare a cercare, e soprattutto trovare,
su Internet le risposte alle proprie domande, mettendo in condizione il lettore di
accedere a diverse tipologie di informazioni, per soddisfare le necessit lavorative, di
studio o personali.
Dopo otto anni, quattro edizioni, e 35.000 copie vendute, il progetto si amplia nel
numero di pagine e nelle intenzioni.
Non pi solo trovare su Internet con Google, ma trovare su Internet con Google e,
soprattutto, oltre Google.
Cercare su Internet
La Rete un serbatoio inimmaginabile di risorse. I limiti al suo sviluppo sono
difficilmente descrivibili cos come la quantit di informazioni distribuite nei pi
svariati formati.
Per farsi unidea, la Figura I.1 presenta una rappresentazione di Internet su scala
planetaria, la Figura I.2 ne offre una differente astrazione, mentre la Figura I.3 mostra
in uninfografica su cosa succede in un minuto di Internet.
Di fronte a uno scenario di questo tipo non solo lorganizzazione delle informazioni
presenta numerosi problemi, ma anche orientarsi in Rete non semplice.
Figura I.1 Densit e localizzazione geografica dei computer che compongono Internet. (Fonte:
http://en.wikipedia.org/wiki/Carna_Botnet. Vale la pena dare unocchiata a questa pagina per osservare una
versione dinamica della mappa nellarco di una giornata.)
Figura I.2 Una mappa di Internet: facile perdersi in questa fitta ragnatela. (Fonte: Wikimedia Commons
http://commons.wikimedia.org/wiki/File:Internet_map_1024.jpg, licenza Creative Commons BY
http://creativecommons.org/licenses/by/2.5/.)
Figura I.3 Intel ha provato a descrivere cosa accade su Internet in sessanta secondi. Qualche numero?
200 milioni di e-mail inviate, 20 milioni di foto pubblicate, 6 milioni di visite a Facebook, centomila tweet
postati, pi di 2 milioni di ricerche con Google... (Fonte:
http://www.intel.com/content/www/us/en/communications/internet-minute-infographic.html.)
Cercare su Internet, senza sapere esattamente dove, unimpresa ben pi ardua del
cercare il classico ago nel pagliaio.
Per fortuna con Internet si sono sviluppati degli strumenti e dei servizi che aiutano
nelle operazioni di ricerca. Tra questi i pi famosi sono i motori di ricerca, che con
pochi clic permettono di scandagliare milioni di dati.
Google fino a oggi riconosciuto come il principe dei motori di ricerca (basti
pensare che nel mondo anglosassone to google ha assunto il significato di cercare in
Rete). Ogni giorno Google soddisfa le richieste di milioni di utenti. Le sue funzionalit
e le sue modalit di ricerca sono tanto potenti e articolate che se uninformazione
disponibile, Google quasi sicuramente in grado di trovarla; basta formulare la
domanda giusta nel modo giusto.
In questo libro si parla quindi di Google, ma non solo.
Per arrivare velocemente allinformazione desiderata, a volte necessario guardare
oltre Google e conoscere le logiche e le architetture su cui si basano la Rete e il Web.
8
Insomma, nella rete Internet non tutte le macchine ospitano documenti ipertestuali.
Paragonare Internet al Web perci scorretto: il Web solo una delle possibilit
offerte dalla Rete, e non necessariamente una macchina connessa a Internet d accesso
a pagine ipertestuali o pagine web. del resto anche vero che oggi Internet e il Web
convivono in stretta simbiosi, per cui facile trovare siti web che consentono di
utilizzare le modalit comunicative proprie di altri protocolli. Esempi sono i servizi di
posta elettronica come Hotmail, Gmail o Yahoo! a cui si accede via Web, ma che in
maniera del tutto trasparente per lutente utilizzano specifici protocolli per linvio e la
ricezione dei messaggi.
HTTP quindi lelemento che garantisce la comunicazione nel Web, ma gli ipertesti
non potrebbero esistere in quanto tali senza il cosiddetto link, o collegamento
ipertestuale, il ponte di congiunzione tra una pagina web e laltra. Si potrebbe in un
9
certo senso dire che il Web un gigantesco ipertesto reticolare: a prescindere dal
punto di partenza, attraverso percorsi inimmaginabili possibile raggiungere qualsiasi
pagina.
Tornando a Internet, i computer che ne fanno parte possono assumere il ruolo di
client o di server: i client sono i computer da cui si parte per navigare, mentre i
server sono i computer su cui risiedono i documenti e le risorse disponibili.
NOTA La variet di client si andata allargando negli ultimi anni. Ai tradizionali computer desktop o
notebook si sono affiancati numerosi dispositivi mobili: smartphone e tablet, a dispetto delle
dimensioni ridotte, sono a tutti gli effetti client da cui possibile accedere a Internet in completa
mobilit.
Per usare una metafora, si pu vedere una biblioteca (intesa come edificio,
personale, scaffali, libri, schedari e cos via) come un server a cui gli utenti, cio i
client, possono inoltrare la richiesta di uno o pi libri.
NOTA Poich la funzione di un server ospitare documenti e risorse, questo viene anche detto
host (ospite).
URL o URI sono quindi gli indirizzi internet che il browser invia come richiesta al
server.
Sintetizzando, il client fa una domanda e il server risponde. La domanda la
cosiddetta query e la sua formulazione varia a seconda dello strumento e del tipo di
ricerca che si vuole svolgere, come vedremo nei capitoli che seguono.
10
11
Capitolo 2: sempre Google, ma con una marcia in pi, per imparare a conoscere i
suoi operatori di ricerca.
Capitolo 3: ancora Google con le sue funzionalit di ricerca avanzata e la sua
personalizzazione.
Capitolo 4: tre servizi di Google, dedicati alle ricerche tra gruppi di discussione,
libri e mappe, vengono qui affrontati con maggiore dettaglio.
Capitolo 5: alla scoperta dei servizi Whois, che consentono di trovare chi c
dietro un sito web.
Capitolo 6: la macchina del tempo con Internet diventata realt. Qui si impara
come usarla.
Capitolo 7: nelle reti P2P si trova veramente di tutto. In questo capitolo vengono
fornite le informazioni di base per cominciare.
Capitolo 8: lesplorazione e la ricerca in Rete possono andare oltre gli strumenti
fin qui visti. Qui si impararono tecniche e strumenti non convenzionali che in
alcuni casi permettono di ottenere risultati non previsti o addirittura sorprendenti.
Convenzioni utilizzate
In questo testo sono presenti note e box che identificano due tipi particolari di
informazioni relative agli argomenti affrontati.
NOTA Una nota contiene informazioni interessanti, a volte tecniche, relative allargomento trattato.
Talvolta riporta curiosit o suggerimenti per evitare o togliersi dai guai.
BOX
Un box contiene approfondimenti e digressioni. Pu essere lungo poche righe oppure qualche pagina. Le
informazioni presenti in un box vi permettono di avere una migliore visione del tema trattato.
12
Capitolo 1
Trovare Google
Accedere a Internet sempre pi facile, da casa o in ufficio con un normale
computer, oppure in mobilit tramite le connessioni wireless di cui sono dotati i
moderni tablet e smartphone.
In ogni caso Google sempre a portata di mano, per esempio tra le app di un
dispositivo Android o Apple, nella barra degli strumenti del browser a disposizione
(Figura 1.2) o ancora nella maniera pi classica digitando nella barra degli indirizzi
del browser (per esempio Internet Explorer, Mozilla Firefox, Safari e cos via)
lindirizzo www.google.it (la versione italiana di Google).
13
Figura 1.1 Lapp Google: in un tablet iPad (a sinistra) e in un telefono Android (a destra).
Figura 1.2 La casella di ricerca di Google parte integrante dei browser Firefox (a sinistra) e Safari (a
destra).
A questo punto si gi pronti per eseguire una ricerca, ma prima vale la pena
soffermarsi un momento per descrivere linterfaccia di Google, cio la pagina
attraverso cui possibile cercare su Internet.
Lo faremo prendendo come riferimento proprio la terza e pi consolidata modalit
di accesso, consapevoli che a prescindere dal dispositivo o dalle dimensioni delle
schermo su cui viene visualizzato, laspetto di Google potr essere leggermente
differente ma le sue logiche e il funzionamento saranno le stesse.
La prima occhiata
Semplice, anzi minimalista, linterfaccia di Google uno dei suoi tratti distintivi e
senza dubbio ha contribuito al suo successo mondiale. Fin da subito, a dispetto della
sobriet del layout, apparso evidente come a Google non mancasse nulla per
soddisfare le necessit degli utenti.
14
1.
2.
3.
4.
5.
6.
7.
8.
15
di loghi presenti sono una significativa testimonianza visiva di quanto Google sia oggi una realt radicata
in tutto il mondo.
Figura 1.3 Il 9 gennaio 2013 Google ha ricordato cos il 150 anniversario della metropolitana di Londra.
La prima ricerca
Dalla pagina principale di Google subito possibile effettuare la prima ricerca.
Nella casella di testo per le ricerche vanno digitati i termini che descrivono
loggetto di interesse, per esempio Santiago, cammino Santiago, cammino
Santiago itinerario. Questi termini definiscono la cosiddetta query di ricerca.
NOTA Query in inglese significa interrogazione.
NOTA Google non case sensitive. Significa che interrogando il motore con i termini Santiago,
SANTIAGO o ancora santiago, i risultati saranno i medesimi. Google non d infatti importanza alla
forma (maiuscolo o minuscolo) con cui le query vengono scritte, mentre considera invece con
attenzione la sintassi e lordine con cui i termini vengono digitati.
Non resta quindi che premere il tasto Invio o fare clic sul pulsante Cerca con
Google.
Per velocizzare questa fase e ridurre la possibilit di errori, durante la digitazione
di una query Google offre dei suggerimenti per completarla. Basta un clic su un
suggerimento per eseguire la relativa ricerca. Se nessun suggerimento interessante
sempre possibile completare la query digitandone direttamente i termini e quindi
eseguirla come appena descritto.
16
LA DOMANDA GIUSTA
Imparare a utilizzare con profitto Google, trovando in poco tempo quello che si sta cercando, vuol dire
imparare a porre le domande (o meglio le query) giuste in modo da indirizzare nella maniera pi precisa
possibile la ricerca. Per questo utile conoscere almeno minimamente il linguaggio di Google e i principi
su cui si basa, come vedremo nel Capitolo 2.
NOTA La funzionalit di suggerimento chiamata Google Instant ed di norma attiva in maniera
predefinita. Se non dovesse funzionare possibile che la connessione a Internet sia troppo lenta. In
questo caso pu essere utile verificare le impostazioni di utilizzo di Google allindirizzo
http://www.google.it/preferences, su cui torneremo nel Capitolo 3.
Mi sento fortunato
A destra del pulsante Cerca con Google, collocato il pulsante Mi sento
fortunato, una sorta di segno distintivo di Google.
Facendo clic su Mi sento fortunato, Google porta direttamente alla pagina che
secondo le sue elaborazioni soddisfa meglio i criteri di ricerca. In pratica, con un solo
clic dovrebbe essere possibile trovare la risposta desiderata.
FUNZIONA VERAMENTE?
In realt Mi sento fortunato ha una buona percentuale di successo su query semplici, che hanno per
oggetto siti o pagine di aziende o enti molto note. Per esempio, la query Apple, eseguita con Mi sento
fortunato porta direttamente alla home page dellazienda fondata da Steve Jobs.
Mi sento fortunato presente fin dalla prima versione di Google ed sintomatica della sua genesi.
Google nasce infatti in ambito accademico da unintuizione di due studenti, Larry Page e Sergey Brin,
incontratisi alluniversit di Stanford, California. Era il 1995.
I due cominciarono a sviluppare quello che poi diventer Google con molto entusiasmo, un pizzico di
goliardia (uno dei primi server di Google era ospitato in un case il telaio allinterno del quale sono
assemblati i componenti di un computer costruito con mattoncini colorati Lego da cui sembrerebbe
siano poi derivati i colori del logo...) e una buona dose di ambizione (recuperare in maniera efficace e
funzionale le informazioni disponibili in Rete era unimpresa gi allora difficoltosa).
Mi sento fortunato riflette quindi lo spirito di sfida di Google misto alla sicurezza nella propria
tecnologia. Con esso Larry e Sergey sembrano voler dire allutente: Il nostro scopo non solo fornirti un
gran numero di risposte, ma farti giungere alla soluzione dei tuoi problemi il prima possibile.
17
1.
2.
3.
4.
18
Immagini: la ricerca considera tra i risultati solo immagini (siano esse fotografie,
disegni, schemi e cos via) nei principali formati grafici diffusi in Rete (JPG,
PNG, GIF). Le immagini indicizzate da Google sono pi di un miliardo.
Video: la ricerca considera solo video. I risultati vengono recuperati tra diversi
siti, ma la fonte principale YouTube (il popolare sito dedicato proprio alla
condivisione di video, http://www.youtube.com/).
19
Libri: la ricerca considera solo libri. I risultati vengono recuperati tra il testo di
milioni di volumi digitalizzati da Google o messi a disposizione da editori.
NOTA La ricerca tra i libri non va confusa con una semplice ricerca bibliografica circoscritta a titolo,
autore ed editore. Google spinge le sue analisi tra le pagine e le righe dei testi restituendo come
20
risultati passaggi pi o meno lunghi dei libri individuati. Per farlo attinge da due fonti: il servizio
Google Libri (http://books.google.it) e il negozio Google Play (https://play.google.com). Il primo
un programma di digitalizzazione di testi provenienti principalmente da importanti biblioteche. Il
secondo una piattaforma commerciale per libri in formato elettronico (o ebook) che opera con
diversi editori su scala mondiale. Questo significa che una volta individuato un libro di interesse di
norma possibile consultarlo (integralmente o in parte) o acquistarne una versione elettronica.
21
NOTA Alcuni ambiti di ricerca, quelli mediamente meno utilizzati, si raggiungono da Pi contenuti.
22
Figura 1.5 Anche se pertinente alla query un annuncio pubblicitario (sopra) si differenzia da un risultato
(sotto).
Scorrere i risultati
Spesso capita che il numero delle risposte sia di gran lunga superiore alle
aspettative. Google ordina tutti i risultati recuperati per pertinenza e li organizza in
pagine. Nella prima pagina sono presenti i primi, quelli ritenuti pi rilevanti e che
quindi vale sempre la pena esaminare con cura. In alcuni casi per i primi risultati
possono non essere soddisfacenti, per cui diventa necessario visionare almeno alcune
delle pagine successive. Per questo al piede della pagina dei risultati disponibile
uninterfaccia per muoversi tra le pagine dei risultati (Figura 1.6).
23
NOTA Per impostazione predefinita ogni pagina elenca dieci risultati. possibile modificare questa
impostazione e visualizzare fino a cento risultati per pagina, ma Google diventer pi lento.
Lindirizzo per accedere alle impostazioni di ricerca http://www.google.it/preferences.
Leggere i risultati
Per ogni singolo risultato Google segnala una serie di informazioni utili per
comprendere se si in presenza di quanto ricercato.
1.
2.
3.
4.
5.
24
I suggerimenti di Google
Google non si limita a suggerire o eseguire ricerche ma, per assicurarsi che lutente
ottenga sempre i risultati desiderati, effettua automaticamente anche accurati controlli
sulla query. Un controllo particolarmente utile quello lessicale sui termini digitati.
Se dalle analisi risulta, per esempio, un possibile errore di sintassi o di battitura,
Google interviene correggendo automaticamente la query e segnalando la modifica
allutente, a cui viene comunque lasciata la possibilit di eseguire la ricerca con i
termini in precedenza digitati, se li ritiene effettivamente corretti (Figura 1.7).
25
NOTA A Google Alert si accede anche selezionando Altro e poi Altro ancora nella barra degli
strumenti presente nella parte superiore di ogni pagina di Google. Qui sono raccolti tutti i prodotti e i
servizi messi a disposizione da Google.
1.
2.
3.
Per creare un avviso per prima cosa bisogna specificarne loggetto, cio la query.
Quindi necessario definire lambito (News, Video, Libri e cos via) in cui la
ricerca dovr essere eseguita. Le scelte possibili corrispondono ad alcuni filtri
visti in precedenza.
Il terzo passo consiste nellimpostare la frequenza con cui si desidera essere
informati di nuove segnalazioni.
26
4.
5.
6.
27
Si capisce quindi come esista una relazione diretta tra la popolarit di una pagina e
la sua posizione tra i risultati per una query specifica. Tuttavia questo da solo non
garanzia di successo. Le pagine, oltre a essere importanti, devono infatti essere
correlate ai termini ricercati: solo cos i risultati potranno essere pertinenti. Google
effettua quindi analisi testuali per recuperare tra i suoi indici pagine rilevanti rispetto
ai criteri di ricerca dei dati.
I termini di una query vengono ricercati e conteggiati nella pagina, valutandone il
peso semantico che maggiore per esempio se un termine presente in un titolo
piuttosto che in un paragrafo. La loro ricorrenza frequente segno di pertinenza, ma
anche i contenuti di pagine correlate a quella in analisi vengono presi in
considerazione, in modo da contestualizzare una pagina per stabilire se risponde o
meno ai criteri di ricerca indicati prima di inserirla nellelenco dei risultati.
ARRIVARE SUBITO AL DUNQUE
Pu capitare che un risultato una volta aperto si riveli un documento molto lungo e articolato, nel quale i
termini della query non sono subito individuabili. In questi casi, per localizzarli e quindi concentrare
lattenzione sul passaggio del documento che probabilmente contiene linformazione desiderata,
possibile premere (simultaneamente) i tasti Ctrl e F (sui sistemi operativi Windows) o Cmd e F (sui
sistemi operativi Mac OS X): si attiva un piccolo campo di ricerca dove digitare nuovamente il termine
desiderato, la cui prima occorrenza viene subito evidenziata.
28
Figura 1.9 Il campo Trova nel browser Firefox permette di individuare velocemente termini in un
documento, in questo esempio apogeo.
29
Capitolo 2
Figura 2.1 Google avverte che i termini digitati dopo il trentaduesimo non sono stati considerati per la
ricerca.
30
Infine bisogna ricordare che nelle sue analisi Google tiene in considerazione
lordine in cui vengono digitati i termini della ricerca; per esempio, la query irlanda
dublino produce risultati simili ma non identici a dublino irlanda.
Anche la vicinanza tra i termini nel caso di query composte da pi di due termini
ha un peso nellimpostazione della ricerca: Google cerca infatti di restituire
documenti che soddisfino anche la prossimit tra i termini di ricerca.
Operatori di base
Gli operatori di base pi comunemente usati sono quattro.
Operatore OR
Descrizione
Sintassi
Risultato
Si interpone tra i
Permette di definire un insieme di termini dei quali
termini da ricercare,
almeno uno deve essere presente in un documento
come in riviste OR
affinch questo sia inserito tra i risultati di una ricerca.
libri.
NOTA Loperatore OR va sempre scritto maiuscolo; diversamente (nelle forme or, Or, oR) verr
ignorato da Google che lo interpreter come la congiunzione inglese or.
Operatore (meno)
Descrizione
Loperatore meno permette di
indicare un termine che va
escluso dai risultati di una
ricerca.
Sintassi
Si antepone, senza lasciare
spazio, al termine oggetto di
esclusione, come in riviste
libri.
Risultato
Elenca documenti che contengono il
termine riviste a esclusione di quelli
che contengono il termine libri.
Operatore (virgolette)
Descrizione
Loperatore virgolette permette
di definire una frase specifica
che si desidera ricercare.
Sintassi
I termini che compongono la frase
vanno inseriti tra virgolette, come in
Il catalogo dei libri Apogeo .
Risultato
Elenca documenti che
contengono esattamente la
frase Il catalogo dei libri
Apogeo.
NOTA Per impostazione predefinita Google non riconosce lettere accentate o altri segni diacritici (,
, , , , , e cos via). Inoltre vengono automaticamente ignorati i termini ritenuti troppo comuni
per essere discriminanti ai fini di una ricerca (per esempio articoli e preposizioni). Loperatore
virgolette permette di forzare il comportamento di Google facendogli ricercare esattamente quanto
racchiuso tra sia anche un singolo termine, rispettando cos segni diacritici e termini comuni.
OPERATORE : QUANDO TROVARE SIGNIFICA SAPER CHIEDERE
31
In alcune situazioni una buona tecnica di ricerca consiste nellinterrogare Google digitando come query
una parte della risposta che si sta cercando. Per esempio, volendo sapere la data di nascita di
Alessandro Manzoni, si potrebbe pensare di utilizzare una query come Alessandro Manzoni nascita.
Tuttavia risultati migliori si ottengono con Alessandro Manzoni nasce, vale a dire la frase che
dovrebbe (o potrebbe) precedere, in un documento, la risposta ricercata. Google elencher nei risultati
solo le pagine nelle quali presente la frase tra virgolette, quindi con unalta probabilit di contenere
linformazione desiderata. In questi casi loperatore virgolette si dimostra molto potente ed efficace.
Operatore * (asterisco)
Descrizione
Sintassi
Risultato
Elenca documenti
contenenti mi
seguito da un
termine e quindi da
di immenso.
NOTA Sebbene loperatore * svolga la funzione di jolly esso non viene conteggiato da Google nel
computo dei 32 termini di ricerca inseribili in una query.
UNA CATENA DI INTERROGAZIONE CON GLI OPERATORI DI BASE
Tutti gli operatori sin qui analizzati possono essere combinati tra loro per creare catene di interrogazione
mirate a particolari necessit. Per esempio, la query Alessandro Manzoni opere -Promessi
Sposi sfrutta le potenzialit degli operatori virgolette e meno per ricercare documenti sulle opere di
Alessandro Manzoni a eccezione dei Promessi Sposi (Figura 2.3). La Figura 2.4 evidenzia leffetto
delloperatore meno.
32
Operatori avanzati
Questo genere di operatori consente di compiere ricerche molto specifiche. In
alcuni casi, utilizzati insieme agli operatori di base, permettono di ottenere risposte
estremamente precise con una sola query.
Alcuni operatori avanzati hanno per oggetto lURL, vale a dire lindirizzo di un sito
o di un singolo documento su Internet.
NOTA www.apogeonline.com, per esempio, lURL del sito di Apogeo.
Sintassi
Si colloca nella query seguito, senza
spazio, dallindirizzo internet del sito,
33
Risultato
Elenca solo pagine del sito
www.apogeonline.com che
DOMINIO
Un dominio una sezione logica di Internet identificata da un nome e costituita da una o pi sottoreti. I
domini di solito sono formati da pi parti che insieme permettono di identificare in modo univoco un sito o
un computer su Internet definendone lindirizzo (o URL). Per esempio, in www.apogeonline.com, www un
prefisso, apogeonline la denominazione vera e propria o dominio di secondo livello, mentre com il
dominio di primo livello che indica la sezione della Rete sotto cui risiede il sito Apogeonline. Altri diffusi
domini di primo livello sono .net, .org e i domini nazionali .it, .nl, .de (rispettivamente Italia, Olanda e
Germania) e cos via. Per saperne di pi un ottimo punto di partenza la pagina di Wikipedia
http://it.wikipedia.org/wiki/Dominio_di_primo_livello.
link:
Descrizione
Sintassi
Risultato
NOTA Se si possiede o gestisce un sito, lutilizzo delloperatore link permette di scoprire quali altri
siti o pagine web hanno inserito un link a esso: un buon indicatore dellinteresse generato dalla
propria attivit online.
related:
Descrizione
Anche questo operatore ha per
oggetto un indirizzo internet per il
quale fornisce un elenco di siti
ritenuti simili.
Sintassi
Risultato
cache:
Descrizione
Ha per oggetto un
indirizzo internet
del quale fornisce
la copia cache.
Sintassi
Risultato
34
Figura 2.5 La copia cache presenta unintestazione che contiene, tra laltro, la data dellultimo
aggiornamento.
info:
Descrizione
Sintassi
Risultato
Ha per oggetto un
indirizzo internet
del quale fornisce
diverse
informazioni.
NOTA In pratica loperatore info: permette di avere un rapido accesso ai risultati che si otterrebbero
con gli operatori cache:, related:, link: e site:.
inurl:
Descrizione
Sintassi
Risultato
allinurl:
Descrizione
Versione potenziata di
inurl:. Permette infatti
di indicare due o pi
termini da ricercare.
Sintassi
Risultato
35
intitle:
Descrizione
Sintassi
Risultato
Con questo operatore la ricerca Loggetto della ricerca segue, senza Recupera solo documenti nel
viene effettuata tra i titoli dei
spazio, loperatore, come in
cui titolo presente il termine
documenti.
intitle:apogeo.
apogeo.
allintitle:
Descrizione
Sintassi
Risultato
Versione potenziata di
intitle:. Permette infatti
di indicare due o pi
termini da ricercare.
Recupera solo
documenti nel cui titolo
sono presenti i termini
apogeo e catalogo.
Figura 2.6 Un risultato di Google: i termini apogeo e catalogo nel titolo di un documento.
Figura 2.7 Il titolo del documento della Figura 2.6 visualizzato dal browser Firefox separato dal
contenuto, in una cornice posta sopra la barra degli strumenti.
36
comunque ricordare che mentre gli operatori IN possono essere utilizzati insieme ad altri operatori,
questo non vale per gli operatori ALLIN.
Operatori particolari
Prima di concludere questa carrellata sugli operatori di ricerca interessante
segnalarne altri tre, differenti per funzione e utilizzo da quanto fin qui visto.
filetype:
Descrizione
Sintassi
Risultato
NOTA Il formato di un documento si riconosce dalla sua estensione, vale a dire dalle lettere che
seguono il . (punto) nel nome del documento. Per esempio, in pluto.doc, doc lestensione, per cui
pluto un file in formato DOC di Microsoft Word. Loperatore filetype: funziona solo con alcuni
formati, tra cui PDF, DOC, XLS, PPT, RTF, TXT, JPG, PNG e GIF (questi ultimi tre sono formati
grafici; se si alla ricerca di immagini in un formato generico si pu utilizzare lapposito filtro visto nel
Capitolo 1).
define:
Descrizione
Sintassi
Risultato
Fornisce la definizione del
termine apogeo (Figura
2.8).
in
Descrizione
Sintassi
Risultato
37
Figura 2.8 Utilizzando define: ogni risultato una definizione accompagnata dal link del documento da cui
stata estratta. Definizioni alternative di un termine sono accessibili dal link Altre informazioni.
38
matematici. Ma non solo. Google permette di risolvere espressioni ed equazioni di una certa
complessit visualizzandole anche attraverso grafici interattivi (Figura 2.10).
39
Capitolo 3
Ricerca avanzata
Google non sarebbe il motore di ricerca pi utilizzato e conosciuto se non avesse
sviluppato degli strumenti per consentire a tutti gli utenti di effettuare velocemente
ricerche accurate a prescindere dal livello di conoscenza degli operatori specifici.
Esiste infatti una pagina, Ricerca avanzata, dove possibile definire con facilit
diversi parametri di ricerca. possibile accedervi dalla pagina principale
selezionando Impostazioni, oppure nella pagina dei risultati dal menu che si apre
facendo clic sul pulsante a forma di ghiera (Figura 3.2).
40
Figura 3.1 Nella pagina principale di Google il link Impostazioni, in basso, permette di accedere alle
funzionalit di ricerca avanzata.
Figura 3.2 Le funzionalit di ricerca avanzata sono raggiungibili anche dalle pagine dei risultati.
1.
2.
3.
Per prima cosa possibile indicare che tutti i termini digitati debbano essere
necessariamente presenti in un documento incluso nei risultati.
possibile specificare una frase da ricercare interamente (come avviene con
loperatore virgolette)...
... oppure possibile specificare dei termini che possono essere alternativamente
presenti in un documento incluso nei risultati (come avviene con loperatore
41
4.
5.
OR).
Ma anche possibile escludere in maniera categorica dei termini dalla ricerca
(come avviene con loperatore meno).
Infine si pu specificare un intervallo numerico.
NOTA Questultima possibilit pu essere utile in tutti quei casi in cui un numero (come un anno)
particolarmente rilevante nella ricerca (per esempio una serie di annate di un vino). Un intervallo
numerico pu essere direttamente espresso in una query digitando loperatore .., come in barolo
1978..1982.
1.
2.
3.
4.
5.
6.
7.
8.
Una volta impostati i vari parametri basta premere il tasto Invio o fare clic sul
pulsante Ricerca avanzata per creare automaticamente la query ed eseguire la
ricerca.
Le impostazioni di Google
Google offre a ogni utente la possibilit di configurare in maniera stabile alcuni
parametri di ricerca. A ogni visita successiva allultima modifica delle impostazioni,
effettuata dal medesimo computer, Google sar pronto per essere utilizzato nelle
modalit precedentemente definite. Laccesso alla pagina di personalizzazione delle
impostazioni di ricerca analogo a quanto visto per la Ricerca avanzata, ma in
questo caso la voce di menu appunto Impostazioni di ricerca.
43
La pagina si articola in quattro sezioni, ma solo tre sono effettivamente dedicate alla
personalizzazione di Google: Risultati di ricerca, Lingue e Posizione.
45
46
Capitolo 4
Nel Capitolo 1 abbiamo visto come sia possibile circoscrivere i risultati delle
ricerche per determinati ambiti. A ogni tipo di risultato Google dedica per anche
alcuni servizi particolari. In questo capitolo ne vediamo tre un po pi nel dettaglio,
quelli forse pi interessanti e utili. Nelle prossime pagine parleremo di ricerche tra
gruppi di discussione, libri e mappe. Infine ci soffermeremo un momento sugli
strumenti che Google mette a disposizione per superare la barriera linguistica nelle
ricerche.
47
48
Figura 4.2 Tra i vari servizi, in basso sulla destra, visibile Gruppi.
49
1.
2.
3.
50
Figura 4.3 Cerca marmellata in qualsiasi gruppo: significa che la ricerca avverr tra tutte le discussioni e
i relativi messaggi.
NOTA Utilizzando Google Gruppi possibile servirsi degli operatori di ricerca di base. Inoltre si pu
utilizzare loperatore: insubject:, che permette di ricercare un termine limitatamente alloggetto di un
messaggio (per esempio insubject:marmellata) che ha un valore semantico rilevante e quindi pu
essere un ottimo indicatore di pertinenza di un risultato rispetto a una query.
Si passa cos alla pagina dei risultati, che ricorda quella vista nel Capitolo 1: i
risultati sono per messaggi recuperati dai gruppi di discussione.
NOTA La maggior parte dei gruppi pubblica, quindi chiunque pu leggere e partecipare alle
discussioni. Laccesso ad altri gruppi invece subordinato a uniscrizione che pu avvenire solo su
invito di un moderatore (che spesso anche il creatore del gruppo). Esiste per anche una terza
forma di gruppo, a partecipazione semilibera, dove chiunque pu leggere e partecipare alle
discussioni, ma dove solo i moderatori possono dare il via a nuove discussioni.
51
1.
2.
3.
4.
5.
La query.
Per impostazione predefinita i risultati elencati sono ordinati per importanza;
tuttavia possibile procedere a un loro ordinamento per data di pubblicazione.
Per ogni risultato viene mostrato un breve estratto del testo del messaggio con
evidenziati in grassetto i termini della query.
Ogni risultato trovato corrisponde a un messaggio presente nel thread di una
discussione di cui vengono presentati il titolo, o meglio loggetto, e il gruppo a
cui appartiene.
Inoltre vengono mostrati lautore del messaggio, il numero dei messaggi che
compongono il thread e il numero di persone che vi hanno preso parte.
NOTA Il termine thread indica il filo di una discussione o meglio la sequenza dei messaggi scaturiti
da un medesimo oggetto. Un thread nasce da un messaggio originale a cui si accodano tutte le
risposte e i commenti allo stesso.
52
1.
2.
3.
4.
5.
6.
Il gruppo in cui la discussione ha avuto origine. (Un clic qui permette di accedere
alla pagina principale del gruppo dove sono elencate le ultime discussioni
ordinate per data.)
Loggetto della discussione, il numero di messaggi e di autori.
Lautore e la data di pubblicazione del messaggio.
Il pulsante per ritornare alla pagina dei risultati.
possibile sia di svolgere una nuova ricerca in tutti i gruppi, sia effettuare una
ricerca nel gruppo specifico.
Un clic su questo piccolo triangolo rovesciato apre un pannello per la ricerca
avanzata.
53
Figura 4.6 Vista sintetica di una discussione. Per ogni post sono visibili solo lautore, linizio del messaggio
e la data.
VALUTARE LA CREDIBILIT DI UN AUTORE
Nei gruppi di discussione, come spesso sul Web, vige lanonimato. Gli utenti solo raramente scrivono
messaggi firmandoli con il proprio nome reale. Il nickname, o soprannome, la regola. A priori non
quindi possibile valutare la credibilit o seriet dellautore di un post, e il semplice fatto che un
messaggio sia pubblicato in Google Gruppi o in altro gruppo di discussione non ne garantisce la qualit e
attendibilit. Per ovviare parzialmente a questo problema possibile utilizzare il link Mostra attivit che
compare con un clic sul pulsante caratterizzato da un piccolo triangolo rovesciato (Figura 4.7) presente
allaltezza dellautore, sulla destra, dopo la data del messaggio. Da qui possibile farsi unidea
dellintensit e del tipo di partecipazione ai gruppi e dei gruppi di interesse: un utente attivo da molto
tempo su vari gruppi coerenti per tematiche, che si esprime sempre in maniera chiara ed educata
evitando il pi possibile polemiche o scontri verbali, dimostra un atteggiamento costruttivo e i suoi
54
contributi possono essere tenuti in maggiore considerazione rispetto, per esempio, a un utente che
partecipa sporadicamente alle discussioni e frequenta gruppi molto differenti lanciando provocazioni e
alimentando scontri.
55
1.
2.
3.
Un messaggio pu essere indicato come speciale con un clic sulla stella bianca
presente a fianco.
I messaggi speciali sono catalogati e recuperabili in unapposita sezione.
Rispondere a un messaggio lattivit base in una discussione e per questo non
mancano strumenti che permettono di farlo con facilit. La risposta diventer
parte del thread e visibile a tutti.
Figura 4.8 Nella pagina principale di un gruppo sono presenti i pulsanti NUOVO ARGOMENTO (per creare
una nuova discussione) e Unisciti al gruppo (per iscriversi).
NOTA Quando si crea una nuova discussione bisogna sempre ricordare di definire il tema
compilando con precisione il campo Oggetto: in questo modo crescono le possibilit che utenti
interessati vi prendano parte e di conseguenza di ottenere informazioni utili. Loggetto di una
discussione ne costituisce di fatto il titolo e viene mostrato a tutti gli utenti.
PER SAPERNE DI PI
Prima di concludere questa parte bisogna accennare a it.faq, uno strumento prezioso per chi intende
utilizzare i gruppi in maniera sostenuta. Si tratta di un gruppo recuperabile dalla directory it. (o ancora pi
velocemente digitando it.faq nel campo di ricerca).
56
FAQ, lacronimo di Frequently Asked Questions , cio domande poste frequentemente. Questo
gruppo raccoglie le principali perplessit, le domande e le problematiche con cui necessario
confrontarsi quando si lavora sui gruppi di discussione. Molte discussioni hanno in realt un solo autore
e si compongono di un unico messaggio che altro non se non un piccolo manuale.
Degne di nota sono per esempio le discussioni: Istruzioni per la creazione di gruppi della gerarchia it, Il
concetto USENET di moderazione, Dizionario di Usenet e Galareteo di Emily Postnews.
57
Figura 4.9 Esempio di lettura da schermo attraverso Google Play per computer desktop: la pagina viene
corredata di strumenti (in grigio) che permettono di controllare sia lavanzamento, sia lallineamento e la
dimensione del testo. Non manca la possibilit di accedere allindice e soprattutto di effettuare ricerche nel
contenuto.
58
1.
2.
Il link Libri.
Laccesso diretto a Google Play.
59
3.
4.
5.
Ricercare libri
Linterfaccia e gli strumenti di ricerca di Google ormai dovrebbero essere familiari.
Anche quando veste i panni del libraio Google non stravolge il suo aspetto. Per
effettuare una ricerca sufficiente digitare la query nella casella di testo e premere il
pulsante Cerca nei libri.
NOTA Google effettua ricerche in tutti i volumi presenti nel suo archivio, considerando non solo il
testo in senso stretto, ma anche quello che appare in copertina, nel colophon, negli indici e cos
via.
Sfogliare un libro
Dopo aver lanciato la ricerca, viene mostrata la pagina dei risultati, simile nella
struttura a quanto gi visto in precedenza. Ogni risultato in questo caso un libro, di
cui vengono mostrati il titolo, lautore, lanno di edizione ed eventualmente qualche
60
riga di una pagina pertinente alla query. La presenza delletichetta Anteprima indica
che possibile visionare e quindi leggere una piccola percentuale del libro. Si tratta
di un numero di pagine limitato ma di solito coerente con la ricerca.
Figura 4.11 Nei risultati delle ricerche in Google Libri possono anche essere presenti degli annunci
pubblicitari.
QUANTO POSSO LEGGERE?
Google permette di accedere a due grosse tipologie di testi: protetti o non protetti da copyright. Il
copyright influenza il comportamento di Google nella visualizzazione dei contenuti. Per comprendere
meglio questo aspetto necessario ricordare che i canali da cui Google attinge per rifornire il suo
archivio sono due: biblioteche ed editori. I testi forniti da biblioteche e non protetti da copyright, cio di
dominio pubblico, sono liberamente consultabili su Google dallinizio alla fine, e anche scaricabili
integralmente, in formato PDF, e quindi stampabili. I libri provenienti da biblioteche e protetti da copyright,
sono invece trattati con maggiore ristrettezza: di essi infatti sono visualizzabili solo le informazioni
bibliografiche e alcune brevi frasi o frammenti in cui appaiono i termini della query. Nel caso di testi forniti
da editori, le possibilit di accesso sono ancora diverse. Normalmente viene mostrato un numero
limitato di pagine, quelle che risultano pertinenti alla query e alcune pagine a esse attigue. Questo per
poter valutare se il libro interessante e quindi decidere se acquistarlo.
61
1.
2.
3.
4.
5.
6.
SCARICARE UN LIBRO
Se si accede a un testo non protetto da copyright insieme agli strumenti di navigazione appena visti
sono presenti strumenti per ritagliare e salvare porzioni di testo e soprattutto per scaricare lintera opera
62
Figura 4.12 I testi non protetti da copyright possono essere letti e utilizzati senza particolari limitazioni.
63
Uno degli aspetti pi affascinanti di Google Maps la facilit e la velocit con cui
possibile muoversi ed esplorare le mappe che sono sia il contenuto sia il tema
dominante del servizio. Gli strumenti per esplorarle sono ottimizzati in loro funzione.
1.
2.
3.
4.
Il campo di ricerca: passandoci sopra con il puntatore del mouse sia apre un
pannello con gli strumenti per ottenere indicazioni stradali e creare itinerari.
Un clic qui apre una galleria di immagini che permette di effettuare visite virtuali
ai luoghi di maggior interesse della mappa visualizzata.
Le mappe possono essere visualizzate in due modalit attivabili attraverso questo
pannello: Mappa la classica cartina stradale (in alcune citt anche arricchita
da indicazioni sui sensi unici). Satellite mostra invece limmagine satellitare
dellarea selezionata a cui vengono sovrapposte le indicazioni stradali.
Gli strumenti per zoomare sulla mappa.
64
NOTA possibile scorrere la mappa oltre larea visualizzata muovendo il mouse tenendo il tasto
premuto. Sempre con il mouse, con un semplice scroll, possibile zoomare.
Consultare le mappe
Come per gli altri servizi di Google, per prima cosa necessario digitare una query,
che in questo caso non altro che un indirizzo. Pu trattarsi del solo nome di una
nazione (Italia, Spagna, Olanda...), di una citt (Santiago di Compostela, San
Francisco, Amsterdam...) o del classico indirizzo postale: via, numero civico, citt,
nazione. anche possibile ricercare determinate attivit (hotel, ristoranti, cinema...)
digitandole nella query insieme allindirizzo (per esempio pub viale abruzzi 33,
milano).
1.
2.
3.
4.
5.
NOTA Non tutte le mappe offrono lo stesso dettaglio e la stessa profondit di informazioni. Europa,
Nord America, Australia, Giappone, insieme ad alcune localit dellAsia e del Sud America sono
meglio documentate. Le mappe dei paesi in via di sviluppo sono a volte meno precise, ma il servizio
viene costantemente arricchito.
65
Tra le funzioni di Google Maps una delle pi interessanti senza dubbio Il calcolo
degli itinerari. Basta indicare un indirizzo e questa possibilit viene subito proposta.
Con un clic sul link Indicazioni stradali possibile digitare un secondo indirizzo e
quindi ottenere diverse soluzioni per litinerario.
66
1.
2.
3.
4.
5.
6.
NOTA In alcune aree metropolitane, alla possibilit di tracciare itinerari Google affianca un servizio
per monitorare il traffico in tempo reale. In questo modo la valutazione dei tempi di percorrenza pu
essere pi precisa. Il livello di congestione delle strade evidenziato attraverso una scala colorata
che va dal verde al rosso (Figura 4.17).
67
68
Per entrare in una mappa basta un clic in un punto qualsiasi: Google ne fornisce
lindirizzo e se disponibile mostra laccesso a Street View (Figura 4.18).
Figura 4.18 Il puntatore rosso indica la ricerca effettuata (Piazza del Duomo a Milano), ma con un clic
poco sopra, sotto il campo di ricerca si apre un pannello con un nuovo indirizzo (in questo caso la Galleria
Vittorio Emanuele II) e laccesso a Street View.
1.
2.
3.
69
4.
5.
6.
Non mancano gli strumenti per zoomare avanti e indietro senza spostarsi dalla
posizione raggiunta.
Inoltre possibile ruotare la vista di 360.
Infine possono essere subito accessibili delle gallerie di immagini e video che
permettono di arricchire lesperienza di Street View.
NOTA Le strade possono essere percorse avanti e indietro a passi di circa 20 metri.
NOTA possibile esplorare la vista anche con la tastiera: i tasti con le frecce consentono la
rotazione, quelli con le frecce lo spostamento avanti e indietro. La rotazione in senso orizzontale
(verso destra e sinistra) o verticale (verso lalto e il basso) anche possibile semplicemente
muovendo il mouse tenendo il tasto premuto. Sempre muovendo il mouse (questa volta senza
premere alcun tasto) alcune aree possono evidenziarsi con un riquadro trasparente: un clic e ci si
avvicina per osservarne meglio i dettagli.
QUALI SONO LE FONTI DI STREET VIEW?
Per creare Street View Google ha percorso con speciali automobili dotate di fotocamere (Figura 4.19)
tutte le strade oggi cos consultabili. Ogni porzione di strada stata fotografata da diverse angolazioni. Il
materiale raccolto stato quindi lavorato per oscurare il viso di ignari passanti nel rispetto della loro
privacy e infine archiviato in modo da ricostruire gli itinerari percorsi. Il servizio non offre quindi viste in
tempo reale, ma risalenti al momento del passaggio di Google.
70
Figura 4.19 Una macchina di Google al lavoro per Street View. (Fonte: ollografik
http://www.flickr.com/photos/ollografik/ licenza Creative Commons BY-ND
http://creativecommons.org/licenses/by-nd/2.0/.)
Figura 4.20 Su iPhone la posizione attuale viene indicata con un segnaposto blu intorno a cui possibile
effettuare ricerche: i risultati sono posizionati sulla mappa distinti da segnaposti di colore rosso.
71
Dallaltra parte in alcuni casi potrebbero essere indicate attivit che hanno cessato lesercizio. Tutto
quello che viene mostrato recuperato da siti web o da cataloghi digitalizzati il cui aggiornamento non
sempre immediato.
1.
2.
3.
4.
72
5.
6.
7.
Per tradurre unintera pagina web basta incollare il relativo URL nel campo della
lingua originale e, una volta impostata la lingua di destinazione, fare clic su Traduci. I
risultati saranno analoghi a quanto visibile nella Figura 4.23, mentre la Figura 4.24
mostra la versione originale della pagina tradotta.
Figura 4.22 Google si prepara a tradurre unintera pagina web dallitaliano allinglese.
73
Figura 4.23 La traduzione di unintera pagina web. In alto a destra in evidenza i pulsanti Traduzione e
Originale per passare velocemente da una allaltra.
Figura 4.24 La pagina originale: confrontandola con la traduzione ci si rende conto che, sebbene non
manchino incertezze e imprecisioni, Google ha permesso di avvicinarsi al significato del suo contenuto in
unaltra lingua.
74
Capitolo 5
Dimmi chi
Navigando in Rete capita di trovare siti dei quali si vorrebbe sapere di pi. Chi li ha
creati? Di chi il dominio? Chi li gestisce? In questo breve capitolo vedremo come
trovare queste informazioni anche quando non sono pubblicate nel sito di interesse.
Capita molto spesso di connettersi alla Rete con lidea di cercare e visitare un
determinato sito ma di finire da tuttaltra parte. La struttura reticolare del Web, la
potenza dei motori di ricerca, la facilit di andare altrove con un solo clic su un link,
rendono imprevedibile e unica ogni sessione di navigazione.
Alcune volte si scoprono pagine o siti particolarmente interessanti e si vorrebbe
sapere di pi su chi li ha creati e amministra. Alcuni siti hanno una sezione Contatti o
Chi siamo, ma non sempre qui sono presenti le informazioni desiderate. Se non ci si
vuole rassegnare, possibile provare a utilizzare i servizi Whois.
Whois?
Who is in inglese significa chi e non difficile immaginare cosa facciano
questi servizi: dato un URL forniscono diverse informazioni su di esso tra cui il
cosiddetto registrant (registrante), cio la persona o la societ che ha registrato il
dominio, ma non solo.
La struttura transnazionale del Web non significa che esso per svilupparsi non abbia
bisogno di strumenti o organi di controllo. Esistono quindi degli archivi di tutti i
domini registrati a cui bisogna fare riferimento quando si decide di aprire un nuovo
sito.
NOTA Abbiamo visto il concetto di dominio nel Capitolo 2.
Un
elenco
dei
domini
di
primo
livello
esistenti
allindirizzo
Figura 5.1 Mappa dei Registri Internet Regionali. (Fonte: Wikimedia Commons http://bit.ly/dYBY0z
licenza Creative Commons BY-SA 3.0 http://creativecommons.org/licenses/by-sa/3.0/.)
77
Nel caso in cui il Whois del RIR non fosse disponibile o in grado di fornire le
informazioni desiderate possibile ripetere la ricerca circoscrivendola per al
dominio di primo livello di interesse. Per esempio, non potendo fare riferimento al
Whois del RIPE, per un dominio .it si potrebbe eseguire la query whois it. I risultati in
questo caso saranno servizi Whois che operano nel dominio italiano (Figura 5.3).
Tabella 5.1 I servizi Whois dei cinque RIR.
RIR
Indirizzo
AfriNIC
http://www.afrinic.net/en/services/whois-query
APNIC
http://wq.apnic.net/apnic-bin/whois.pl
ARIN
http://whois.arin.net/ui
LACNIC
http://lacnic.net/cgi-bin/lacnic/whois
RIPE NCC
http://www.db.ripe.net/whois
78
Figura 5.4 Il servizio Whois disponibile sul provider TOPHOST (http://www.tophost.it) permette di
controllare la disponibilit di un dominio e di conoscere, se gi registrato, i dettagli dellintestatario.
79
Figura 5.5 Un esempio di test CAPTCHA: le lettere che compongono reffiese e le cifre di 225 sono
scritte in maniera non allineata, distorte e sfocate ma sono ancora comprensibili per un essere umano.
NOTA Il presupposto di questi test, noti come CAPTCHA (acronimo di Completely Automated
Public Turing test to tell Computers and Humans Apart), che solo un uomo sia in grado di decifrare
il codice, non esistendo ancora software capaci di distinguere i caratteri distorti dal resto
dellimmagine.
Se tutto viene fatto nella maniera corretta si accede una pagina che presenta le
informazioni recuperate sul dominio.
NOTA Sebbene il funzionamento dei vari servizi Whois sia pi o meno simile, non tutti sono sempre
in grado di mostrare le informazioni effettivamente archiviate e reperibili per un sito. In questi casi,
prima di abbandonare la ricerca, vale la pena ripeterla su Whois alternativi. Per esempio, se il Whois
di un RIR non soddisfa le esigenze, si pu passare a uno specifico Whois geografico, oppure al
Whois di un provider che fornisce servizi per il dominio di interesse: spesso sono proprio questi
ultimi ad avere i Whois pi efficienti. Per trovare il Whois di un provider basta una query con Google
come whois provider dominio-di-primo-livello.
80
1.
2.
3.
4.
5.
81
WHOIS MULTIDOMINIO
Prima di concludere vale la pena ricordare che esistono anche servizi Whois multidominio. In pratica
sufficiente digitare una volta sola un dominio di secondo livello per accedere con velocit alle
informazioni relative alle registrazioni per una selezione di domini di primo livello. Il punto debole di questi
servizi che lavorando su un ampio spettro di domini hanno un grado di complessit maggiore e per
questo non sono esenti da errori. In ogni caso pu essere utile dargli unocchiata.
82
Capitolo 6
Figura 6.1 Un esempio di errore 404: un documento richiesto non stato trovato.
NOTA Il codice 404 descrive nel Web la particolare situazione in cui un computer server non in
grado di recuperare un documento che gli viene richiesto.
83
Internet Archive
Internet Archive un progetto no-profit nato con lambizioso scopo di creare una
biblioteca di Internet liberamente accessibile e consultabile da chiunque.
Fondata nel 1996 a San Francisco (California), oggi Internet Archive vanta una
collezione di contenuti digitali in forma testuale, audio e video, ma la parte del leone
costituita da un archivio di oltre 350 miliardi di pagine web.
Figura 6.2 Dettaglio della pagina principale di Internet Archive. In evidenza il numero di pagine archiviate,
oltre 350 miliardi nel momento in cui sono scritte queste righe.
Lidea del suo fondatore, Brewster Kahle, era quella di creare una biblioteca per
contenuti digitali.
La convinzione che malgrado le biblioteche avessero da sempre avuto un ruolo
determinante nel tramandare i prodotti culturali della societ un gran numero di testi
e contenuti fossero andati persi nel corso dei secoli, unita alla consapevolezza che gi
con i media del XX secolo (radio e televisione) luomo non fosse riuscito a creare un
84
85
Come funziona
Alla base del funzionamenti del Wayback Machine c un metodico lavoro svolto da
programmi noti come spider o crawler. Questi software sono programmati per
esplorare il Web in maniera automatica salvando e archiviando copie delle pagine che
visitano. A essere archiviate sono solo le pagine web pubbliche.
La pagine o i siti che richiedono un accesso con password, che sono pubblicate su
server protetti o di cui gli autori hanno richiesto esplicitamente la non archiviazione,
non sono presenti su Internet Archive.
Dal momento della visita di un crawler al momento in cui una pagina appare nei
risultati del Wayback Machine possono passare dai 6 ai 24 mesi. In questo lasso di
tempo la pagina viene prima trasferita da un server periferico a un archivio centrale e
quindi esaminata e indicizzata.
Il passaggio dei crawler non avviene a intervalli regolari: questo significa che
larchivio non completo in quanto tra una visita e laltra ci possono essere dei
cambiamenti non registrati. In ogni caso, indicativamente, pi un sito attivo e
aggiorna i suoi contenuti pi le visite dei crawler sono frequenti e ravvicinate nel
tempo.
UN PO DI NUMERI
Il servizio Wayback Machine stato lanciato nel 2001 e oggi lavora su un archivio di oltre 10 petabyte
(PB) di dati che cresce a un ritmo di circa 100 terabyte (TB) al mese. Per provare a capire la reale
dimensione di questi numeri basti pensare che 1 PB equivale a circa mille TB, 1 TB equivale a circa un
milione di megabyte (MB) e 1 MB a circa mille kilobyte (KB). Il documento visibile nella Figura 6.4 (in
pratica una cartella di testo in formato A4) pubblicato come pagina web pesa 8 KB.
86
Figura 6.4 8 KB di testo: il WayBack Machine consente laccesso a un archivio composto da qualcosa
come 1.374.389.534.720 documenti come questo.
La ricerca
Utilizzare la macchina del tempo facile: basta digitare lURL del sito o della
pagina di interesse nellapposito campo e fare clic sul pulsante Take Me Back,
letteralmente portami indietro (Figura 6.5).
87
Ci si trova in una pagina che tramite una timeline e dei calendari fornisce un
riepilogo delle versioni della pagina archiviate.
1.
2.
3.
4.
5.
6.
NOTA Non tutte le pagine in archivio sono effettivamente differenti. Tra un passaggio e laltro del
crawler un sito pu infatti non aver subto aggiornamenti.
Con un clic su uno dei giorni evidenziati nei calendari si accede alla relativa
pagina, capeggiata da una barra di navigazione.
88
1.
2.
3.
4.
5.
La barra di navigazione rende semplice sapere la data a cui risale la pagina che
si sta guardando.
Le frecce blu permettono di sfogliare larchivio delle pagine in avanti o indietro
rispetto al momento a cui si arrivati...
ma ancora pi semplicemente si pu scorrere con il mouse sullistogramma
per saltare avanti o indietro nel tempo.
In questo caso, mentre si posiziona il mouse, la data tra le frecce blu si aggiorna
per mostrare il momento su cui ci si sta soffermando. A questo punto basta un clic
per viaggiare nel tempo.
Un clic sulla X chiude la barra.
NOTA I link nei documenti archiviati sono di norma navigabili. interessante per sottolineare che
essi portano a versioni delle pagine indicizzate pi o meno nel periodo a cui risale la pagina che si
89
sta guardando. In pratica non solo possibile ricercare a ritroso ma anche navigare nel tempo.
QUANDO LE COSE NON FUNZIONANO
Come ricordato in precedenza, Internet Archive gestisce una massa di informazioni veramente
impressionante su cui deve svolgere e garantire una serie di attivit complesse ma necessarie al
funzionamento e alla consultazione dellarchivio. Non bisogna quindi stupirsi se a volte qualcosa non
funziona o se la pagina richiesta non immediatamente disponibile. In questi casi lutente potrebbe
trovarsi davanti a uno dei seguenti messaggi.
Data Retrieval Failure: qualche problema tecnico ha impedito il recupero delle pagine richieste.
Molte volte questi problemi si risolvono in breve tempo, a volte solo questione di minuti o
addirittura secondi.
Failed Connection: il server su cui sono depositate le pagine richieste non disponibile.
Generalmente questo problema viene risolto in un paio di settimane.
Robots.txt Query Exclusion: la pagina non presente perch il proprietario del sito ne ha
impedito lindicizzazione (in questo caso utilizzando un file robots.txt, cio un file pubblicato
insieme alle pagine di un sito per comunicare a spider e crawler di non procedere allanalisi).
Blocked Site Error: il proprietario del sito ha richiesto esplicitamente a Internet Archive di
escluderne le pagine dallarchivio del Wayback Machine.
Path Index Error: dei problemi nel database di Internet Archive impediscono la visualizzazione
delle pagine richieste. Questi problemi non possono essere sempre risolti in maniera tempestiva.
Not in Archive : le pagine non sono archiviate perch su di esse il proprietario ha applicato un
meccanismo di reindirizzamento automatico (noto come redirect) verso un altro URL che per
non mai stato visitato dagli spider di Internet Archive.
90
Capitolo 7
Nei capitoli precedenti abbiamo visto come reperire informazioni nel Web. Internet
per qualcosa di pi vasto e trascende quello che si pu trovare con un motore di
ricerca. La vastit della Rete, la sua rapida e inarrestabile crescita, la disponibilit
di computer e connessioni sempre pi potenti e veloci, permettono oggi di utilizzare
Internet come ambiente privilegiato di scambio e condivisione di file e contenuti di
ogni tipo: documenti di testo di vari formati e generi, libri digitali (ebook), software
applicativi e contenuti audio e video. Qualsiasi contenuto convertibile in un
formato digitale pu essere portato in Rete e quindi scambiato e condiviso. Questo
fenomeno noto come file sharing.
P2P
P2P lacronimo di Peer to Peer, letteralmente da pari a pari. Una rete P2P una
rete di computer dove non esiste un computer centrale che svolge il ruolo di server,
unico depositario di contenuti e a cui tutti gli altri computer devono necessariamente
91
fare riferimento per ottenere un certo file. In una rete P2P tutti i nodi, cio tutti i
computer che ne fanno parte, sono equivalenti tra loro.
92
93
Per gli esempi di questo capitolo faremo riferimento ad aMule, variante per Mac
OS X di eMule (http://www.emule.com/it/), forse uno dei pi noti software gratuiti per il
file sharing. Prima per necessario aprire una parentesi sul rapporto tra P2P e
legalit e sui formati di file che possono essere ricercati e condivisi.
P2P e legalit
Il fenomeno dello scambio di file si guadagnato molta attenzione mediatica a causa
delle frequenti violazioni del copyright.
La distribuzione e lutilizzo di materiale protetto da copyright senza le dovute
autorizzazioni sono illegali e possono essere puniti con sanzioni amministrative e
penali. La legislazione in materia, pur differente tra Stato e Stato, molto severa e
restrittiva, volta a tutelare il pi possibile i diritti dei detentori del copyright.
Non si fatica a comprendere come la diffusione della pratica del file sharing abbia
causato (e causi) reazioni violente, in particolare quando oggetto della violazione sono
contenuti propri dellindustria musicale, cinematografica ed editoriale.
Ci si potrebbe chiedere allora cosa si rischia, legalmente, installando un programma
P2P. La risposta : assolutamente nulla.
Il client di per s uno strumento che svolge un compito preciso: condividere,
ricercare e scaricare file. In questo non c niente di illegale.
Illegale invece condividere, ricercare e scaricare materiali protetti da copyright
senza averne i diritti.
Insomma, lo strumento neutro: nessuno pu impedire a chicchessia di svilupparne
uno, regalarlo e venderlo. E nessuno pu impedire a nessuno di averlo installato su un
computer per condividere materiale libero da diritti o di cui chi condivide detiene i
diritti. Si entra nellillegalit quando si viola il copyright.
Descrizione
Tipo
.3gp
Video
.aac
Audio
.aif .aiff
Formato per file audio sviluppato da Apple per i sistemi operativi Mac OS
X.
Audio
.avi
Audio e
video
.divx
Formato per file video che offre una qualit dellimmagine elevata pur
mantenendo contenute le dimensioni.
Video
.doc .docx
Testo
.epub
Ebook
.exe
Eseguibile
.gif
Immagine
.iso
Copia di CD
e DVD
.jpg, .jpeg
Immagine
.m4a
Audio
.mobi
Ebook
.mp3
Formati per file audio tra i pi diffusi e compatibile con la maggior parte dei
Audio
sistemi e delle piattaforme in commercio.
.mpg, .mpeg
Formato per file video che offre un ottimo rapporto tra qualit e dimensioni. Video
95
Testo e
immagini
.png
Immagine
.rar
Compresso
.rtf
Testo
.tgz, .tar,
.gz
Compresso
.tiff
Immagine
.txt
Testo
.wma
Formato per file audio proprio dei sistemi operativi Microsoft Windows.
Audio
.wmv
Formato per file video proprio dei sistemi operativi Microsoft Windows.
Video
.xls, .xlsx
Fogli di
calcolo
.zip
Compresso
NOTA Contenuti audio e video sono raramente distribuiti in formati compressi, quindi meglio fare
attenzione a file il cui nome suggerirebbe essere di questo tipo ma con lestensione di un file
compresso o comunque non corrispondente a quella del tipo di file che si sta cercando.
Controllare la connessione
Per poter cercare e trovare nelle reti P2P fondamentale avervi accesso, in entrata
come in uscita, ovvero in download e in upload. La semplice connessione alla rete
Internet, magari appena utilizzata per scaricare il software per il file sharing tramite
browser, da sola non garantisce laccesso alle reti P2P.
Su un computer, ogni programma che accede alla Rete (il browser, il client di posta
elettronica o di messaggistica istantanea e cos via) lo fa sfruttando una specifica porta
di rete attraverso cui trasferisce e riceve dati.
NOTA Un elenco delle porte pi utilizzate e dei relativi programmi disponibile presso
http://it.wikipedia.org/wiki/Lista_di_porte_standard.
96
Qui basti sapere che le porte sono connotate da un numero e possono essere di tipo
TCP e UDP. Se il programma P2P non riesce ad accedere alla rete per svolgere
ricerche o scaricare file, potrebbe essere necessario verificare se le porte a esso
dedicate sono aperte, e in caso negativo attivarle o specificarne di alternative. Alcuni
programmi permettono al primo avvio di testare la funzionalit delle porte e segnalano
eventuali problemi e possibili soluzioni, altri sono in grado di individuare
automaticamente delle porte aperte e utilizzabili. In alternativa le porte possono essere
gestire nel pannello delle impostazioni o preferenze del software.
Figura 7.3 In aMule, selezionando Preferenze dalla barra degli strumenti possibile accedere alla scheda
Connessione da cui configurare le porte TCP e UDP: 4662 e 4672 sono i valori predefiniti.
NOTA Non possibile fornire qui i dettagli di configurazione delle porte nei vari software P2P, ma in
caso di problemi non bisogna allarmarsi: Google pu venire in aiuto e una query come
nome_software porte pu trovare velocemente la soluzione al problema (Figura 7.4).
97
Figura 7.4 Google si dimostra un valido alleato anche per risolvere i problemi di connessione dei software
P2P.
QUANDO IL PROBLEMA IL FIREWALL
Alcuni computer sono dotati di firewall cio programmi il cui scopo quello di bloccare intrusioni non
autorizzate che potrebbero impedire la navigazione nelle reti di file sharing, interpretando il traffico di
dati in uscita o in ingresso come un tentativo di intrusione illegale e pericoloso. In questi casi quindi
necessario configurare il firewall autorizzando il software P2P. La procedura non complicata ma varia
da firewall a firewall: a volte comunque lo stesso firewall a rilevare e segnalare la presunta violazione,
proponendo allutente di autorizzare o meno il software interpretato come minaccioso.
Scaricare i server
Abbiamo detto prima che le reti P2P sono basate su unarchitettura decentralizzata e
priva di server. Questo per non del tutto vero. Per esempio, se si utilizza aMule (o
eMule) al primo avvio viene chiesto di scaricare una lista di server. necessario
procedere in questo senso (con un clic su S nella Figura 7.5): questi server non sono
archivi di materiale, ma sono fondamentali per consentire la comunicazione tra i vari
computer connessi e instradare correttamente le richieste e linvio o la ricezione di
file. In pratica sono una sorta di mappa stradale o sistema di segnaletica che permette
alle macchine di orientarsi tra i nodi della rete.
98
99
Figura 7.6 Selezionando Reti dalla barra degli strumenti di aMule possibile accedere ai pannelli di
configurazione delle reti Kademlia ed eDonkey (qui visualizzato con la lista dei server e lo stato della
connessione).
NOTA Se si ritorna alla Figura 7.3 si noter come in aMule, nella sezione Reti della scheda
Connessione, sia possibile scegliere se utilizzare entrambe le reti Kademlia ed eDonkey, oppure
una sola delle due. Per fare questo basta togliere il relativo segno di spunta. Di solito non occorre
per intervenire in questo senso, in quanto accedere a due reti contemporaneamente non fa che
accrescere le possibilit di recuperare il file ricercato. Inoltre, in caso di problemi di connessione alla
rete eDonkey, possibile provare un nuovo server selezionandolo dalla lista visibile nella Figura
7.6. A volte un server non attivo e quindi necessario utilizzarne uno alternativo. Nella scelta
sempre preferibile optare per server il cui nome indica chiaramente il software eMule o la rete
eDonkey (per esempio eMule Security No1) e, ancora meglio, sceglierne uno con un alto numero di
computer collegati e un basso valore di ping (lindicatore della velocit di risposta del server): questi
valori sono indicati nelle colonne Utenti e Ping (un clic sullintestazione di una colonna permette di
ordinare di conseguenza tutta la lista dei server). La lista dei server pu essere aggiornata con un
clic sulla piccola freccia azzurra visibile sopra la lista stessa, in alto a sinistra. In maniera analoga
pu essere aggiornata la lista dei nodi della rete Kademlia.
100
Figura 7.7 Pannello di gestione della rete Kad in aMule: basta un clic per aggiornare la lista dei nodi attivi
ed effettuare ricerche in maniera pi efficace.
Controllare la condivisione
Prima di cominciare a navigare per le reti P2P necessario controllare le opzioni di
condivisione. Per funzionare, un programma per il file sharing deve dedicare una
cartella del computer ai file da condividere e una ai file scaricati. La seconda di
solito creata automaticamente al momento dellinstallazione del software, mentre la
prima deve essere scelta dallutente facendo attenzione a non includere al suo interno
file o cartelle contenenti materiale che non si desidera condividere: il contenuto di
questa cartella sar infatti ricercabile e scaricabile da tutta la rete P2P.
NOTA Esiste anche una cartella dedicata ai file il cui download in corso ma non ancora terminato.
Se per esempio il download viene interrotto a causa di una perdita di connessione, dello
spegnimento improvviso del computer su cui si sta scaricando il file o dello scollegamento dalla rete
P2P del nodo da cui si sta prelevando il file, la porzione scaricata rimane disponibile in questa
cartella e da qui possibile ripartire in un secondo momento per terminare il download.
101
Figura 7.8 Preferenze di condivisione in aMule: la posizione della cartella dedicata ai file scaricati, in alto; la
cartella che ospita i file in fase di download, al centro; la scelta delle cartelle del computer condivise, in
basso.
NOTA Le reti P2P crescono grazie al numero di file condivisi, e pi persone condividono lo stesso
file, pi il suo reperimento e download da parte di altri utenti diventa semplice e veloce. Per questo
molti programmi per il file sharing condividono automaticamente tutti i file scaricati. Inoltre, in alcune
reti tutti i computer connessi sono identificati per valutarne la quantit di materiale condiviso. Nelle
reti eDonkey chi condivide di pi pu ridurre i tempi di attesa nelle code, mentre nelle reti BitTorrent
chi condivide poco, oltre a essere svantaggiato nella ricezione dei file dai seed, pu anche essere
escluso dai server tracker.
Ricercare file
Una volta configurato il software, per ricercare contenuti nelle reti P2P bisogna per
prima cosa connettersi.
102
1.
2.
3.
4.
5.
Nella barra degli strumenti un clic su Connetti collega il computer alle reti P2P
scelte.
Quindi possibile passare a Ricerca.
Sempre nella barra degli strumenti presente laccesso alla finestra Reti (che
abbiamo visto nella Figura 7.6 e nella Figura 7.7)...
alla finestra Preferenze (che abbiamo visto nella Figura 7.3 e nella Figura
7.8)...
e alla finestra File condivisi, che permette di controllare i file che si stanno
condividendo.
Da un punto di vista operativo la ricerche nelle reti P2P sono simili a quelle che si
possono svolgere sul Web con un motore di ricerca (Figura 7.9): tutto ruota intorno a
una casella di testo per specificare una query, a un pulsante di conferma e a un elenco
di risultati restituiti da cui selezionare quelli interessanti.
Figura 7.9 In aMule la finestra per le ricerche si divide in una sezione superiore, per definire ed eseguire la
query, e in una sezione inferiore che elenca i risultati.
Inoltre sono di solito disponibili strumenti per la ricerca avanzata o comunque per
circoscrivere la ricerca ad ambiti specifici.
103
1.
2.
3.
4.
5.
6.
7.
8.
Nel campo Nome di aMule vanno specificati i termini della query (un artista, il
titolo di un libro, film o canzone, il nome di un software e cos via).
Tipo permette di definire la tipologia della ricerca. Maggiori risultati si
ottengono con una ricerca Globale, ma i risultati di qualit migliore si hanno con
una ricerca di tipo Kad.
Parametri avanzati permette di accedere alle funzionalit di ricerca avanzata.
Il menu Tipo file consente di indicare la tipologia di file che si vuole ricercare.
In Estensione si pu invece indicare lestensione del formato di file che si vuole
ricercare (si veda la Tabella 7.1).
In alcuni casi pu anche essere interessante indicare la dimensione minima e
soprattutto massima del file da ricercare.
Azzera campi azzera tutti i parametri indicati semplificando cos limpostazione
di una nuova query completamente diversa.
Con un clic su Inizia si esegue la ricerca.
NOTA Questo campo andrebbe sempre compilato, anche quando si interessati a svolgere
ricerche per altri parametri. In questi casi, un piccolo trucco consiste nel compilare questo campo
con un punto (.): questo carattere infatti presente almeno una volta nel nome di ogni file, come
separatore del nome vero e proprio dallestensione.
NOTA Le tipologie possibili sono: Archivi (si tratta di file in un formato compresso), Audio (file
musicali), Immagini CD (file ISO), Immagini (file grafici, immagini o fotografie), Programmi (software
e applicazioni), Testi (documenti o libri), Video (filmati).
NOTA Questo pu essere utile in particolar modo quando si ha a disposizione una connessione
lenta attraverso la quale il download di file di grosse dimensioni pu durare ore.
Dopo aver fatto clic su Inizia comincia la ricerca vera e propria. I risultati vengono
visualizzati via via che vengono individuati; come facile intuire, si tratta di file
104
presenti nella rete P2P e coerenti con i parametri indicati (per esempio la tipologia,
lestensione o i termini che devono essere presenti nel nome del file).
Le ricerche possono durare da pochi secondi a qualche minuto (dipende dal tipo di
connessione a disposizione modem, DSL, fibra ottica e dal tipo di ricerca
impostata). Non per necessario aspettare la conclusione di una per eseguirne
unaltra, ed sempre possibile passare da una ricerca allaltra per monitorarne gli
sviluppi.
Figura 7.10 Nella sezione dei risultati sono visibili due ricerche (ricette e promessi sposi): basta un clic
sul pulsante che le rappresenta per vedere lelenco dei file individuati (110 e 49).
NOTA Per chiudere in un colpo solo tutte le ricerche attive basta un clic sul pulsante Pulisci. Per
chiuderne solo una bisogna posizionare il puntatore del mouse sopra il relativo pulsante, per
esempio, facendo riferimento alla Figura 7.19, ricette (110) o promessi sposi (49), fare clic con il
tasto destro del mouse e quindi selezionare Chiudi scheda.
105
1.
2.
3.
4.
Per prima cosa in Nome file viene presentato il nome del file completo
dellestensione: si tratta di un indicatore importante per capire se si tratta
esattamente del contenuto ricercato.
Dimensione indica la dimensione del file.
Fonti indica il numero di nodi, cio computer, su cui il file presente. Il numero
tra parentesi indica le fonti complete, cio i nodi che hanno il file completo.
Tipo indica la tipologia del file.
NOTA Con un po di esperienza possibile valutare la qualit di un file in base alla sua dimensione.
Per esempio, un file video dovrebbe avere una dimensione nellordine di centinaia di MB, mentre un
file audio nellordine di unit o decine di MB.
NOTA Questo un indicatore importante per valutare il tempo necessario per un download che,
come abbia gi ricordato, non avviene da un unico computer ma contemporaneamente da tutti quelli
che condividono un file (o parti di esso): la disponibilit di un file completo su pi computer quindi
indice di maggiore velocit di download e minori tempi di attesa.
Inoltre aMule utilizza una serie di colori per aiutare lutente a orientarsi tra i
risultati.
Lazzurro indica i file disponibili su un alto numero di nodi.
Il blu indica i file disponibili su un buon numero di nodi, inferiore comunque ai
file con colore azzurro.
Il nero indica i file disponibili su un basso numero di nodi.
Il rosso indica i file scaricati o in fase di download.
Il verde indica i file scaricati in passato ma che non risultano nella cartella dei
download.
106
Scaricare un file
Individuato in file interessante, per scaricarlo sufficiente un doppio clic: come
appena detto il file si colorer di rosso.
A questo punto, dalla barra degli strumenti possibile selezionare Download per
aprire la finestra che permette di monitorare lo stato e landamento di tutti i
trasferimenti.
107
NOTA Non necessario aspettare di aver terminato un download per attivarne un altro. Le
operazioni di trasferimento, oltre al tempo necessario a terminarle, non hanno bisogno di particolare
attenzione, e mentre si in attesa possibile svolgere una nuova ricerca e quindi attivare nuovi
download.
Ancora una volta i file sono organizzati in una struttura tabellare che pu essere
ordinata con un clic sullintestazione delle colonne. Per ogni file viene ricordato il
nome, la dimensione, la quantit di dati gi scaricata, la velocit di download, il
numero di fonti da cui si sta scaricando, la priorit, lo stato e il tempo stimato per
terminare loperazione.
LE ATTESE
Un file pu trovarsi in diversi stati, ma uno merita un po pi di attenzione: In attesa. Questo capita sia
nel caso in cui, per qualche ragione tecnica, il collegamento ai nodi su cui il file presente non sia
possibile, sia quando sui computer che ospitano il file si formata una coda di richieste (per capire
meglio il problema, un clic sul nome del file apre lelenco delle fonti da cui si sta cercando di prelevare il
file e ne dettaglia lo stato). In questi casi non resta altro da fare che aspettare: cancellare il download e
rilanciarlo in un secondo momento possibile, ma non sempre utile. I programmi di file sharing sono di
solito in grado di archiviare i file incompleti e di tenere aperti processi di download per lunghi periodi. In
pratica tutti i download incompleti o interrotti continueranno a ogni riavvio del computer nel momento in
cui ci si riconnette alla rete P2P.
Tra le varie informazioni della finestra Download la barra colorata del campo
Avanzamento merita unattenzione particolare in quanto permette di monitorare il
progresso del download con un veloce colpo docchio.
108
109
Capitolo 8
Nei primi capitoli abbiamo visto come usare Google e i suoi operatori di ricerca.
Facendo questo abbiamo introdotto il concetto di URL e pi volte siamo ritornati
sul concetto di query che abbiamo incontrato anche parlando delle reti P2P. In
questo capitolo riprendiamo tutto questo per illustrare una diversa prospettiva di
ricerca. Quello che vedremo un utilizzo originale degli strumenti fin qui
considerati, che per certi aspetti entra nellambito dellhacking.
Hacking un termine dal duplice significato. Il primo, negativo, ha a che fare con
reati, violazioni e illeciti informatici. Il secondo, quello originale, indica
genericamente luso dellimmaginazione e della creativit per arrivare a risultati non
previsti. In questo capitolo vedremo tecniche di hacking applicate alla ricerca su
Internet da questo punto di vista, indicando quando fermarsi per non entrare
nellillecito.
Hacking di URL
Come abbiamo accennato nel Capitolo 2, un URL a tutti gli effetti lindirizzo
univoco di una risorsa presente in Rete.
Nella pratica si tratta di una stringa di caratteri pi o meno articolata che un client
(per esempio un browser) pu inviare a un server (si veda lIntroduzione) per
richiedere laccesso e la visualizzazione di un documento.
In sintesi un URL una query espressa in una forma pi vicina alla macchina che
alluomo. Conoscerne le componenti significa quindi mettersi in condizione di
bypassare determinati strumenti di ricerca e di accesso alle informazioni, giungendo
a volte a risultati non previsti.
Anatomia di un URL
110
Protocollo
Specifica il protocollo di comunicazione da utilizzare per la richiesta e deve essere
seguito dai caratteri due punti, slash, slash (://). Nelluso dei browser, e quindi nel
Web, normalmente il protocollo HTTP, ma potrebbe anche essere HTTPS. Quando il
protocollo non viene specificato, i browser completano automaticamente lURL
utilizzando il protocollo HTTP. Ecco due esempi:
http://
https://
NOTA HTTPS (HyperText Transfer Protocol Secure) una variazione del protocollo HTTP
sviluppata per consentire comunicazioni protette e sicure tra client e server, quindi difficili da
intercettare da terze parti non autorizzate. Questo protocollo viene utilizzato, per esempio, sui
server che ospitano applicazioni di e-commerce e che quindi richiedono allutente di inserire dati
come i dettagli della carta di credito.
Server
Specifica a quale server effettuare la richiesta e normalmente costituito da un
nome di dominio che, come abbiamo ricordato nel Capitolo 2 e nel Capitolo 5,
permette di identificare in maniera univoca un sito o un computer in Rete.
Un nome di domino di norma lunione di un dominio di primo livello con un
dominio di secondo livello separati luno dallaltro con un punto (.). A destra
sempre espresso il dominio di primo livello. Ecco un esempio:
www.apogeoeditore.com/
Il nome di dominio dovrebbe infine sempre essere fatto seguire dal carattere slash
(/), anche se questo rigidamente necessario solo nel caso in cui lURL continui con i
dettagli del file richiesto.
111
File
Si tratta di una parte opzionale e se presente specifica in quale cartella del server
contenuto un dato file o una risorsa.
NOTA I server, come ogni computer, sono organizzati secondo la logica del filesystem. Un
filesystem uno spazio di memoria (normalmente una parte, se non tutto il disco fisso di un
computer) strutturato e predisposto per la conservazione di file e documenti. Nelle interfacce
grafiche dei sistemi operativi esso viene rappresentato attraverso la metafora della cartella, o folder
(Figura 8.1).
Figura 8.1 Ogni server strutturato secondo una gerarchia di cartelle e sottocartelle tra cui possibile
muoversi.
112
Query string
Anche questa parte opzionale e il suo scopo quello di passare, oltre alla
richiesta di un documento, dei parametri che il server utilizzer ed elaborer per
fornire il documento stesso.
Per comprendere limportanza di questi parametri necessario introdurre il
concetto di pagine web statiche e dinamiche.
PAGINE WEB STATICHE E DINAMICHE
Le pagine web statiche sono documenti che esistono in quanto tali e che il server non fa altro che
recuperare e restituire al client. Questi documenti sono immutabili e possono essere richiesti da una a
un numero indefinito di volte, ma non cambiano mai e sono posizionati in un punto fisso del server, in
una cartella raggiungibile attraverso un path.
Le pagine web dinamiche non esistono effettivamente sui server. Esse sono costruite di volta in volta in
base a dei parametri che vengono forniti al server attraverso la query string (traducibile come stringa di
interrogazione). Ricevuti questi parametri il server li utilizza per creare una pagina ad hoc, servita poi al
client.
Utilizzi di pagine dinamiche sono molto diffusi e frequenti. Un esempio tipico si trova in tutti i servizi di
webmail (come Hotmail, Gmail, Yahoo! e cos via). Quando un utente si registra per accedere alla
casella di posta elettronica, i parametri nome utente e password vengono passati al server che li elabora
in modo da restituire una pagina dove sono presenti solo i messaggi di quel dato utente. La stessa cosa
succede in tutti i siti dove richiesta una registrazione ma anche in siti di grosse dimensioni, come quelli
di librerie o prenotazione di voli aerei, dove prima di effettuare o meno un acquisto possibile effettuare
ricerche: in questi casi i parametri possono essere il titolo del libro o laeroporto e le date di partenza e
arrivo.
I parametri della query string servono quindi per la generazione delle pagine web
dinamiche e anche per essi prevista una specifica sintassi.
Per prima cosa la query string deve essere introdotta dal simbolo ?. Ogni parametro
deve quindi essere composto da una coppia di elementi costituita dal nome del
parametro e dal valore associato, (utilizzando il simbolo = per lassociazione). Infine
ogni parametro deve essere separato dal simbolo &. Per cui una query string cos
composta
?nome_parametro_A=valore_A&nome_parametro_B=valore_B
Possiamo vedere un esempio pratico di quanto fin qui illustrato nella Figura 8.2.
Figura 8.2 Nella barra degli indirizzi di un browser, un URL completato con una semplice query string (in
evidenza). Sul sito www.apogeoeditore.com, s (abbreviazione di search) il nome del parametro che
113
indica cosa ricercare; in questo caso il valore sono i termini fabio e brivio. Il risultato sar un elenco di
documenti o pagine web che contengono questi termini.
Manipolare un URL
A questo punto dovrebbe apparire chiaro che un URL, e di conseguenza la query che
rappresenta, pu essere modificato ed editato a mano direttamente nella barra degli
indirizzi del browser.In particolare, focalizzando lattenzione sulla parte che descrive
il path e la query string possibile ottenere risposte inaspettate e a volte non previste
da chi gestisce un sito o un server. Vediamo un paio di semplici esempi.
La Figura 8.3 mostra il dettaglio di una pagina catalogo in un sito di vendita di libri.
Come si nota il catalogo si compone di 12.000 risultati mostrati in pagine a gruppi di
20. Il sito permette per di controllare il numero di risultati per pagina fino a un
massimo di 80.
Figura 8.3 In questo sito possibile scegliere il numero di risultati per pagina da un minimo di 20 fino a un
massimo di 80.
114
A questo punto basta editare il valore di pageSize con un numero arbitrario per
ottenere una pagina dei risultati su misura.
Figura 8.4 Editando un solo parametro della query string possibile personalizzare il numero di risultati
per pagina, ora a 200.
NOTA Questo esempio ha come scopo la semplice personalizzazione dellesperienza di utilizzo di
un sito. Ogni query string diversa dallaltra e ogni sito prevede i parametri necessari al suo
funzionamento. Di norma lhacking delle query string prevede proprio lediting del valore di uno o pi
parametri. Nei casi pi estremi possibile in questo modo arrivare a prendere possesso di un intero
sito, sconfinando nellambito delle violazioni informatiche. Chi volesse saperne di pi pu
cominciare a eseguire con Google una ricerca come hack url exploit.
115
Figura 8.5 Un file PDF visualizzato in un browser. Nella barra degli indirizzi, in evidenza, il nome del file nel
path. La cartella che lo contiene si chiama pdf.
Figura 8.6 Editando il path lintero contenuto della cartella pdf elencato e accessibile. Non tutti i file
potrebbero essere linkati e quindi raggiungibili dalle normali pagine web del sito, ma in questo modo nulla
rischia di essere trascurato.
116
NOTA Nella Figura 8.6 si noti la dicitura Index of, la cui importanza apparir pi chiara a partire dal
prossimo paragrafo.
Google hacking
Per trovare per prima cosa fondamentale saper porre la domanda giusta nel modo
giusto. Gli operatori di Google, opportunamente combinati, permettono proprio di fare
questo (lo abbiamo visto nel Capitolo 2).
Ora ne approfondiremo le potenzialit. Un uso sapiente degli operatori di Google
unito alla conoscenza di base dei meccanismi che regolano la navigazione in Rete
permette a volte di ottenere risultati sorprendenti. Ma c di pi. Google in grado di
trovare anche documenti che in Rete non dovrebbero essere e che invece, per colpa
della leggerezza di alcuni utenti o gestori di siti web, ci sono.
Index of
La navigazione del Web avviene normalmente seguendo i collegamenti ipertestuali
tra pagine o conoscendo lindirizzo (URL) di un documento. Questo per non significa
che un documento presente in Rete non sia raggiungibile nel caso in cui non sia
linkato o il suo indirizzo non sia noto e condiviso. O meglio, questo vero per un
utente umano, ma non per Google, che nelle sue esplorazioni della Rete non si limitata
a seguire link, ma per ogni sito (e quindi per ogni server) scansiona e indicizza il
contenuto di tutte le cartelle e sottocartelle a cui ha accesso.
Ora, a seconda della configurazione definita dallamministratore di un sito, i
contenuti di alcune cartelle possono essere mostrati in forma di elenco in una pagina
(lo abbiamo visto poco fa, parlando dellhacking di un URL). Questa pagina ha di
norma un titolo standard che contiene la dicitura Index of. Spesso anche presente la
scritta Parent Directory (Figura 8.7).
117
Figura 8.7 Il titolo Index of in evidenza nella cornice del browser sopra lURL digitato nella barra degli
indirizzi e nel corpo della pagina. In basso a sinistra si noti la scritta Parent Directory.
La Figura 8.8 e la Figura 8.9 sono giusto un assaggio di quello che possibile
trovare in questo modo. Bisogna per ricordare che il semplice fatto di aver trovato
qualcosa non significa che sia possibile utilizzarlo: il rischio quello di commettere
un illecito.
118
Figura 8.8 Una pagina Index of contenente compiti di esame e relative soluzioni.
119
Figura 8.9 Una ricerca di Index of con cartelle personali: le immagini che Google mostra nella pagina dei
risultati sono indicative del tipo di contenuti che in questo modo possibile reperire.
120
1.
2.
3.
121
Figura 8.10 Basta un clic per eseguire con Google la query filetype:inc OR filetype:bak OR filetype:old
mysql_connect OR mysql_pconnect costruita attraverso una combinazione non comune degli operatori
filetype: e OR con lo scopo di individuare particolari file che contengono le credenziali di accesso a un sito.
Figura 8.11 La query eseguita in Google. La Figura 8.12 mostra uno dei risultati ottenuti.
122
Figura 8.12 Nel file individuato un occhio attento pu facilmente trovare il nome utente e la password per
accedere al sistema.
NOTA Ancora una volta importante ricordare che il fatto di poter recuperare informazioni come
queste non significa che sia lecito utilizzarle.
123
Figura 8.13 Non solo musica, video, programmi e giochi: nelle reti P2P sono presenti anche fatture...
124
125
Indice
127