Web crawler o Spider programma esplora World Wide Web

Motori di ricerca che appartengono alla categoria dei cataloghi, invece, rifiutano l’utilizzo degli spider e la ricerca indiscriminata delle pagine web nella Rete, preferendo indicizzare a mano ogni singolo sito che viene sottoposto all’attenzione della redazione. In pratica, i cataloghi web vengono preparati dai redattori del motore di ricerca che, dopo avere visionato le pagine Internet, danno un giudizio e le ordinano in un catalogo analitico, o directory. L’indice comprende pagine fatte registrare dai proprietari dei siti o pagine individuate dai robot (generalmente di proprietà di altri motori di ricerca). I cataloghi web sono ideali quando si cercano informazioni su un determinato argomento o settore. Lo svantaggio è che può succedere che i criteri di classificazione di un redattore siano diversi dai vostri e che, quindi, con la vostra query arriviate a siti poco interessanti. Il più conosciuto tra i motori di ricerca di tipo directory è senz’altro Yahoo! (www.yahoo.it): chi vuole segnalare il proprio sito sceglie la categoria in cui vuole essere inserito, scrive una breve descrizione e la sottopone alla redazione. Questa, se la approva, la inserisce nel database interno di Yahoo!, integrando i dati raccolti dallo spider che opera parallelamente a questa selezione (spider di proprietà di Google).

Aliweb, invece, (aliweb.com) cerca di fare a meno della ricerca automatica con i robot, facendo pesare tutto il lavoro di catalogazione sullo staff redazionale. Uno sforzo che non ha contribuito a estendere la popolarità di Aliweb, e neppure ad accrescere la qualità del servizio, da quello che si è potuto constatare. I cataloghi web, dunque, sono raccolte di informazioni sui siti, non sulle singole pagine di cui sono composti, suddivisi in categorie. Questa filosofia strutturale può essere preziosa per chi ha bisogno di cercare risorse relative a uno specifico argomento, ma abbastanza deficitaria quando si tratta di individuare al primo colpo un sito con le caratteristiche giuste.

INDICIZZARE
Quali sono i meccanismi di indicizzazione delle pagine web e di realizzazione di una query?

Il primo passo compiuto da un programma di information retrieval quando viene inserita una parola chiave, è compiere una ricerca all’interno del proprio archivio (l’URL server), da cui attinge le informazioni necessarie per generare in modalità run time (al volo) delle pagine in HTML dinamico. Il materiale indicizzato negli URL server proviene dal lavoro instancabile delle redazioni dei motori di ricerca oppure dalla raccolta di informazioni operata dagli spider. In questo caso è l’URL server che fornisce agli spider l’elenco di indirizzi con protocollo http che devono scandagliare e, quando non sono già state archiviate, indicizzare. Gli indirizzi di riferimento vengono inseriti direttamente dai responsabili dei siti che vogliono rendere visibili le proprie pagine web e quindi le segnalano ai motori di ricerca attraverso specifiche procedure.

Una volta indicizzata una pagina, il motore di ricerca provvede a effettuare una procedura di controllo automatico con scadenze più o meno regolari, in modo da mantenere viva e sempre operativa la disponibilità effettiva dei siti. La procedura di ricerca automatica da p arte degli spider non è priva di inconvenienti. Considerato il lavoro instancabile di cui si fanno portatori, è facile capire che da una parte può diventare eccessiva la mole di informazioni raccolta (spesso ridondante e non aggiornata in tempo reale) e all’altra che gli stessi crawler possono diventare una componente di rallentamento e intasamento delle attività della Rete (se diversi spider agiscono contemporaneamente su un URL, impegnando il server su cui si appoggia, il navigatore che si collega a quel sito si troverà di fronte a un cospicuo rallentamento nel caricamento delle pagine). Per non parlare della tutela della privacy. Per cercare di attenuare questi problemi, gli spider sono stati programmati in modo da raccogliere informazioni solo dalle pagine web localmente residenti sul loro server di riferimento, di proseguire nella ricerca solo attraverso i link documentati nelle home page dei siti e di utilizzare le preferenze dei navigatori (espresse attraverso il numero di volte con cui si collegano a determinate pagine) come una sorta di “steccati” con cui delimitare l’indicizzazione.

Per quanto riguarda la tutela della privacy, tutti gli spider devono attenersi al RES (Robots Exclusion Standard), una procedura che obbliga i crawler a leggere per prima cosa un file chiamato ROBOTS.TXT, creato dal webmaster del sito, che contiene i percorsi non accessibili dallo spider all’interno delle pagine. Un sito davvero interessante per approfondire la struttura degli spider (e magari imparare a crearne qualcuno) è webcrawler.com Tutte le pagine web raccolte dagli spider e inserite negli URL server vengono indicizzate e identificate grazie a un numero di riferimento. L’operazione, in realtà, è un po’ più complessa, in quanto i motori di ricerca sgretolano letteralmente le singole pagine web memorizzate suddividendo le parole di cui sono composte. Ogni parola, poi, finisce in un apposito archivio alfabetico, da cui potrà successivamente essere recuperata nel momento in cui viene inserita nel motore una keyword analoga per effettuare una ricerca.

Spider dei motori di ricerca arrivano al tuo sito:

tramite i link da altri siti
rilevanza precedente del tuo sito nella directory web del motore di ricerca
a causa della freschezza del tuo sito

I vantaggi di utilizzare un file di testo robots.txt:

Evita lo spreco di risorse del server
Impedire crawler web l’accesso a pagine che non vogliono essere indicizzati, come pagine di login
Evitare che i motori di ricerca dalle pagine di indicizzazione che sono ancora in costruzione

Il recupero della singola parola permetterà di ricostruire “al volo” l’intera pagina HTML a cui si riferisce, raccogliendo ogni singolo termine dall’archivio che abbia come identificativo il numero di riferimento del sito da cui era stato estrapolato. Naturalmente, dato che nella maschera di ricerca di un motore può essere inserita più di una parola chiave, il programma attribuirà un valore ai singoli termini (superiore per il primo e via via meno importante per i successivi) e quando andrà a ricostruire le pagine web partendo dalle parole indicizzate nei propri archivi farà in modo di stabilire delle priorità (ranking) nella visualizzazione di un risultato, calcolando attraverso appositi algoritmi il “peso” che ogni parola chiave ha nelle singole pagine web. ella lista dei primi dieci risultati di una ricerca appariranno quindi i siti le cui pagine avranno ottenuto un ranking più elevato dal confronto delle singole parole chiave in esse contenute.