Perche’ uno spider desidera la lettura del Robots.txt per indicizzare un sito web.


Crawler - motori di ricercaMotori di ricerca che appartengono alla categoria  dei cataloghi, invece, rifiutano l’utilizzo degli spider e la ricerca indiscriminata delle pagine web nella Rete, preferendo indicizzare a mano ogni singolo  sito che viene sottoposto all’attenzione della redazione. In pratica, i cataloghi web vengono preparati dai redattori del motore di ricerca che, dopo avere visionato le pagine Internet, danno un giudizio e le ordinano   in un catalogo analitico, o directory. L’indice comprende pagine fatte registrare dai proprietari dei siti o pagine individuate dai robot (generalmente di  proprietà di altri motori di ricerca). I cataloghi web sono ideali quando si cercano informazioni su un determinato argomento o settore. Lo svantaggio è che può succedere che i criteri di classificazione di  un redattore siano diversi dai vostri e che, quindi, con la vostra query arriviate a siti poco interessanti.  Il più conosciuto tra i motori di ricerca di tipo directory è senz’altro Yahoo! (www.yahoo.it): chi vuole segnalare il proprio sito sceglie la categoria in cui vuole essere inserito, scrive una breve descrizione e la sottopone alla redazione. Questa, se la approva, la  inserisce nel database interno di Yahoo!, integrando i dati raccolti dallo spider che opera parallelamente a questa selezione (spider di proprietà di Google).

Aliweb,  invece, (aliweb.com) cerca di fare a meno della ricerca automatica con i robot, facendo pesare tutto il lavoro di catalogazione sullo staff redazionale. Uno sforzo che non ha contribuito a estendere la  popolarità di Aliweb, e neppure ad accrescere la qualità  del servizio, da quello che si è potuto constatare. I cataloghi web, dunque, sono raccolte di informazioni sui siti, non sulle singole pagine di cui  sono composti, suddivisi in categorie. Questa filosofia strutturale può essere preziosa per chi ha bisogno di cercare risorse relative a uno specifico  argomento, ma abbastanza deficitaria quando si tratta di individuare al primo colpo un sito con le caratteristiche giuste.

INDICIZZARE
Quali sono i meccanismi di indicizzazione delle pagine web e di realizzazione di una query?

seo spider crawlerIl primo passo compiuto da un programma di information retrieval quando viene inserita una parola chiave, è  compiere una ricerca all’interno del proprio archivio (l’URL server), da cui attinge le informazioni necessarie per generare in modalità run time (al volo) delle pagine in HTML dinamico. Il materiale indicizzato  negli URL server proviene dal lavoro instancabile delle redazioni dei motori di ricerca oppure dalla raccolta di informazioni operata dagli  spider. In questo caso è l’URL server che fornisce agli spider l’elenco di indirizzi con protocollo http che devono scandagliare e, quando non sono già state archiviate, indicizzare. Gli indirizzi di riferimento vengono inseriti direttamente dai responsabili dei siti che vogliono rendere visibili le proprie pagine web e quindi le segnalano ai motori di ricerca attraverso specifiche procedure.

Una volta indicizzata una pagina,  il motore di ricerca provvede a effettuare una procedura  di controllo automatico con scadenze più o meno regolari, in modo da mantenere viva e sempre operativa la disponibilità effettiva dei siti. La procedura di ricerca automatica da p arte degli spider non è priva di inconvenienti. Considerato il lavoro instancabile di cui si fanno portatori,  è facile capire che da una parte può diventare eccessiva la mole di informazioni raccolta (spesso ridondante e non aggiornata in tempo reale) e  all’altra  che gli stessi crawler possono diventare una componente di rallentamento e intasamento delle attività della Rete (se diversi spider agiscono contemporaneamente su un URL, impegnando il server su cui si appoggia, il navigatore che  si collega a quel sito si troverà di fronte a un cospicuo rallentamento nel caricamento delle pagine). Per non parlare della tutela della privacy.  Per cercare di attenuare questi problemi, gli spider sono stati programmati in modo da raccogliere informazioni solo dalle pagine web localmente residenti sul loro server di riferimento, di proseguire nella ricerca solo attraverso i link documentati nelle home page dei siti e di utilizzare le preferenze dei navigatori (espresse attraverso il numero di volte con cui si collegano  a determinate pagine) come una sorta di “steccati” con cui delimitare l’indicizzazione.

 Per quanto riguarda la tutela della privacy, tutti gli spider devono attenersi al RES (Robots Exclusion Standard), una procedura che obbliga i crawler a leggere  per prima cosa un file chiamato ROBOTS.TXT, creato dal webmaster del sito, che contiene i percorsi  non accessibili dallo spider all’interno delle pagine. Un sito davvero interessante per approfondire la struttura degli spider (e magari imparare a crearne qualcuno) è webcrawler.com Tutte le pagine web raccolte dagli spider e inserite  negli URL server vengono indicizzate e identificate grazie a un numero di riferimento. L’operazione, in realtà, è un po’ più complessa, in quanto i motori di ricerca sgretolano letteralmente le singole pagine  web memorizzate suddividendo le parole di cui sono composte. Ogni parola, poi, finisce in un apposito archivio alfabetico, da cui potrà successivamente essere recuperata nel momento in cui viene inserita nel motore una keyword analoga per effettuare una ricerca.

Spider dei motori di ricerca arrivano al tuo sito:

  • tramite i link da altri siti
  • rilevanza precedente del tuo sito nella directory web del motore di ricerca
  • a causa della freschezza del tuo sito

I vantaggi di utilizzare un file di testo robots.txt:                                                                                                                                    

  • Evita lo spreco di risorse del server
  • Impedire crawler web l’accesso a pagine che non vogliono essere indicizzati, come pagine di login
  • Evitare che i motori di ricerca dalle pagine di indicizzazione che sono ancora in costruzione

Il recupero della singola parola permetterà di ricostruire “al volo” l’intera pagina HTML a cui si  riferisce, raccogliendo ogni singolo termine dall’archivio che abbia come identificativo  il numero di riferimento del sito da cui era stato estrapolato.  Naturalmente, dato che nella maschera di ricerca di un motore può essere inserita più di una parola chiave, il programma attribuirà un valore ai singoli  termini (superiore per il primo e via via meno importante per i successivi) e quando andrà a ricostruire le pagine web partendo dalle parole indicizzate nei propri archivi farà in modo di stabilire delle  priorità (ranking) nella visualizzazione di un risultato, calcolando attraverso appositi algoritmi il “peso” che ogni parola chiave ha nelle singole pagine web. ella lista dei primi dieci risultati di una ricerca  appariranno quindi i siti le cui pagine avranno ottenuto un ranking più elevato dal confronto delle singole parole chiave in esse contenute.