Nel web si trovano informazioni su tutto. Quando qualcosa serve veramente, però, o non si ottiene nulla o si viene sommersi dai risultati. Per offrire tutti gli strumenti necessari a districarsi in questo mare di dati, i motori di ricerca sono in continua evoluzione: ecco come sono cambiati.
La ricerca è ancora uno dei motori principali di Internet. E non si tratta solo di un gioco di parole. A mano a mano che la grande Rete cresce, accogliendo pagine web professionali e amatoriali, risulta sempre più difficile riuscire a districarsi nel caos generato da milioni di siti realizzati in tutto il mondo. Eppure, per lavoro, divertimento, curiosità o studio, Internet è senz’altro la risorsa più utile, soprattutto da un punto di vista quantitativo, per chi ha bisogno di reperireinformazioni.
La vera difficoltà è trovare i siti giusti nell’oceano sterminato della Rete, quelle pagine web che trattano effettivamente l’argomento che interessa. Ormai non basta più andare per logica o per intuizione, perché la caccia indiscriminata alla registrazione dei domini Internet ha prodotto effetti devastanti nell’ordine del world wide web, e solo il sistema di indicizzazione dei motori di ricerca può fornire gli strumenti adatti a orientarsi e a scovare quello che serve.
- Ma che cos’è, esattamente, un motore di ricerca?
- Come funziona?
- Come riesce a setacciare una Rete in costante, inarrestabile espansione, e a rispondere alle domande sottoposte dagli utenti?
Prendiamo per esempio GOOGLE, risponde lanciando i nuovi algoritmi per privileggiando i grandi e mediocri siti.
GOOGLE PANDA
Innanzitutto bisogna distinguere tra motori di ricerca (detti anche software di information retrieval) a testo completo e cataloghi (o directory) web, entrambi in grado di suddividere per argomento i miliardi di byte messi a disposizione da Internet, e di operare una cernita delle informazioni che interessano.
Per quanto riguarda i motori che eseguono ricerche basandole su un testo completo, essi sono composti essenzialmente da tre parti: la prima è il cosiddetto raccoglitore di informazioni, detto anche robot, spider o crawler. Si tratta di programmi che attraversano in lungo e in largo la Rete passando di link in link, raccogliendo automaticamente il contenuto delle pagine web, suddividendo il tutto in parole e immettendo il loro bottino in una enorme banca dati. Questi spider inviano costantemente e in automatico ingenti quantità di informazioni all’amministrazione, o indice, del motore di ricerca.
La seconda parte del processo di lavoro riguarda l’intervento del software di indicizzazione, che organizza all’interno del database tutte le informazioni raccolte dallo spider. L’operazione è indispensabile perché possa avvenire una ricerca in base a una domanda inserita dall’utente. Quando accade questo, un altro software elabora le richieste che pervengono, inserisce gli operatori logici necessari e invia la richiesta al server di dati, alla ricerca di risultati da presentare come risposta alla query. A questo punto entra in gioco la terza, fondamentale parte della struttura dei motori di ricerca a testo completo: il ranking, ovvero il criterio di posizionamento dei dati inseriti nel database all’interno delle pagine dei risultati di una query. Ogni programma di information retrieval, infatti, prevede una propria sequenza per la presentazione dei risultati, in modo da visualizzare le pagine più importanti ai primi posti (è accertato statisticamente che la maggior parte degli utenti che effettua una ricerca non va mai oltre la terza pagina, e che comunque riserva un buon 90% di attenzione solo alla prima).
In questo caso non è facile distinguere delle categorie precise, perché ogni motore di ricerca adotta propri criteri di valutazione per il ranking dei risultati. Nella maggior parte dei casi conta quante volte il termine cercato appare in un documento: più sono le volte, più importanza viene attribuita a questa pagina. Google, invece, (www.google.it) si basa su un altro sistema: conta tutti i link che, da altre pagine, rimandano a una determinata pagina web. In questo modo l’importanza viene stabilita come attraverso una votazione: più webmaster ritengono che un’altra pagina meriti di essere letta nel contesto di un determinato argomento, più punti questa pagina riceverà nel criterio di ranking di Google.
Ecco uno dei motivi del grande successo che questo motore di ricerca sta riscuotendo: spesso i risultati di una query su Google sono qualitativamente superiori a quelli della concorrenza, soprattutto con ultimo algoritmo di aggiornamento di Google Panda. Infine, esiste un altro metodo per determinare il posizionamento nei risultati di una ricerca, quello a pagamento (detto anche pay per click): in questo caso i motori di ricerca (per esempio l’italiano Godado, all’URL godado.it si fanno pagare dai gestori dei siti per ottenere una valutazione e quindi l’inserimento ai piani alti della classifica. Tra i principali motori di ricerca che utilizzano spider e robot ci sono Altavista, Hot Bot, Open Text Index, Infoseek ed Excite, anche se gli ultimi quattro in realtà utilizzano sofisticati meccanismi per la valutazione della congruenza di un argomento che rendono abbastanza particolari i risultati di un ranking.
Panda lancia il suo aggiornamento ogni 5-7 settimane dopo l’aggiornamento dei risultati in Google che assumono i siti copiate e siti con contenuti originali in giudizio dei motori di ricerca.