Come Funziona La Ricerca Sul Web

Come avviene la ricerca sul web?

Ormai ognuno di noi sa cosa sia Internet. Nel mondo di oggi l’internet consente di mettersi in contatto con qualsiasi persona, pagina,gruppo o anche sito. 
La parola internet sta per Interactive net cioè rete interattiva che funziona per mezzo della rete telefonica. Per usarlo è necessario dotarsi di : un computer ,un telefono nelle vicinanze,un'abbonamento ad un provider ed un browser web.
Internet fa si che differenti reti siano collegate tra di loro.
Internet è composto da motori di ricerca i quali attraverso vari collegamenti permettono di trovare diversi siti che trattano di argomenti interessati a colui che ricerca.
L'insieme di reti permette di accedere ad ogni tipo di dato.
Internet permette di:
- informarsi su diversi argomenti.
- essere aggiornati sulle diverse news.
- vedere video ed ascoltare musica.
- vedere immagini.
- comprare cose su internet e scaricare file.
- restare in contatto con persone lontane da noi.

Il processo attraverso il quale Google stabilisce l’ordine dei risultati è molto complesso.
Uno dei primi passi che compie è “scaricare” i documenti presenti sul web, quest’azione è nota anche con il termine di “crawling”.
Essa è svolta da Googlebot, un crawler (o spider) che analizza i contenuti di una rete per ottenere specifiche pagine indicate dallo scheduler. Quest’ultimo, quindi, ha il compito di gestire il compito di un crawler indicandogli quali documenti deve scaricare.
Successivamente ogni documento viene identificato con un ID univoco (identity document), visualizzabile da Google cache.
Prima di proseguire la nostra ricerca è fondamentale comprendere cos’è Google Cache:
Esso è un enorme raccoglitore all’interno del quale sono contenuti milioni di pagine web, pronte per essere utilizzate dagli utenti alla ricerca di informazioni non più online. Ciò determina il termine “cache”, che significa appunto “nascondiglio”, cioè un archivio che contiene documento di ogni tipo.
Il secondo passo che compie un motore di ricerca, per esempio Google, è creare un indice, per compiere ciò esso inserisce i dati di crawling (i dati scaricati) in un indice invertito, nel quale viene memorizzato l’elenco dei termini contenuti nei documenti scaricati e per ogni termine viene creata una lista di altri documenti in cui un determinato termine appare.
Successivamente i documenti scaricati vengono inseriti in un database (archivio) costituito da un Dizionario e i dati di posting: ad ogni parola vengono associati gli ID dei documenti scaricati che la contengono, e l’elenco degli ID è chiamato posting.
Dopodiché ha inizio l’indicizzazione, cioè l’inserimento di un sito web nel database di Google, o altri motori di ricerca.

Questa fase consiste nel:
1. Creare un elenco di coppie in cui vi siano il termine e il proprio documento ID;
2. Ordinamento dell’elenco per termine;
3. I termini che appaiono più volte in un documento diventano un unico elemento, al quale viene aggiunta la frequenza del termine;
4. Il risultato ottenuto viene memorizzato nel Dizionario e nel Posting.
Successivamente Google ordina i risultati e valuta la loro rilevanza: Google ha bisogno del set di pagine richieste dall’utente.
Per far ciò vengono utilizzati centinaia di computer nei quali l’indice è suddiviso in piccole sezioni in modo tale che il lavoro da svolgere sia efficace e veloce.
Per l’ordinamento dei risultati Google usufruisce dell’algoritmo del PageRank, un fattore di posizionamento.
Esso valuta quanti link puntano ad una pagina specifica e la rilevanza di essa.
Con quale criterio Google ordina due pagine aventi la stessa quantità di informazioni?
Google mostrerà la pagina più linkata da altri siti di buona reputazione. In altri casi invece una pagina con pochi link può essere scelta come migliore se risulta più rilevante e specifica. Tutta sta nelle informazioni che fornisce una pagina specifica.
Successivamente Google assegna un punteggio alle diverse pagine che contengono le informazioni richieste dall’utente e le ordina in modo decrescente, partendo quindi da quelle con punteggio più alto.

Salvo diversa indicazione, il contenuto di questa pagina è sotto licenza Creative Commons Attribution-ShareAlike 3.0 License