Nuovo check dei file – Googlebot

No Comments »

Di ritorno dalle vacanze ho ripreso una delle mia attività preferite: lo spulciamento dei file di log! :-)
Controllando gli accessi degli utenti e degli spider ai siti che seguo, ho notato una caratteristica che sembra accumunare tutti
i domini per i quali ho utilizzato Google Sitemap:una serie di chiamate sequenziali in modalità “head” del caro vecchio Googlebot.
Per i meno tecnici, il metodo HEAD è una variante del metodo GET,
un client che esegue una richiesta di tipo HEAD riceve in output solo le informazioni riguardanti un file (data ultima modifica, ecc), ma non il suo contenuto.
Cercando nel web informazioni in merito, mi sono imbattuto in una discussione sul forum di webmasterworld, dove un utente si è posto la mia stessa domanda: perchè Googlebot effettua questa tipologia di chiamata?
Tra i pareri, più o meno contrastanti, emersi nella discussione, l’opinione più diffusa sembra essere che Googlebot potrebbe utilizzare il metodo head per controllare la
data di aggiornamento dei file, risparmiando un bel po’ di banda e di risorse:
“Probably checking for last modified or if the file exists without downloading it.”
La risposta sembrerebbe logica, quello che non mi spiego è, se proprio l’intento è quello di risparmiare banda, perchè le chiamate in modalità head si ripetono a distanza di pochi secondi, richiedendo sempre lo stesso file?:

66.249.72.65 – - [05/Sep/2006:09:50:01 +0200] “HEAD / HTTP/1.1″ 200 0 “-” “Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)”
66.249.72.65 – - [05/Sep/2006:09:50:11 +0200] “HEAD / HTTP/1.1″ 200 0 “-” “Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)”
66.249.72.65 – - [05/Sep/2006:09:50:20 +0200] “HEAD / HTTP/1.1″ 200 0 “-” “Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)”
66.249.72.65 – - [05/Sep/2006:09:50:23 +0200] “HEAD / HTTP/1.1″ 200 0 “-” “Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)”
66.249.72.65 – - [05/Sep/2006:09:50:29 +0200] “HEAD / HTTP/1.1″ 200 0 “-” “Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)”
66.249.72.65 – - [05/Sep/2006:09:50:35 +0200] “HEAD / HTTP/1.1″ 200 0 “-” “Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)”

Continuerò ad indagare, nel frattempo se avete opinioni in merito sono ben accette! :-)

Leave a Reply