Skip to Content

Spider, bot e Bing

Non sono googleliano (neologismo che sta per fanatico di google), anzi ho buone ragioni per preoccuparmi sull'enorme volume di informazioni personali che riescono a collezionare su di noi. Però è senza dubbio il miglior motore di ricerca oggi a disposizione.

Chi gestisce un sito web vuole visibilità, e google riesce a rispondere in modo efficace a questa esigenza. Analizzando i log degli accessi a questo sito, nel corrente mese di novembre, google mi ha portato oltre 1300 visitatori. Gli altri motori di ricerca?
Virgilio 31, Ask 17, Bing 16, Yahoo 12 e Arianna 1. Praticamente niente.

Eppure questi motori di ricerca hanno un costo per il sito web: continue ed estenuanti visite effettuate talvolta violando le regole impostate in robots.txt (dove, nel mio caso ho specificato limiti sul numero di pagine/minuto e stabilito una fascia oraria -notturna- in cui i crawler possono passare). Visite che comportano un traffico non proprio marginale.

Nel mese corrente Yahoo e MicrosoftBot hanno totalizzato ognuno ca. 25MB con rispettivamente ca 4000 e ca 1200 accessi. Google 35MB e 1600 accessi. Però google mi ha portato due ordini di grandezza di visitatori in più.

Per giunta, oggi leggo di manovre di Sky e Microsoft in direzione di una alleanza anti google, che -sommate ad alcune dichiarazioni di Mediaset sul ruolo di internet- manifestano una certa volontà di ricondurre lo scopo di Internet a finalità commerciali e di marketing. Un futuro dei contenuti a pagamento.

Quello che non hanno capito questi potenti manager, che -e il fenomeno dei blog lo sottolinea- che la gente è pronta a rinunciare al contenuto informativo a pagamento (per giunta fazioso) e preferisce l'informazione, anche amatoriale, però genuina.

Visto che il contenuto del mio sito è, appunto, rilasciato con una licenza (cc by-nc-nd-sa 2.5 it) che ne consente a chiunque di consultare, salvare, stampare e ridistribuire i contenuti, non voglio contribuire al successo di queste corporazioni. Non voglio che Bill Gates possa guadagnare inserendo annunci pubblicitari mostrando tra i risultati le mie pagine. E per farlo ho deciso di impedire che il mio sito appaia tra i risultati dei motori di ricerca Microsoft.

Per farlo basta inserire 3 righe nel file di configurazione di apache (o dentro un file .htaccess):

RewriteEngine on
RewriteCond %{HTTP_USER_AGENT} ^.*msnbot.*$
RewriteRule /* http://www.google.com [L,R]

Non comparirò più tra i risultati di bing. Almeno nel mio piccolo posso prendermi questa soddisfazione (e risparmiare centinaia di MB annui di traffico inutile).

commenti

E la microsoft ci prova

Nonostante il mio robots.txt non preveda access in queste ore, la microsoft ci prova lo stesso.
Che bello vedere quel 302, però:

65.55.106.185 - - [24/Nov/2009:10:17:43 +0100] "GET /robots.txt HTTP/1.1" 302 313 "-" "msnbot/2.0b (+http://search.msn.com/msnbot.htm)"
65.55.207.51 - - [24/Nov/2009:10:22:55 +0100] "GET /?q=node/34 HTTP/1.0" 302 323 "-" "msnbot/2.0b (+http://search.msn.com/msnbot.htm)"
65.55.106.132 - - [24/Nov/2009:10:26:25 +0100] "GET / HTTP/1.1" 302 313 "-" "msnbot/2.0b (+http://search.msn.com/msnbot.htm)"
65.55.106.185 - - [24/Nov/2009:11:20:15 +0100] "GET /?q=node/103 HTTP/1.0" 302 324 "-" "msnbot/2.0b (+http://search.msn.com/msnbot.htm)"