SEO (posizionare i siti web)

Robots.txt utile per i motori di ricerca

Print Friendly, PDF & Email

Il file robots.txt, da non dimenticare la s finale e scrivere robot.txt, altrimenti il suo uso diventa nullo, consente di indicare ai motori di ricerca quali pagine NON devono essere indicizzate.

E’ una modalità  più precisa del TAG ROBOTS: L’utlizzo del TAG, obbliga al webmaster di indicarlo in ogni pagina web del sito, lavoro molto oneroso. Se si volessero poi apportare delle modifiche, questo richiederebbe la modifica del TAG in una o più pagine web.Il file robots.txt è uno standard (Robots Exclusion Standard) accettato da tutti i motori di ricerca.

Utilizzarlo è molto semplice è sufficiente creare un file con il blocco notes e chiamarlo robots.txt (attenzione alla s finale!!). Il file va inserito nella directory principale del sito.I motori di ricerca automaticamente controllano la sua presenza, quando scansionano un sito. Anche se i motori di ricerca non trovano il file robots.txt, indicizzano comunque tutte le pagine, io consiglio sempre di creare e inserire nel sito web il file robots.txt, anche vuoto che equivale a dire di indicizzare tutto.
Questo fa si che i motori di ricerca leggano la mancanza del file, come pagina errata o mancante, (errore 404), correndo il rischio di indicizzarlo come sito poco curato.

Se si vuole dire a tutti i motori di ricerca di indirizzare tutte le pagine web, si può lasciare vuoto il file, oppure inserire queste due righe:

User-agent: *
Disallow:

User-agent: *
Indica a tutti (tutti si indica con asterisco: *) i motori di ricerca (User-agent sono i motori di ricerca)

Disallow:
Indica quali file non indicizzare Disallow (escludere).
In questo caso dopo i due punti, non c’è nessuna indicazione, quindi vuol dire non escludere nulla.

User-agent: *
Disallow: /

In questo caso, si sta dicendo a tutti i motori di ricerca (*) di non indicizzare nulla, in quanto il simbolo /, indica la directory principale del sito, quindi tutti i file e le sottocartelle.

User-agent: googlebot
Disallow: /foto_mie/
Disallow: /la_mia_pagina.html

In questo esempio invece si sta indicando che lo spider googlebot, relativo al motore di ricerca Google, non deve indicizzare i file presenti nella cartella e sottocartelle presenti in foto_mie e non deve essere indicizzato il file la_mia_pagina.html. E’ possibile però anche inserire più riferimenti di esclusione differenziati per più motori di ricerca, per esempio se nel file robots.txt, inseriamo queste righe:

User-agent: mercator
Disallow: /

User-agent: slurp Inktomi
Disallow: /pagina_mia.html

User-agent: googlebot
Disallow: /pagina_mia.html
Disallow: /cgi-bin/

User-agent: *
Disallow:

Sto indicando istruzioni differenti per i motori di ricerca:

mercator è lo spider di Altavista, sto indicando che SOLO questo motore di ricerca non deve indicizzare il sito, (simbolo /).

slurp Inktomi è lo spider di Yahoo,è sto indicando di non indicizzare solo la pagina pagina_mia.html per il motore di ricerca Yahoo

googlebot è lo spider di Goolge qui indico a questo motore di ricerca di non indicizzare le cartelle e sottocartelle presenti in cgi-bin e il file pagina_mia.html

l’ultimo rigo invece indica a tutti gli altri motori di ricerca di indicizzare ogni pagina.

Classe '75, si dedica alla sua passione di sempre, l’informatica. Inizia la sua attività nel 1998 gestendo un internet provider configurando router CISCO e Modem 33,6 Kbit/s. Dal 2001 si dedica alla realizzazione di servizi web,SOAP,WSDL, DTT (Digitale Terrestre), protocollo MHP per servizi interattivi del digitale terrestre. Dal 2006 cura e gestisce CMS ottimizzati per le attività SEO, si occupa di comunicazione web per aziende e campagne politiche. Dal 2008 al 2012 è Consigliere Nazionale di Assoprovider (www.assoprovider.net), carica ricoperta per 2 mandati consecutivi fino al Maggio 2012. Da Luglio 2011 affianca le attività di comunicazione, informatizzazione, razionalizzazione delle risorse economiche e contrasto all'evasione per il Comune di Napoli curando la delega all'informatizzazione.

Post precedente

Continuano le truffe via e-mail per gli aiuti nel Sud-Est Asiatico.

Post successivo

Problema cisvc.exe

Commenti al post

Scrivi qui un tuo commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *