SEO (posizionare i siti web)

Robots.txt utile per i motori di ricerca

Ho aggiornato il contenuto della pagina il 6 Marzo 2014

Il file robots.txt, da non dimenticare la s finale e scrivere robot.txt, altrimenti il suo uso diventa nullo, consente di indicare ai motori di ricerca quali pagine NON devono essere indicizzate.

E’ una modalità  più precisa del TAG ROBOTS: L’utlizzo del TAG, obbliga al webmaster di indicarlo in ogni pagina web del sito, lavoro molto oneroso. Se si volessero poi apportare delle modifiche, questo richiederebbe la modifica del TAG in una o più pagine web.Il file robots.txt è uno standard (Robots Exclusion Standard) accettato da tutti i motori di ricerca.

Utilizzarlo è molto semplice è sufficiente creare un file con il blocco notes e chiamarlo robots.txt (attenzione alla s finale!!). Il file va inserito nella directory principale del sito.I motori di ricerca automaticamente controllano la sua presenza, quando scansionano un sito. Anche se i motori di ricerca non trovano il file robots.txt, indicizzano comunque tutte le pagine, io consiglio sempre di creare e inserire nel sito web il file robots.txt, anche vuoto che equivale a dire di indicizzare tutto.
Questo fa si che i motori di ricerca leggano la mancanza del file, come pagina errata o mancante, (errore 404), correndo il rischio di indicizzarlo come sito poco curato.

Se si vuole dire a tutti i motori di ricerca di indirizzare tutte le pagine web, si può lasciare vuoto il file, oppure inserire queste due righe:

User-agent: *
Disallow:

User-agent: *
Indica a tutti (tutti si indica con asterisco: *) i motori di ricerca (User-agent sono i motori di ricerca)

Disallow:
Indica quali file non indicizzare Disallow (escludere).
In questo caso dopo i due punti, non c’è nessuna indicazione, quindi vuol dire non escludere nulla.

User-agent: *
Disallow: /

In questo caso, si sta dicendo a tutti i motori di ricerca (*) di non indicizzare nulla, in quanto il simbolo /, indica la directory principale del sito, quindi tutti i file e le sottocartelle.

User-agent: googlebot
Disallow: /foto_mie/
Disallow: /la_mia_pagina.html

In questo esempio invece si sta indicando che lo spider googlebot, relativo al motore di ricerca Google, non deve indicizzare i file presenti nella cartella e sottocartelle presenti in foto_mie e non deve essere indicizzato il file la_mia_pagina.html. E’ possibile però anche inserire più riferimenti di esclusione differenziati per più motori di ricerca, per esempio se nel file robots.txt, inseriamo queste righe:

User-agent: mercator
Disallow: /

User-agent: slurp Inktomi
Disallow: /pagina_mia.html

User-agent: googlebot
Disallow: /pagina_mia.html
Disallow: /cgi-bin/

User-agent: *
Disallow:

Sto indicando istruzioni differenti per i motori di ricerca:

mercator è lo spider di Altavista, sto indicando che SOLO questo motore di ricerca non deve indicizzare il sito, (simbolo /).

slurp Inktomi è lo spider di Yahoo,è sto indicando di non indicizzare solo la pagina pagina_mia.html per il motore di ricerca Yahoo

googlebot è lo spider di Goolge qui indico a questo motore di ricerca di non indicizzare le cartelle e sottocartelle presenti in cgi-bin e il file pagina_mia.html

l’ultimo rigo invece indica a tutti gli altri motori di ricerca di indicizzare ogni pagina.

Note sulla modalità di scrittura del post
Questo articolo è stato scritto da me, senza alcun aiuto dai sistemi di intelligenza artificiale, quali OpenAI, ChatGPT e simili.

Felice Balsamo

Classe '75, si dedica alla sua passione di sempre, l’informatica. Inizia la sua attività nel 1998 gestendo un internet provider configurando router CISCO e Modem 33,6 Kbit/s. Dal 2001 si dedica alla realizzazione di servizi web,SOAP,WSDL, DTT (Digitale Terrestre), protocollo MHP per servizi interattivi del digitale terrestre. Dal 2006 cura e gestisce CMS ottimizzati per le attività SEO, si occupa di comunicazione web per aziende e campagne politiche. Dal 2008 al 2012 è Consigliere Nazionale di Assoprovider (www.assoprovider.net), carica ricoperta per 2 mandati consecutivi fino al Maggio 2012. Per 11 anni (fino ad Ottobre 2022) ho collaborato con il Comune di Napoli per le attività di comunicazione, informatizzazione, razionalizzazione delle risorse economiche e contrasto all'evasione per il Comune di Napoli curando la delega all'informatizzazione. Attualmente mi occupo di ottimizzare i processi aziendali e aumentare il numero di visitatori dei siti web, dei social dei miei clienti, continuando da oltre 20 anni la mia attività finalizzata ad ottimizzare il posizionamento dei siti web su Google e sui social, incrementando il numero di visitatori, dei follower e curando campagne di sponsorizzazione sul web. Mi occupo quindi dell'ottimizzazione tecnica, della messa in sicurezza e ovviamente scrivo contenuti dedicati affinché i siti web dei miei clienti siano sempre aggiornati e tecnicamente più meritevoli della concorrenza. Seguimi sul mio profilo Facebook: https://www.facebook.com/balsamofelice

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

Questo sito usa Akismet per ridurre lo spam. Scopri come i tuoi dati vengono elaborati.