Robots.txt utile per i motori di ricerca

23 Luglio 20076 Marzo 2014 Felice Balsamo

Ho aggiornato il contenuto della pagina il 6 Marzo 2014

Il file robots.txt, da non dimenticare la s finale e scrivere robot.txt, altrimenti il suo uso diventa nullo, consente di indicare ai motori di ricerca quali pagine NON devono essere indicizzate.

E’ una modalità più precisa del TAG ROBOTS: L’utlizzo del TAG, obbliga al webmaster di indicarlo in ogni pagina web del sito, lavoro molto oneroso. Se si volessero poi apportare delle modifiche, questo richiederebbe la modifica del TAG in una o più pagine web.Il file robots.txt è uno standard (Robots Exclusion Standard) accettato da tutti i motori di ricerca.

Utilizzarlo è molto semplice è sufficiente creare un file con il blocco notes e chiamarlo robots.txt (attenzione alla s finale!!). Il file va inserito nella directory principale del sito.I motori di ricerca automaticamente controllano la sua presenza, quando scansionano un sito. Anche se i motori di ricerca non trovano il file robots.txt, indicizzano comunque tutte le pagine, io consiglio sempre di creare e inserire nel sito web il file robots.txt, anche vuoto che equivale a dire di indicizzare tutto.
Questo fa si che i motori di ricerca leggano la mancanza del file, come pagina errata o mancante, (errore 404), correndo il rischio di indicizzarlo come sito poco curato.

Se si vuole dire a tutti i motori di ricerca di indirizzare tutte le pagine web, si può lasciare vuoto il file, oppure inserire queste due righe:

User-agent: *
Disallow:

User-agent: *
Indica a tutti (tutti si indica con asterisco: *) i motori di ricerca (User-agent sono i motori di ricerca)

Disallow:
Indica quali file non indicizzare Disallow (escludere).
In questo caso dopo i due punti, non c’è nessuna indicazione, quindi vuol dire non escludere nulla.

User-agent: *
Disallow: /

In questo caso, si sta dicendo a tutti i motori di ricerca (*) di non indicizzare nulla, in quanto il simbolo /, indica la directory principale del sito, quindi tutti i file e le sottocartelle.

User-agent: googlebot
Disallow: /foto_mie/
Disallow: /la_mia_pagina.html

In questo esempio invece si sta indicando che lo spider googlebot, relativo al motore di ricerca Google, non deve indicizzare i file presenti nella cartella e sottocartelle presenti in foto_mie e non deve essere indicizzato il file la_mia_pagina.html. E’ possibile però anche inserire più riferimenti di esclusione differenziati per più motori di ricerca, per esempio se nel file robots.txt, inseriamo queste righe:

User-agent: mercator
Disallow: /

User-agent: slurp Inktomi
Disallow: /pagina_mia.html

User-agent: googlebot
Disallow: /pagina_mia.html
Disallow: /cgi-bin/

User-agent: *
Disallow:

Sto indicando istruzioni differenti per i motori di ricerca:

mercator è lo spider di Altavista, sto indicando che SOLO questo motore di ricerca non deve indicizzare il sito, (simbolo /).

slurp Inktomi è lo spider di Yahoo,è sto indicando di non indicizzare solo la pagina pagina_mia.html per il motore di ricerca Yahoo

googlebot è lo spider di Goolge qui indico a questo motore di ricerca di non indicizzare le cartelle e sottocartelle presenti in cgi-bin e il file pagina_mia.html

l’ultimo rigo invece indica a tutti gli altri motori di ricerca di indicizzare ogni pagina.

Note sulla modalità di scrittura del post
Questo articolo è stato scritto da me, senza alcun aiuto dai sistemi di intelligenza artificiale, quali OpenAI, ChatGPT e simili.

Facebook Tweet Share LinkedIn Print Pin

Cookie	Durata	Descrizione
_ga	2 years	The _ga cookie, installed by Google Analytics, calculates visitor, session and campaign data and also keeps track of site usage for the site's analytics report. The cookie stores information anonymously and assigns a randomly generated number to recognize unique visitors.
_ga_E3BHX29CR1	2 years	This cookie is installed by Google Analytics.
_gat_gtag_UA_1325993_9	1 minute	Set by Google to distinguish users.
_gid	1 day	Installed by Google Analytics, _gid cookie stores information on how visitors use a website, while also creating an analytics report of the website's performance. Some of the data that are collected include the number of visitors, their source, and the pages they visit anonymously.

Felice Balsamo

Lascia un commento Annulla risposta