Sitemap.xml e file Robots.txt cosa sono e perchè ti servono

La sitemap.xml e il file robots.txt sono due degli elementi fondamentali che ci aiutano nel posizionamento delle pagine web del tuo sito.

Ultimato il sito, prima di procedere con la messa online, lo aggiungiamo come proprietà a Search Console e creiamo la Sitemap e il file Robots.

Approfondiamo di seguito questo piccolo dettaglio, ma di grande impatto nella realizzazione del sito. Cosa sono la Sitemap e il file Robots? E perchè sono così importanti?

Sitemap.xml

Che cosa è

La sitemap è una mappa del sito e dei suoi contenuti. Contiene la lista di tutti i link del sito (pagine, articoli, categorie, tag, immagini…). E’ un file in formato xml.

A cosa serve

La sitemap aiuta i motori di ricerca ad indicizzare più velocemente il sito. Comunica al motore di ricerca quali sono i contenuti disponibili, in questo modo possono essere aggiunti più rapidamente alla SERP.

Come crearla

La sitemap può essere creata utilizzando un plugin, ad esempio noi utilizziamo Yoast SEO. Questo è utile e molto pratico perchè il plugin si occupa di aggiornare la sitemap, ogni volta che vengono creati nuovi contenuti sul sito, inserendo la data dell’ultimo aggiornamento.

Quando i contenuti del sito sono tanti vengono suddivisi in varie sitemap raccolte poi sotto un’indice chiamato sitemap_index.xml. Questo indice è quello che comunichiamo a Google Search Console.

Inoltre il percorso della sitemap deve essere aggiunto al file Robots in questo modo:

Sitemap: https://www.example.it/sitemap_index.xml

Comunichiamo, così, ai crawler dei motori di ricerca il percorso della sitemap in modo che possano trovarla e indicizzarla.

Robots.txt

Che cosa è e a cosa serve

Il Robots.txt è un file di testo che contiene le regole che ci servono per comunicare ai crawler come scansionare il sito; ovvero quali contenuti possono essere scansionati e quali no.

Un file robots.txt è formato da una o più regole. Ogni regola blocca o consente l’accesso di un determinato crawler a un contenuto.

Viene usato principalmente per evitare di sovraccaricare di richieste il sito e far così risparmiare il crawl budget. Questo però, non permette di escludere una pagina web dalla SERP di Google. Per non indicizzare una pagina, ad esempio, utilizziamo l’istruzione “noindex”, disponibile tramite Yoast Seo, o mettiamo il contenuto come privato.

Come crearlo

Il file Robots.txt è unico e deve essere creato nella directory principale del sito (es. www.example.com/robots.txt). Può anche essere creato e modificato utilizzando il plugin Yoast Seo.

Il file utilizza un protocollo molto semplice che permette di definire il robot al quale applicare la regola e le pagine e directory da non indicizzare.

Aprendolo si nota che, i campi disponibili sono:

  • User-Agent: questo campo contiene il nome del robot che si deve attenere alle restrizioni. Con il carattere * la regola viene applicata a tutti i robot.
  • Disallow: il valore di questo campo contiene le pagine del sito che non devono essere scansionate dai robot durante l’indicizzazione. Si può indicare un URL specifico o una serie di URL.

Per ogni User-Agent è possibile specificare una o più restrizioni tramite Disallow.

Inoltre come specificato sopra deve essere aggiunta la riga di codice che ci permette di scrivere il percorso per arrivare alla Sitemap.

Ecco i due file che permettono di ottimizzare il processo di indicizzazione del tuo sito.

Il tuo sito ce li ha?

Hai bisogno di aiuto per creare la Sitemap e il file Robots?

Foto di Myriam Jessier da Unsplash