Il Robocop del web: robots.txt

Uno dei tanti tasselli da sistemare per creare un buon sito internet è il file robots.txt , elemento fondamentale per il corretto funzionamento del sito web e per la sua ottimizzazione.

Partiamo con una bella definizione: per file robot.txt si intende un semplice file di testo contenuto nella directory principale del sito con la funzione di indicare allo Spider di Google e ai crawler degli altri motori di ricerca quali pagine e quali file debbano essere analizzati ed indicizzati o meno.

Due basi:

Se vuoi imparare a creare un file robots per il tuo sito web devi sapere che ci sono delle regole di scrittura precise da seguire. Ovviamente dalla corretta scrittura del file dipende il funzionamento dello stesso e quindi dell’indicizzazione. Facciamo un esempio:

User-Agent: *

Disallow

Questo è un esempio di come costruire un file robots.txt . User Agent corrisponde allo spider a cui vogliamo dare le indicazioni, in questo caso abbiamo usato il simbolo “*” (asterisco) per indicare un qualsiasi spider e quindi significa che il comando è rivolto a tutti i diversi spider. “Disallow” viene dall’inglese e significa letteralmente “non permettere”, quindi in questo caso è un comando che non permette l’accesso ad una determinata risorsa del sito da parte dello spider. Il comando si può ripetere per ogni risorsa che si vuole oscurare agli spider.

User-agent: *

Disallow: /cartella_con_affari_miei/

Disallow: /cartella_pubblica/file_mio_personale.html

User-agent: SpiderAntipatico

Disallow: /

Cosa indica questa volta il file? La prima parte indica agli spider di indicizzare tutto il sito tranne la cartella con gli “affari miei” che possono essere file privati di cui necessito per il sito o documenti riservati ad un’area privata del sito. In più, oltre a quella cartella, il robots indica di non indicizzare anche un ulteriore file “mio personale” che non voglio che sia pubblico. Ma la parte più interessante è l’ultima, poiché motivo di molti errori nella creazione del file.

Nella parte finale il comando scritto indica al preciso spider chiamato “SpiderAntipatico” di non indicizzare nulla del sito grazie all’uso del simbolo “/“ (slash).

!Attenzione! In caso avessimo impostato come nome dello spider l’asterisco come nella parte precedente del file robots, avremmo indicato a TUTTI gli spider di non indicizzare il nostro sito, rendendo inutile il nostro lavoro!

File robots.txt e meta tag robots

E’ importante fare una distinzione, a questo punto, tra il file robots.txt e i meta tag robots. I meta tag robots sono uno strumento che fa parte del codice html delle pagine web e danno indicazioni sulla singola pagina web in cui vengono scritti, anziché sull’intero sito. L’altra sostanziale differenza è che con i meta tag robots non si possono fare distinzioni tra i diversi spider, quindi i comandi scritti valgono per tutti.

Una precisazione

Dal 1 settembre 2019 sono cambiate le regole di Google. Alcune regole non funzioneranno più: “noindex“, “nofollow” e “crawl-delay“. Inserirle all’interno del file robots ora è rischioso. E’ meglio imparare ad utilizzare altri comandi se si vuole ottenere il giusto risultato, ad esempio funzionano:

  • Noindex nei meta tag robots direttamente nel codice HTML della pagina.
  • Disallow nel file robots.txt
  • Protezione delle pagine con password.
  • Codici di stato HTTP 404 e 410

Ricapitolando…

Il file robots ci permette di ottimizzare il lavoro degli spider, perché dà la possibilità di decidere quali pagine verranno sottoposte all’indicizzazione e quindi ci renderà capaci di escludere le pagine simili o non importanti del sito. E’ uno strumento importante per gli sviluppatori dato che consente di dare accesso alle pagine con obiettivi di business piuttosto che a pagine di secondaria o terziaria importanza.

Grazie per aver letto questo articolo! Se nonostante queste spiegazioni hai bisogno di un supporto noi di Perochè siamo disponibili per qualche ora di assistenza, la costruzione del tuo sito o per vari altri servizi, non esitare a contattarci!